當(dāng)前位置：首頁(yè) > news >正文

成立做網(wǎng)站的公司網(wǎng)絡(luò)推廣一個(gè)月工資多少

news 2025/7/9 21:34:34

成立做網(wǎng)站的公司,網(wǎng)絡(luò)推廣一個(gè)月工資多少,完善學(xué)校網(wǎng)站建設(shè),畢業(yè)設(shè)計(jì)做網(wǎng)站大小有什么要求RSGPT: A Remote Sensing Vision Language Model and Benchmark 貢獻(xiàn)：構(gòu)建了一個(gè)高質(zhì)量的遙感圖像描述數(shù)據(jù)集（RSICap）和一個(gè)名為RSIEval的基準(zhǔn)評(píng)估數(shù)據(jù)集，并在新創(chuàng)建的RSICap數(shù)據(jù)集上開(kāi)發(fā)了基于微調(diào)InstructBLIP的遙感生成預(yù)訓(xùn)練…

RSGPT: A Remote Sensing Vision Language Model and Benchmark

貢獻(xiàn)：構(gòu)建了一個(gè)高質(zhì)量的遙感圖像描述數(shù)據(jù)集（RSICap）和一個(gè)名為RSIEval的基準(zhǔn)評(píng)估數(shù)據(jù)集，并在新創(chuàng)建的RSICap數(shù)據(jù)集上開(kāi)發(fā)了基于微調(diào)InstructBLIP的遙感生成預(yù)訓(xùn)練模型（RSGPT）。通過(guò)僅微調(diào)Q-Former網(wǎng)絡(luò)和InstructBLIP的線性層，模型可以快速學(xué)習(xí)以數(shù)據(jù)高效的方式將遙感圖像的視覺(jué)特征與LLM對(duì)齊。

引言：

VLM是指集成計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理技術(shù)以實(shí)現(xiàn)對(duì)視覺(jué)和文本數(shù)據(jù)的整體理解的一類(lèi)人工智能模型。通過(guò)同時(shí)分析視覺(jué)和語(yǔ)義模式，VLM 具有辨別視覺(jué)元素和語(yǔ)言信息之間復(fù)雜關(guān)系的能力，并提供更全面、更接近人類(lèi)的視覺(jué)內(nèi)容理解能力。

VLM 在遙感領(lǐng)域發(fā)展的一個(gè)具有挑戰(zhàn)性的問(wèn)題是缺乏大規(guī)模對(duì)齊的圖像文本數(shù)據(jù)集。現(xiàn)有的RSI數(shù)據(jù)集大多專(zhuān)注于視覺(jué)識(shí)別任務(wù)，不提供語(yǔ)言注釋。只有少數(shù)嘗試構(gòu)建圖像文本RSI數(shù)據(jù)集，但數(shù)據(jù)規(guī)模和質(zhì)量遠(yuǎn)未達(dá)到預(yù)期。

構(gòu)建了一個(gè)高質(zhì)量的遙感圖像描述數(shù)據(jù)集（RSICap），以促進(jìn)遙感領(lǐng)域大型 VLM 的開(kāi)發(fā)。與之前采用模型生成的說(shuō)明文字或簡(jiǎn)短描述的遙感數(shù)據(jù)集不同，RSICap 包含 2,585 個(gè)人工注釋的說(shuō)明文字，具有豐富且高質(zhì)量的信息。該數(shù)據(jù)集提供每張圖像的詳細(xì)描述，包括場(chǎng)景描述（例如住宅區(qū)、機(jī)場(chǎng)或農(nóng)田）以及物體信息（例如顏色、形狀、數(shù)量、絕對(duì)位置等）。為了方便遙感領(lǐng)域VLM的評(píng)估，我們還提供了一個(gè)名為RSIEval的基準(zhǔn)評(píng)估數(shù)據(jù)集。該數(shù)據(jù)集由人工注釋的標(biāo)題和視覺(jué)問(wèn)答對(duì)組成，允許在遙感背景下對(duì) VLM 進(jìn)行全面評(píng)估。RSIEval由100個(gè)人工注釋的標(biāo)題和936個(gè)視覺(jué)問(wèn)答對(duì)組成，包含豐富的信息和開(kāi)放式的問(wèn)題和答案。我們的目標(biāo)是建立一個(gè)標(biāo)準(zhǔn)基準(zhǔn)，涵蓋各種遙感圖像理解任務(wù)，包括圖像字幕，視覺(jué)問(wèn)題回答，視覺(jué)接地等。

在新創(chuàng)建的RSICap數(shù)據(jù)集上開(kāi)發(fā)了基于微調(diào)InstructBLIP的遙感生成預(yù)訓(xùn)練模型（RSGPT）。通過(guò)僅微調(diào)Q-Former網(wǎng)絡(luò)和InstructBLIP的線性層，模型可以快速學(xué)習(xí)以數(shù)據(jù)高效的方式將遙感圖像的視覺(jué)特征與LLM對(duì)齊。

數(shù)據(jù)集介紹：

UCM-Captions 和Sydney-Captions：是最早的遙感圖像字幕數(shù)據(jù)集，分別基于UCM數(shù)據(jù)集和Sydney數(shù)據(jù)集構(gòu)建。

UCM-Captions：包含2100個(gè)圖像和10500個(gè)字幕

Sydney-Captions：包含613個(gè)圖像和3065個(gè)字幕

RSICD：包括10921張圖像和54605個(gè)字幕，其中只有24333個(gè)不同的字幕

NWPUCaptions：包含31500張圖片和157500個(gè)字幕。

這些數(shù)據(jù)集中的每幅圖像都用五個(gè)簡(jiǎn)短的字幕進(jìn)行了注釋，但它們之間的差異相對(duì)較小，細(xì)節(jié)程度僅限于對(duì)主要場(chǎng)景的粗略描述。

RS5M：包含500萬(wàn)個(gè)對(duì)齊的圖像文本對(duì)，平均標(biāo)題長(zhǎng)度為40個(gè)詞匯。RS5M數(shù)據(jù)集是通過(guò)從公開(kāi)可用的數(shù)據(jù)集（包括LAION400M和CC3 中仔細(xì)過(guò)濾RS相關(guān)圖像，并利用BLIP2模型自動(dòng)生成圖像標(biāo)題來(lái)創(chuàng)建的。

DOTA：來(lái)自不同衛(wèi)星和航空傳感器的圖像，如GF-2，JL-1和Google Earth衛(wèi)星圖像，以及不同分辨率的航空?qǐng)D像。DOTA包括彩色和全色圖像; DOTA數(shù)據(jù)集包含不同的場(chǎng)景。本文使用的DOTA-v1.5覆蓋了16個(gè)對(duì)象類(lèi)別; DOTA提供了類(lèi)別和邊界框標(biāo)簽，方便了感興趣對(duì)象的統(tǒng)計(jì)計(jì)數(shù)。DOTA中圖像的原始尺寸從800×800到4，000 × 4，000不等。

RSICaps：本文提出的數(shù)據(jù)集，是基于DOTA目標(biāo)檢測(cè)數(shù)據(jù)集構(gòu)建RSICap。標(biāo)題細(xì)節(jié)方面超過(guò)了RS5M數(shù)據(jù)集，平均長(zhǎng)度為60個(gè)詞匯。構(gòu)建過(guò)程：將訓(xùn)練集中的圖像分成大小為512×512的塊，然后隨機(jī)選擇總共2，585塊。五位遙感專(zhuān)家對(duì)圖像作了注釋。說(shuō)明注記過(guò)程遵循以下原則：（1）描述圖像屬性，包括衛(wèi)星/航空?qǐng)D像、彩色/全色圖像和高/低分辨率;（2）描述對(duì)象屬性，包括對(duì)象數(shù)量、顏色、形狀、大小和空間位置（包括圖像中的絕對(duì)位置和對(duì)象之間的相對(duì)位置）;（3）一般而言，注釋過(guò)程涉及首先描述圖像的整體場(chǎng)景，然后描述特定對(duì)象。根據(jù)這些原則，我們生成了2,585個(gè)高質(zhì)量的RS圖像-文本對(duì)。

RSIEval：將DOTA-v1.5驗(yàn)證集中的圖像分成大小為512×512的塊，然后從這些塊中選擇100幅圖像進(jìn)行進(jìn)一步的人工標(biāo)注。5名遙感專(zhuān)家參加了注釋。RSIEval由100個(gè)高質(zhì)量的圖像-標(biāo)題對(duì)（每個(gè)圖像一個(gè)標(biāo)題）和936個(gè)不同的圖像-問(wèn)題-答案三元組（每個(gè)圖像平均9個(gè)問(wèn)題）組成。

方法：

Image Encoder：EVA-G；? LLM：vicuna7b, vicuna13b

線性層：把Q-Former輸出映射到LLM輸入特征空間

訓(xùn)練：將InstructBLIP的預(yù)訓(xùn)練權(quán)重集成到RSGPT中，用RSICap數(shù)據(jù)集微調(diào)RSGPT中的Q-Former和線性層。

實(shí)驗(yàn)：

從細(xì)節(jié)描述、位置描述和幻覺(jué)描述三個(gè)維度對(duì)生成的遙感圖像字幕質(zhì)量進(jìn)行四級(jí)評(píng)分。

RSICap數(shù)據(jù)集的分辨率多樣性，場(chǎng)景多樣性和合理推測(cè)的可視化。(a)RSICap涵蓋不同分辨率的航空?qǐng)D像、全色衛(wèi)星圖像和彩色衛(wèi)星圖像。(b)RSICap覆蓋機(jī)場(chǎng)、港口、網(wǎng)球場(chǎng)、居民區(qū)等多種場(chǎng)景。(c)注釋器可以在標(biāo)題生成期間添加合理推測(cè)的描述。

BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval圖像字幕測(cè)試集上的定性比較。詳細(xì)描述、位置描述和幻覺(jué)描述的分?jǐn)?shù)在括號(hào)中用粗體字表示。預(yù)測(cè)字幕中的幻覺(jué)描述以藍(lán)色突出顯示。

BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval RSVQA測(cè)試集上的定性比較。問(wèn)題類(lèi)型在括號(hào)內(nèi)以粗體顯示。評(píng)分結(jié)果用對(duì)勾和叉號(hào)表示。

查看全文

http://www.risenshineclean.com/news/11657.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

成立做網(wǎng)站的公司網(wǎng)絡(luò)推廣一個(gè)月工資多少

相關(guān)文章：