中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

成立做網(wǎng)站的公司網(wǎng)絡(luò)推廣一個(gè)月工資多少

成立做網(wǎng)站的公司,網(wǎng)絡(luò)推廣一個(gè)月工資多少,完善學(xué)校網(wǎng)站建設(shè),畢業(yè)設(shè)計(jì)做網(wǎng)站大小有什么要求RSGPT: A Remote Sensing Vision Language Model and Benchmark 貢獻(xiàn):構(gòu)建了一個(gè)高質(zhì)量的遙感圖像描述數(shù)據(jù)集(RSICap)和一個(gè)名為RSIEval的基準(zhǔn)評(píng)估數(shù)據(jù)集,并在新創(chuàng)建的RSICap數(shù)據(jù)集上開(kāi)發(fā)了基于微調(diào)InstructBLIP的遙感生成預(yù)訓(xùn)練…

RSGPT: A Remote Sensing Vision Language Model and Benchmark


貢獻(xiàn):構(gòu)建了一個(gè)高質(zhì)量的遙感圖像描述數(shù)據(jù)集(RSICap)和一個(gè)名為RSIEval的基準(zhǔn)評(píng)估數(shù)據(jù)集,并在新創(chuàng)建的RSICap數(shù)據(jù)集上開(kāi)發(fā)了基于微調(diào)InstructBLIP的遙感生成預(yù)訓(xùn)練模型(RSGPT)。通過(guò)僅微調(diào)Q-Former網(wǎng)絡(luò)和InstructBLIP的線性層,模型可以快速學(xué)習(xí)以數(shù)據(jù)高效的方式將遙感圖像的視覺(jué)特征與LLM對(duì)齊。

引言:

VLM是指集成計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理技術(shù)以實(shí)現(xiàn)對(duì)視覺(jué)和文本數(shù)據(jù)的整體理解的一類(lèi)人工智能模型。通過(guò)同時(shí)分析視覺(jué)和語(yǔ)義模式,VLM 具有辨別視覺(jué)元素和語(yǔ)言信息之間復(fù)雜關(guān)系的能力,并提供更全面、更接近人類(lèi)的視覺(jué)內(nèi)容理解能力。

VLM 在遙感領(lǐng)域發(fā)展的一個(gè)具有挑戰(zhàn)性的問(wèn)題是缺乏大規(guī)模對(duì)齊的圖像文本數(shù)據(jù)集。現(xiàn)有的RSI數(shù)據(jù)集大多專(zhuān)注于視覺(jué)識(shí)別任務(wù),不提供語(yǔ)言注釋。只有少數(shù)嘗試構(gòu)建圖像文本RSI數(shù)據(jù)集,但數(shù)據(jù)規(guī)模和質(zhì)量遠(yuǎn)未達(dá)到預(yù)期。

構(gòu)建了一個(gè)高質(zhì)量的遙感圖像描述數(shù)據(jù)集(RSICap),以促進(jìn)遙感領(lǐng)域大型 VLM 的開(kāi)發(fā)。與之前采用模型生成的說(shuō)明文字或簡(jiǎn)短描述的遙感數(shù)據(jù)集不同,RSICap 包含 2,585 個(gè)人工注釋的說(shuō)明文字,具有豐富且高質(zhì)量的信息。該數(shù)據(jù)集提供每張圖像的詳細(xì)描述,包括場(chǎng)景描述(例如住宅區(qū)、機(jī)場(chǎng)或農(nóng)田)以及物體信息(例如顏色、形狀、數(shù)量、絕對(duì)位置等)。為了方便遙感領(lǐng)域VLM的評(píng)估,我們還提供了一個(gè)名為RSIEval的基準(zhǔn)評(píng)估數(shù)據(jù)集。該數(shù)據(jù)集由人工注釋的標(biāo)題和視覺(jué)問(wèn)答對(duì)組成,允許在遙感背景下對(duì) VLM 進(jìn)行全面評(píng)估。RSIEval由100個(gè)人工注釋的標(biāo)題和936個(gè)視覺(jué)問(wèn)答對(duì)組成,包含豐富的信息和開(kāi)放式的問(wèn)題和答案。我們的目標(biāo)是建立一個(gè)標(biāo)準(zhǔn)基準(zhǔn),涵蓋各種遙感圖像理解任務(wù),包括圖像字幕,視覺(jué)問(wèn)題回答,視覺(jué)接地等。

在新創(chuàng)建的RSICap數(shù)據(jù)集上開(kāi)發(fā)了基于微調(diào)InstructBLIP的遙感生成預(yù)訓(xùn)練模型(RSGPT)。通過(guò)僅微調(diào)Q-Former網(wǎng)絡(luò)和InstructBLIP的線性層,模型可以快速學(xué)習(xí)以數(shù)據(jù)高效的方式將遙感圖像的視覺(jué)特征與LLM對(duì)齊。

數(shù)據(jù)集介紹:

UCM-Captions 和Sydney-Captions:是最早的遙感圖像字幕數(shù)據(jù)集,分別基于UCM數(shù)據(jù)集和Sydney數(shù)據(jù)集構(gòu)建。

UCM-Captions:包含2100個(gè)圖像和10500個(gè)字幕

Sydney-Captions:包含613個(gè)圖像和3065個(gè)字幕

RSICD:包括10921張圖像和54605個(gè)字幕,其中只有24333個(gè)不同的字幕

NWPUCaptions:包含31500張圖片和157500個(gè)字幕。

這些數(shù)據(jù)集中的每幅圖像都用五個(gè)簡(jiǎn)短的字幕進(jìn)行了注釋,但它們之間的差異相對(duì)較小,細(xì)節(jié)程度僅限于對(duì)主要場(chǎng)景的粗略描述。

RS5M:包含500萬(wàn)個(gè)對(duì)齊的圖像文本對(duì),平均標(biāo)題長(zhǎng)度為40個(gè)詞匯。RS5M數(shù)據(jù)集是通過(guò)從公開(kāi)可用的數(shù)據(jù)集(包括LAION400M和CC3 中仔細(xì)過(guò)濾RS相關(guān)圖像,并利用BLIP2模型自動(dòng)生成圖像標(biāo)題來(lái)創(chuàng)建的。

DOTA:來(lái)自不同衛(wèi)星和航空傳感器的圖像,如GF-2,JL-1和Google Earth衛(wèi)星圖像,以及不同分辨率的航空?qǐng)D像。DOTA包括彩色和全色圖像; DOTA數(shù)據(jù)集包含不同的場(chǎng)景。本文使用的DOTA-v1.5覆蓋了16個(gè)對(duì)象類(lèi)別; DOTA提供了類(lèi)別和邊界框標(biāo)簽,方便了感興趣對(duì)象的統(tǒng)計(jì)計(jì)數(shù)。DOTA中圖像的原始尺寸從800×800到4,000 × 4,000不等。

RSICaps:本文提出的數(shù)據(jù)集,是基于DOTA目標(biāo)檢測(cè)數(shù)據(jù)集構(gòu)建RSICap。標(biāo)題細(xì)節(jié)方面超過(guò)了RS5M數(shù)據(jù)集,平均長(zhǎng)度為60個(gè)詞匯。構(gòu)建過(guò)程:將訓(xùn)練集中的圖像分成大小為512×512的塊,然后隨機(jī)選擇總共2,585塊。五位遙感專(zhuān)家對(duì)圖像作了注釋。說(shuō)明注記過(guò)程遵循以下原則:(1)描述圖像屬性,包括衛(wèi)星/航空?qǐng)D像、彩色/全色圖像和高/低分辨率;(2)描述對(duì)象屬性,包括對(duì)象數(shù)量、顏色、形狀、大小和空間位置(包括圖像中的絕對(duì)位置和對(duì)象之間的相對(duì)位置);(3)一般而言,注釋過(guò)程涉及首先描述圖像的整體場(chǎng)景,然后描述特定對(duì)象。根據(jù)這些原則,我們生成了2,585個(gè)高質(zhì)量的RS圖像-文本對(duì)。

RSIEval:將DOTA-v1.5驗(yàn)證集中的圖像分成大小為512×512的塊,然后從這些塊中選擇100幅圖像進(jìn)行進(jìn)一步的人工標(biāo)注。5名遙感專(zhuān)家參加了注釋。RSIEval由100個(gè)高質(zhì)量的圖像-標(biāo)題對(duì)(每個(gè)圖像一個(gè)標(biāo)題)和936個(gè)不同的圖像-問(wèn)題-答案三元組(每個(gè)圖像平均9個(gè)問(wèn)題)組成。

方法:

Image Encoder:EVA-G;? LLM:vicuna7b, vicuna13b

線性層:把Q-Former輸出映射到LLM輸入特征空間

訓(xùn)練:將InstructBLIP的預(yù)訓(xùn)練權(quán)重集成到RSGPT中,用RSICap數(shù)據(jù)集微調(diào)RSGPT中的Q-Former和線性層。

實(shí)驗(yàn):

從細(xì)節(jié)描述、位置描述和幻覺(jué)描述三個(gè)維度對(duì)生成的遙感圖像字幕質(zhì)量進(jìn)行四級(jí)評(píng)分。

RSICap數(shù)據(jù)集的分辨率多樣性,場(chǎng)景多樣性和合理推測(cè)的可視化。(a)RSICap涵蓋不同分辨率的航空?qǐng)D像、全色衛(wèi)星圖像和彩色衛(wèi)星圖像。(b)RSICap覆蓋機(jī)場(chǎng)、港口、網(wǎng)球場(chǎng)、居民區(qū)等多種場(chǎng)景。(c)注釋器可以在標(biāo)題生成期間添加合理推測(cè)的描述。

BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval圖像字幕測(cè)試集上的定性比較。詳細(xì)描述、位置描述和幻覺(jué)描述的分?jǐn)?shù)在括號(hào)中用粗體字表示。預(yù)測(cè)字幕中的幻覺(jué)描述以藍(lán)色突出顯示。

BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval RSVQA測(cè)試集上的定性比較。問(wèn)題類(lèi)型在括號(hào)內(nèi)以粗體顯示。評(píng)分結(jié)果用對(duì)勾和叉號(hào)表示。

http://www.risenshineclean.com/news/11657.html

相關(guān)文章:

  • 網(wǎng)站開(kāi)發(fā)推廣招聘官網(wǎng)seo優(yōu)化找哪家做
  • 公司網(wǎng)站上首頁(yè)代碼模板互聯(lián)網(wǎng)營(yíng)銷(xiāo)師是干什么的
  • 企業(yè)網(wǎng)站 asp源碼福州seo服務(wù)
  • 網(wǎng)站建設(shè)的具體過(guò)程品牌關(guān)鍵詞排名優(yōu)化怎么做
  • 梧州網(wǎng)站建設(shè)公司企業(yè)營(yíng)銷(xiāo)推廣方案
  • wordpress管理插件旺道seo推廣系統(tǒng)怎么收費(fèi)
  • wordpress dux 5.3關(guān)鍵詞推廣優(yōu)化app
  • seo短視頻網(wǎng)頁(yè)入口引流在線百度seo一本通
  • 記錄開(kāi)發(fā)wordpress杭州百度seo
  • 十個(gè)最好的網(wǎng)站北京建站公司
  • 蘭州網(wǎng)絡(luò)廣告設(shè)計(jì)價(jià)格聊石家莊seo
  • h5做商城網(wǎng)站國(guó)內(nèi)最近的新聞大事
  • 網(wǎng)站備案主體更換百度提交入口地址在哪
  • 網(wǎng)站內(nèi)如何做內(nèi)部鏈接seo項(xiàng)目?jī)?yōu)化案例分析文檔
  • 上海網(wǎng)站建設(shè)公司 1861webgoogle search
  • 秦皇島網(wǎng)站建設(shè)seo百度指數(shù)平臺(tái)
  • 給網(wǎng)站做壓力測(cè)試百度一下你就知道官網(wǎng)網(wǎng)址
  • 怎么在工商局網(wǎng)站做注銷(xiāo)蘇州seo關(guān)鍵詞優(yōu)化推廣
  • 免費(fèi)申請(qǐng)網(wǎng)站官網(wǎng)培訓(xùn)機(jī)構(gòu)退費(fèi)糾紛一般怎么解決
  • 建網(wǎng)站 綁定域名 網(wǎng)址重慶好的seo平臺(tái)
  • 企業(yè)制作企業(yè)網(wǎng)站今天發(fā)生的重大新聞內(nèi)容
  • 上海網(wǎng)站建設(shè)-中國(guó)互聯(lián)免費(fèi)模板
  • .net做的大型網(wǎng)站嗎百度搜索排名
  • 優(yōu)秀政府門(mén)戶(hù)網(wǎng)站b2b平臺(tái)有哪幾個(gè)
  • 手機(jī)自適應(yīng)網(wǎng)站建設(shè)深圳網(wǎng)站做優(yōu)化哪家公司好
  • 成都市網(wǎng)站建設(shè)怎么自己注冊(cè)網(wǎng)站
  • 網(wǎng)站建設(shè)合同圖片網(wǎng)店推廣方案策劃書(shū)
  • 煙臺(tái)h5網(wǎng)站建設(shè)公司游戲代理免費(fèi)加盟
  • 專(zhuān)門(mén)做恐怖電影網(wǎng)站谷歌排名推廣
  • 做網(wǎng)站的顏色搭配網(wǎng)絡(luò)優(yōu)化seo薪酬