南寧建設(shè)廳網(wǎng)站是什么效果好的關(guān)鍵詞如何優(yōu)化
原文鏈接:https://www.techbeat.net/article-info?id=4614&isPreview=1
作者:林闖
目標(biāo)檢測(cè)任務(wù)在AI工業(yè)界具有非常廣泛的應(yīng)用,但由于數(shù)據(jù)獲取和標(biāo)注的昂貴,檢測(cè)的目標(biāo)一直被限制在預(yù)先設(shè)定好的有限類別上。而在學(xué)術(shù)界,研究者們開(kāi)始探索如何識(shí)別更廣泛的目標(biāo)類別,擴(kuò)大目標(biāo)檢測(cè)在實(shí)際場(chǎng)景中的應(yīng)用范圍。本文介紹一篇?jiǎng)倓偙籌CLR 2023錄用的文章,該文使用少量的目標(biāo)檢測(cè)標(biāo)注數(shù)據(jù)和大量的圖像-文本對(duì)作為訓(xùn)練數(shù)據(jù),基于二分匹配的思想從圖像-文本對(duì)中提取區(qū)域-詞語(yǔ)對(duì),擴(kuò)展了目標(biāo)檢測(cè)的物體類別,實(shí)現(xiàn)開(kāi)放世界中的目標(biāo)檢測(cè)。
論文鏈接:
https://arxiv.org/abs/2211.14843
代碼鏈接:
https://github.com/clin1223/VLDet
一、 背景
什么是開(kāi)放詞匯式目標(biāo)檢測(cè)(open-vocabulary object detection)?
現(xiàn)今,目標(biāo)檢測(cè)任務(wù)在一些學(xué)術(shù)數(shù)據(jù)集上已經(jīng)取得了很好的效果。這些數(shù)據(jù)集通常預(yù)先設(shè)定好一定的目標(biāo)類別,如果需要擴(kuò)大檢測(cè)的目標(biāo)種類,那么需要為新的類別標(biāo)注數(shù)據(jù),再重新訓(xùn)練模型來(lái)達(dá)到目的。然而這樣的做法并不是人工智能的最終答案,因?yàn)槿祟惪梢栽陂_(kāi)放的環(huán)境中感知世界,而不局限于固定的類別。這開(kāi)始讓我們思考視覺(jué)模型可以不可以在開(kāi)放的詞匯下進(jìn)行目標(biāo)檢測(cè),也就是說(shuō)我們希望視覺(jué)模型以零樣本的方式識(shí)別任意之前未知的類別。很自然地,我們想到利用自然語(yǔ)言的監(jiān)督,因?yàn)槲覀兛梢垣@得大量幾乎免費(fèi)的、具有豐富語(yǔ)義的多模態(tài)數(shù)據(jù)。
在這樣的背景下,本文嘗試用少量具有標(biāo)注的目標(biāo)檢測(cè)數(shù)據(jù)和大量無(wú)標(biāo)注的的圖像-文本對(duì)作為訓(xùn)練數(shù)據(jù),得到可擴(kuò)展的目標(biāo)檢測(cè)器,從而達(dá)到對(duì)訓(xùn)練中未知的類別進(jìn)行檢測(cè),提高檢測(cè)器的可擴(kuò)展性和效率。
此時(shí)面臨的挑戰(zhàn)是:訓(xùn)練一個(gè)傳統(tǒng)的檢測(cè)器需要人工標(biāo)注的邊界框和物體類別,同樣的,如果想利用自然語(yǔ)言監(jiān)督圖像中的目標(biāo)那么就需要區(qū)域-詞語(yǔ)的對(duì)應(yīng)關(guān)系。那么該如何從圖像-文本對(duì)中學(xué)習(xí)細(xì)粒度的區(qū)域-詞語(yǔ)對(duì)應(yīng)關(guān)系?
二、核心想法
本文的主要思想是,從圖像-文本對(duì)中提取區(qū)域-詞語(yǔ)對(duì)可以表示為一個(gè)集合匹配問(wèn)題,可以通過(guò)找到區(qū)域和詞語(yǔ)之間具有最小全局匹配成本的二分匹配來(lái)有效地解決這個(gè)問(wèn)題。
具體來(lái)說(shuō),我們將圖像中的區(qū)域特征視為一個(gè)集合,將文本中的詞語(yǔ)編碼視為另一個(gè)集合,并將點(diǎn)積相似度作為區(qū)域-詞語(yǔ)對(duì)齊分?jǐn)?shù)。為了找到最低成本,最優(yōu)二分匹配將強(qiáng)制每個(gè)圖像區(qū)域在圖像-文本對(duì)的全局監(jiān)督下與其對(duì)應(yīng)的詞語(yǔ)對(duì)齊。通過(guò)用最佳區(qū)域-詞語(yǔ)對(duì)齊損失代替目標(biāo)檢測(cè)中的分類損失,我們的方法可以幫助將每個(gè)圖像區(qū)域與相應(yīng)的詞語(yǔ)匹配并完成目標(biāo)檢測(cè)任務(wù)。
針對(duì)以上宗旨,本文提出三大貢獻(xiàn)。
- 本文提出了一種開(kāi)放詞匯式目標(biāo)檢測(cè)方法VLDet,可以直接從圖像-文本對(duì)數(shù)據(jù)中學(xué)習(xí)區(qū)域-詞語(yǔ)對(duì)齊。
- 本文將區(qū)域-詞語(yǔ)對(duì)齊表述為一個(gè)集合匹配問(wèn)題,并使用匈牙利算法有效地解決它。
- 在兩個(gè)基準(zhǔn)數(shù)據(jù)集 OV-COCO 和 OV-LVIS 上進(jìn)行的廣泛實(shí)驗(yàn)證明了VLDet的卓越性能,尤其是在檢測(cè)未知類別方面。
三、方法
Recap on Bipartite Matching
在介紹我們的方法前先來(lái)回顧一下二分圖匹配,假設(shè)有 XXX 個(gè)工人和 YYY 個(gè)工作。 每個(gè)工人都有他/她有能力完成的某些工作。 每個(gè)工作只能接受一個(gè)工人,每個(gè)工人只能被任命為一個(gè)工作。 因?yàn)槊總€(gè)工人都有不同的技能,將工人 xxx 分配執(zhí)行工作 yyy 所需的成本是 dx,yd_{x,y}dx,y? ,目標(biāo)是確定最佳分配方案,使總成本最小化或團(tuán)隊(duì)效率最大化。約束條件是如果有更多的工人,確保每個(gè)工作分配給一個(gè)工人; 否則,確保每個(gè)工人都被分配到一份工作。
Learning Object-Language Alignments from Image-Text Pairs
本文將每個(gè)圖像區(qū)域定義為試圖找到最合適的“工人”的“工作”,并將每個(gè)文本詞語(yǔ)定義為找到最有信心“工作”的“工人”。 在這種情況下,本文的方法從全局角度將區(qū)域和詞語(yǔ)對(duì)齊任務(wù)轉(zhuǎn)換為集合到集合的二分匹配問(wèn)題。圖像區(qū)域 R=[r1,r2,...,rm]R=[r_1,r_2,...,r_m]R=[r1?,r2?,...,rm?] 和文本詞語(yǔ) W=[w1,w2,...,wn]W=[w_1,w_2,...,w_n]W=[w1?,w2?,...,wn?] 之間的成本定義為對(duì)齊分?jǐn)?shù) S=WRTS = WR^TS=WRT , 然后可以通過(guò)匈牙利算法有效地解決二分匹配問(wèn)題。 匹配后,將得到的區(qū)域-詞語(yǔ)對(duì)作為優(yōu)化目標(biāo),對(duì)檢測(cè)模型的分類分枝通過(guò)以交叉熵?fù)p失進(jìn)行優(yōu)化。
目標(biāo)詞匯表: 本文將目標(biāo)詞匯設(shè)置為每個(gè)訓(xùn)練批次中圖像標(biāo)題中的所有名詞。 從整個(gè)訓(xùn)練過(guò)程來(lái)看,本文的詞匯表遠(yuǎn)大于數(shù)據(jù)集的標(biāo)簽空間。本文的實(shí)驗(yàn)表明,這種設(shè)置不僅實(shí)現(xiàn)了理想的開(kāi)放詞匯式檢測(cè),而且還達(dá)到了更好的性能。
Network Architecture
VLDet網(wǎng)絡(luò)包括三個(gè)部分:視覺(jué)目標(biāo)檢測(cè)器,文本編碼器和區(qū)域-詞語(yǔ)之間的對(duì)齊。本文選擇了Faster R-CNN作為目標(biāo)檢測(cè)模型。 目標(biāo)檢測(cè)的第一階段與Faster R-CNN相同,通過(guò)RPN預(yù)測(cè)前景目標(biāo)。為了適應(yīng)開(kāi)放詞匯的設(shè)置,VLDet在兩個(gè)方面修改了檢測(cè)器的第二階段:(1)使用所有類共享的定位分支,定位分支預(yù)測(cè)邊界框而不考慮它們的類別。 (2) 使用文本特征替換可訓(xùn)練分類器權(quán)重,將檢測(cè)器轉(zhuǎn)換為開(kāi)放詞匯式檢測(cè)器。 本文使用固定的預(yù)訓(xùn)練語(yǔ)言模型CLIP作為文本編碼器。
四、實(shí)驗(yàn)
VLDet在OV-COCO和OV-LVIS的未知類上的表現(xiàn)都達(dá)到了SoTA,同時(shí)表明了從全局角度學(xué)習(xí)區(qū)域-詞語(yǔ)對(duì)齊的有效性。
表1. VLDet在OV-COCO基準(zhǔn)數(shù)據(jù)集上的結(jié)果。COCO被分為48個(gè)已知類和17個(gè)未知類,VLDet使用已知類作為檢測(cè)訓(xùn)練數(shù)據(jù)和COCO Caption作為圖像-文本對(duì)訓(xùn)練數(shù)據(jù)。
表2. VLDet在OV-LVIS基準(zhǔn)數(shù)據(jù)集上的結(jié)果。LVIS被分為866個(gè)已知類和337個(gè)未知類,VLDet使用已知類作為檢測(cè)訓(xùn)練數(shù)據(jù)和CC3M作為圖像-文本對(duì)訓(xùn)練數(shù)據(jù)。
One-to-One vs. One-to-Many.
從圖像-文本對(duì)中提取圖像區(qū)域-文本詞語(yǔ)對(duì)的關(guān)鍵是從全局角度優(yōu)化分配問(wèn)題。為了進(jìn)一步研究分配算法的影響,本文考慮了兩種全局算法,Hungarian和 Sinkhorn算法,其中前者進(jìn)行一對(duì)一的區(qū)域-詞語(yǔ)分配,后者提供一個(gè)詞語(yǔ)-多個(gè)區(qū)域的分配。 考慮到圖像中可能存在同一類別的多個(gè)實(shí)例,Sinkhorn算法能夠?yàn)橥粋€(gè)詞匹配多個(gè)區(qū)域,然而同時(shí)它也可能引入更多噪聲。 從下表中可以觀察到一對(duì)一分配的表現(xiàn)均優(yōu)于一對(duì)多分配。其中的原因是一對(duì)一的分配假設(shè)通過(guò)為每個(gè)單詞提供高質(zhì)量的圖像區(qū)域來(lái)大幅減少錯(cuò)誤區(qū)域-詞語(yǔ)對(duì)。
Object Vocabulary Size.
VLDet使用COCO Caption和CC3M中的所有名詞并過(guò)濾掉低頻詞,統(tǒng)計(jì)共名詞詞語(yǔ)4764/6250個(gè)。我們分析了用不同的詞匯量訓(xùn)練我們的模型的效果。我們將目標(biāo)詞匯表替換為 COCO 和 LVIS 數(shù)據(jù)集中的類別名稱,即僅使用文本中的類別名稱而不是所有名詞。從下表中可以看出,更大的詞匯量在 OV-COCO和OV-LVIS的未知類別上分別實(shí)現(xiàn)了 1.8% 和 1.5% 的增益,這表明使用大詞匯量進(jìn)行訓(xùn)練可以實(shí)現(xiàn)更好的泛化。 換句話說(shuō),隨著詞匯量的增加,模型可以學(xué)習(xí)更多的目標(biāo)語(yǔ)言對(duì)齊方式,這有利于提高推理過(guò)程中的未知類性能。
更多的實(shí)現(xiàn)細(xì)節(jié)和消融實(shí)驗(yàn)請(qǐng)查看原文。
五、總結(jié)
本文的主要目標(biāo)是探索開(kāi)放詞匯式的目標(biāo)檢測(cè),希望檢測(cè)模型以零樣本的方式識(shí)別任意之前未知的類別。 本文將區(qū)域-詞語(yǔ)對(duì)齊表述為一個(gè)集合匹配問(wèn)題, 并提出了VLDet,模型可以直接從圖像-文本對(duì)數(shù)據(jù)中學(xué)習(xí)區(qū)域-詞語(yǔ)對(duì)齊。 希望本文能夠推動(dòng) OVOD 的發(fā)展方向,并激發(fā)更多關(guān)于大規(guī)模免費(fèi)圖像-文本對(duì)數(shù)據(jù)的工作,從而實(shí)現(xiàn)更像人類、開(kāi)放詞匯式的計(jì)算機(jī)視覺(jué)技術(shù)。
Illustration by Twin Rizki from IconScout
-The End-
關(guān)于我“門(mén)”
▼
將門(mén)是一家以專注于發(fā)掘、加速及投資技術(shù)驅(qū)動(dòng)型創(chuàng)業(yè)公司的新型創(chuàng)投機(jī)構(gòu),旗下涵蓋將門(mén)創(chuàng)新服務(wù)、將門(mén)-TechBeat技術(shù)社區(qū)以及將門(mén)創(chuàng)投基金。
將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:
bp@thejiangmen.com