png圖片可以做網(wǎng)站圖標(biāo)嗎建設(shè)網(wǎng)站需要多少錢
文章匯總
存在的問(wèn)題
原文:具有圖像特定知識(shí)的圖像條件提示符號(hào)在提升類嵌入分布方面的能力較差。
個(gè)人理解:單純把"a photo of {class}"這種提示模版作為輸入是不利于text encoder學(xué)習(xí)的
動(dòng)機(jī)
在可學(xué)習(xí)的提示和每一類的文本知識(shí)之間建立一種動(dòng)態(tài)關(guān)系,以增強(qiáng)其辨別能力。
解決辦法
之前方法的回顧
CoOp
CoCoOp
KgCoOp(本人覺(jué)得這是這篇文章的baseline)
方法框架圖(對(duì)比KgCoOp)
對(duì)比KgCoOp,其實(shí)你會(huì)發(fā)現(xiàn)就中間的text encoder進(jìn)行了改造。
流程解讀
中間的Text Encoder的改進(jìn)
輸入端
可學(xué)習(xí)文本標(biāo)記 T = [ t 1 , t 2 , . . . , t M ] T=[t_1,t_2,...,t_M] T=[t1?,t2?,...,tM?]和hand-crafted轉(zhuǎn)化而來(lái)的類token C C C
Text Encoder的輸入文本令牌: F 0 = { T , C } F_0=\{T,C\} F0?={T,C}
其中 C = { c i } i N c C=\{c_i\}^{N_c}_i C={ci?}iNc??為第 i i i類的向量化文本令牌, N c N_c Nc?為類的個(gè)數(shù)
特征轉(zhuǎn)換
對(duì)于前 l l l層:
第 i i i層的文本令牌 F i ( i ≤ l ) F_i(i\le l) Fi?(i≤l)定義為:
對(duì)于從第 l l l層開(kāi)始就不同了
將之前放 [ t 1 , t 2 , . . . , t M ] [t_1,t_2,...,t_M] [t1?,t2?,...,tM?]的位置換成了由 T ( ? ) T(\cdot) T(?)生成的 [ T 1 , T 2 , . . . , T M ] [T_1,T_2,...,T_M] [T1?,T2?,...,TM?]
之后還是
對(duì)于效果更好的思考
個(gè)人認(rèn)為,直接隨機(jī)初始化的Learnable Prompt很難跟hand-crafted的prompt建立起很好的聯(lián)系。但是hand-crafted的prompt經(jīng)過(guò)Text Encoder和 T ( ? ) T(\cdot) T(?)之后更容易被Text Encoder接收。
那為什么我們還要在前 l l l層加入隨機(jī)初始化的Learnable Prompt呢?這就有點(diǎn)像maple那樣,前 l l l層像一個(gè)“適應(yīng)期”,使得模型知道要與 [ t 1 , t 2 , . . . , t M ] [t_1,t_2,...,t_M] [t1?,t2?,...,tM?]**的位置建立起聯(lián)系。**得模型“適應(yīng)”好了之后,我們丟到 [ t 1 , t 2 , . . . , t M ] [t_1,t_2,...,t_M] [t1?,t2?,...,tM?]的位置上的Prompt,換成我們特意提取的特征由 T ( ? ) T(\cdot) T(?)生成的 [ T 1 , T 2 , . . . , T M ] [T_1,T_2,...,T_M] [T1?,T2?,...,TM?]。
摘要
提示調(diào)優(yōu)是使預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(VLM)適應(yīng)各種下游任務(wù)的一種有價(jià)值的技術(shù)?;贑oOp的最新進(jìn)展提出了一組可學(xué)習(xí)的域共享或圖像條件文本令牌,以促進(jìn)特定任務(wù)文本分類器的生成。然而,這些文本標(biāo)記對(duì)于不可見(jiàn)的域具有有限的泛化能力,因?yàn)樗鼈儾荒軇?dòng)態(tài)地調(diào)整以適應(yīng)測(cè)試類的分布。為了解決這個(gè)問(wèn)題,我們提出了一種新的基于文本的類感知提示調(diào)優(yōu)(TCP),它顯式地結(jié)合了關(guān)于類的先驗(yàn)知識(shí),以增強(qiáng)它們的可辨別性。TCP的關(guān)鍵概念包括利用文本知識(shí)嵌入(TKE)將類級(jí)別文本知識(shí)的高泛化性映射到類感知的文本令牌。通過(guò)無(wú)縫地將這些類感知提示集成到Text Encoder中,可以生成一個(gè)動(dòng)態(tài)的類感知分類器,以增強(qiáng)對(duì)不可見(jiàn)域的可辨別性。在推理期間,TKE動(dòng)態(tài)地生成與不可見(jiàn)類相關(guān)的類感知提示。綜合評(píng)價(jià)表明,TKE可作為即插即用模塊與現(xiàn)有方法輕松結(jié)合。此外,TCP在需要更少的訓(xùn)練時(shí)間的情況下始終實(shí)現(xiàn)卓越的性能。
1. 介紹
圖1所示。與現(xiàn)有框架的比較。(a)域共享提示調(diào)優(yōu)在訓(xùn)練域和測(cè)試域之間應(yīng)用相同的可學(xué)習(xí)提示。(b)圖像條件提示調(diào)整將圖像嵌入與可學(xué)習(xí)提示相結(jié)合;類感知提示調(diào)優(yōu)通過(guò)類感知提示將類級(jí)別的文本嵌入注入到文本編碼器中。
大規(guī)模圖像-文本對(duì)能夠訓(xùn)練出具有強(qiáng)大泛化能力的視覺(jué)語(yǔ)言模型(VLM),用于各種下游任務(wù)[2,33]。然而,從頭開(kāi)始訓(xùn)練這些模型需要一個(gè)帶有標(biāo)記圖像的龐大數(shù)據(jù)集,這使得很難將它們直接應(yīng)用于具有較少圖像的下游任務(wù)。為了解決這個(gè)問(wèn)題,我們推薦了三種常用的技術(shù):全微調(diào)[30]、提示調(diào)優(yōu)[50]、適配器[12]和LoRA[15]。其中,提示調(diào)優(yōu)是一個(gè)簡(jiǎn)單而有效的框架,它將VLM的基本通用知識(shí)傳遞給下游任務(wù)。
提示調(diào)優(yōu)(Prompt tuning)是一種將可學(xué)習(xí)的文本標(biāo)記與類標(biāo)記結(jié)合起來(lái)生成判別文本分類器的技術(shù),稱為上下文優(yōu)化(Context Optimization, CoOp)[50]。最近,各種基于合作的方法[4,5,17,18,22,31,40,43,50,52]推斷出訓(xùn)練域和測(cè)試域之間的域共享提示令牌(圖1(a))。然而,由于領(lǐng)域共享的提示令牌來(lái)自標(biāo)記的訓(xùn)練圖像,當(dāng)面對(duì)未見(jiàn)過(guò)的測(cè)試類時(shí),它們的性能不是最優(yōu)的。為了增強(qiáng)可學(xué)習(xí)提示符號(hào)的泛化能力,[45,49]提出了融合圖像特征和可學(xué)習(xí)標(biāo)記符號(hào)的圖像條件提示(圖1(b))。值得注意的是,**圖像條件文本標(biāo)記封裝了每個(gè)圖像的特定知識(shí),特別是對(duì)于測(cè)試圖像,從而使其更容易泛化到看不見(jiàn)的測(cè)試圖像。**然而,具有圖像特定知識(shí)的圖像條件提示符號(hào)在提升類嵌入分布方面的能力較差。總而言之,由域共享和圖像條件文本令牌生成的分類器對(duì)未見(jiàn)過(guò)的類表現(xiàn)出次優(yōu)性能,這主要是因?yàn)樗鼈儫o(wú)法顯式地對(duì)類分布建模。因此,必須在可學(xué)習(xí)的提示和每一類的文本知識(shí)之間建立一種動(dòng)態(tài)關(guān)系,以增強(qiáng)其辨別能力。
凍結(jié)的CLIP與手工制作的提示符相結(jié)合,展示了對(duì)新類的強(qiáng)大泛化能力,使其成為每個(gè)類的先驗(yàn)文本知識(shí)的有價(jià)值的來(lái)源。通過(guò)將類級(jí)文本知識(shí)與可學(xué)習(xí)提示相關(guān)聯(lián),可以形成類感知提示,從而提高文本分類器的判別能力。為了實(shí)現(xiàn)這一點(diǎn),我們使用一個(gè)嵌入模塊將類感知的文本知識(shí)投影到類感知的提示令牌中,如圖1?所示。由此產(chǎn)生的類感知提示包含特定于每個(gè)類的先前文本知識(shí),賦予生成的文本分類器更高的判別能力。此外,類感知提示通過(guò)利用來(lái)自兩個(gè)類別的文本知識(shí),促進(jìn)為可見(jiàn)類和不可見(jiàn)類生成分類器。綜上所述,經(jīng)過(guò)訓(xùn)練的嵌入模塊可以根據(jù)每個(gè)類的描述(“類名”)為每個(gè)類生成一個(gè)類感知提示,從而增強(qiáng)了類級(jí)文本嵌入的泛化和判別能力。
圖2。TCP提出的框架。
因此,我們提出了一種基于CoOp框架的基于文本的類感知提示調(diào)優(yōu)(TCP),如圖2所示。除了CoOp中引入的域共享文本令牌之外,TCP還提供了一種新的文本知識(shí)嵌入(TKE),將類級(jí)別的文本知識(shí)映射到類感知的提示令牌。此外,通過(guò)將類感知的提示標(biāo)記插入到Text Encoder的中間層中,生成了一個(gè)類感知的文本分類器。我們使用標(biāo)準(zhǔn)對(duì)比損失和知識(shí)引導(dǎo)一致性[43]來(lái)優(yōu)化TKE和可學(xué)習(xí)提示令牌。在推理過(guò)程中,TCP通過(guò)將域共享的提示令牌和TKE生成的類感知提示令牌提供給凍結(jié)的Text Encoder,從而為不可見(jiàn)的類生成一個(gè)類感知的分類器。
總的來(lái)說(shuō),所提出的TCP明確地引導(dǎo)提示學(xué)習(xí)類感知知識(shí),從而最大限度地提高下游任務(wù)的泛化和區(qū)別性。通過(guò)對(duì)11個(gè)圖像分類數(shù)據(jù)集的基到新泛化、跨數(shù)據(jù)集泛化和小樣本學(xué)習(xí)驗(yàn)證,TCP是一種以更少的訓(xùn)練時(shí)間獲得更高性能的有效方法??傊?#xff0c;提出的基于文本的類感知提示調(diào)優(yōu)(TCP)有以下主要貢獻(xiàn):
1.將文本知識(shí)嵌入(TKE)生成的文本類感知提示注入到文本編碼器中,提出了一種有效的基于文本的類感知提示調(diào)優(yōu)方法。
2.我們證明了將每個(gè)類別的先驗(yàn)知識(shí)顯式地納入可學(xué)習(xí)提示令牌可以增強(qiáng)類別分布的判別性。
3.文本知識(shí)嵌入(TKE)是一種即插即用模塊,可以快速插入現(xiàn)有的提示調(diào)優(yōu)方法,進(jìn)一步提高其性能。
2. 相關(guān)的工作
2.1. 視覺(jué)語(yǔ)言模型
近年來(lái),研究人員已經(jīng)證明,視覺(jué)語(yǔ)言模型(VLM)[2,33]在圖像-文本對(duì)的大規(guī)模訓(xùn)練上,由視覺(jué)和文本模態(tài)組成,具有強(qiáng)大的泛化和判別能力。為了進(jìn)一步提高VLM的描述能力,從以下幾個(gè)方面對(duì)VLM模型進(jìn)行了提升:1)使用更強(qiáng)的文本編碼器或視覺(jué)編碼器[25,41,46];2)深度融合視覺(jué)和文本知識(shí)[23,38];3)使用更多的圖像[16,33,35,36]。為了提高文本描述的多樣性,掩碼語(yǔ)言建模(mask Language Modeling, MLM)[20][26]隨機(jī)擦除用于表示學(xué)習(xí)的文本描述中的單詞。與傳銷不同,提出了基于掩碼自編碼器的方法[13],通過(guò)隨機(jī)掩碼圖像補(bǔ)丁來(lái)提高描述能力。在現(xiàn)有的VLM模型中,CLIP是利用基于4億個(gè)圖像-文本關(guān)聯(lián)對(duì)的對(duì)比損失來(lái)推斷獨(dú)立的視覺(jué)和文本編碼器的具有代表性和直接性的框架。由于CLIP具有良好的泛化性,現(xiàn)有的大多數(shù)基于協(xié)作的方法都是基于CLIP將預(yù)訓(xùn)練好的VLM適應(yīng)下游任務(wù)。與現(xiàn)有方法類似,我們?cè)贑LIP的TextEncoder上執(zhí)行提示調(diào)優(yōu)策略,以獲得用于預(yù)測(cè)的特定任務(wù)的文本嵌入。
2.2. 提示優(yōu)化
為了使預(yù)訓(xùn)練的VLM適應(yīng)下游任務(wù),提示調(diào)優(yōu)[10,22,24,31,33,45]總是使用任務(wù)相關(guān)的文本標(biāo)記來(lái)推斷任務(wù)特定的文本知識(shí)。在CLIP[33]中,使用手工制作的模板“a photo of a [CLASS]”來(lái)嵌入文本嵌入,用于零樣本預(yù)測(cè)。然而,手工制作的提示描述下游任務(wù)的能力很差。文本提示調(diào)優(yōu)通過(guò)推斷一組可學(xué)習(xí)的文本標(biāo)記與類標(biāo)記相結(jié)合來(lái)增強(qiáng)文本嵌入。例如,上下文優(yōu)化(CoOp)[50]取代了手工制作的提示符用可學(xué)習(xí)的軟提示。為了提高CoOp中可學(xué)習(xí)文本提示的泛化性,條件上下文優(yōu)化(Conditional Context Optimization, CoCoOp)[49]和VPT[45]生成了一個(gè)融合了圖像特征和可學(xué)習(xí)文本提示的圖像條件提示。此外,知識(shí)導(dǎo)向上下文優(yōu)化(knowledge - guided Context Optimization, KgCoOp)[43]、ProGrad[51]和提示正則化(Prompt Regularization, ProReg)[52]約束了建議的可學(xué)習(xí)提示包含基本的一般知識(shí)。與上述方法考慮文本提示不同,集成上下文優(yōu)化(Ensembling Context Optimization, ECO)[1]采用提示集成來(lái)組合多個(gè)提示。為了獲得高質(zhì)量的任務(wù)相關(guān)令牌,ProDA[27]考慮提示符的先驗(yàn)分布學(xué)習(xí),而分布感知提示調(diào)優(yōu)(distributed - aware prompt Tuning, DAPT)[5]通過(guò)最大化互分散來(lái)優(yōu)化可學(xué)習(xí)提示符。除了來(lái)自“classname”的文本知識(shí)外,知識(shí)感知提示調(diào)諧(knowledge-aware Prompt Tuning, KAPT)[17]還利用外部知識(shí)生成針對(duì)新類別的判別性知識(shí)感知提示。
PLOT[4]應(yīng)用最佳傳輸來(lái)匹配視覺(jué)和文本模式,以生成判別性和視覺(jué)對(duì)齊的本地文本提示令牌。除了文本提示調(diào)音外,Multi-modal prompt Learning (MaPLe)[18]和PromptSRC[19]還通過(guò)在視覺(jué)和文本編碼器上共同進(jìn)行提示調(diào)音來(lái)進(jìn)行視覺(jué)文本提示調(diào)音。多任務(wù)視覺(jué)語(yǔ)言提示調(diào)優(yōu)(MVLPT)[37]將跨任務(wù)知識(shí)整合到視覺(jué)語(yǔ)言模型的提示調(diào)優(yōu)中。DenseCLIP[34]使用上下文感知提示策略來(lái)生成密集預(yù)測(cè)任務(wù),CLIPAdapter[11]使用適配器來(lái)調(diào)整視覺(jué)或文本嵌入。
現(xiàn)有方法通常推斷兩種類型的提示令牌:域共享和圖像條件。然而,用這些標(biāo)記生成的文本分類器往往在未見(jiàn)過(guò)的類上表現(xiàn)不佳。為了緩解這一限制,我們提出了一種新的基于文本的類感知提示調(diào)優(yōu)(TCP),它使用動(dòng)態(tài)類感知令牌來(lái)增強(qiáng)可學(xué)習(xí)文本提示的泛化和區(qū)分能力。此外,我們引入了文本知識(shí)嵌入,將類級(jí)文本知識(shí)投影到類感知提示中,然后將這些提示插入到文本編碼器中以生成判別類感知分類器。評(píng)價(jià)結(jié)果表明,將類級(jí)先驗(yàn)知識(shí)集成到提示標(biāo)記中,顯著提高了提示調(diào)整過(guò)程的判別能力。
3.方法
由于基于上下文優(yōu)化(CoOp)提出了基于文本的類感知提示調(diào)優(yōu)(TCP),我們首先簡(jiǎn)要回顧了CoOp,然后介紹了所提出的TCP。
3.1. 準(zhǔn)備知識(shí)
現(xiàn)有的基于CoOp的方法是基于強(qiáng)大的對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練(CLIP)提出的。給定圖像及其相應(yīng)的文本描述,CLIP使用視覺(jué)和文本編碼器來(lái)提取視覺(jué)和文本嵌入。然后,計(jì)算視覺(jué)嵌入和文本嵌入之間的壓縮損失以對(duì)齊這兩個(gè)嵌入。為了使CLIP有效地適應(yīng)下游任務(wù),CLIP應(yīng)用手工制作的模板“a photo of a{}”提取一般的類級(jí)文本嵌入,定義為 W c l i p = { w i c l i p } i = 1 N c W^{clip}=\{w_i^{clip}\}^{N_c}_{i=1} Wclip={wiclip?}i=1Nc??,其中 w i c l i p w_i^{clip} wiclip?為第 i i i個(gè)類的文本嵌入, N c N_c Nc?為類的個(gè)數(shù)。給定第 i i i類的“class-name”,Word Embedded e ( ? ) e(\cdot) e(?)首先將手工制作的描述嵌入到一個(gè)矢量化的文本標(biāo)記中: t i c l i p = e t_i^{clip}=e ticlip?=e(“a photo of a {class-name}”)。之后,Text Encoder θ \theta θ將矢量化的文本標(biāo)記 t i c l i p t_i^{clip} ticlip? 映射到類級(jí)嵌入中: w i c l i p = θ ( t i c l i p ) w^{clip}_i=\theta(t^{clip}_i) wiclip?=θ(ticlip?).
為了提高類級(jí)嵌入的判別性,上下文優(yōu)化(CoOp)的提示調(diào)優(yōu)方法將手工制作的文本標(biāo)記替換為一組可學(xué)習(xí)的文本標(biāo)記 T = { t 1 , t 2 , . . . , t M } T=\{t_1,t_2,...,t_M\} T={t1?,t2?,...,tM?},其中 M M M為令牌的長(zhǎng)度。與CLIP類似,將相應(yīng)的類令牌 c i c_i ci?與可學(xué)習(xí)的令牌 T T T連接起來(lái),以生成文本令牌 t i c o o p = { t 1 , t 2 , . . . , t M , c i } t_i^{coop}=\{t_1,t_2,...,t_M,c_i\} ticoop?={t1?,t2?,...,tM?,ci?}。然后,將文本標(biāo)記 t i c o o p t_i^{coop} ticoop? 輸入到Text Encoder θ \theta θ中,即 w i c o o p = θ ( t i c o o p ) w^{coop}_i=\theta(t_i^{coop}) wicoop?=θ(ticoop?),得到文本嵌入 w i c o o p w^{coop}_i wicoop? 。最后,將所有類的文本嵌入定義為 W c o o p = { w i c o o p } i = 1 N c W^{coop}=\{w_i^{coop}\}^{N_c}_{i=1} Wcoop={wicoop?}i=1Nc??。
CoOp通過(guò)最小化圖像嵌入 x x x與其類嵌入 W y c o o p W^{coop}_y Wycoop?之間的對(duì)比損失來(lái)推斷可學(xué)習(xí)的文本標(biāo)記 T T T:
其中, D s D_s Ds?是看到的數(shù)據(jù)集, d ( ? ) d(\cdot) d(?)是余弦距離。 τ \tau τ是CLIP中定義的溫度因子, N N N是訓(xùn)練圖像的個(gè)數(shù)。
由于生成的文本嵌入對(duì)新類具有良好的泛化能力,KgCoOp進(jìn)一步在生成的嵌入 W c o o p W^{coop} Wcoop與通用嵌入 W c l i p W^{clip} Wclip之間增加了一個(gè)高效的一致性 L k g L_{kg} Lkg?。
因此,提示調(diào)優(yōu)的健壯目標(biāo)是:
其中 ω \omega ω設(shè)為8.0,與KgCoOp[43]相同。
3.2. 基于文本的類感知提示調(diào)優(yōu)
圖2。TCP提出的框架。
基于CLIP中預(yù)訓(xùn)練的Text Encoder,文本提示調(diào)優(yōu)旨在推斷一組域共享或圖像條件文本標(biāo)記與一般類標(biāo)記相結(jié)合,以生成特定的類嵌入。然而,由這些文本標(biāo)記生成的文本分類器對(duì)未見(jiàn)過(guò)的類執(zhí)行較差的泛化,因?yàn)樗鼈儾荒軐?duì)測(cè)試類的分布進(jìn)行建模。研究表明,利用冷凍CLIP提取的一般文本知識(shí)可以創(chuàng)建新類的判別先驗(yàn)知識(shí),增強(qiáng)可學(xué)提示的判別性和泛化性。利用已見(jiàn)和未見(jiàn)類的一般文本知識(shí),我們提出了一種基于文本的類感知提示調(diào)優(yōu)(TCP),以使預(yù)訓(xùn)練的CLIP適應(yīng)下游任務(wù)。如圖2所示,TCP使用文本知識(shí)嵌入(TKE)將一般的類級(jí)文本嵌入轉(zhuǎn)移到類感知提示符中,然后將其與可學(xué)習(xí)的文本令牌結(jié)合起來(lái),生成類感知分類器。TKE對(duì)于不可見(jiàn)的類是有利的,因?yàn)樗商囟ㄓ陬惖奶崾?#xff0c;以獲得具有更好判別能力的不可見(jiàn)的類感知文本分類器。此外,明確地結(jié)合可視類感知提示可以增強(qiáng)可視類的辨別能力。
給定具有 N c N_c Nc? 訓(xùn)練類的通用類級(jí)文本嵌入 W c l i p = R N c × D t W^{clip}=R^{N_c\times D_t} Wclip=RNc?×Dt?,提出文本知識(shí)嵌入(textual Knowledge embedding, TKE) T ( ? ) T(\cdot) T(?),將類級(jí)嵌入 W c l i p W^{clip} Wclip投影到類感知提示符 T = τ ( W c l i p ) \Tau=\tau(W^{clip}) T=τ(Wclip)中。如圖2所示,TKE由下項(xiàng)目層和上項(xiàng)目層兩層組成。down-project層使用權(quán)值 W d o w n ∈ R D t × D m i d W_{down}\in R^{D_t\times D_{mid}} Wdown?∈RDt?×Dmid?將文本嵌入投影到維度為 D m i d D_{mid} Dmid? 的低維特征中。接下來(lái),上項(xiàng)目層的權(quán)值 W u p ∈ R m i d × D ′ W_{up}\in R^{{mid}\times D'} Wup?∈Rmid×D′將低維特征映射為維數(shù)為 D ′ D' D′ 的高維特征。注意, D ′ D' D′是由提示符的長(zhǎng)度 M M M 和維數(shù) D D D 決定的: D ′ = M × D D'=M\times D D′=M×D。綜上所述,一般的文本嵌入 W c l i p ∈ R N c × D t W^{clip}\in R^{N_c\times D_t} Wclip∈RNc?×Dt? 可以投影到類感知的文本標(biāo)記 T ∈ R N c × D ′ T\in R^{N_c\times D'} T∈RNc?×D′ 中,再將其重塑成 T ∈ R N c × M × D ′ T\in R^{N_c\times M \times D'} T∈RNc?×M×D′ 的形狀,插入到Text Encoder θ \theta θ 的中間層中。
假設(shè)我們將類感知提示符 T T T插入到Text Encoder θ \theta θ的第1層。下面我們將對(duì)超參數(shù) l l l 進(jìn)行詳細(xì)的分析。與CoOp類似,通過(guò)組合領(lǐng)域共享的可學(xué)習(xí)文本標(biāo)記 T = [ t 1 , t 2 , . . . , t M ] T=[t_1,t_2,...,t_M] T=[t1?,t2?,...,tM?]和所有類的預(yù)訓(xùn)練類token C C C,我們可以得到Text Encoder的輸入文本令牌 F 0 = { T , C } F_0=\{T,C\} F0?={T,C},其中 C = { c i } i N c C=\{c_i\}^{N_c}_i C={ci?}iNc?? 為第 i i i 類的向量化文本令牌。將文本標(biāo)記 F 0 F_0 F0? 輸入到文本編碼器的前1層,以獲得中間層文本嵌入 F l F_l Fl?。形式上,第 i i i 層的文本令牌 F i ( i ≤ l ) F_i(i\le l) Fi?(i≤l) 定義為:
其中 θ i \theta_i θi?是文本編碼器的第 i i i層。
對(duì)于文本標(biāo)記 F l ∈ R N c × N t × D F_l\in R^{N_c\times N_t \times D} Fl?∈RNc?×Nt?×D和類感知提示標(biāo)記 T ∈ R N c × M × D T\in R^{N_c\times M \times D} T∈RNc?×M×D,第一個(gè)維度與類的數(shù)量有關(guān)。因此,與CoOp一樣,可學(xué)習(xí)的提示符號(hào)總是插入到 F l F_l Fl?的第二維中。形式上,將類感知的提示符 T T T 插入到 F l F_l Fl? 中,以生成類感知的增強(qiáng)令牌 F l ′ F'_l Fl′?;
式中, T i T_i Ti?表示 T T T在第二維中的第 i i i個(gè)指標(biāo), F l , j F_{l,j} Fl,j?表示對(duì)應(yīng)的 F l F_l Fl?在第二維中的第 j j j個(gè)指標(biāo),即 T i = T [ : , i , : ] , F l , j = F l [ : , j , : ] T_i=T[:,i,:],F_{l,j}=F_l[:,j,:] Ti?=T[:,i,:],Fl,j?=Fl?[:,j,:]。
之后,將類增強(qiáng)的文本標(biāo)記符 F i ′ F'_i Fi′?填充到其他層中,以生成類感知的文本嵌入。
將最后一層 F L ′ F'_L FL′?的輸出作為類嵌入 W t c p W^{tcp} Wtcp,用于Eq.(3)中具有對(duì)比損失和知識(shí)引導(dǎo)一致性損失的優(yōu)化。
4. 實(shí)驗(yàn)
與CoOp[50]類似,我們從三種任務(wù)類型來(lái)評(píng)估TCP的有效性:1)數(shù)據(jù)集中從基類到新類的泛化;2)用K-shot標(biāo)記圖像進(jìn)行小樣本學(xué)習(xí);3)從imagenet到其他數(shù)據(jù)集的跨數(shù)據(jù)集泛化。更詳細(xì)的結(jié)果將在補(bǔ)充材料中提供。
表1?;鶖?shù)到新泛化設(shè)置與16-shot的比較?!皌p”、“dtp”、“vp”和“dvp”分別表示“文本提示”、“深度文本提示”、“視覺(jué)提示”和“深度視覺(jué)提示”。PromptSRC基于深度視覺(jué)文本提示調(diào)優(yōu)(’ dvp+dtp ‘)?!?* '表示我們重新實(shí)現(xiàn)后獲得的性能。
在Base-to-New泛化設(shè)置中,New類始終具有與基類相似的數(shù)據(jù)分布。為了進(jìn)一步驗(yàn)證所提出TCP的泛化性,在跨數(shù)據(jù)集泛化中,TCP從ImageNet中進(jìn)行訓(xùn)練,并直接在不相關(guān)的數(shù)據(jù)集上進(jìn)行評(píng)估,例如其余10個(gè)數(shù)據(jù)集。提出的TCP與現(xiàn)有方法的比較總結(jié)如表2所示。從表2中我們可以看到,本文提出的TCP在所有文本提示調(diào)優(yōu)方法中獲得了最高的平均性能(66.29% vs . DePT的65.55%[47]),并且與視覺(jué)文本提示調(diào)優(yōu)方法(66.29% vs . DAPT的66.31%[5])獲得了相當(dāng)?shù)男阅?#xff0c;證明了TCP在學(xué)習(xí)泛化知識(shí)方面的有效性。
表2??鐢?shù)據(jù)集評(píng)價(jià)的比較?!皌p”、“dtp”、“vp”和“dvp”分別表示“文本提示”、“深度文本提示”、“視覺(jué)提示”和“深度視覺(jué)提示”。請(qǐng)注意,DAPT和MaPLe基于可視文本提示調(diào)優(yōu)(’ vp+tp ')。
圖7。CoOp和TCP概率的可視化。
5. 結(jié)論
為了提高可學(xué)習(xí)提示的泛化和判別能力,我們引入了一種基于文本的類感知提示調(diào)優(yōu)方法,該方法利用了一般類級(jí)文本知識(shí)的優(yōu)勢(shì)。為了實(shí)現(xiàn)這一點(diǎn),我們提出了一種文本知識(shí)嵌入(TKE),它將類級(jí)別的文本嵌入轉(zhuǎn)換為類感知提示。這與預(yù)先訓(xùn)練的類標(biāo)記相結(jié)合,生成特定于任務(wù)的文本知識(shí)。幾個(gè)基準(zhǔn)測(cè)試和任務(wù)表明,類感知提示對(duì)于提示調(diào)優(yōu)是有效的。
然而,TCP中的類感知提示在很大程度上依賴于通用文本嵌入的識(shí)別能力。另一方面,較弱的文本嵌入將產(chǎn)生較弱的文本分類器。例如,TCP在fgvc - aircraft數(shù)據(jù)集上表現(xiàn)不佳。因此,在未來(lái),我們計(jì)劃探索如何使用較弱的文本知識(shí)來(lái)獲得判別文本分類器。
參考資料
論文下載(2024 CVPR)
https://openaccess.thecvf.com/content/CVPR2024/papers/Yao_TCPTextual-based_Class-aware_Prompt_tuning_for_Visual-Language_Model_CVPR_2024_paper.pdf
代碼地址
https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning