二級(jí)已備案域名免費(fèi)使用寧波搜索引擎優(yōu)化seo
文章目錄
- 一、多媒體推薦中的模態(tài)平衡學(xué)習(xí)
- 1.1 研究背景
- 1.2 解決問(wèn)題
- 1.3 實(shí)施方案
- 1.4 文章摘要
- 1.5 文章重點(diǎn)
- 1.6 文章圖示
- 圖 1:不同模型變體在 AmazonClothing 數(shù)據(jù)集上的初步研究
- 圖 2:CKD模型架構(gòu)的說(shuō)明
- 圖 3:在 Amazon-Clothing 數(shù)據(jù)集上訓(xùn)練過(guò)程中的性能曲線
- 二、音視頻語(yǔ)音識(shí)別中丟失導(dǎo)致的模態(tài)偏差對(duì)丟失視頻幀魯棒性的影響
- 2.1 研究背景
- 2.2 解決問(wèn)題
- 2.3 實(shí)施方案
- 2.4 文章摘要
- 2.5 文章貢獻(xiàn)
- 2.6 文章圖示
- 圖 1:不同dropout率下AVSR的CER退化曲線
- 圖 2:ASR和AVSR轉(zhuǎn)錄相似性分析
- 圖 3:ASR和不同AVSR設(shè)置的中間表示相似性矩陣
- 圖 4:模態(tài)偏差假設(shè)(MBH)的說(shuō)明
- 圖 5:所提出的AVSR系統(tǒng)的整體框架
一、多媒體推薦中的模態(tài)平衡學(xué)習(xí)
1.1 研究背景
- 多媒體內(nèi)容在現(xiàn)代網(wǎng)絡(luò)時(shí)代的主導(dǎo)地位,以及推薦系統(tǒng)在處理多媒體內(nèi)容時(shí)面臨的挑戰(zhàn)。隨著互聯(lián)網(wǎng)內(nèi)容以多種形式(如圖像、文本、視頻等)呈現(xiàn),如何有效地整合這些多模態(tài)信息成為推薦系統(tǒng)研究的關(guān)鍵問(wèn)題。然而,多模態(tài)信息的整合常常遇到模態(tài)不平衡問(wèn)題,即不同模態(tài)之間的信息量不平衡,導(dǎo)致在所有模態(tài)上優(yōu)化相同目標(biāo)時(shí),弱模態(tài)的性能優(yōu)化不足。
1.2 解決問(wèn)題
- 多模態(tài)推薦模型中的模態(tài)不平衡問(wèn)題,即在多模態(tài)推薦系統(tǒng)中,由于不同模態(tài)的信息量不平衡,導(dǎo)致某些模態(tài)(如視覺(jué)模態(tài))的性能優(yōu)化不足,從而影響整體推薦效果。
1.3 實(shí)施方案
- 提出了一種名為Counterfactual Knowledge Distillation (CKD) 的方法,通過(guò)模態(tài)特定的知識(shí)蒸餾來(lái)指導(dǎo)多模態(tài)模型從單模態(tài)教師模型中學(xué)習(xí)特定于模態(tài)的知識(shí)。此外,設(shè)計(jì)了一種新穎的通用和特定蒸餾損失,以指導(dǎo)多模態(tài)學(xué)生模型從教師模型中學(xué)習(xí)更廣泛和深入的知識(shí)。通過(guò)使用反事實(shí)推斷技術(shù)估計(jì)每個(gè)模態(tài)對(duì)訓(xùn)練目標(biāo)的因果效應(yīng),可以確定弱模態(tài),量化不平衡程度,并相應(yīng)地重新加權(quán)蒸餾損失。CKD方法可以作為插件模塊,用于晚期融合和早期融合的任何現(xiàn)有多媒體推薦模型。
1.4 文章摘要
論文的摘要指出,多模態(tài)內(nèi)容的推薦系統(tǒng)需要有效地整合來(lái)自不同模態(tài)的信息。然而,不同模態(tài)之間的信息不平衡導(dǎo)致了弱模態(tài)的性能優(yōu)化不足。為了解決這些問(wèn)題,論文提出了CKD方法,該方法通過(guò)模態(tài)特定的知識(shí)蒸餾和反事實(shí)推斷技術(shù),解決了模態(tài)不平衡問(wèn)題,并充分利用了所有模態(tài)。通過(guò)在六個(gè)不同的推薦系統(tǒng)模型上進(jìn)行廣泛的實(shí)驗(yàn),證明了CKD方法可以顯著提高推薦性能。
1.5 文章重點(diǎn)
- 提出了CKD框架,
用于解決多模態(tài)推薦中的模態(tài)不平衡問(wèn)題
。 - 設(shè)計(jì)了模態(tài)特定的知識(shí)蒸餾方法和通用-特定蒸餾損失。
- 使用反事實(shí)推斷技術(shù)來(lái)估計(jì)模態(tài)的因果效應(yīng),并據(jù)此調(diào)整蒸餾損失的權(quán)重。
- 在多個(gè)數(shù)據(jù)集和推薦系統(tǒng)模型上驗(yàn)證了CKD的有效性。
1.6 文章圖示
圖 1:不同模型變體在 AmazonClothing 數(shù)據(jù)集上的初步研究
- 這張圖展示了在 AmazonClothing 數(shù)據(jù)集上,多模態(tài)模型與單模態(tài)模型(僅文本和僅圖像模型)的性能比較。圖中顯示了召回率(Recall@20)隨訓(xùn)練周期(Epoch)的變化。陰影區(qū)域表示每種模態(tài)在多模態(tài)模型中的優(yōu)化不足程度。使用早停法(early stopping)結(jié)束訓(xùn)練,導(dǎo)致不同模型的曲線長(zhǎng)度不同。從圖中可以看出,多模態(tài)模型中的視覺(jué)和文本模態(tài)的性能都不如相應(yīng)的單模態(tài)模型,這表明在多模態(tài)聯(lián)合訓(xùn)練過(guò)程中,不同模態(tài)之間存在相互抑制現(xiàn)象,導(dǎo)致整體性能低于單模態(tài)模型的簡(jiǎn)單相加(1 + 1 < 2)。此外,性能較差的弱模態(tài)(例如示例中的視覺(jué)模態(tài))遭受更嚴(yán)重的優(yōu)化不足問(wèn)題。
在推薦系統(tǒng)中,召回率(Recall)是衡量模型性能的一個(gè)重要指標(biāo),它表示的是推薦系統(tǒng)能夠從所有相關(guān)項(xiàng)中檢索到的項(xiàng)的比例。召回率越高,意味著推薦系統(tǒng)能夠找到更多用戶可能感興趣的項(xiàng)目,從而提供更全面的推薦。
召回率的計(jì)算公式為:
Recall = Number?of?relevant?items?retrieved Number?of?relevant?items \text{Recall} = \frac{\text{Number of relevant items retrieved}}{\text{Number of relevant items}} Recall=Number?of?relevant?itemsNumber?of?relevant?items?retrieved?
召回率關(guān)注的是推薦系統(tǒng)是否能夠捕捉到用戶的所有潛在興趣,而不是推薦列表中的排名或排序。
然而,召回率并不是唯一的性能指標(biāo)。在實(shí)際應(yīng)用中,通常會(huì)結(jié)合其他指標(biāo)來(lái)全面評(píng)估推薦系統(tǒng)的性能,例如:
-
精確率(Precision):推薦系統(tǒng)推薦的項(xiàng)目中,相關(guān)項(xiàng)目所占的比例。精確率越高,表示推薦結(jié)果的質(zhì)量越好,用戶遇到不相關(guān)推薦的概率越低。
-
F1分?jǐn)?shù)(F1 Score):精確率和召回率的調(diào)和平均數(shù),用于在兩者之間取得平衡。
圖 2:CKD模型架構(gòu)的說(shuō)明
這個(gè)圖表由三部分組成,分別展示了 CKD 模型的整體框架、蒸餾損失的說(shuō)明以及學(xué)習(xí)速度估計(jì)的說(shuō)明。
-
(a) 整體框架:展示了通過(guò)模態(tài)特定的知識(shí)蒸餾,CKD 如何指導(dǎo)多模態(tài)模型從單模態(tài)教師模型中學(xué)習(xí)特定于模態(tài)的知識(shí),從而緩解模態(tài)之間的競(jìng)爭(zhēng)。λ 通常表示一個(gè)超參數(shù),用于平衡不同損失函數(shù)之間的權(quán)重。在機(jī)器學(xué)習(xí)模型中,特別是在包含多個(gè)損失函數(shù)或目標(biāo)函數(shù)的情況下,超參數(shù) λ 用于調(diào)整這些函數(shù)在最終優(yōu)化目標(biāo)中的相對(duì)重要性。
-
(b) 蒸餾損失的說(shuō)明:在訓(xùn)練三元組上,使用鉸鏈蒸餾損失鼓勵(lì)學(xué)生模型在訓(xùn)練三元組上的表現(xiàn)優(yōu)于教師模型;在沒(méi)有監(jiān)督的通用三元組上,使用交叉熵蒸餾損失鼓勵(lì)學(xué)生模型模仿教師模型。
-
? 學(xué)習(xí)速度估計(jì)的說(shuō)明:通過(guò)反事實(shí)推斷,可以估計(jì)每個(gè)模態(tài)在黑盒多模態(tài)模型中的學(xué)習(xí)速度,從而估計(jì)模態(tài)之間的不平衡程度。
圖2:(a)CKD模型架構(gòu)示意圖。通過(guò)特定于模態(tài)的知識(shí)蒸餾,CKD可以引導(dǎo)多模態(tài)模型從單模態(tài)教師那里學(xué)習(xí)特定于模態(tài)的知識(shí),從而緩解模態(tài)之間的競(jìng)爭(zhēng)(§3.1)。(b)在訓(xùn)練三元組上,鉸鏈蒸餾損失鼓勵(lì)學(xué)生模型比教師表現(xiàn)得更好(§3.1.3),而在沒(méi)有監(jiān)督的通用三元組上,CE蒸餾損失鼓勵(lì)學(xué)生模型模仿教師(§3.1.4)。?通過(guò)反事實(shí)推理,我們可以估計(jì)黑盒多模態(tài)模型中每個(gè)模態(tài)的學(xué)習(xí)速度(§3.2)。
-
w/supervision (有監(jiān)督):
- 這個(gè)術(shù)語(yǔ)指的是在訓(xùn)練過(guò)程中使用明確標(biāo)注的數(shù)據(jù),即訓(xùn)練集中的三元組 ((u, i, j)),其中 (i) 是用戶 (u) 的正樣本(用戶與項(xiàng)目的實(shí)際互動(dòng)),而 (j) 是負(fù)樣本(用戶未與該項(xiàng)目互動(dòng))。在這種情況下,模型有明確的信號(hào)來(lái)判斷一個(gè)推薦是好是壞,因此可以使用這種監(jiān)督信息來(lái)指導(dǎo)模型的訓(xùn)練。
-
w/o supervision (無(wú)監(jiān)督):
- 相對(duì)的,“w/o supervision” 指的是在訓(xùn)練過(guò)程中不依賴于明確標(biāo)注的數(shù)據(jù)。在多模態(tài)學(xué)習(xí)中,這可能意味著使用一些通用的三元組 ((u, i, j)),其中 (i) 和 (j) 并不固定為正負(fù)樣本,而是隨機(jī)或均勻采樣的。這種情況下,模型沒(méi)有明確的監(jiān)督信號(hào)來(lái)區(qū)分好的推薦和壞的推薦,因此需要使用不同的策略來(lái)學(xué)習(xí)。
-
Lhinge (鉸鏈損失):
- “Lhinge” 指的是鉸鏈損失(Hinge Loss),這是一種常用于分類任務(wù)的損失函數(shù),特別是在支持向量機(jī)(SVM)中。在蒸餾過(guò)程中,鉸鏈損失用于鼓勵(lì)學(xué)生模型在訓(xùn)練三元組上的預(yù)測(cè)性能超越教師模型。具體來(lái)說(shuō),鉸鏈損失會(huì)懲罰那些學(xué)生模型預(yù)測(cè)不如教師模型的情況,從而推動(dòng)學(xué)生模型在模仿教師的同時(shí),努力超越教師模型的性能。
-
Lce (交叉熵?fù)p失):
- “Lce” 指的是交叉熵?fù)p失(Cross-Entropy Loss),這是一種常用于分類任務(wù)的損失函數(shù),特別是在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)。在蒸餾過(guò)程中,交叉熵?fù)p失用于無(wú)監(jiān)督場(chǎng)景,鼓勵(lì)學(xué)生模型模仿教師模型的輸出。即使沒(méi)有明確的正負(fù)樣本標(biāo)簽,交叉熵?fù)p失也可以通過(guò)比較學(xué)生模型和教師模型對(duì)通用三元組的預(yù)測(cè)來(lái)幫助學(xué)生模型學(xué)習(xí)。
- 在CKD框架中,通過(guò)結(jié)合有監(jiān)督和無(wú)監(jiān)督的蒸餾損失,模型可以在保留教師模型知識(shí)的同時(shí),提高對(duì)多模態(tài)數(shù)據(jù)的理解和預(yù)測(cè)性能。這種結(jié)合使用鉸鏈損失和交叉熵?fù)p失的策略,使得模型在訓(xùn)練時(shí)既能夠利用明確的監(jiān)督信號(hào),又能夠從更廣泛的數(shù)據(jù)中學(xué)習(xí),從而提高模型的泛化能力和推薦質(zhì)量。
圖 3:在 Amazon-Clothing 數(shù)據(jù)集上訓(xùn)練過(guò)程中的性能曲線
- 這張圖展示了在 Amazon-Clothing 數(shù)據(jù)集上,使用 CKD 方法和不使用 CKD 方法的多模態(tài)模型以及單模態(tài)模型的性能變化。圖中顯示了召回率(Recall@20)隨訓(xùn)練周期(Epoch)的變化??梢钥闯?#xff0c;使用 CKD 方法的模型在整體多模態(tài)性能和單模態(tài)性能上都優(yōu)于不使用 CKD 方法的模型,這表明 CKD 方法能夠有效提高模型在多模態(tài)學(xué)習(xí)中的性能。
在Amazon-Clothing數(shù)據(jù)集上訓(xùn)練期間的性能曲線。陰影區(qū)域表示我們的方法的改進(jìn)(最好用彩色顯示)。
二、音視頻語(yǔ)音識(shí)別中丟失導(dǎo)致的模態(tài)偏差對(duì)丟失視頻幀魯棒性的影響
AVSR 視聽(tīng)語(yǔ)音識(shí)別
ASR 自動(dòng)語(yǔ)音識(shí)別
2.1 研究背景
研究背景:
- 先進(jìn)的視聽(tīng)語(yǔ)音識(shí)別(AVSR)系統(tǒng)在處理缺失視頻幀的情況下表現(xiàn)出敏感性,性能甚至不如單模態(tài)模型。
- 盡管在視頻模態(tài)上應(yīng)用常見(jiàn)的dropout技術(shù)可以增強(qiáng)對(duì)缺失幀的魯棒性,但在處理完整數(shù)據(jù)輸入時(shí)卻會(huì)導(dǎo)致性能損失。
2.2 解決問(wèn)題
研究解決的問(wèn)題:
- 論文探討了為什么在視頻訓(xùn)練數(shù)據(jù)上應(yīng)用dropout策略雖然增強(qiáng)了對(duì)缺失視頻模態(tài)的魯棒性,但在處理完整數(shù)據(jù)輸入時(shí)卻導(dǎo)致性能下降的矛盾現(xiàn)象。
- 研究了由dropout引起的模態(tài)偏差問(wèn)題,特別是對(duì)音頻模態(tài)的過(guò)度依賴,并提出了解決這一問(wèn)題的方法。
2.3 實(shí)施方案
研究實(shí)施方案:
- 提出了模態(tài)偏差假設(shè)(Modality Bias Hypothesis, MBH),系統(tǒng)地描述了模態(tài)偏差與多模態(tài)系統(tǒng)中缺失模態(tài)的魯棒性之間的關(guān)系。
- 提出了**多模態(tài)分布近似與知識(shí)蒸餾(Multimodal Distribution Approximation with Knowledge Distillation, MDA-KD)**框架,以減少對(duì)音頻模態(tài)的過(guò)度依賴,同時(shí)保持性能和魯棒性。
- 為了處理完全缺失的模態(tài),采用了適配器(adapters)來(lái)動(dòng)態(tài)切換決策策略。
2.4 文章摘要
- 論文首先通過(guò)實(shí)驗(yàn)驗(yàn)證了dropout技術(shù)引入的模態(tài)偏差,發(fā)現(xiàn)這種偏差在隱藏的表示子空間中本質(zhì)上表現(xiàn)為從多模態(tài)到單模態(tài)分布的轉(zhuǎn)變。
- 接著,提出了MBH來(lái)描述多模態(tài)系統(tǒng)中模態(tài)偏差對(duì)決策過(guò)程的影響,以及模態(tài)偏差與模態(tài)缺失魯棒性之間的關(guān)系。
- 為了改善AVSR在視頻數(shù)據(jù)缺失時(shí)的魯棒性,同時(shí)避免在完整輸入時(shí)性能下降,提出了MDA-KD方法。該方法通過(guò)從相對(duì)無(wú)偏差的教師模型中提取隱藏知識(shí),指導(dǎo)魯棒學(xué)生模型的學(xué)習(xí),以防止任務(wù)相關(guān)表示的分布轉(zhuǎn)移到單模態(tài)分布。
- 對(duì)于視頻嚴(yán)重或完全缺失的情況,通過(guò)適配器動(dòng)態(tài)切換決策偏差,以特定模態(tài)的表示為主導(dǎo)。
- 通過(guò)在MISP2021和MISP2022數(shù)據(jù)集上的綜合實(shí)驗(yàn)評(píng)估了所提方法的有效性。
2.5 文章貢獻(xiàn)
論文的主要貢獻(xiàn)包括:
- 揭示了dropout引起的模態(tài)偏差,并發(fā)現(xiàn)它本質(zhì)上是隱藏表示子空間中從多模態(tài)到單模態(tài)分布的轉(zhuǎn)變。
- 提出了MBH來(lái)系統(tǒng)描述多模態(tài)系統(tǒng)中模態(tài)偏差對(duì)決策過(guò)程的影響,以及模態(tài)偏差與模態(tài)缺失魯棒性之間的關(guān)系。
- 提出了MDA-KD框架來(lái)增強(qiáng)對(duì)缺失視頻的魯棒性,并避免在完整輸入時(shí)性能下降。
- 在MISP2021和MISP2022數(shù)據(jù)集上實(shí)現(xiàn)了頂級(jí)的AVSR性能,同時(shí)保持了對(duì)缺失視頻幀的魯棒性。
2.6 文章圖示
圖 1:不同dropout率下AVSR的CER退化曲線
-
橫坐標(biāo)表示的是測(cè)試時(shí)視頻幀的缺失率。這些數(shù)值(0.1、0.3、0.5、0.7)代表了在模型測(cè)試階段,視頻數(shù)據(jù)中被隨機(jī)丟棄或缺失的視頻幀的比例
-
這張圖展示了在不同訓(xùn)練dropout率下,AVSR系統(tǒng)在面對(duì)缺失視頻幀時(shí)的性能(以字符錯(cuò)誤率CER表示)。
Dropout率是指在訓(xùn)練過(guò)程中隨機(jī)“丟棄”(即用特殊的填充值,如零,替換)輸入數(shù)據(jù)(在本文中是視頻幀)的比例。例如:
0.1 表示在訓(xùn)練過(guò)程中有10%的視頻幀數(shù)據(jù)被隨機(jī)丟棄。
0.3 表示有30%的視頻幀數(shù)據(jù)被隨機(jī)丟棄。
0.5 表示有50%的視頻幀數(shù)據(jù)被隨機(jī)丟棄。
0.7 表示有70%的視頻幀數(shù)據(jù)被隨機(jī)丟棄。
- 與沒(méi)有dropout的基線AVSR系統(tǒng)(紅色線)相比,應(yīng)用dropout策略的其他AVSR系統(tǒng)在處理缺失輸入時(shí)表現(xiàn)更好,但在處理完整數(shù)據(jù)輸入時(shí)表現(xiàn)更差。
- 隨著訓(xùn)練dropout率的增加,AVSR的CER曲線逐漸趨向于單模態(tài)ASR的CER曲線(虛線)。
在視頻幀上用不同的丟失率訓(xùn)練的AVSR的CER(以%計(jì))退化曲線。與基線AVSR相比,無(wú)丟失(紅色),其他AVSR系統(tǒng)在缺失輸入時(shí)表現(xiàn)更好,但在完整數(shù)據(jù)輸入時(shí)表現(xiàn)更差。隨著訓(xùn)練脫落率的增加,AVSR的CER曲線逐漸收斂到ASR的CER曲線(虛線)。
圖 2:ASR和AVSR轉(zhuǎn)錄相似性分析
- 這兩組圖展示了隨著訓(xùn)練dropout率的增加,ASR和AVSR識(shí)別轉(zhuǎn)錄的相似性如何變化。
- 相似性通過(guò)相對(duì)CER(%)來(lái)衡量,其中ASR轉(zhuǎn)錄替代了基準(zhǔn)真實(shí)轉(zhuǎn)錄。
- 隨著訓(xùn)練dropout率的增加,可以看到轉(zhuǎn)錄相似性增加,表明AVSR系統(tǒng)在dropout訓(xùn)練下越來(lái)越傾向于ASR的決策模式。
圖 3:ASR和不同AVSR設(shè)置的中間表示相似性矩陣
AVSR 視聽(tīng)語(yǔ)音識(shí)別
ASR 自動(dòng)語(yǔ)音識(shí)別
- 這張圖展示了ASR和不同AVSR配置之間中間層表示的余弦距離相似性矩陣。
- 對(duì)角線上的元素表示相同輸入的中間表示之間的相似性。
- 隨著訓(xùn)練dropout率的增加,對(duì)角線變亮,表明AVSR多模態(tài)分布在潛在決策子空間中越來(lái)越接近ASR的單模態(tài)分布。
這通常表示的是兩種不同系統(tǒng)的樣本索引的對(duì)比。
AVSR sample indices指的是來(lái)自視聽(tīng)語(yǔ)音識(shí)別(Audio-Visual Speech Recognition)系統(tǒng)的樣本索引。這些樣本可能包括了音頻和視頻信息,用于訓(xùn)練或測(cè)試AVSR模型。
ASR sample indices:指的是來(lái)自自動(dòng)語(yǔ)音識(shí)別 Automatic Speech Recognition)系統(tǒng)的樣本索引。這些樣本僅包括音頻信息,沒(méi)有視頻信息。
圖 4:模態(tài)偏差假設(shè)(MBH)的說(shuō)明
- 左側(cè)子圖展示了多模態(tài)系統(tǒng)中潛在決策特征的組成部分,采用維恩圖的形式表示。
- 右側(cè)子圖展示了隨著訓(xùn)練dropout率的增加,決策偏差的動(dòng)態(tài)過(guò)程。
- Dropout導(dǎo)致在音頻上的一致性模態(tài)偏差,無(wú)論缺失的程度如何。
模態(tài)偏差假設(shè)(Modality Bias Hypothesis,MBH)在左側(cè)子圖中,潛在表征的任務(wù)相關(guān)分量(陰影部分)由Zsa、Zsv和Zg組成,分別表示音頻特定的、視覺(jué)特定的決策特征和模態(tài)一般的決策特征。相應(yīng)的比例用α、β和γ表示。右邊的子圖顯示了一個(gè)決定性偏差的動(dòng)態(tài)過(guò)程,隨著訓(xùn)練退出率的增加。無(wú)論缺失的程度如何,丟棄都會(huì)導(dǎo)致音頻上一致的模態(tài)偏差。
圖 5:所提出的AVSR系統(tǒng)的整體框架
- 展示了處理缺失視頻幀和嘈雜語(yǔ)音的AVSR系統(tǒng)的整體框架。
- 在MDA-KD中,從具有完整數(shù)據(jù)輸入的教師模型的潛在分布中采樣潛在知識(shí),作為防止魯棒性訓(xùn)練中dropout引起的模態(tài)偏差的錨點(diǎn)。
- 對(duì)于完全缺失的視頻輸入,激活MS-Adapter以實(shí)現(xiàn)動(dòng)態(tài)決策切換。
擬議的AVSR系統(tǒng)的總體框架。我們解決了具有挑戰(zhàn)性的現(xiàn)實(shí)世界中的場(chǎng)景,包括丟失的視頻幀和嘈雜的語(yǔ)音,在訓(xùn)練和測(cè)試階段的重疊率超過(guò)40%。在MDA-KD中,潛在知識(shí)是從具有完整數(shù)據(jù)輸入的教師模型的潛在分布中采樣的。這種潛在的知識(shí)作為一個(gè)錨點(diǎn),以防止輟學(xué)引起的模態(tài)偏差在魯棒性訓(xùn)練的學(xué)生網(wǎng)絡(luò)。對(duì)于完全丟失的視頻輸入,MS適配器被激活以啟用動(dòng)態(tài)決策開(kāi)關(guān)
-
CA (Cross-Attention):
- 交叉注意力(Cross-Attention)
是一種注意力機(jī)制,它允許模型在處理一種類型的輸入(如文本)時(shí)
,考慮另一種類型的輸入(如圖像)的信息。這種機(jī)制在多模態(tài)學(xué)習(xí)中非常重要,因?yàn)樗梢詭椭P蛯W(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)。
- 交叉注意力(Cross-Attention)
-
FFN (Feed-Forward Network):
- 前饋網(wǎng)絡(luò)(Feed-Forward Network)是神經(jīng)網(wǎng)絡(luò)中的一種基本組件,它由一組全連接層(也稱為線性層)組成,通常在卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer架構(gòu)中使用。FFN可以學(xué)習(xí)輸入數(shù)據(jù)的非線性表示。
-
Conformer (Convolutional Transformer):
- Conformer是一種結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer架構(gòu)優(yōu)點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型。
它在處理序列數(shù)據(jù)時(shí),通過(guò)使用卷積層來(lái)捕捉局部特征,同時(shí)使用Transformer的自注意力機(jī)制來(lái)捕捉全局依賴關(guān)系
。Conformer在自然語(yǔ)言處理任務(wù)中,尤其是語(yǔ)音識(shí)別和機(jī)器翻譯中表現(xiàn)出色。
- Conformer是一種結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer架構(gòu)優(yōu)點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型。