當前位置：首頁 > news >正文

子域名做微信開放平臺網站應用自助友鏈平臺

news 2025/7/10 8:00:23

子域名做微信開放平臺網站應用,自助友鏈平臺,wordpress太慢了,網頁瀏覽器在哪里打開ViLT 淺析論文鏈接：ViLT 文章目錄 ViLT 淺析創(chuàng)新點網絡結構總結創(chuàng)新點本文先分析了4種不同類型的Vision-and-Language Pretraining(VLP) 其中每個矩形的高表示相對計算量大小，VE、TE和MI分別是visual embedding、text embedding和modality interact…

ViLT 淺析

論文鏈接：ViLT

文章目錄

ViLT 淺析
- 創(chuàng)新點
- 網絡結構
- 總結

創(chuàng)新點

本文先分析了4種不同類型的Vision-and-Language Pretraining(VLP)

其中每個矩形的高表示相對計算量大小，VE、TE和MI分別是visual embedding、text embedding和modality interaction的簡寫。

根據上述劃分原則

VSE、VSE++和SCAN屬于(a)類型。對圖像和文本獨立使用encoder，圖像的相對復雜，文本的相對簡單，使用簡單的點積或者淺層attention層來表示兩種模態(tài)特征的相似性。
CLIP屬于(b)類型。每個模態(tài)單獨使用重的transformer encoder，使用池化后的圖像特征點積計算特征相似性。
ViLBERT、UNTER和Pixel-BERT屬于?類型。這些方法使用更深的transformer進行模態(tài)融合，但是由于VE仍然使用相對復雜的卷積網絡進行特征抽取，導致計算量依然很大。
而作者提出的ViLT模型屬于d類，ViLT是首個將VE設計的如TE一樣輕量的方法，該方法的主要計算量都集中在模態(tài)交互上。

文本一般使用transformer的線性嵌入，而以前的圖像特征則采用CNN提取相關特征，而作者提出了采用一個線性嵌入來提出特征

網絡結構

對于圖像特征的提取作者采用了類似ViT一樣的Patch Embedding結構，首先將圖片劃分為一小個的Patch并輸入到線性投影層，而對于文本特征的提取作者采用了對完整的單詞進行mask的方式。然后對于提取到的特征分別進行位置編碼添加其位置信息，然后進行模態(tài)編碼其中使用0表示文本特征，1表示圖像特征，同時給文本與圖像特征添加一個額外的可學習[class] embedding，方便和下游任務對接，最后兩個特征進行拼接，并輸入到transformer編碼器中。