子域名做微信開放平臺網站應用自助友鏈平臺
ViLT 淺析
論文鏈接:ViLT
文章目錄
- ViLT 淺析
- 創(chuàng)新點
- 網絡結構
- 總結
創(chuàng)新點
本文先分析了4種不同類型的Vision-and-Language Pretraining(VLP)
其中每個矩形的高表示相對計算量大小,VE、TE和MI分別是visual embedding、text embedding和modality interaction的簡寫。
根據上述劃分原則
- VSE、VSE++和SCAN屬于(a)類型。對圖像和文本獨立使用encoder,圖像的相對復雜,文本的相對簡單,使用簡單的點積或者淺層attention層來表示兩種模態(tài)特征的相似性。
- CLIP屬于(b)類型。每個模態(tài)單獨使用重的transformer encoder,使用池化后的圖像特征點積計算特征相似性。
- ViLBERT、UNTER和Pixel-BERT屬于?類型。這些方法使用更深的transformer進行模態(tài)融合,但是由于VE仍然使用相對復雜的卷積網絡進行特征抽取,導致計算量依然很大。
- 而作者提出的ViLT模型屬于d類,ViLT是首個將VE設計的如TE一樣輕量的方法,該方法的主要計算量都集中在模態(tài)交互上。
文本一般使用transformer的線性嵌入,而以前的圖像特征則采用CNN提取相關特征,而作者提出了采用一個線性嵌入來提出特征
網絡結構
對于圖像特征的提取作者采用了類似ViT一樣的Patch Embedding結構,首先將圖片劃分為一小個的Patch并輸入到線性投影層,而對于文本特征的提取作者采用了對完整的單詞進行mask的方式。然后對于提取到的特征分別進行位置編碼添加其位置信息,然后進行模態(tài)編碼其中使用0表示文本特征,1表示圖像特征,同時給文本與圖像特征添加一個額外的可學習[class] embedding,方便和下游任務對接,最后兩個特征進行拼接,并輸入到transformer編碼器中。
- ImageText Matching:用來判斷圖像文本是否匹配
- Masked Language Modeling:預測被掩蓋的單詞
- word patch alignment:計算teextual subset和visual subset的對齊分數
總結
文章主要受到了ViT的影響設計一個Patch Embedding結構將圖像特征序列化,并與文本特征進行模態(tài)融合。
采用Patch Embedding結構使得整個模型訓練大幅度加快,同時在許多任務上保持著較高的準確率。