工程公司是做什么的谷歌seo排名技巧
目錄
1.視覺中的Attention
?2.VIT框架(圖像分類,不需要decoder)
2.1整體框架
2.2.CNN和Transformer遇到的問題
2.3.1CNN
2.3.2Transformer
2.3.3二者對(duì)比
2.4.公式理解
3TNT
參考文獻(xiàn)
1.視覺中的Attention
? ? ? 對(duì)于人類而言看到一幅圖可以立即區(qū)分背景和主體,我們希望計(jì)算機(jī)也可以清楚區(qū)分背景和主體,這樣就可以專注在主體上提取特征。?
?2.VIT框架(圖像分類,不需要decoder)
2.1整體框架
? ? ? 如下圖所示,transformer框架需要輸入為序列形式,但圖像是高維的,所以首先要對(duì)圖像預(yù)處理,簡單理解,假設(shè)下圖是一個(gè)30*30*3的輸入,將其分為9塊,每塊大小為10*10*3,再對(duì)其做一個(gè)卷積處理,變成300*1。?
? ? ? 同樣圖像處理也要考慮到位置編碼(Position Embedding),有兩種方式,一種是直接再一維空間用1,2,3,4....,一種是在二維空間用(1,1),(1,2)...。一維,二維對(duì)結(jié)果影響不大(僅圖像分類)。但編碼方式,也是一個(gè)創(chuàng)新點(diǎn)。
? ? ? 下圖框架為分類任務(wù),多加了一部分,簡單理解,目的在于整合所有輸入量,最后用其進(jìn)行分類
? ? ? ?和文本處理,區(qū)別在于多了一個(gè)圖像的數(shù)據(jù)處理,要將高維變成序列形式,
? ? ? ?最后說下下圖右的框架,Norm是歸一化處理,Multi-Head Attention是多頭注意力機(jī)制,MLP是全連接層。
2.2.CNN和Transformer遇到的問題
2.3.1CNN
? ? ? 以Resnet50為例,首先回憶一下感受野的概念,即當(dāng)前層神經(jīng)元(特征圖)可以看到的原圖的區(qū)域,我們假設(shè)conv1,conv6,conv11,conv16,此時(shí)我們想做一個(gè)分類任務(wù),區(qū)分這個(gè)女生好不好看,對(duì)于conv1它的感受野為紅色小框,顯然特征過小,conv4為綠色小框,此時(shí)已經(jīng)能看到眼睛,但還是不足以做出判斷,conv11為黃色框,此時(shí)已經(jīng)能看到較多的局部特征,但還不足以準(zhǔn)確判斷,最后來到conv16,此時(shí)足以看到整個(gè)臉,可以進(jìn)行判別,但我們發(fā)現(xiàn)想要得到一個(gè)全局信息這個(gè)過程需要多層嵌套才能實(shí)現(xiàn),比較麻煩。?
? ? ? 對(duì)比一下,CNN通常第一層卷積用3*3的核也就是說只能看到原圖3*3大小的區(qū)域,可能要最后一層才能看到全局,而transformer可以實(shí)現(xiàn)第一層就看到全局。
2.3.2Transformer
transformer對(duì)于CNN需要極大數(shù)據(jù)集才能得到好的結(jié)果。
2.3.3二者對(duì)比
2.4.公式理解
? ? ? E為全連接層,目的是對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,就是將高維圖像變成序列形式,假設(shè)P*P=196,就是圖像分割的塊數(shù),像上面將圖分為9塊的意思,C=256是每一塊含有的向量,D=512,目的是將256映射成512,N=196是位置信息編碼,+1是因?yàn)閳D像分類任務(wù)要多一個(gè)輸入,LN是歸一化處理,MSA是多頭自注意力機(jī)制,MLP是全連接層。類似于殘差鏈接 。可以對(duì)比流程圖理解。
3TNT
假設(shè)VIT每一個(gè)patch是16*16.TNT希望這個(gè)patch更小。
? ? ?
? ? ? 基于這個(gè)思想,TNT將數(shù)據(jù)預(yù)處理,分為外部和內(nèi)部兩塊,外部和VIT一樣,內(nèi)部就是對(duì)外部的信息再次細(xì)分,比方說外部一個(gè)patch是16*16,內(nèi)部就用4*4的塊進(jìn)行分割,下面超像素的概念就是不想按照1*1大小進(jìn)行分割,多選擇幾個(gè)像素點(diǎn)分割。
? ? ? 在實(shí)際應(yīng)用中,如下圖所示,將一個(gè)圖分為4塊(外部),VIT中是直接預(yù)處理后變成一個(gè)4維向量輸入了,而在TNT中,假設(shè)第3塊(外部),進(jìn)行了一個(gè)內(nèi)部分割,然后重構(gòu)后也變成一個(gè)4維向量,將其加入外部的4維向量。同樣內(nèi)外部都做位置編碼時(shí)效果最好。
? ? ? 從可視化角度看,TNT在不同層下得到的結(jié)果更好,從T-SNE看,TNT更集中,效果更好。
參考文獻(xiàn)
1.【VIT算法模型源碼解讀】1-項(xiàng)目配置說明1.mp4_嗶哩嗶哩_bilibili