紅酒公司網(wǎng)站建設(shè)seo優(yōu)化要做什么
一、論文簡述
1. 第一作者:Xiuchao Sui、Shaohua Li
2. 發(fā)表年份:2021
3. 發(fā)表期刊:arxiv
4. 關(guān)鍵詞:光流、Transformer、自注意力、交叉注意力、相關(guān)體
5. 探索動(dòng)機(jī):由于卷積的局部性和剛性權(quán)重,有限的上下文信息被納入到像素特征中,并且計(jì)算出的相關(guān)性具有很高的隨機(jī)性,以至于大多數(shù)高相關(guān)性值都是虛假匹配,因此難以處理帶有運(yùn)動(dòng)模糊的大位移。
- Although newest methods are very accurate on benchmark data, under certain conditions, such as large displacements with motion blur , flow errors could still be large.
- The current paradigm computes the pairwise pixel similarity as the dot product of two convolutional feature vectors. Due to the locality and rigid weights of convolution, limited contextual information is incorporated into pixel features, and the computed correlations suffer from a high level of randomness, such that most of the high correlation values are spurious matches. Noises in the correlations increase with noises in the input images, such as loss of texture, lighting variations and motion blur. Naturally, noisy correlations may lead to unsuccessful image matching and inaccurate output flow. This problem becomes more prominent when there are large displacements. Reducing noisy correlations can lead to substantial improvements of flow estimation.
6. 工作目標(biāo):通過ViT解決上述問題。
An important advantage of Vision Transformers (ViTs) over convolution is that, transformer features better encode global context, by attending to pixels with dynamic weights based on their contents. For the optical flow task, useful information can propagate from clear areas to blurry areas, or from non-occluded areas to occluded areas, to improve the flow estimation of the latter. A recent study suggests that, ViTs are low-pass filters that do spatial smoothing of feature maps. Intuitively, after transformer self-attention, similar feature vectors take weighted sums of each other, smoothing out irregularities and high-frequency noises.
7. 核心思想:提出了“交叉注意力光流變換器”(CRAFT),一種新的光流估計(jì)結(jié)構(gòu)。CRAFT采用了兩個(gè)新穎的組件,簡化了相關(guān)體的計(jì)算。此外,為了測試不同模型對大型運(yùn)動(dòng)的魯棒性,設(shè)計(jì)了一種圖像移動(dòng)攻擊,通過移動(dòng)輸入圖像來生成大型人工運(yùn)動(dòng)。
- A semantic smoothing transformer layer fuses the features of one image, making them more global and semantically smoother.
- A crossframe attention layer replaces the dot-product operator for correlation computation. It provides an additional level of feature filtering through the Query and Key projections, so that the computed correlations are more accurate.
8. 實(shí)驗(yàn)結(jié)果:SOTA
- On Sintel (Final) and KITTI(foreground) benchmarks, CRAFT has achieved new stateof-the-art (SOTA) performance.
- In addition, to test the robustness of different models on large motions, we designed an image shifting attack that shifts input images to generate large artificial motions. As the motion magnitude increases, CRAFT performs robustly, while two representative methods, RAFT and GMA, deteriorate severely.
9.論文下載:
https://openaccess.thecvf.com/content/CVPR2022/papers/Sui_CRAFT_Cross-Attentional_Flow_Transformer_for_Robust_Optical_Flow_CVPR_2022_paper.pdf
https://github.com/askerlee/craft
二、實(shí)現(xiàn)過程
1. CRAFT概述
網(wǎng)絡(luò)繼承了RAFT的管道。 主要貢獻(xiàn)是通過兩個(gè)新的組件來恢復(fù)相關(guān)體計(jì)算部分(虛線綠色矩形):幀2特征上的語義平滑轉(zhuǎn)換器和跨幀注意力層來計(jì)算相關(guān)體,兩個(gè)新穎的組件被突出顯示為帶紅色邊框的框。 這兩個(gè)組件有助于抑制相關(guān)體中的虛假相關(guān)。底部的GMA模塊是全局運(yùn)動(dòng)聚合模塊。
2. 語義平滑轉(zhuǎn)換器
給定兩幅連續(xù)的圖像幀1和幀2作為輸入,光流管道的第一步是使用卷積特征網(wǎng)絡(luò)提取幀特征。為了增強(qiáng)具有更好全局上下文的幀特征,使用語義平滑變換器(簡稱SSTrans)對幀2特征進(jìn)行變換。為了更好地適應(yīng)不同的特征,采用擴(kuò)展注意力作為SSTrans,而不是常用的多頭注意力(MHA)。 擴(kuò)展注意力是一種具有更高的容量的混合系統(tǒng),在圖像分割任務(wù)中顯示出優(yōu)于MHA的優(yōu)勢。
擴(kuò)展的注意力(EA)層由N個(gè)模式(子轉(zhuǎn)換器)組成,計(jì)算N個(gè)特征集,這些特征集使用動(dòng)態(tài)模式注意力聚集成一個(gè)集合:
?式中B(k)為模式注意力得分,模式注意力概率G為所有B(k)沿模式維數(shù)的softmax。輸出特征EA(X)是所有模式特征的線性組合。為了更好地保留幀的原始特征,我們添加了一個(gè)可學(xué)習(xí)的權(quán)重為w1的加權(quán)跳躍連接:
為了施加空間偏置,我們發(fā)現(xiàn)傳統(tǒng)的位置嵌入不會形成有意義的偏置,而是使用相對位置偏置。偏置是一個(gè)矩陣B∈(2r+1)×(2r+1),添加到計(jì)算出的注意力,其中r是指定偏置局部范圍的半徑。
具體地說,假設(shè)將原來的注意力矩陣重塑為一個(gè)四維張量A∈H×W×H×W,其中H、W是幀特征的高度和寬度。 對于i,j處的每個(gè)像素,A(i,j)是一個(gè)矩陣,指定像素(i,j)與同一幀中的所有像素之間的注意力權(quán)重。 將相對位置偏置b添加到像素(i,j)的半徑r的鄰域:
在實(shí)現(xiàn)中,選擇模式數(shù)為4,相對位置偏置的半徑r為7。下圖可視化CRAFT在Sintel訓(xùn)練時(shí)的相對位置偏置。觀察到兩個(gè)有趣的模式:?
- 最小的偏置值在2左右,位于(0,0)處,這意味著,當(dāng)計(jì)算像素(i,j)的新特征時(shí),該偏置項(xiàng)將使其自身特征的權(quán)重減少2。如果沒有這一項(xiàng),像素(i, j)對自身的注意力權(quán)重可能會主導(dǎo)其他像素的權(quán)重,因?yàn)樘卣飨蛄颗c自身最相似。這一項(xiàng)減少了一個(gè)像素的舊特征在組合輸出特征中的比例,有效地鼓勵(lì)了來自其他像素的新信息的流入。
- 最大的權(quán)重在距離中心像素2 ~ 3像素處,這意味著這些周圍像素的特征最常被用來補(bǔ)充中心像素的特征。
這兩個(gè)觀察結(jié)果在下圖中得到了證實(shí)。下圖為查詢點(diǎn)(紅色矩形)和同一圖像中的所有像素之間SS轉(zhuǎn)換器的自注意力關(guān)注的熱圖。最密集的區(qū)域是查詢點(diǎn)注意力最高的地方,并提取特征來豐富自己。將位置偏置設(shè)置為0會導(dǎo)致性能下降。
在兩個(gè)幀的特征上應(yīng)用變換器是很有誘惑力的。 然而,在實(shí)驗(yàn)中,這樣做會導(dǎo)致性能下降。 假設(shè)是基于一個(gè)普遍的信念,即圖像匹配嚴(yán)重依賴于局部和結(jié)構(gòu)的高頻(HF)特征。 同時(shí),大量的高頻噪聲會污染信息特征,阻礙匹配。 SSTrans作為一種低通濾波器來抑制短波噪聲,但同時(shí)可以減少HF特征而增強(qiáng)低頻(LF)特征。 因此,該模型學(xué)習(xí)在幀2中的LF和HF分量之間進(jìn)行折衷,以與幀1匹配。在兩個(gè)幀上應(yīng)用SSTrans后,兩個(gè)幀都包含較少的HF和較多的LF分量。 對它們進(jìn)行匹配可能會產(chǎn)生許多虛假的相關(guān)關(guān)系,并損害光流的準(zhǔn)確性。 這種直覺在下圖中得到了證實(shí)。在Sintel (Final pass)測試集上幀2和第1幀上查詢點(diǎn)之間的相關(guān)性。圖像被裁剪。標(biāo)準(zhǔn)CRAFT設(shè)置(“單個(gè)SSTrans”)具有最小的噪聲相關(guān)性?!半pSSTrans”產(chǎn)生了更多的噪聲相關(guān)性。
3.?相關(guān)體的跨幀注意力
在目前的范例中,相關(guān)體是跨幀像素匹配的基礎(chǔ)。計(jì)算出幀特征f1和f2后,將相關(guān)體計(jì)算為4D張量∈H×W×H×W。傳統(tǒng)上,相關(guān)體計(jì)算為f1和f2的成對點(diǎn)積:
從概念上講,相關(guān)體本質(zhì)上是變換器中沒有通過查詢和鍵投影進(jìn)行特征變換的交叉注意力。查詢/鍵投影可以被視為特征過濾器,這些特征過濾器為相關(guān)選出最有信息的特征。此外,為了獲得不同的相關(guān)性,可以使用多個(gè)查詢和鍵投影,就像擴(kuò)展注意力(EA)一樣。在具有多個(gè)通道的VCN中追求類似的多方面的相關(guān)。 這些好處促使本文用一個(gè)簡化的EA來取代點(diǎn)積:
其中Qk、Kk分別是第k個(gè)查詢和鍵投影;Ck(i,j,m,n)是用第k個(gè)模式計(jì)算的相關(guān)。Softmax算子沿k個(gè)模態(tài)取,并聚合k個(gè)相關(guān)。通過去除值投影和前饋網(wǎng)絡(luò),這里的EA被簡化了。Qk和Kk的權(quán)重共享,因?yàn)閮蓚€(gè)幀之間的相關(guān)性是對稱的。
全局相關(guān)歸一化。有時(shí)會在相關(guān)體中出現(xiàn)極值,這可能會擾亂像素匹配。為了匹配一個(gè)像素,直觀地說,候選像素的相關(guān)的相對順序比絕對相關(guān)值更重要。 基于此,對整個(gè)相關(guān)體執(zhí)行層歸一化,以穩(wěn)定相關(guān)。 從經(jīng)驗(yàn)上看,這導(dǎo)致性能略有改善。
4. 損失函數(shù)
與RAFT相同,采用加權(quán)的多重迭代L1損失。
5. 實(shí)驗(yàn)
5.1. 實(shí)現(xiàn)細(xì)節(jié)
通過熱圖評價(jià)注意力權(quán)重和相關(guān)體的相關(guān)性很有說服性。此外還設(shè)計(jì)了Shifting Attack對位移進(jìn)行大移動(dòng),以證明網(wǎng)絡(luò)的優(yōu)越性。
5.2. 與先進(jìn)技術(shù)的比較
5.3. 消融實(shí)驗(yàn)