企業(yè)微信開發(fā)者文檔泉州關(guān)鍵詞優(yōu)化排名
導(dǎo)讀
本文提出一種同時利用圖像空間和通道特征的 Transformer 模型,DAT(Dual Aggregation Transformer),用于圖像超分辨(Super-Resolution,SR)任務(wù)。DAT 以塊間和塊內(nèi)的雙重方式,在空間和通道維度上實現(xiàn)特征聚合,從而具有強(qiáng)大的圖像表示能力。具體來說,DAT 在連續(xù)的 Transformer 塊中交替應(yīng)用空間和通道自注意力,以實現(xiàn)塊間聚合。同時,本文還提出自適應(yīng)交互模塊(Adaptive Interaction Module,AIM)和空間門前饋網(wǎng)絡(luò)(Spatial-Gate Feed-forward Network,SGFN)來實現(xiàn)塊內(nèi)特征聚合。AIM 從空間與通道為徒改進(jìn)現(xiàn)有注意力機(jī)制,SGFN 在前饋網(wǎng)絡(luò)中引入了非線性空間信息。實驗證明,DAT 實現(xiàn)目前最先進(jìn)的圖像超分辨率性能。
論文連接: https://arxiv.org/abs/2308.03364
代碼連接: https://github.com/zhengchen1999/DAT
01. 研究問題
圖像超分辨率(Image Super-Resolution,簡稱圖像 SR)是一種圖像處理技術(shù),旨在通過增加圖像的細(xì)節(jié)和清晰度,將低分辨率(LR)圖像轉(zhuǎn)換為高分辨率(HR)圖像。簡單來說,就是將一張小尺寸的模糊圖像,變成大尺寸的清晰圖像。圖像超分辨率技術(shù)在實際應(yīng)用中具有廣泛的用途,包括高清電視、監(jiān)控攝像頭、醫(yī)學(xué)影像、衛(wèi)星圖像等。現(xiàn)如今,隨著人工智能、機(jī)器學(xué)習(xí)的發(fā)展,使用深度學(xué)習(xí)技術(shù)的圖像超分辨率成為主流。
02. 方法動機(jī)
目前,Transformer 在 SR 任務(wù)中表現(xiàn)出色。其核心是自注意力(Self-Attention,SA)機(jī)制,能夠建立全局依賴關(guān)系。而全局關(guān)系的建立,對于高分辨率圖像的重建尤為重要。然而,全局SA的計算復(fù)雜度與圖像大小成平方比,這極大的限制了其在高分辨率圖像上的應(yīng)用(這在圖像 SR 中很常見)??紤]到這個原因,一些研究人員提出更加高效的 SA,以有效利用 Transformer??偟膩碚f可以分為空間與通道兩個方面:
- 空間方面,局部空間窗口被提出來限制全局 SA 的應(yīng)用范圍,從而提出局部窗口注意力(Spatial-Window Self-Attention,SW-SA)。如圖(a),空間維度H×W?被劃分為多個窗口,注意力在每個窗口中被執(zhí)行。
- 通道方面,提出通道自注意力(Channel-Wise Self-Attention,CW-SA)。如圖(b),注意力沿著通道維度?C?計算。也就是圖中每一個獨(dú)立的塊都作為一個 token。

這些方法都在降低計算復(fù)雜度的同時,實現(xiàn)優(yōu)異的性能。同時這兩種方法對于圖像特征(?H×W×C?)的建模,是針對不同(空間與通道)的維度的。那么,是否可以同時考慮兩個維度,在現(xiàn)有方法的基礎(chǔ)上,進(jìn)一步提高Transformer的建模能力,實現(xiàn)更加出色的超分辨率性能呢?
受以上發(fā)現(xiàn)的啟發(fā),我們提出 DAT(Dual Aggregation Transformer),通過塊間和塊內(nèi)雙重方式,實現(xiàn)空間和通道特征有效融合。具體來說,我們在連續(xù)的 Transformer 塊中交替應(yīng)用 SW-SA 和 CW-SA 。通過這在交替的方式,DAT 能夠同時捕獲空間和通道信息,實現(xiàn)塊間特征聚合。同時,為了實現(xiàn)塊內(nèi)特征聚合,我們還提出自適應(yīng)交互模塊(Adaptive Interaction Module,AIM)和空間門前饋網(wǎng)絡(luò)(Spatial-Gate Feed-forward Network,SGFN)。AIM 對 SW-SA 和 CW-SA 建模單一維度進(jìn)行改進(jìn),SGFN 則在前饋網(wǎng)絡(luò)中引入非線性空間信息。
總體而言,我們的貢獻(xiàn)可以總結(jié)為以下三點(diǎn):
- 設(shè)計了一種新的圖像超分辨率模型:DAT。該模型以塊間和塊內(nèi)雙重方式聚合空間和通道特征,增強(qiáng) Transformer 的建模能力。
- 交替應(yīng)用空間和通道自注意力,實現(xiàn)塊間特征聚合。此外,還提出 AIM 和 SGFN 來實現(xiàn)塊內(nèi)特征聚合。
- 進(jìn)行了大量實驗,證明提出的 DAT 實現(xiàn)最先進(jìn)的圖像超分辨率性能,同時保持較低的復(fù)雜性和模型大小。
03. 方法介紹
在本節(jié)中,我們首先介紹 DAT 的架構(gòu)。 隨后,我們詳細(xì)闡述自適應(yīng)交互模塊(AIM)和空間門前饋網(wǎng)絡(luò)(SGFN)兩個組件。
3.1 模型架構(gòu)

正如前文提到,在 DAT 中,我們以交替的方式同時使用 SW-SA 和 CW-SA 兩種注意力模塊。這種組合,能夠?qū)蓚€維度的特征進(jìn)行建模,并利用它們的優(yōu)勢互補(bǔ):
- SW-SA 對空間上下文進(jìn)行建模,增強(qiáng)每個特征圖的空間表達(dá)。
- CW-SA 可以更好地構(gòu)建通道之間的依賴關(guān)系,擴(kuò)大感受野,從而幫助 SW-SA 捕獲空間特征。
因此,空間和通道信息在連續(xù)的 Transformer 塊之間流動,以此實現(xiàn)塊間特征聚合。
3.2 自適應(yīng)交互模塊(AIM)

我們提出的 AIM 對 SW-SA 和 CW-SA 實現(xiàn)進(jìn)一步改進(jìn)。首先,考慮到自注意力主要是捕獲全局特征,我們增加了與自注意力模塊平行的卷積分支,依次引入局部性到 Transformer 中。接著,考慮到雖然交替執(zhí)行 SW-SA 和 CW-SA 可以在塊間實現(xiàn)空間與通道的特征聚合,但是對于每個自注意力(SA)而言,不同維度的信息仍然無法有效利用。因此,我們提出了AIM(灰色陰影區(qū)),作用于兩個分支之間,并根據(jù)分支的類型,從空間或通道維度自適應(yīng)地重新加權(quán)特征,從而在單個注意力模塊中實現(xiàn)空間和通道信息的聚合。
綜合上述改進(jìn),我們在 SW-SA 和 CW-SA 的基礎(chǔ)上,提出改進(jìn)版的自適應(yīng)空間自注意力(Adaptive Spatial Self-Attention,AS-SA)和?自適應(yīng)通道自注意力(Adaptive Channel Self-Attention,AC-SA)。
相比原始自注意力機(jī)制,我們的方法具有:
- 局部(卷積)和全局(注意力)更好的耦合:兩個分支的輸出可以自適應(yīng)調(diào)整以相互適應(yīng)、融合。
- 更強(qiáng)的建模能力:對于 SW-SA,互補(bǔ)通道信息提高了其通道建模能力;對于 AC-SA,通過空間交互,額外的空間知識同樣增強(qiáng)特征表征能力。
3.3 空間門前饋網(wǎng)絡(luò)(SGFN)

傳統(tǒng)的前饋網(wǎng)絡(luò)(Feed-Forward Network,FFN)有線性層和非線性激活組成。只能夠?qū)μ卣魍ǖ肋M(jìn)行建模, 但忽略了建??臻g信息。 此外,FFN會通過線性層在內(nèi)部對特征通道進(jìn)行放大,這導(dǎo)致通道之間存在冗余,從而阻礙了特征表達(dá)能力。
為了克服上述問題,我們提出了 SGFN:將空間門控(Spatial-Gate,SG)引入到 FFN 中。SG 是一個簡單的門空機(jī)制,由深度卷積和逐元素乘法組成。同時,我們將特征圖沿著通道維度,均勻的分為兩個部分,分別送入卷積和乘法旁路中,以此來降低通道冗余性。并且該操作也能有效降低計算復(fù)雜度。
整體來看,AIM 和 SGFN 是 Transformer 塊的兩個主要組成。通過這個兩個模塊,我們實現(xiàn)塊內(nèi)的特征聚合:
- AIM 從通道維度增強(qiáng) SW-SA,并從空間維度增強(qiáng) CW-SA。
- SGFN 將非線性空間信息引入僅建模通道關(guān)系的 FFN 中。
04. 實驗結(jié)果
消融實驗:我們對提出方法的各個進(jìn)行詳盡的消融實驗,證明了方法的有效性。

定量對比:我們提出了2個不同大小的模型變體(DAT-S、DAT),與目前最先進(jìn)的圖像超分辨率方法,在5個基準(zhǔn)數(shù)據(jù)集上進(jìn)行對比。如下表所示,我們的方法取得了最先進(jìn)的結(jié)果。

視覺對比:我們在下圖中展示了視覺效果的對比結(jié)果??梢园l(fā)現(xiàn),我們的方法在細(xì)節(jié)的重建上具有明顯的優(yōu)勢。

模型大小:我們還提供了模型大小(Params)、復(fù)雜度(FLOPs)、性能上的綜合對比。我們的方法在實現(xiàn)性能提升的同時,也保持了較低的復(fù)雜性和模型大小。

05. 結(jié)論
本文提出了 DAT(Dual Aggregation Transformer),是一種用于圖像超分辨率 Transformer 模型。 DAT 以塊間和塊內(nèi)雙重方式,聚合空間和通道特征,實現(xiàn)強(qiáng)大的建模能力。 具體來說,連續(xù)的 Transformer 塊交替應(yīng)用空間窗口和通道自注意力,并實現(xiàn)了空間和通道維度在塊間的特征聚合。 此外,本文還提出了自適應(yīng)交互模塊(Adaptive Interaction Module,AIM)和空間門前饋網(wǎng)絡(luò)(Spatial-Gate Feed-forward Network,SGFN),以在兩個維度上實現(xiàn)塊內(nèi)特征聚合,從而增強(qiáng)每個 Transformer 塊。 AIM從兩個維度增強(qiáng)自注意力機(jī)制的建模能力。 而 SGFN 用非線性空間信息補(bǔ)充前饋網(wǎng)絡(luò)。 實驗證明,DAT 實現(xiàn)目前最先進(jìn)的圖像超分辨率性能。
作者:陳錚
??關(guān)于TechBeat人工智能社區(qū)
▼
TechBeat(www.techbeat.net)隸屬于將門創(chuàng)投,是一個薈聚全球華人AI精英的成長社區(qū)。
我們希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其學(xué)習(xí)成長。
期待這里可以成為你學(xué)習(xí)AI前沿知識的高地,分享自己最新工作的沃土,在AI進(jìn)階之路上的升級打怪的根據(jù)地!
更多詳細(xì)介紹>>TechBeat,一個薈聚全球華人AI精英的學(xué)習(xí)成長社區(qū)