短網(wǎng)址生成源碼下載seo優(yōu)化一般多少錢
MonoDETR論文解讀
abstract
單目目標(biāo)檢測(cè)在自動(dòng)駕駛領(lǐng)域,一直是一個(gè)具有挑戰(zhàn)的任務(wù)?,F(xiàn)在大部分的方式都是沿用基于卷積的2D 檢測(cè)器,首先檢測(cè)物體中心,后通過中心附近的特征去預(yù)測(cè)3D屬性。
但是僅僅通過局部的特征去預(yù)測(cè)3D特征是不高效的,且并沒有考慮一些長距離的物體之間的深度關(guān)系,丟失了很多的有意義的信息。
在本作中,作者介紹了一種基于DETR框架的用于單目檢測(cè)的網(wǎng)絡(luò)。作者通過對(duì)原始的transformer網(wǎng)絡(luò)進(jìn)行改造,加入了以深度為引導(dǎo)的transformer結(jié)構(gòu)。作者將此網(wǎng)絡(luò)結(jié)構(gòu)命名為MonoDETR。
具體來說,作者在使用視覺encoder去提取圖像的特征外,還引入了一種depth encoder去預(yù)測(cè)前景深度地圖,后續(xù)將其轉(zhuǎn)化為depth embeddings。之后就和傳統(tǒng)的DETR或者BevFormer一致,使用3D object query去與前述生成的vision embeding 和 depth embending分別做self 和 cross attention,通過decoder得到最終的2D以及3D結(jié)果。通過此種方法,每一個(gè)3D物體都是通過depth-guided regions(embedding)去獲取的3D信息,而非限制在局部的視覺特征。
介紹
相對(duì)于基于lidar和multi-view 的3D檢測(cè)任務(wù),單目3D檢測(cè)是相對(duì)較困難的。因?yàn)闆]有可依賴的3D深度信息以及多視角幾何學(xué)關(guān)系。所以相應(yīng)的檢測(cè)結(jié)果也不會(huì)那么的好。
為了解決這些問題,我們根據(jù)DETR的2
D檢測(cè)框架提出了本文的網(wǎng)絡(luò)結(jié)構(gòu)。如上圖所示b所示:此結(jié)構(gòu)包括兩個(gè)平行部分,分別為vision encoder 和 depth encoder。
劃重點(diǎn):如何去學(xué)習(xí)深度信息呢?這里論文使用了了一個(gè)“輕”的監(jiān)督去獲取輸入圖像的深度信息。具體是在在image backbone后接了一個(gè)depth predictor,用于輸出前景深度地圖。同時(shí)在過程中產(chǎn)生的depth feature會(huì)輸入到緊接著的depth encoder,用來提取深度信息。同時(shí)我們對(duì)輸出的前景地圖進(jìn)行監(jiān)督。此監(jiān)督僅僅是由我們的labeled object構(gòu)成即可,也就是一個(gè)discrete depth of objects。這樣就不需要稠密的深度地圖label。減輕了對(duì)數(shù)據(jù)的壓力。又能獲取使用的深度信息。
在這兩個(gè)encoder后,繼續(xù)接一個(gè)transformer結(jié)構(gòu),使用object query從視覺embeding和depth embeding中聚合信息,從而對(duì)物體進(jìn)行檢測(cè)。
此處的優(yōu)勢(shì)就比較明顯,相對(duì)于目前自動(dòng)駕駛領(lǐng)域的各種繁重的數(shù)據(jù)pipeline,此方法僅僅需要常規(guī)的物體標(biāo)注結(jié)果即可完成全部的檢測(cè)流程。而無需額外的dense depth maps或者Lidar信息。且在kitti中取得了SOTA的成績。
同時(shí)這里邊提到的depth encoder也可以作為一個(gè)plug and play的插件直接用來增強(qiáng)多視覺3D檢測(cè)效果,比如BEVFormer。(當(dāng)然我看來這幾個(gè)點(diǎn),似乎沒啥用~)
related work
咱自己看論文哈~和本文關(guān)系不太大
突然看到有個(gè)有點(diǎn)意思的介紹,這里簡單說下:
DETR base methods
- MonoDTR: 僅僅引入transformer去增強(qiáng)數(shù)據(jù)提取而已。還是提取的局部特征,基于object center這種,嚴(yán)格上不是基于DETR的方法,具體可以參考:MonoDTR解讀
- DETR3D 和PETR v2 : multi view 3D檢測(cè),使用了detr結(jié)構(gòu),但是沒用到transform base的encoder。相應(yīng)的也就只用了視覺信息,無深度信息。具體參考PETR v2解讀 DETR 3D
- BEVFormer:加了個(gè)從image feature到bev feature的encoder進(jìn)行信息提取。后續(xù)在bev空間進(jìn)行3D檢測(cè)。GOOD!BEVFormer 解讀
Method
又到了喜聞樂見的看圖說論文環(huán)節(jié),上圖
Feature Extraction
未完待續(xù)