武漢建網(wǎng)公司網(wǎng)站建設(shè)一個(gè)新手怎么做推廣
BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
目錄
- 摘要
- 1 介紹
- 2 相關(guān)工作
- 2.1 基于Transformer的2D感知
摘要
3D視覺(jué)感知任務(wù)對(duì)于自動(dòng)駕駛系統(tǒng)至關(guān)重要,包括基于多相機(jī)圖像的3D檢測(cè)和地圖分割。在這項(xiàng)工作中,我們提出了一個(gè)名為BEVFormer的新框架,它使用時(shí)空變換器學(xué)習(xí)統(tǒng)一的BEV表示,以支持多種自動(dòng)駕駛感知任務(wù)。簡(jiǎn)而言之,BEVFormer通過(guò)預(yù)定義的網(wǎng)格狀的BEV查詢來(lái)進(jìn)行時(shí)空交互,以此來(lái)利用時(shí)空信息。為了聚合空間信息,我們?cè)O(shè)計(jì)了空間交叉注意力,每個(gè) BEV查詢從跨相機(jī)視圖的感興趣區(qū)域中提取空間特征。對(duì)于時(shí)間信息,我們提出時(shí)間自我注意力來(lái)循環(huán)融合歷史BEV信息。我們的方法在 nuScenes 測(cè)試集上的NDS指標(biāo)方面達(dá)到了新的最佳水平56.9%,比之前的最佳技術(shù)高出9.0分,與基于LiDAR的基線的性能相當(dāng)。我們進(jìn)一步表明,BEVFormer顯著提高了低能見(jiàn)度條件下速度估計(jì)的準(zhǔn)確率和目標(biāo)的召回。代碼可以在https://github.com/zhiqi-li/BEVFormer上找到。
1 介紹
3D空間中的感知對(duì)于自動(dòng)駕駛、機(jī)器人等各種應(yīng)用至關(guān)重要。盡管基于LiDAR的方法取得了顯著進(jìn)展,但基于相機(jī)的方法近年來(lái)引起了廣泛關(guān)注。除了部署成本低之外,與激光雷達(dá)相比,相機(jī)還具有檢測(cè)遠(yuǎn)距離物體和識(shí)別基于視覺(jué)的道路元素(例如交通燈、停止線)的理想優(yōu)勢(shì)。
圖1 我們提出了BEVFormer,這是一種自動(dòng)駕駛范例,它應(yīng)用Transformer和Temporal結(jié)構(gòu)從多相機(jī)輸入中生成鳥(niǎo)瞰圖(BEV)特征。BEV-Former利用查詢來(lái)查找時(shí)空,并聚合其信息,從而有利于感知任務(wù)的更強(qiáng)的表征。
自動(dòng)駕駛中對(duì)周圍場(chǎng)景的視覺(jué)感知有望根據(jù)多個(gè)相機(jī)給出的二維線索預(yù)測(cè)三維邊界框或語(yǔ)義圖。最直接的解決方案是基于單目框架和多相機(jī)后處理。該框架的缺點(diǎn)是,它分別處理不同的視圖,無(wú)法跨相機(jī)捕獲信息,導(dǎo)致性能和效率較低。
作為單目框架的替代,更統(tǒng)一的框架是從多相機(jī)圖像中提取整體表示。鳥(niǎo)瞰圖(BEV)是周圍場(chǎng)景的常用表示形式,因?yàn)樗梢郧逦爻尸F(xiàn)物體的位置和比例,適用于各種自動(dòng)駕駛?cè)蝿?wù),例如感知和規(guī)劃。盡管先前的地圖分割方法證明了BEV的有效性,但基于BEV的方法在3D物體檢測(cè)方面并未表現(xiàn)出比其他范式更顯著的優(yōu)勢(shì)。根本原因是3D物體檢測(cè)任務(wù)需要強(qiáng)大的BEV特征來(lái)支持準(zhǔn)確的3D邊界框預(yù)測(cè),但從2D平面生成BEV是不適當(dāng)?shù)?。一種流行的生成BEV特征的 BEV框架基于深度信息,但該范式對(duì)深度值或深度分布的準(zhǔn)確性很敏感。因此,基于BEV的方法的檢測(cè)性能容易受到復(fù)合誤差的影響,不準(zhǔn)確的BEV特征會(huì)嚴(yán)重?fù)p害最終性能。因此,我們的目標(biāo)是設(shè)計(jì)一種不依賴深度信息并且可以自適應(yīng)地學(xué)習(xí)BEV特征而不是嚴(yán)格依賴3D先驗(yàn)的BEV生成方法。Transformer使用注意力機(jī)制來(lái)動(dòng)態(tài)聚合有價(jià)值的特征,從概念上滿足了你的需求。
使用BEV特征執(zhí)行感知任務(wù)的另一個(gè)動(dòng)機(jī)是BEV是連接時(shí)間和空間的理想橋梁。對(duì)于人類的視覺(jué)感知系統(tǒng)來(lái)說(shuō),時(shí)間信息在推斷物體的運(yùn)動(dòng)狀態(tài)、識(shí)別被遮擋的物體等方面起著至關(guān)重要的作用,視覺(jué)領(lǐng)域的許多研究已經(jīng)證明了利用視頻數(shù)據(jù)的有效性。然而,現(xiàn)有的最先進(jìn)的多相機(jī)3D檢測(cè)方法很少利用時(shí)序信息。重大挑戰(zhàn)在于自動(dòng)駕駛對(duì)時(shí)間至關(guān)重要并且場(chǎng)景中的物體變化很快,因此簡(jiǎn)單地堆疊跨時(shí)間戳的BEV特征會(huì)帶來(lái)額外的計(jì)算成本和干擾信息,這可能并不理想。受到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的啟發(fā),我們利用BEV特征來(lái)循環(huán)傳遞從過(guò)去到現(xiàn)在的時(shí)間信息,這與RNN模型的隱藏狀態(tài)具有相同的精神。
為此,我們提出了一種基于Transformer的鳥(niǎo)瞰圖(BEV)編碼器,稱為BEVFormer,它可以有效地聚合來(lái)自多視角相機(jī)的時(shí)空特征和歷史BEV特征。BEVFormer生成的BEV特征可以同時(shí)支持多個(gè)3D感知任務(wù),例如3D物體檢測(cè)和地圖分割,這對(duì)于自動(dòng)駕駛系統(tǒng)非常有價(jià)值。如圖1所示,我們的BEVFormer包含三個(gè)關(guān)鍵設(shè)計(jì)。其一,網(wǎng)格狀BEV查詢通過(guò)注意力機(jī)制靈活地融合空間和時(shí)間特征。其二,空間交叉注意模塊,用于聚合來(lái)自多相機(jī)圖像的空間特征。其三,時(shí)間自注意力模塊從歷史BEV特征中提取時(shí)間信息,這有利于運(yùn)動(dòng)物體的速度估計(jì)和嚴(yán)重遮擋物體的檢測(cè),同時(shí)帶來(lái)可忽略不計(jì)的計(jì)算開(kāi)銷。借助BEVFormer生成的統(tǒng)一特征,該模型可以與不同任務(wù)特定頭(如可變形DETR和掩模解碼器)協(xié)作,實(shí)現(xiàn)端到端3D目標(biāo)檢測(cè)和地圖分割。我們的主要貢獻(xiàn)如下:
- 我們提出了BEVFormer,這是一種時(shí)空變換器編碼器,可將多相機(jī)和/或時(shí)間戳輸入投射到BEV表示中。通過(guò)統(tǒng)一的BEV特征,我們的模型可以同時(shí)支持多項(xiàng)自動(dòng)駕駛感知任務(wù),包括3D檢測(cè)和地圖分割。
- 我們?cè)O(shè)計(jì)了可學(xué)習(xí)的BEV查詢以及空間交叉注意層和時(shí)間自注意層,分別從跨相機(jī)中查找空間特征和從歷史BEV中查找時(shí)間特征,然后將它們聚合為統(tǒng)一的BEV特征。
- 我們?cè)诙鄠€(gè)具有挑戰(zhàn)性的基準(zhǔn)上對(duì)所提出的BEVFormer進(jìn)行了評(píng)估,包括nuScenes和Waymo。與現(xiàn)有技術(shù)相比,我們的BEVFormer性能持續(xù)提升。例如,在可比較的參數(shù)和計(jì)算開(kāi)銷下,BEVFormer在nuScenes測(cè)試集上實(shí)現(xiàn)了56.9%的NDS,比之前的最佳檢測(cè)方法DETR3D高出9.0分(56.9%對(duì)47.9%)。對(duì)于地圖分割任務(wù),我們也實(shí)現(xiàn)了最先進(jìn)的性能,在最具挑戰(zhàn)性的車道分割上比Lift-Splat高出5.0分以上。我們希望這個(gè)簡(jiǎn)單而強(qiáng)大的框架可以作為后續(xù)3D感知任務(wù)的新基礎(chǔ)。
2 相關(guān)工作
2.1 基于Transformer的2D感知
最近,一種新的趨勢(shì)是使用transformer來(lái)重新制定檢測(cè)和分割任務(wù)。