廣州網(wǎng)站制作教程百度首頁(yè)登錄
BEV感知綜述
隨著自動(dòng)駕駛傳感器配置多模態(tài)化、多源化,將多源信息在unified View下表達(dá)變得更加關(guān)鍵。BEV視角下構(gòu)建的local map對(duì)于多源信息融合及理解更加直觀簡(jiǎn)潔,同時(shí)對(duì)于后續(xù)規(guī)劃控制模塊任務(wù)的開(kāi)展也更為方便。BEV感知的核心問(wèn)題是:
- 如何利用缺失3D信息的PV視角來(lái)構(gòu)建BEV視角;
- 如何獲取BEV表達(dá)下的真值標(biāo)注;
- 如何有效融合不同模態(tài)及視角的傳感器數(shù)據(jù);
- 不同車(chē)型、場(chǎng)景下傳感器配置各不相同,如何能夠?qū)崿F(xiàn)Onetrack的能力;
本文回溯了近期BEV感知領(lǐng)域的最新進(jìn)展,并對(duì)各類(lèi)解決方案進(jìn)行了深入分析。對(duì)于工業(yè)界流行的解決方案也進(jìn)行了詳細(xì)的闡述,并指明了未來(lái)該領(lǐng)域的研究方向。以期更多的研發(fā)資源能夠推動(dòng)該領(lǐng)域快速發(fā)展。
自動(dòng)駕駛感知模塊的任務(wù)就是對(duì)物理世界的3D重建。隨著智駕車(chē)輛傳感器配置多樣化豐富化,BEV對(duì)于多源多視覺(jué)信息的匯聚融合具有天然的優(yōu)勢(shì)。BEV視角下解決了2D前視視角存在的遮擋、尺度等問(wèn)題,同時(shí)動(dòng)目標(biāo)、地圖要素等可直接用于下游的規(guī)劃和控制模塊。
- BEV Camera:純視覺(jué);
- BEV LiDAR:激光;
- BEV Fusion:多傳感器,包括視覺(jué)、激光、輪速、IMU等;
BEV感知研究動(dòng)機(jī)
重要性
目前Nuscence和Waymo數(shù)據(jù)集的排行榜可知,視覺(jué)相比激光仍然存在20-30%的差距,那純視覺(jué)的效果能否追平甚至超越激光的效果呢?這個(gè)問(wèn)題對(duì)于學(xué)術(shù)界,是如何將2D的視覺(jué)信息像LiDAR一樣精確的轉(zhuǎn)換到BEV空間中;而對(duì)于工業(yè)界來(lái)說(shuō),相機(jī)相比LiDAR具有更低的成本,且在遠(yuǎn)處更稠密更豐富的紋理信息。另外一個(gè)問(wèn)題是如何融合兩種傳感器的優(yōu)勢(shì),形成更為強(qiáng)大的融合結(jié)果。
空間
對(duì)于激光傳感器易獲得深度信息,而對(duì)于單目相機(jī)要獲得深度信息是非常挑戰(zhàn)的任務(wù)。如何對(duì)多模態(tài)數(shù)據(jù)進(jìn)行融合,包括前融合、后融合等,其中后融合階段來(lái)自于視覺(jué)和激光的深度信息誤差或配準(zhǔn)都會(huì)導(dǎo)致性能降低。
準(zhǔn)備度
當(dāng)前公開(kāi)的數(shù)據(jù)集是否能夠支撐BEV感知的進(jìn)一步研究?在數(shù)據(jù)集方面:Nusence及Waymo數(shù)據(jù)集提供了高質(zhì)量的標(biāo)注及多模態(tài)數(shù)據(jù)對(duì)齊,非常利于BEV感知研發(fā)的開(kāi)展。同時(shí)leadboard也給大家聽(tīng)了同臺(tái)打擂的機(jī)會(huì)。在算法方面:通用視覺(jué)領(lǐng)域已經(jīng)突飛猛進(jìn),Transformer、ViT、CLIP等均有優(yōu)異的表現(xiàn)。
貢獻(xiàn)
- 回溯了今年BEV感知研發(fā)的進(jìn)展,包括宏觀的架構(gòu)及方法的細(xì)節(jié)討論;
- 綜合分析了各個(gè)方面,包括depth estimation、View transformation、sensor fusion、domain adaptation等;
- 除理論基礎(chǔ)外,還提供了提升BEV感知的實(shí)踐指導(dǎo)手冊(cè);
評(píng)價(jià)標(biāo)準(zhǔn)
BEV感知方法介紹
BEV Camera
純視覺(jué)3D感知最初的任務(wù)是如何從PV視角預(yù)測(cè)Object的位置,因?yàn)榛赑V的檢測(cè)任務(wù)已經(jīng)成熟,所以核心任務(wù)就成了如何在2D檢測(cè)能力基礎(chǔ)上增加3D場(chǎng)景的認(rèn)知能力。之后為了處理在3D空間Oject的Size保持一致,而在image中會(huì)隨著距離遠(yuǎn)近而變化的問(wèn)題,研究者引入了BEV的表達(dá)形式加以解決;通常采用了深度預(yù)測(cè)及先驗(yàn)信息假設(shè)(地面、觸地點(diǎn))等手段來(lái)彌補(bǔ)image的3D信息缺失。近期BEV感知進(jìn)展已經(jīng)極大的推動(dòng)了3D感知問(wèn)題的發(fā)展,主要原因包括:
- 高質(zhì)量數(shù)據(jù)集的出現(xiàn),比如Nuscence multi-camera的配置非常適合在BEV空間下進(jìn)行multi-view特征的聚合;
- 純視覺(jué)BEV任務(wù)借鑒了很多LiDAR在檢測(cè)頭和LOSS函數(shù)設(shè)計(jì)方面的優(yōu)秀實(shí)踐;
- 單目視覺(jué)的PV視角任務(wù)經(jīng)歷了蓬勃發(fā)展,這些進(jìn)展在BEV任務(wù)中的落地也推動(dòng)了BEV任務(wù)的性能表現(xiàn);
BEV Lidar

- preBEV
- postBEV
點(diǎn)云是在連續(xù)3D空間采集到的數(shù)據(jù),而在3D連續(xù)空間計(jì)算點(diǎn)與點(diǎn)見(jiàn)的相對(duì)位置關(guān)系存在著算力和感受野受限等關(guān)鍵問(wèn)題。近期研究利用離散的grid數(shù)據(jù)來(lái)表示原始點(diǎn)云數(shù)據(jù);然后使用卷積操作在grid表達(dá)上進(jìn)行卷積操作,然而原始點(diǎn)云被表達(dá)為grid的形式難以避免信息的丟失。SOTA的pre-BEV方法借住高分辨率的Voxel size能夠盡可能保留原始點(diǎn)云中的信息,從而在3D檢測(cè)任務(wù)中取得了不俗的表現(xiàn)。高分辨率Voxel size也伴隨著高算力和高存儲(chǔ)的問(wèn)題。直接將原始點(diǎn)云轉(zhuǎn)到BEV空間避免了3D空間的卷積操作,但是丟失了大量高維信息,最高效的方式是將原始點(diǎn)云通過(guò)統(tǒng)計(jì)的方式表達(dá)為featrue map,獲得不是最優(yōu)但是可以接受的性能表現(xiàn)。pillar-base方法很好的平衡了效果和算力,在商用落地上優(yōu)勢(shì)明顯。因此在效果和效率的trade-off上是lidar bev感知的核心問(wèn)題。
BEV Fusion


如上圖,各模態(tài)在獨(dú)自的模態(tài)上進(jìn)行特征提取的工作,然后各自模態(tài)下的feature map轉(zhuǎn)換到BEV空間下進(jìn)行融合,這塊可以參考 BEVFusion ;還有一種實(shí)現(xiàn)路徑是將視覺(jué)PV信息先提升到Voxel下的feature map,然后和激光的Voxel下feature map進(jìn)行融合,這類(lèi)的方法可以參考 UVTR 。進(jìn)一步可以考慮自車(chē)的運(yùn)動(dòng)信息實(shí)現(xiàn)時(shí)域維度的融合,更好的速度預(yù)測(cè)及遮擋場(chǎng)景下的檢測(cè)效果。在Temporal上的融合可以參見(jiàn) BEVDet4D 和 BEVFormer 。
圖像是PV坐標(biāo)系,而點(diǎn)云是3D坐標(biāo)系,因此對(duì)齊兩種模態(tài)的數(shù)據(jù)是關(guān)鍵環(huán)節(jié)之一。雖然點(diǎn)云數(shù)據(jù)通過(guò)相機(jī)投影模型很容易轉(zhuǎn)換到圖像PV坐標(biāo)系下,但是點(diǎn)云的稀疏性使得緊靠點(diǎn)云單獨(dú)提取有價(jià)值的feature變得困難;反過(guò)來(lái)由于圖像PV數(shù)據(jù)缺少深度信息,將PV觀測(cè)轉(zhuǎn)到3D空間也是一個(gè)病態(tài)的問(wèn)題。針對(duì)這一問(wèn)題,已有的研究,包括IPM、LSS等,正在構(gòu)建將圖像PV數(shù)據(jù)轉(zhuǎn)換為BEV空間的方法,使得多模態(tài)、時(shí)間、空間的融合成為了可能。
融合視覺(jué)和激光各自傳感器優(yōu)勢(shì),顯著提升了3D感知任務(wù)的優(yōu)勢(shì)。融合框架同時(shí)保留了傳感器件的獨(dú)立性,不在依賴于單一器件,因此整個(gè)感知系統(tǒng)的魯棒性也得到了增強(qiáng)。對(duì)于時(shí)域的融合,BEV空間的feature map具有尺度一致性,可以通過(guò)自車(chē)的運(yùn)動(dòng)補(bǔ)償實(shí)現(xiàn)時(shí)域融合。因此考慮到魯棒性和尺度準(zhǔn)確性,BEV成為了一個(gè)感知結(jié)果表達(dá)的理想空間。
BEV感知商用落地

商用的感知系統(tǒng)最初常用a圖方式,即pv先出感知結(jié)果,然后轉(zhuǎn)換到bev空間下與激光的結(jié)果進(jìn)行后融合操作;顯著已經(jīng)發(fā)展為了b圖的形式,即pv出featuremap,然后轉(zhuǎn)換到bev空間下進(jìn)行featuremap融合,進(jìn)而執(zhí)行檢測(cè)任務(wù),也就是所謂的前融合。
經(jīng)驗(yàn)談
Data Augmentation
- 視覺(jué):color jitter, flip(包含了image的和bev兩種空間下的翻轉(zhuǎn)), resize, rotation, crop, and Grid Mask;
- 激光:random rotation, scaling, flipping, and point translation、Painting( Point-Painting )、temporal;
BEV Encoder
參考以下兩種視覺(jué)和激光的典型BEV方法:
- BEVFormer++
- Voxel-SPVCNN
LOSS
對(duì)于視覺(jué)來(lái)說(shuō),可以綜合運(yùn)用目標(biāo)檢測(cè)的2D和3D的loss設(shè)計(jì)來(lái)訓(xùn)練模型;此外還可以使用深度監(jiān)督信息( BEVDepth ),以提升3D檢測(cè)的精度。通常2D的目標(biāo)檢測(cè)和單目深度估計(jì)會(huì)直接使用SOTA的預(yù)訓(xùn)練模型。對(duì)于激光來(lái)說(shuō),會(huì)聯(lián)合使用 cross-entropy loss 、 Geo loss 和 Lovász loss 來(lái)提升檢測(cè)效果;
總結(jié)
綜合以上,未來(lái)BEV感知的主要研究方向包括:
- 如何設(shè)計(jì)一個(gè)精確的深度估計(jì)器;
- 如何融合來(lái)自多模態(tài)多視角的傳感器數(shù)據(jù)的feature map;
- 如何實(shí)現(xiàn)模型對(duì)傳感器安裝位置無(wú)感,實(shí)現(xiàn)onetrack的部署能力;
- 如何將foundation model的成功經(jīng)驗(yàn)(大模型、多任務(wù))復(fù)制到bev感知領(lǐng)域上;