wordpress 漂浮窗口seog
Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion
Abstract
基于鳥(niǎo)瞰圖 (BEV) 的方法最近在多視圖 3D 檢測(cè)任務(wù)方面取得了重大進(jìn)展。與基于 BEV 的方法相比,基于稀疏的方法在性能上落后,但仍然有很多不可忽略的優(yōu)點(diǎn)。為了進(jìn)一步推動(dòng)稀疏 3D 檢測(cè),在這項(xiàng)工作中,我們介紹了一種名為 Sparse4D 的新方法,該方法通過(guò)稀疏采樣和融合時(shí)空特征對(duì)錨框進(jìn)行迭代細(xì)化。(1)稀疏 4D 采樣:對(duì)于每個(gè) 3D 錨點(diǎn),我們分配多個(gè) 4D 關(guān)鍵點(diǎn),然后將其投影到多視圖/尺度/時(shí)間戳圖像特征以采樣相應(yīng)的特征; (2) 層次特征融合:我們分層融合不同視圖/尺度、不同時(shí)間戳和不同關(guān)鍵點(diǎn)的采樣特征以生成高質(zhì)量的實(shí)例特征。通過(guò)這種方式,Sparse4D 可以有效地有效地實(shí)現(xiàn) 3D 檢測(cè),而不依賴(lài)于密集視圖轉(zhuǎn)換或全局注意力,并且對(duì)邊緣設(shè)備部署更加友好。此外,我們引入了一個(gè)實(shí)例級(jí)深度重新加權(quán)模塊來(lái)緩解 3Dto-2D 投影中的不適定問(wèn)題。在實(shí)驗(yàn)中,我們的方法優(yōu)于nuScenes數(shù)據(jù)集中所有基于稀疏的方法和大多數(shù)基于BEV的檢測(cè)任務(wù)方法。代碼可在 https://github.com/linxuewu/Sparse4D 獲得。
1. Introduction
????????多視圖視覺(jué) 3D 感知在自動(dòng)駕駛系統(tǒng)中起著至關(guān)重要的作用,尤其是對(duì)于低成本部署。與激光雷達(dá)模態(tài)相比,相機(jī)可以為遠(yuǎn)程距離檢測(cè)和僅視覺(jué)元素識(shí)別提供有價(jià)值的視覺(jué)線索。然而,在沒(méi)有顯式深度線索的情況下,2D圖像的3D感知是一個(gè)不適定的問(wèn)題ill-posed issue,,這導(dǎo)致了一個(gè)長(zhǎng)期存在的挑戰(zhàn),即如何正確地融合多攝像頭圖像來(lái)解決3D感知任務(wù),如3D檢測(cè)。最近的方法有兩種主流類(lèi)別:基于 BEV 的方法和基于稀疏的方法the BEV-based methods and the sparse-based methods.。
????????基于BEV的方法[12,17-19,29,49]通過(guò)將多視圖圖像特征轉(zhuǎn)換為統(tǒng)一的BEV空間,實(shí)現(xiàn)優(yōu)異的性能提升。然而,除了BEV方式的優(yōu)點(diǎn)外,還存在一些不可避免的缺點(diǎn):(1)圖像到BEV的透視變換需要密集的特征采樣或重排,這對(duì)于低成本的邊緣設(shè)備部署來(lái)說(shuō)既復(fù)雜又計(jì)算成本高;(2)最大感知范圍受BEV特征圖大小的限制,難以在感知范圍、效率和準(zhǔn)確性之間進(jìn)行權(quán)衡;(3)在BEV特征中壓縮高度維度,失去紋理線索。因此,BEV 特征不適用于一些感知任務(wù),例如信號(hào)牌檢測(cè)。
????????與基于 BEV 的方法不同,基于稀疏的算法 [5,35,41] 不需要密集透視變換模塊,而是直接對(duì)稀疏特征進(jìn)行 3D 錨點(diǎn)細(xì)化,從而可以緩解上述問(wèn)題。其中,最具代表性的稀疏3D檢測(cè)方法是DETR3D[41]。然而,它的模型容量是有限的,因?yàn)镈ETR3D只采樣單個(gè)3D參考的特征每個(gè)錨查詢(xún)的點(diǎn)。最近,SRCN3D[35]利用RoI-Align[9]對(duì)多視圖特征進(jìn)行采樣,但不夠高效,不能精確對(duì)齊不同視圖的特征點(diǎn)。同時(shí),現(xiàn)有的稀疏 3D 檢測(cè)方法沒(méi)有利用豐富的時(shí)間上下文,并且與最先進(jìn)的基于 BEV 的方法相比具有顯著的性能差距。
????????在這項(xiàng)工作中,我們投入了我們最好的效果來(lái)擴(kuò)展基于稀疏的三維檢測(cè)的極限。為了解決這些問(wèn)題,我們引入了一個(gè)名為Sparse4D的新框架,該框架利用分布在3D錨框區(qū)域的多個(gè)關(guān)鍵點(diǎn)對(duì)特征進(jìn)行采樣。與單點(diǎn)方式[41]和RoI-Align方式[35]相比,我們的采樣方式有兩個(gè)主要優(yōu)點(diǎn):(1)可以有效地提取每個(gè)錨盒內(nèi)部豐富完整的上下文;(2)可以簡(jiǎn)單地?cái)U(kuò)展到時(shí)間維度作為4D關(guān)鍵點(diǎn),可以有效地對(duì)齊時(shí)間信息。使用 4D 關(guān)鍵點(diǎn),如圖 1 所示,Sparse4D 首先為每個(gè)關(guān)鍵點(diǎn)執(zhí)行多標(biāo)簽、多視圖和多尺度。然后,這些采樣的特征經(jīng)過(guò)分層融合模塊,生成高質(zhì)量的實(shí)例特征,用于 3D 框細(xì)化。此外,為了緩解基于相機(jī)的 3D 檢測(cè)的不適定問(wèn)題并提高感知性能,我們明確地添加了一個(gè)實(shí)例級(jí)深度重新加權(quán)模塊,其中實(shí)例特征由從預(yù)測(cè)深度分布中采樣的深度置信度重新加權(quán)。該模塊以稀疏的方式進(jìn)行訓(xùn)練,無(wú)需額外的激光雷達(dá)點(diǎn)云監(jiān)督。
總之,我們的工作有四個(gè)主要貢獻(xiàn):
? 據(jù)我們所知,我們提出的 Sparse4D 是第一個(gè)具有時(shí)間上下文融合的稀疏多視圖 3D 檢測(cè)算法,可以有效地對(duì)齊空間和時(shí)間視覺(jué)線索以實(shí)現(xiàn)精確的 3D 檢測(cè)。
? 我們提出了一個(gè)可變形的4D聚合模塊,可以靈活地完成多維(點(diǎn)、時(shí)間戳、視圖和尺度)特征的采樣和融合。? 我們引入了一個(gè)深度重新加權(quán)模塊來(lái)緩解基于圖像的 3D 感知系統(tǒng)中的不適定問(wèn)題。
?在具有挑戰(zhàn)性的基準(zhǔn) - nuScenes 數(shù)據(jù)集上,Sparse4D 在 3D 檢測(cè)任務(wù)上優(yōu)于所有現(xiàn)有的基于稀疏的算法和大多數(shù)基于 BEV 的算法,并且在跟蹤任務(wù)上也表現(xiàn)良好。
2. Related Work
2.1. Sparse Object Detection
早期的目標(biāo)檢測(cè)方法[7,22,33,37,38]使用密集預(yù)測(cè)作為輸出,然后利用非最大抑制(non-maxima suppression, NMS)處理這些密集預(yù)測(cè)。DETR[3]引入了一種新的檢測(cè)范式,利用基于集合的損失和變壓器直接預(yù)測(cè)稀疏檢測(cè)結(jié)果。DETR在對(duì)象查詢(xún)和全局圖像上下文,計(jì)算量大,收斂困難。由于全局交叉注意力的使用,DETR 不能被視為純稀疏方法。然后,可變形DETR[51]修改DETR,提出了一種基于參考點(diǎn)的局部交叉注意,加快了模型的收斂速度,降低了計(jì)算復(fù)雜度。稀疏R-CNN[36]提出了另一種基于區(qū)域提議思想的稀疏檢測(cè)框架。網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)單有效,證明了稀疏檢測(cè)的可行性和優(yōu)越性。作為 2D 檢測(cè)的擴(kuò)展,許多 3D 檢測(cè)方法最近更加關(guān)注這些稀疏范式,例如 MoNoDETR [46]、DETR3D [41]、Sparse R-CNN3D [35]、SimMOD [48] 等。
2.2. Monocular 3D Object Detection
????????單目3D檢測(cè)算法以一幅圖像為輸入,輸出物體的3D包圍盒。由于圖像不包含深度信息,因此這個(gè)問(wèn)題是不適定的,并且與 2D 檢測(cè)相比更具挑戰(zhàn)性。FCOS3D [39] 和 SMOKE [25] 基于單級(jí) 2D 檢測(cè)網(wǎng)絡(luò)進(jìn)行了擴(kuò)展,使用全卷積網(wǎng)絡(luò)直接回歸每個(gè)對(duì)象的深度。[31,40,43]利用單目深度估計(jì)結(jié)果將二維圖像轉(zhuǎn)換為三維偽點(diǎn)云信號(hào),然后利用基于激光雷達(dá)的檢測(cè)網(wǎng)絡(luò)完成三維檢測(cè)。OFT [34] 和 CaDDN [32] 在視圖轉(zhuǎn)換模塊的幫助下將密集的 2D 圖像特征轉(zhuǎn)換為 BEV 空間,然后將 BEV 特征發(fā)送到檢測(cè)器以完成 3D 對(duì)象檢測(cè)。不同之處在于 OFT 使用 3D 到 2D 逆投影關(guān)系來(lái)完成特征空間變換,而 CaDDN 基于 2D 到 3D 投影,更像是偽 LiDAR 方法。
2.3. Multi-view 3D Object Detection
密集算法是多視圖 3D 檢測(cè)的主要研究方向,它使用密集特征向量進(jìn)行視圖變換、特征融合或框預(yù)測(cè)。目前,基于 BEV 的方法是密集算法的主要部分。BEVFormer[18]采用可變形注意完成BEV特征生成和密集時(shí)空特征融合。BEVDet [11, 12] 使用提升飛濺操作 [30] 來(lái)實(shí)現(xiàn)視圖轉(zhuǎn)換。在BEVDet的基礎(chǔ)上,BEVDepth[17]增加了顯式深度監(jiān)督,顯著提高了檢測(cè)精度。BEVStereo[15]和SOLOFusion[29]將時(shí)間立體技術(shù)引入到三維檢測(cè)中,進(jìn)一步提高了深度估計(jì)效果。PETR[23,24]利用三維位置編碼和全局交叉注意進(jìn)行特征融合,但全局交叉注意的計(jì)算成本很高。與普通 DETR [3] 一樣,PETR 不能被視為純稀疏方法。DETR3D[41]是一個(gè)表示稀疏方法的有效工作,基于稀疏參考點(diǎn)進(jìn)行特征采樣和融合。圖DETR3D[5]遵循DETR3D,引入了一個(gè)圖網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)更好的空間特征融合,特別是對(duì)于多視圖重疊區(qū)域。
3. Methodology
3.1. Overall Framework
如圖2所示,Sparse4D符合編碼器解碼器結(jié)構(gòu)。圖像編碼器用于提取具有共享權(quán)重的圖像特征,其中包含主干(如ResNet[10]和VoVNet[14])和頸部(如FPN[20])。給定時(shí)間 t 的 N 個(gè)視圖輸入圖像,圖像編碼器提取多視圖多尺度特征圖 asIt = {It,n,s|1≤s ≤ S, 1 ≤ n ≤ N }。為了利用時(shí)間上下文,我們提取最近T幀的圖像特征作為圖像特征隊(duì)列I = {It}t0t=ts,其中ts = t0?(T?1)。
3.2. Deformable 4D Aggregation
實(shí)例特征的質(zhì)量對(duì)整體稀疏感知系統(tǒng)有重大影響。為了解決這個(gè)問(wèn)題,如圖 3 所示,我們引入了可變形 4D 聚合模塊來(lái)獲得具有稀疏特征采樣和層次特征融合的高質(zhì)量實(shí)例特征。
4D關(guān)鍵點(diǎn)生成。對(duì)于第 m 個(gè)錨實(shí)例,我們將 K 個(gè) 4D 關(guān)鍵點(diǎn)指定為 Pm ∈ RK×T ×3,它由 KF 固定關(guān)鍵點(diǎn)和 KL 可學(xué)習(xí)關(guān)鍵點(diǎn)組成。如圖3(a)所示,在當(dāng)前時(shí)間戳0處,我們首先將固定關(guān)鍵點(diǎn)PF m,t0直接放在立體中心和錨盒的六個(gè)面中心上。然后,與固定關(guān)鍵點(diǎn)不同,可學(xué)習(xí)關(guān)鍵點(diǎn)在不同的實(shí)例特征上有所不同,這允許神經(jīng)網(wǎng)絡(luò)找到每個(gè)實(shí)例的最具代表性的特征。給定
層次融合。Hierarchy Fusion.為了生成高質(zhì)量的實(shí)例特征,我們以分層方式融合上述特征向量 fm。如圖3(c)所示,對(duì)于每個(gè)關(guān)鍵點(diǎn),我們首先聚合不同視圖中的特征,并用預(yù)測(cè)的權(quán)重進(jìn)行縮放,然后與序列線性層進(jìn)行時(shí)間融合。最后,對(duì)于每個(gè)錨實(shí)例,我們?nèi)诤隙帱c(diǎn)特征來(lái)生成實(shí)例特征。
3.3.深度重權(quán)模塊
????????這個(gè)3D到2D變換(Eq.(5))有一定的模糊性,即不同的3D點(diǎn)可能對(duì)應(yīng)相同的2D坐標(biāo)。對(duì)于不同的 3D 錨點(diǎn),可以采樣相同的特征(見(jiàn)圖 4),這增加了神經(jīng)網(wǎng)絡(luò)擬合的難度。為了緩解這個(gè)問(wèn)題,我們結(jié)合了顯式深度估計(jì)模塊Ψdepth,該模塊由多個(gè)具有剩余連接的mlp組成。對(duì)于每個(gè)聚合特征 F 'm,我們估計(jì)離散深度分布,并使用 3d 錨框中心點(diǎn)的深度對(duì)相應(yīng)的置信度 Cm 進(jìn)行采樣,這將用于對(duì)實(shí)例特征重新加權(quán)。
這樣,對(duì)于那些3D中心點(diǎn)遠(yuǎn)離深度方向的ground truth的實(shí)例,即使2D圖像坐標(biāo)非常接近ground truth,對(duì)應(yīng)的深度置信度趨于零。因此,在重新加權(quán)后,相應(yīng)的實(shí)例特征F‘’m受到懲罰也趨于0。結(jié)合顯式深度估計(jì)模塊可以幫助視覺(jué)感知系統(tǒng)進(jìn)一步提高感知精度。此外,深度估計(jì)模塊可以設(shè)計(jì)和優(yōu)化為一個(gè)單獨(dú)的部分,以促進(jìn)模型性能。
3.4. Training
我們用 T 幀對(duì)視頻剪輯進(jìn)行采樣,以端到端訓(xùn)練檢測(cè)器。連續(xù)幀之間的時(shí)間間隔在 {dt, 2dt} (dt ≈ 0.5) 中隨機(jī)采樣。在 DETR3D [41] 之后,匈牙利算法用于將每個(gè)基本事實(shí)與一個(gè)預(yù)測(cè)值進(jìn)行匹配。損失包括三個(gè)部分:分類(lèi)損失、邊界框回歸損失和深度估計(jì)損失:
5. 結(jié)論
????????在這項(xiàng)工作中,我們提出了一種新的方法Sparse4D,它通過(guò)可變形的4D聚合模塊實(shí)現(xiàn)多標(biāo)簽和多視圖的特征級(jí)融合,并使用迭代細(xì)化來(lái)實(shí)現(xiàn)3D盒回歸。Sparse4D 可以提供出色的感知性能,并且在 nuScenes 排行榜上優(yōu)于所有現(xiàn)有的稀疏算法和大多數(shù)基于 BEV 的算法。
????????我們相信 Sparse4D 仍有許多改進(jìn)的空間。例如,在深度重權(quán)模塊中,可以加入多視圖立體(MVS)[15,45]技術(shù)來(lái)獲得更精確的深度。編碼器還可以考慮相機(jī)參數(shù)以提高 3D 泛化 [8, 17]。因此,我們希望 Sparse4D 可以成為稀疏 3D 檢測(cè)的新基線。此外,Sparse4D 的框架也可以擴(kuò)展到其他任務(wù),例如高清地圖構(gòu)建、占用估計(jì)、三維重建等。
?
?