中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站開發(fā)4k分辨率西安網(wǎng)絡(luò)科技有限公司

網(wǎng)站開發(fā)4k分辨率,西安網(wǎng)絡(luò)科技有限公司,如何擁有一個自己的網(wǎng)站,高端企業(yè)網(wǎng)站建設(shè)費(fèi)用本文綜合整理單目3D目標(biāo)檢測的方法模型,包括:基于幾何約束的直接回歸方法,基于深度信息的方法,基于點(diǎn)云信息的方法。萬字長文,慢慢閱讀~ 直接回歸方法 涉及到模型包括:MonoCon、MonoDLE、MonoFlex、CUPNet…

本文綜合整理單目3D目標(biāo)檢測的方法模型,包括:基于幾何約束的直接回歸方法基于深度信息的方法基于點(diǎn)云信息的方法。萬字長文,慢慢閱讀~

直接回歸方法?涉及到模型包括:MonoCon、MonoDLE、MonoFlex、CUPNet、SMOKE等。

基于深度信息的方法?涉及到模型包括:MF3D、MonoGRNet、D4LCN、MonoPSR等。

基于點(diǎn)云信息的方法?涉及到模型包括:Pseudo?lidar、DD3D、CaDDN等。

目錄

一、單目3D目標(biāo)檢測概述

1.1 簡介

1.2 單目相機(jī)特征

1.3 為什么用單目做3D目標(biāo)檢測

1.4?3D邊框表示方式

1.5?挑戰(zhàn)

二、直接回歸的方法

2.1?SMOKE【CVPR2020】

2.2?MonoDLE(CVPR2021)

2.3?MonoCon(AAAI2022)

2.4?CUPNet(ICCV 2021)

2.5?MonoFlex(CVPR 2021)

三、基于深度信息方法

四、基于點(diǎn)云信息方法


一、單目3D目標(biāo)檢測概述

1.1 簡介

3D目標(biāo)檢測,只用一個相機(jī)實(shí)現(xiàn)。輸入是圖像數(shù)據(jù)輸出是物體的三維尺寸、三維位置、朝向等3D信息。

1.2 單目相機(jī)特征

通過傳感器采樣和量化,將3D世界中的物體變換到2D空間,用單個或多個通道的二維圖像來描繪物體的形狀、顏色、紋理和輪廓等信息,這些信息可用于檢測物體。

1.3 為什么用單目做3D目標(biāo)檢測

由于2D相機(jī)比復(fù)雜的3D采集傳感器更便宜且更靈活,基于單目圖像的方法已得到廣泛研究。二維圖像以像素的形式提供了對象豐富的顏色和紋理信息。

激光雷達(dá)相對高昂的造價(jià)和對各種復(fù)雜天氣情況的敏感性,推動著研究人員開始更多地探索基于視覺的3D目標(biāo)檢測,其在近幾年成為越來越熱門的研究方向。

基于單目視覺的方法則要求更加嚴(yán)苛,即只有單個相機(jī)的圖像作為輸入,結(jié)合相機(jī)標(biāo)定得到物體的三維檢測。

這類方法難度較大,但成本極低、便于推廣使用,一旦攻克此問題,將徹底顛覆自動駕駛行業(yè)的格局。因此,研究此類問題是極具應(yīng)用價(jià)值和學(xué)術(shù)挑戰(zhàn)性的。

1.4?3D邊框表示方式

3D邊框表示目標(biāo)的位置、尺寸和方向,是3D目標(biāo)檢測算法的輸出。物體是否被遮擋、截?cái)嗷蚓哂胁灰?guī)則的形狀,都用一個緊密邊界的立方體包圍住被檢測到的目標(biāo)。

3D邊框編碼方式主要有3種,分別是8角點(diǎn)法4角2高法、7參數(shù)法(常用),如下圖所示。

7參數(shù)法:由7個坐標(biāo)參數(shù)來表示。它包括邊框的中心位置(x, y, z),邊框在三維空間中的尺寸(l, w, h)以及表示角度的偏航角θ。?

8角點(diǎn)法:8角點(diǎn)法將3D邊框通過連接8個角點(diǎn)(c1, c2, . . . , c8)來形成。每一個角點(diǎn)由三維坐標(biāo)(x, y, z)表示,總計(jì)24維向量。

4角2高法:為了保持地面目標(biāo)的物理約束,3D框的上角需要保持與下角對齊,提出了一種4角2高編碼的方法。

4 個角點(diǎn) (c1, c2, c3, c4) 表示3D邊框底面的4個頂點(diǎn),每個角點(diǎn)用2D坐標(biāo)(x, y)表示。

兩個高度值(h1, h2)表示從地平面到底部和頂部角的偏移量。根據(jù)4個角點(diǎn)計(jì)算出4個可能的方向,并選擇最近的一個作為方向向量。

1.5?挑戰(zhàn)

由于是單張圖像,是2D維度的,沒有深度信息3D框的中心點(diǎn)在圖像中位置,模型難以精準(zhǔn)預(yù)測出來。

2D圖像的缺點(diǎn)是缺乏深度信息,這對于準(zhǔn)確的物體大小和位置估計(jì)(尤其是在弱光條件下)以及檢測遠(yuǎn)處和被遮擋的物體,難以檢測。

二、直接回歸的方法

基于直接回歸的方法。主要有MonoCon、MonoDLE、MonoFlex、CUPNet、SMOKE、 MonoPair、 DEVIANT等算法。

這些算法主要利用幾何先驗(yàn)知識,和深度估計(jì)的不確定性建模來提高算法性能。

Anchor?based(基于錨框)

Deep3Dbbox算法,利用2D檢測框和幾何投影,并預(yù)測物體3D位姿和尺寸,通過求解目標(biāo)中心到相機(jī)中心的平移矩陣,使預(yù)測的3D檢測框重投影中心坐標(biāo)與2D檢測框中心坐標(biāo)的誤差最小。

MonoDIS算法,利用解耦的回歸損失代替之前同時(shí)回歸中心點(diǎn)、尺寸和角度的損失函數(shù),該損失函數(shù)將回歸部分分成K 組,通過單獨(dú)回歸參數(shù)組來解決不同參數(shù)之間的依賴關(guān)系,有效避免了各參數(shù)間誤差傳遞的干擾,使得訓(xùn)練更加穩(wěn)定。

預(yù)先對全部場景給出了各類目標(biāo)的錨框,即Anchor-based。這種方法在一定程度上能夠解決目標(biāo)尺度不一和遮擋問題提高檢測精度但缺乏效率性且很難枚舉所有的方向,或?yàn)樾D(zhuǎn)的目標(biāo)擬合一個軸對齊的包圍框,泛化能力欠缺些。

Anchor?free(不用錨框)

Anchor?free?拋棄了需要生成的復(fù)雜錨框, 而是通過直接預(yù)測目標(biāo)的角點(diǎn)或中心點(diǎn)等方法來形成檢測框。

RTM3D算法,直接預(yù)測3D框的8個頂點(diǎn)和1個中心點(diǎn),然后通過使用透視投影的幾何約束估計(jì)3D邊框。

SMOKE算法,舍棄了對2D邊界框的回歸,通過將單個關(guān)鍵點(diǎn)估計(jì)與回歸的三維變量,來預(yù)測每個檢測目標(biāo)的3D框。設(shè)計(jì)了基于關(guān)鍵點(diǎn)的3D檢測分支并去除了2D檢測分支。

MonoFlex算法,設(shè)計(jì)了解耦截?cái)嗄繕?biāo)和正常目標(biāo)的預(yù)測方法,通過組合基于關(guān)鍵點(diǎn)的深度和直接回歸深度進(jìn)行精確的實(shí)例度估計(jì)。

GUPNet算法,利用幾何不確定性投影模塊解決幾何投影過程的誤差放大問題,并提出了分層任務(wù)學(xué)習(xí)來解決多任務(wù)下參數(shù)的學(xué)習(xí)問題。

MonoDLE算法,進(jìn)行了一系列的 實(shí)驗(yàn),發(fā)現(xiàn)了定位誤差是影響單目3D目標(biāo)檢測模型性能的關(guān)鍵因素。因此,MonoDLE改進(jìn)了中心點(diǎn)的取法,采用了從3D投影中心而不是2D邊界框中心獲取中心點(diǎn)的方法, 以提高模型性能。此外,在實(shí)例深度估計(jì)任務(wù)上,MonoDLE采用了不確定性原理對實(shí)例深度進(jìn)行估計(jì)。

MonoCon算法,在MonoDLE算法的基礎(chǔ)上添加了輔助學(xué)習(xí)模塊,提升了模型的泛化能力。

DEVIANT算法,提出深度等變性網(wǎng)絡(luò)來解決現(xiàn)有神經(jīng)網(wǎng)絡(luò)模塊在處理3D空間中的任意平移時(shí)缺乏等變性的問題。

這一類基于直接回歸的方法,僅使用單目圖像完成模型訓(xùn)練與推理。

下面選一些實(shí)時(shí)性好的模型,進(jìn)行詳細(xì)講解。

2.1?SMOKE【CVPR2020】

SMOKE是一種實(shí)時(shí)單目 3D 物體檢測器,它提出了一個基于關(guān)鍵點(diǎn)預(yù)測的,一階段單目3D檢測框架,去掉了2D框預(yù)測部分,直接預(yù)測目標(biāo)的3D屬性信息。

輸入單張圖像。

輸出其中每個目標(biāo)的類別、3D邊界框用7個參數(shù)表示(h、w、l、x、y、z、θ)

  • (h、w、l) 表示目標(biāo)的高度、寬度和長度;
  • (x、y、z) 表示目標(biāo)中心點(diǎn)在相機(jī)坐標(biāo)系下的坐標(biāo);
  • θ 表示目標(biāo)的航向角。

論文名稱:SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation

論文地址:https://arxiv.org/pdf/2002.10111.pdf

開源地址:GitHub - lzccccc/SMOKE: SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation

SMOKE 整體框架,如下圖所示。輸入圖像經(jīng)過DLA-34 Backbone進(jìn)行特征提取。檢測頭主要包含兩個分支:關(guān)鍵點(diǎn)分支和3D邊界框回歸分支。

SMOKE的Backbone(主干網(wǎng)絡(luò)):

  • Deep Layer Aggregation,DLA-34網(wǎng)絡(luò)(基礎(chǔ))
  • Deformable Convolutional ,可變形卷積(改進(jìn)點(diǎn))
  • Group Normbalization,組歸一化(改進(jìn)點(diǎn))

檢測頭部分:

  • 關(guān)鍵點(diǎn)檢測分支
  • 3D邊界框回歸分支

?在關(guān)鍵點(diǎn)分支中,圖像中的每一個目標(biāo)用一個關(guān)鍵點(diǎn)進(jìn)行表示。?這里的關(guān)鍵點(diǎn)被定義為目標(biāo)3D框的中心點(diǎn)在圖像平面上的投影點(diǎn),而不是目標(biāo)的2D框中心點(diǎn)。

??

3D邊界框回歸分支中,

在Kitti 數(shù)據(jù)集Test中測試,Car類別的模型精度。

模型效果:

??

這里只是簡單講了一下,詳細(xì)講解看我這篇博客:

【論文解讀】SMOKE 單目相機(jī) 3D目標(biāo)檢測(CVPR2020)_相機(jī)smoke-CSDN博客

環(huán)境搭建和模型訓(xùn)練參考這篇博客:單目3D目標(biāo)檢測——SMOKE 環(huán)境搭建|模型訓(xùn)練_一顆小樹x的博客-CSDN博客

模型推理和可視化參考這篇博客:單目3D目標(biāo)檢測——SMOKE 模型推理 | 可視化結(jié)果-CSDN博客

2.2?MonoDLE(CVPR2021)

MonoDLE作為一個延續(xù)CenterNet框架的單目3d檢測器,在不依賴dcn的情況下獲得了較好的性能,可以作為baseline。

MonoDLE和SMOKE有些像,都是單目實(shí)現(xiàn)3D目標(biāo)檢測,通過幾何約束和回歸3D框信息,得到3D框的中心點(diǎn)、尺寸、朝向,但是它反駁了SMOKE提出的2D檢測對3D檢測沒有幫助的論點(diǎn)。

開源地址:https://github.com/xinzhuma/monodle

論文地址:【CVPR2021】Delving into Localization Errors for Monocular 3D Object Detection

論文核心觀點(diǎn),主要包括為三點(diǎn):

  1. 2d box中心點(diǎn)與投影下來的3d box中心點(diǎn),存在不可忽視的差異優(yōu)先使用3d box投影下來的中心點(diǎn)
  2. 較遠(yuǎn)目標(biāo),會帶偏模型訓(xùn)練在訓(xùn)練時(shí),可以過濾這些過遠(yuǎn)的物體標(biāo)簽。
  3. 提出了一種面向 3D IoU 的損失,用于對象的大小估計(jì),不受“定位誤差”的影響。

MonoDLE是基于CenterNet框架,實(shí)現(xiàn)單目3d檢測的。模型結(jié)構(gòu)如下:

Backbone:DLA34

Neck:DLAUp

2D 框檢測:3個分支

  • 分支一 通過輸出heatmap,預(yù)測2D框中心點(diǎn)的粗略坐標(biāo),以及類別分?jǐn)?shù)。(CenterNet用的是標(biāo)簽中2D框中心作為GT值來監(jiān)督,MonoDLE采用了3D投影坐標(biāo)作為粗坐標(biāo)的監(jiān)督
  • 分支二?預(yù)測的2D框中心點(diǎn)粗坐標(biāo)與真實(shí)坐標(biāo)之間的偏移。
  • 分支三?預(yù)測2D框的size。

3D Detection:4個分支

  • ?分支一?預(yù)測2D框中心點(diǎn)粗坐標(biāo)的深度值。
  • ?分支二?預(yù)測2D框中心點(diǎn)粗坐標(biāo)與真實(shí)的3D投影坐標(biāo)之間的偏移。
  • ?分支三?預(yù)測3D框的size。
  • ?分支四?預(yù)測偏航角。

模型結(jié)構(gòu)如下圖所示:

MonoDLE的損失由7部分組成,

  • 分類損失:Focal Loss
  • 2D 中心點(diǎn)損失:L1 Loss
  • 2D size損失:L1 Loss
  • 3D 深度估計(jì)損失:
  • 3D 中心點(diǎn)損失:L1 Loss
  • 3D heading angle:multi-bin Loss
  • 3D size:普通的L1 Loss & MonoDLE提出的 IoU Loss

在Kitti驗(yàn)證集做實(shí)驗(yàn),評價(jià)指標(biāo)為Car類別的AP40(BEV / 3D)

  • p?表示使用3D 投影中心作為粗中心坐標(biāo)的監(jiān)督
  • I?表示使用對3D size估計(jì)的IOU oriented optimization
  • s?表示忽略遠(yuǎn)距離目標(biāo)

模型預(yù)測效果:

用藍(lán)色、綠色和紅色的方框來表示汽車、行人和騎自行車的人。激光雷達(dá)信號僅用于可視化。

這里只是簡單講了一下,詳細(xì)講解看我這篇博客:【論文解讀】單目3D目標(biāo)檢測 MonoDLE(CVPR2021)-CSDN博客

MonoDLE 模型訓(xùn)練 | 模型推理參考這篇博客:

單目3D目標(biāo)檢測——MonoDLE 模型訓(xùn)練 | 模型推理-CSDN博客

2.3?MonoCon(AAAI2022)

?MonoCon是一個延續(xù)CenterNet框架的單目3d檢測器,在不依賴dcn的情況下獲得了較好的性能,并且融入了輔助學(xué)習(xí),提升模型性能。

曾經(jīng)在Kitti 單目3D目標(biāo)檢測上,霸榜了一段時(shí)間。

MonoCon和MonoDLE很像,在它基礎(chǔ)上添加了一些輔助分支檢測,促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)特征的能力。

  • MonoCon = MonoDLE + 輔助學(xué)習(xí)
  • 輔助學(xué)習(xí):訓(xùn)練階段增加一些網(wǎng)絡(luò)分支,對其計(jì)算loss項(xiàng),而在推理階段完全忽略掉它們,以期得到更好的特征表示。

開源地址(官方):https://github.com/Xianpeng919/MonoCon

開源地址(pytorhc):https://github.com/2gunsu/monocon-pytorch

論文地址:Learning Auxiliary Monocular Contexts Helps Monocular 3D Object Detection

論文核心觀點(diǎn),主要包括為兩點(diǎn):

  1. 帶注釋的3D 邊界框,可以產(chǎn)生大量可用的良好投影的 2D 監(jiān)督信號。
  2. 使用輔助學(xué)習(xí),促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)特征的能力。

MonoCon是基于CenterNet框架,實(shí)現(xiàn)單目3d檢測的。模型結(jié)構(gòu)如下:

Backbone:DLA34

Neck:DLAUp

常規(guī)3D框檢測頭:5個分支

  • ?分支一 通過輸出heatmap,預(yù)測2D框中心點(diǎn)的粗略坐標(biāo),以及類別分?jǐn)?shù)。
  • ?分支二?預(yù)測2D框中心點(diǎn)粗坐標(biāo)與真實(shí)的3D投影坐標(biāo)之間的偏移。
  • ?分支三?預(yù)測2D框中心點(diǎn)粗坐標(biāo)的深度值,和其不確定性。
  • ?分支四?預(yù)測3D框的尺寸。
  • ?分支五?預(yù)測觀測角。

輔助訓(xùn)練頭:5個分支

  • ?分支一? 8個投影角點(diǎn)和3D框的投影中心。
  • ?分支二? 8個投影角點(diǎn)到2D框中心的offsets。
  • ?分支三?2D框的尺寸。
  • ?分支四?2D框中心量化誤差建模。
  • ?分支五?8個投影角點(diǎn)量化誤差建模。

模型結(jié)構(gòu)如下圖所示:

MonoCon的損失由10部分組成,

常規(guī)3D框檢測頭:5個分支

  • ?分支一 heatmap 類別分?jǐn)?shù),使用FocalLoss。2D 中心點(diǎn)損失,使用L1 Loss。
  • ?分支二?2D框中心點(diǎn)粗坐標(biāo)與真實(shí)的3D投影坐標(biāo)之間的偏移,使用L1 Loss。
  • ?分支三?2D框中心點(diǎn)粗坐標(biāo)的深度值,和其不確定性,使用Laplacian Aleatoric Uncertainty Loss。(MonoPair & MonoDLE & MonoFlex & GUPNet)
  • ?分支四?預(yù)測3D框的尺寸,使用Dimension-Aware L1 Loss(MonoDLE)。
  • ?分支五?預(yù)測觀測角,multi-bin Loss,其中分類部分使用 CrossEntropyLoss,回歸部分使用?L1 Loss。

輔助訓(xùn)練頭:5個分支

  • ?分支一? 8個投影角點(diǎn)和3D框的投影中心,使用FocalLoss。
  • ?分支二? 8個投影角點(diǎn)到2D框中心的offsets,使用L1 Loss。
  • ?分支三?2D框的尺寸,使用L1 Loss。
  • ?分支四?2D框中心量化誤差建模。
  • ?分支五?8個投影角點(diǎn)量化誤差建模。

?論文于KITTI 官方測試集中“汽車類別”的最先進(jìn)方法進(jìn)行比較,使用單個2080Ti GPU顯卡測試的。

下表中由BEV和3D的測試結(jié)果,MonoCon運(yùn)行時(shí)間和精度都是Top 級別的。

作者基于MonoDLE進(jìn)行了對比實(shí)驗(yàn),分析5個輔助訓(xùn)練分支,和把BN歸一化換為AN歸一化,對模型精度的影響。

模型預(yù)測效果:

下面是單目3D目標(biāo)檢測的效果,激光雷達(dá)點(diǎn)云數(shù)據(jù)僅用于可視化。

在前視圖圖像中,預(yù)測結(jié)果以藍(lán)色顯示,而地面實(shí)況以橙色顯示。

分別顯示2D框、3D框、BEV的檢測效果:

這里只是簡單講了一下,詳細(xì)講解看我這篇博客:【論文解讀】單目3D目標(biāo)檢測 MonoCon(AAAI2022)-CSDN博客

MonoCon 模型訓(xùn)練和模型推理參考這篇博客:單目3D目標(biāo)檢測——MonoCon 模型訓(xùn)練 | 模型推理-CSDN博客

2.4?CUPNet(ICCV 2021)

?CUPNet是基于幾何約束和回歸方式輸出3D框信息,在不依賴dcn的情況下獲得了較好的性能。

它也是一款兩階段的單目3d檢測器,先回歸2D框信息,在ROI區(qū)域進(jìn)一步提取特征,生成3D框信息。

開源地址:GitHub - SuperMHP/GUPNet

論文地址:Geometry Uncertainty Projection Network for Monocular 3D Object Detection

論文核心觀點(diǎn),主要包括為兩點(diǎn):

  • 1、物體高度估計(jì)誤差,對深度計(jì)算有著較大的影響。
  • 2、模型訓(xùn)練的穩(wěn)定性。在模型訓(xùn)練初期,物體高度的預(yù)測往往存在較大偏差,也因此導(dǎo)致了深度估算偏差較大。較大誤差往往導(dǎo)致網(wǎng)絡(luò)訓(xùn)練困難,從而影響整體網(wǎng)絡(luò)性能。
  • 3、推斷可靠性問題。如果物體的高度預(yù)測存在較大偏差,相應(yīng)計(jì)算出的深度值也會存在較大誤差。

?CUPNet是一個兩階段的框架,實(shí)現(xiàn)單目3d檢測的。模型結(jié)構(gòu)如下:

Backbone:DLA34

Neck:DLAUp

第一部分 2D 檢測:3個分支

  • 分支一 通過輸出heatmap,預(yù)測所有類別的中心點(diǎn)(默認(rèn)類別為3)。
  • 分支二?預(yù)測的2D框中心點(diǎn)的偏移。
  • 分支三?預(yù)測2D框的size。

第二部分 3D 檢測:4個分支

  • ?分支一?預(yù)測偏航角。
  • ?分支二?預(yù)測3D框的size。
  • ?分支三?預(yù)測中心點(diǎn)的深度值,和和其不確定性(深度學(xué)習(xí)偏差)。
  • ?分支四?預(yù)測2D框中心點(diǎn)與真實(shí)的3D投影坐標(biāo)之間的偏移。

模型結(jié)構(gòu)如下圖所示:(基于CenterNet的2D檢測+ROI特征提取+基礎(chǔ)3D檢測頭)

整體的模型結(jié)構(gòu),可分為4步:

  1. 輸入圖像,經(jīng)過主干網(wǎng)絡(luò)提取特征。
  2. 基于CenterNet的2D框預(yù)測部分,用于輸出熱力圖,信息包括:2D中心點(diǎn)、偏移量、2D框的尺寸。
  3. 提取出ROI的特征。
  4. 利用所提取的ROI特征,輸入到不同的網(wǎng)絡(luò)頭,以獲得物體3D框信息,包括:偏轉(zhuǎn)角度、尺寸、深度值、物體3d框中心在圖像投影點(diǎn)的偏移量。

?在第四步時(shí),首先估計(jì)出3D框除了“深度值”以外的所有參數(shù),然后2D框與3D框的高度將被輸入到GUP模塊中,提取出最終的depth。

?

?CUPNet 的損失由7部分組成,

2D 框檢測損失:3部分

  • 分支一 通過輸出heatmap,預(yù)測所有類別的中心點(diǎn);使用 Focal Loss 函數(shù)。
  • 分支二?預(yù)測的2D框中心點(diǎn)的偏移;使用?L1 Loss 函數(shù)。
  • 分支三?預(yù)測2D框的size;使用?L1 Loss 函數(shù)。

3D Detection損失:4部分

  • ?分支一?預(yù)測偏航角。類別使用交叉熵?fù)p失,偏航角使用L1 Loss。
  • ?分支二?預(yù)測3D框的size。長和寬為L1 Loss,權(quán)重占2/3,3D 高使用laplacian_aleatoric_uncertainty_loss() 函數(shù),權(quán)重占1/3。
  • ?分支三?預(yù)測中心點(diǎn)的深度值,和和其不確定性;使用 laplacian_aleatoric_uncertainty_loss() 函數(shù)。
  • ?分支四?預(yù)測2D框中心點(diǎn)與真實(shí)的3D投影坐標(biāo)之間的偏移;使用?L1 Loss 函數(shù)。

?在KITTI 測試集上的 3D物體檢測,用以粗體突出顯示最佳結(jié)果

在KITTI 驗(yàn)證集,汽車類別,進(jìn)行消融實(shí)驗(yàn):

模型效果:

這里只是簡單講了一下,詳細(xì)講解看我這篇博客:【論文解讀】單目3D目標(biāo)檢測 CUPNet(ICCV 2021)-CSDN博客

2.5?MonoFlex(CVPR 2021)

?MonoFlex是一種端到端單階段的單目3D目標(biāo)檢測方法,它基于CenterNet框架結(jié)合幾何約束,回歸方式輸出3D框信息。

它優(yōu)化了被截?cái)辔矬w的3D檢測,同時(shí)優(yōu)化了中心點(diǎn)的深度估計(jì),檢測速度也比較快。

開源地址:GitHub - zhangyp15/MonoFlex: Released code for Objects are Different: Flexible Monocular 3D Object Detection, CVPR21

論文地址:Objects are Different: Flexible Monocular 3D Object Detection

論文核心觀點(diǎn),主要有3點(diǎn)組成:

  • 1、截?cái)嗟奈矬w正常的物體分開處理,提出了截?cái)嗄繕?biāo)預(yù)測的解耦方法。主要體現(xiàn)在:截?cái)嗟闹行狞c(diǎn)選取差異。
  • 2、深度估計(jì)中同時(shí)考慮:關(guān)鍵點(diǎn)估計(jì)的幾何深度、直接回歸深度,然后兩者做加權(quán)結(jié)合。
  • 3、邊緣特征提取和融合,單獨(dú)把邊沿的像素拿出來做注意力特征提取,提高offset和heat map的精度。

MonoFlex是一個單階段的框架,實(shí)現(xiàn)單目3d檢測的模型結(jié)構(gòu)如下:

Backbone:DLA34

Neck:FPN

Head:由四部分組成

第一部分,預(yù)測2D框中心點(diǎn)。

  • 通過輸出heatmap,預(yù)測所有類別的中心點(diǎn)(默認(rèn)類別為3)。
  • 這部分加入了Edge Fusion,增強(qiáng)邊緣的中心點(diǎn)預(yù)測。

第二部分,預(yù)測中心點(diǎn)的偏差。

  • 對于正常物體,預(yù)測2D框中心點(diǎn)與3D框投影坐標(biāo)之間的偏差。
  • 對于截?cái)辔矬w,預(yù)測2D框中心,和3D框中心投影點(diǎn)與圖像邊沿之間交點(diǎn)的偏差。(下面詳細(xì)講)

?第三部分,預(yù)測常規(guī)的信息。

  • 2D框?qū)捀摺?/li>
  • 3D方向。
  • 3D尺寸。

第四部分,預(yù)測深度信息。

  • 深度信息1:模型直接歸回的深度信息。
  • 深度信息2:通過關(guān)鍵點(diǎn)和幾何約束,計(jì)算出來的深度信息。估計(jì)一共10個關(guān)鍵點(diǎn):3D框8個頂點(diǎn)和上框面、下框面在圖片中的投影到x_r的offset;然后通過相機(jī)模型計(jì)算深度。
  • 深度信息融合,把幾何深度、直接回歸深度,然后兩者做加權(quán)結(jié)合。

模型結(jié)構(gòu)如下圖所示:?

補(bǔ)充一下Edge Fusion模塊:

為了提高截?cái)辔矬w的中心點(diǎn)檢測,提出了邊緣特征提取和融合,單獨(dú)把邊沿的像素拿出來做注意力特征提取,提高offset和heat map的精度。

  • 模塊首先提取特征映射的四個邊界,將其連接到邊緣特征向量中。
  • 然后由兩個1*1 conv處理,以學(xué)習(xí)截?cái)鄬ο蟮奈ㄒ惶卣鳌?/li>
  • 最后,將處理的向量重新映射到四個邊界,并添加到輸入特征圖。

在熱圖預(yù)測中,邊緣特征可以專門用于預(yù)測外部對象的邊緣熱圖,從而使內(nèi)部對象的位置不被混淆。

MonoFlex 的損失由6部分組成:

  • 2D框中心點(diǎn)損失,通過輸出heatmap,預(yù)測所有類別的中心點(diǎn);使用 Focal Loss 函數(shù)。
  • 2D框尺寸損失,使用?L1 Loss 函數(shù)。
  • 3D框中心點(diǎn)與2D框中心點(diǎn)的偏差損失,使用?L1 Loss 函數(shù)。
  • 3D朝向角損失,使用MultiBin 函數(shù)。
  • 3D尺寸損失,使用?L1 Loss 函數(shù)。
  • 深度信息損失,包括直接回歸損失和關(guān)鍵點(diǎn)損失。

?在KITTI 驗(yàn)證/測試集上的實(shí)驗(yàn),選擇Car類別。模型精度高,實(shí)時(shí)性好。

模型檢測效果:

在截?cái)辔矬w的檢測效果:

這里只是簡單講了一下,詳細(xì)講解看我這篇博客:【論文解讀】單目3D目標(biāo)檢測 MonoFlex(CVPR 2021)-CSDN博客

三、基于深度信息方法

基于深度信息引導(dǎo)的方法。這類算法利用單目深度估計(jì)模型預(yù)先得到像素級深度圖,將深度圖與單目圖像結(jié)合后輸入檢測器

這類方法依賴于預(yù)先得到的像素級深度圖,受限于深度估計(jì)模型的準(zhǔn)確性,其預(yù)測誤差會進(jìn)一步引入到單目3D目標(biāo)檢測模型中。

考慮工程落地和模型精度速度,這類方法不會細(xì)講~?

MF3D算法,通過子網(wǎng)絡(luò)生成深度圖,并將目標(biāo)感興趣區(qū)域與深度圖進(jìn)行融合以回歸目標(biāo)3D位置信息。

MonoGRNet算法,引入一種全新的實(shí)例深度估計(jì)算法,利用稀疏監(jiān)督預(yù)測目標(biāo)3D邊框中心的深度。不同于MF3D生成整個輸入圖像的深度圖方法,該方法只對目標(biāo)區(qū)域進(jìn)行深度估計(jì),避免了額外的計(jì)算量。

D4LCN算法,一種局部卷積神經(jīng)網(wǎng)絡(luò),通過自動學(xué)習(xí)基于深度圖中的卷積核及其接受域,克服了傳統(tǒng)二維卷積無法捕獲物體多尺度信息的問題。

?MonoPSR算法,用相機(jī)成像原理計(jì)算圖像中像素尺寸,與3D空間之間的比例關(guān)系,估計(jì)目標(biāo)的深度位置信息。

許多單目3D目標(biāo)檢測算法將這些深度估計(jì)算法視為其自身網(wǎng)絡(luò)的子模塊。深度估計(jì)可以彌補(bǔ)單目視覺的不足,更準(zhǔn)確地檢測物體的三維信息。

四、基于點(diǎn)云信息方法

雖然深度信息有助于3D場景的理解,但簡單地將其作為RGB 圖像的額外通道,并不能彌補(bǔ)基于單目圖像的方法和基于點(diǎn)云的方法之間的性能差異。

基于點(diǎn)云信息引導(dǎo)的方法。這類算法借助激光的雷達(dá)點(diǎn)云信息作為輔助監(jiān)督進(jìn)行模型訓(xùn)練,在推理時(shí)只需輸入圖像和單目相機(jī)信息。

Pseudo?lidar算法,采用單目深度估計(jì)算法DORN進(jìn)行深度估計(jì), 將得到的像素深度反投影為3D點(diǎn)云, 從而形成了偽激光點(diǎn)云數(shù)據(jù)。最后利用已有的基于點(diǎn)云的檢測算法Frustum

PointNets進(jìn)行3D框檢測。

Pseudo-lidar++算法,在初始深度估計(jì)的指導(dǎo)下,將測量數(shù)據(jù)分散到整個深度圖中以提高檢測精度。并利用更加便宜的4線激光雷達(dá)來代替64線激光雷達(dá)以微調(diào)檢測結(jié)果。

CaDDN算法,通過將深度分類來生成視錐特征,并通過相機(jī)參數(shù)進(jìn)一步轉(zhuǎn)化為體素特征,并完成BEV特征生成和3D檢測。由于CaDDN使用多個輸入轉(zhuǎn)換分支完成3D檢測,導(dǎo)致其模型推理速度緩慢,不適用于實(shí)時(shí)場景。

補(bǔ)充一下,引入Transformer的模型:

MonoDTR算法,則將Transformer引入單目3D目標(biāo)檢測領(lǐng)域,通過深度感知特征增強(qiáng)模塊和深度感知Transformer模塊,實(shí)現(xiàn)全局上下文和深度感知特征的綜合,將使用深度位置編碼向Transformer注入深度位置提示,可以更好地將Transformer應(yīng)用于單目3D目標(biāo)檢測領(lǐng)域。但 MonoDTR使用的自注意力機(jī)制難以處理多尺度目標(biāo) ,表現(xiàn)為對遠(yuǎn)端目標(biāo)的檢測能力下降。

現(xiàn)有方法通常會考慮利用預(yù)訓(xùn)練的深度模型,或是激光雷達(dá)方法的檢測器來輔助完成檢測,并且在最近幾年中許多直接回歸三維參數(shù)的方法也涌現(xiàn)了出來。

本文會持續(xù)更新~

單目3D目標(biāo)檢測專欄,大家可以參考一下

?【數(shù)據(jù)集】單目3D目標(biāo)檢測:

3D目標(biāo)檢測數(shù)據(jù)集 KITTI(標(biāo)簽格式解析、3D框可視化、點(diǎn)云轉(zhuǎn)圖像、BEV鳥瞰圖)_kitti標(biāo)簽_一顆小樹x的博客-CSDN博客

3D目標(biāo)檢測數(shù)據(jù)集 DAIR-V2X-V_一顆小樹x的博客-CSDN博客

【論文解讀】單目3D目標(biāo)檢測:

【論文解讀】SMOKE 單目相機(jī) 3D目標(biāo)檢測(CVPR2020)_相機(jī)smoke-CSDN博客

【論文解讀】單目3D目標(biāo)檢測 CUPNet(ICCV 2021)-CSDN博客

【論文解讀】單目3D目標(biāo)檢測 DD3D(ICCV 2021)-CSDN博客

【論文解讀】單目3D目標(biāo)檢測 MonoDLE(CVPR2021)_一顆小樹x的博客-CSDN博客

【論文解讀】單目3D目標(biāo)檢測 MonoFlex(CVPR 2021)-CSDN博客

【論文解讀】單目3D目標(biāo)檢測 MonoCon(AAAI2022)_一顆小樹x的博客-CSDN博客

【實(shí)踐應(yīng)用】

單目3D目標(biāo)檢測——SMOKE 環(huán)境搭建|模型訓(xùn)練_一顆小樹x的博客-CSDN博客

單目3D目標(biāo)檢測——SMOKE 模型推理 | 可視化結(jié)果-CSDN博客

單目3D目標(biāo)檢測——MonoDLE 模型訓(xùn)練 | 模型推理_一顆小樹x的博客-CSDN博客

單目3D目標(biāo)檢測——MonoCon 模型訓(xùn)練 | 模型推理-CSDN博客

http://www.risenshineclean.com/news/877.html

相關(guān)文章:

  • 網(wǎng)站建設(shè)工期時(shí)間表站長統(tǒng)計(jì)免費(fèi)下載
  • 企業(yè)電話認(rèn)證百度seo教程視頻
  • 四川德立勝建設(shè)工程有限公司網(wǎng)站軟文范例大全300字
  • 做同性戀的珠寶網(wǎng)站尋找外貿(mào)客戶的網(wǎng)站
  • 人大網(wǎng)站建設(shè)報(bào)價(jià)單湖北網(wǎng)站seo
  • 建設(shè)的網(wǎng)站搜索引擎關(guān)鍵詞優(yōu)化
  • wordpress 融資谷歌seo網(wǎng)絡(luò)公司
  • 貴陽網(wǎng)站建設(shè)服務(wù)公司網(wǎng)站注冊查詢
  • 新手網(wǎng)站百度seo規(guī)則
  • 小程序開發(fā)平臺哪家產(chǎn)品較好汕頭seo快速排名
  • 有沒有專門做設(shè)計(jì)的網(wǎng)站外貿(mào)seo建站
  • 伍佰億網(wǎng)站怎么做2020年可用好用的搜索引擎
  • 圖躍網(wǎng)站建設(shè)國外網(wǎng)站開發(fā)
  • seo網(wǎng)站推廣優(yōu)化站長工具綜合查詢官網(wǎng)
  • 網(wǎng)站建設(shè)公司怎么賺錢網(wǎng)絡(luò)宣傳推廣
  • php與dw怎么做校園網(wǎng)站seo教程
  • 備案期間怎么做網(wǎng)站十大搜索引擎
  • 寧波網(wǎng)站建設(shè) 熊掌號服務(wù)營銷策略
  • be設(shè)計(jì)網(wǎng)站自己開發(fā)網(wǎng)站
  • 時(shí)尚字體設(shè)計(jì)網(wǎng)站網(wǎng)絡(luò)營銷推廣的方式
  • 樂清網(wǎng)站建設(shè)公司網(wǎng)絡(luò)軟文營銷案例3篇
  • 免費(fèi)網(wǎng)站建設(shè)加盟亞洲衛(wèi)星電視網(wǎng)參數(shù)表
  • 網(wǎng)站建設(shè) 中企動力公司搭建網(wǎng)站的步驟和順序
  • 網(wǎng)站app開發(fā)平臺百度非企渠道開戶
  • 孝感網(wǎng)站開發(fā)的公司電話集客營銷軟件
  • 攀枝花建設(shè)工程有限責(zé)任公司網(wǎng)站一元友情鏈接平臺
  • 池州專業(yè)網(wǎng)站建設(shè)谷歌搜索引擎鏡像
  • 網(wǎng)站設(shè)計(jì) 電子購物網(wǎng)站設(shè)計(jì)網(wǎng)絡(luò)精準(zhǔn)推廣
  • 電商網(wǎng)站建設(shè)推廣企業(yè)網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)方案
  • 網(wǎng)站建設(shè)的結(jié)論和體會百度推廣營銷中心