當(dāng)前位置：首頁(yè) > news >正文

武漢建網(wǎng)公司網(wǎng)站建設(shè)一個(gè)新手怎么做推廣

news 2025/7/10 10:55:42

武漢建網(wǎng)公司網(wǎng)站建設(shè),一個(gè)新手怎么做推廣,做集團(tuán)網(wǎng)站一年多少錢,邢臺(tái)公司網(wǎng)站設(shè)計(jì)BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers 目錄摘要1 介紹2 相關(guān)工作2.1 基于Transformer的2D感知摘要 3D視覺(jué)感知任務(wù)對(duì)于自動(dòng)駕駛系統(tǒng)至關(guān)重要，包括基于多相機(jī)圖像的3D檢測(cè)和地圖分割?！?article class="baidu_pl">

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

摘要

3D視覺(jué)感知任務(wù)對(duì)于自動(dòng)駕駛系統(tǒng)至關(guān)重要，包括基于多相機(jī)圖像的3D檢測(cè)和地圖分割。在這項(xiàng)工作中，我們提出了一個(gè)名為BEVFormer的新框架，它使用時(shí)空變換器學(xué)習(xí)統(tǒng)一的BEV表示，以支持多種自動(dòng)駕駛感知任務(wù)。簡(jiǎn)而言之，BEVFormer通過(guò)預(yù)定義的網(wǎng)格狀的BEV查詢來(lái)進(jìn)行時(shí)空交互，以此來(lái)利用時(shí)空信息。為了聚合空間信息，我們?cè)O(shè)計(jì)了空間交叉注意力，每個(gè) BEV查詢從跨相機(jī)視圖的感興趣區(qū)域中提取空間特征。對(duì)于時(shí)間信息，我們提出時(shí)間自我注意力來(lái)循環(huán)融合歷史BEV信息。我們的方法在 nuScenes 測(cè)試集上的NDS指標(biāo)方面達(dá)到了新的最佳水平56.9%，比之前的最佳技術(shù)高出9.0分，與基于LiDAR的基線的性能相當(dāng)。我們進(jìn)一步表明，BEVFormer顯著提高了低能見(jiàn)度條件下速度估計(jì)的準(zhǔn)確率和目標(biāo)的召回。代碼可以在https://github.com/zhiqi-li/BEVFormer上找到。

1 介紹

3D空間中的感知對(duì)于自動(dòng)駕駛、機(jī)器人等各種應(yīng)用至關(guān)重要。盡管基于LiDAR的方法取得了顯著進(jìn)展，但基于相機(jī)的方法近年來(lái)引起了廣泛關(guān)注。除了部署成本低之外，與激光雷達(dá)相比，相機(jī)還具有檢測(cè)遠(yuǎn)距離物體和識(shí)別基于視覺(jué)的道路元素（例如交通燈、停止線）的理想優(yōu)勢(shì)。

在這里插入圖片描述
圖1 我們提出了BEVFormer，這是一種自動(dòng)駕駛范例，它應(yīng)用Transformer和Temporal結(jié)構(gòu)從多相機(jī)輸入中生成鳥(niǎo)瞰圖(BEV)特征。BEV-Former利用查詢來(lái)查找時(shí)空，并聚合其信息，從而有利于感知任務(wù)的更強(qiáng)的表征。

自動(dòng)駕駛中對(duì)周圍場(chǎng)景的視覺(jué)感知有望根據(jù)多個(gè)相機(jī)給出的二維線索預(yù)測(cè)三維邊界框或語(yǔ)義圖。最直接的解決方案是基于單目框架和多相機(jī)后處理。該框架的缺點(diǎn)是，它分別處理不同的視圖，無(wú)法跨相機(jī)捕獲信息，導(dǎo)致性能和效率較低。

作為單目框架的替代，更統(tǒng)一的框架是從多相機(jī)圖像中提取整體表示。鳥(niǎo)瞰圖(BEV)是周圍場(chǎng)景的常用表示形式，因?yàn)樗梢郧逦爻尸F(xiàn)物體的位置和比例，適用于各種自動(dòng)駕駛?cè)蝿?wù)，例如感知和規(guī)劃。盡管先前的地圖分割方法證明了BEV的有效性，但基于BEV的方法在3D物體檢測(cè)方面并未表現(xiàn)出比其他范式更顯著的優(yōu)勢(shì)。根本原因是3D物體檢測(cè)任務(wù)需要強(qiáng)大的BEV特征來(lái)支持準(zhǔn)確的3D邊界框預(yù)測(cè)，但從2D平面生成BEV是不適當(dāng)?shù)?。一種流行的生成BEV特征的 BEV框架基于深度信息，但該范式對(duì)深度值或深度分布的準(zhǔn)確性很敏感。因此，基于BEV的方法的檢測(cè)性能容易受到復(fù)合誤差的影響，不準(zhǔn)確的BEV特征會(huì)嚴(yán)重?fù)p害最終性能。因此，我們的目標(biāo)是設(shè)計(jì)一種不依賴深度信息并且可以自適應(yīng)地學(xué)習(xí)BEV特征而不是嚴(yán)格依賴3D先驗(yàn)的BEV生成方法。Transformer使用注意力機(jī)制來(lái)動(dòng)態(tài)聚合有價(jià)值的特征，從概念上滿足了你的需求。

使用BEV特征執(zhí)行感知任務(wù)的另一個(gè)動(dòng)機(jī)是BEV是連接時(shí)間和空間的理想橋梁。對(duì)于人類的視覺(jué)感知系統(tǒng)來(lái)說(shuō)，時(shí)間信息在推斷物體的運(yùn)動(dòng)狀態(tài)、識(shí)別被遮擋的物體等方面起著至關(guān)重要的作用，視覺(jué)領(lǐng)域的許多研究已經(jīng)證明了利用視頻數(shù)據(jù)的有效性。然而，現(xiàn)有的最先進(jìn)的多相機(jī)3D檢測(cè)方法很少利用時(shí)序信息。重大挑戰(zhàn)在于自動(dòng)駕駛對(duì)時(shí)間至關(guān)重要并且場(chǎng)景中的物體變化很快，因此簡(jiǎn)單地堆疊跨時(shí)間戳的BEV特征會(huì)帶來(lái)額外的計(jì)算成本和干擾信息，這可能并不理想。受到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的啟發(fā)，我們利用BEV特征來(lái)循環(huán)傳遞從過(guò)去到現(xiàn)在的時(shí)間信息，這與RNN模型的隱藏狀態(tài)具有相同的精神。

為此，我們提出了一種基于Transformer的鳥(niǎo)瞰圖(BEV)編碼器，稱為BEVFormer，它可以有效地聚合來(lái)自多視角相機(jī)的時(shí)空特征和歷史BEV特征。BEVFormer生成的BEV特征可以同時(shí)支持多個(gè)3D感知任務(wù)，例如3D物體檢測(cè)和地圖分割，這對(duì)于自動(dòng)駕駛系統(tǒng)非常有價(jià)值。如圖1所示，我們的BEVFormer包含三個(gè)關(guān)鍵設(shè)計(jì)。其一，網(wǎng)格狀BEV查詢通過(guò)注意力機(jī)制靈活地融合空間和時(shí)間特征。其二，空間交叉注意模塊，用于聚合來(lái)自多相機(jī)圖像的空間特征。其三，時(shí)間自注意力模塊從歷史BEV特征中提取時(shí)間信息，這有利于運(yùn)動(dòng)物體的速度估計(jì)和嚴(yán)重遮擋物體的檢測(cè)，同時(shí)帶來(lái)可忽略不計(jì)的計(jì)算開(kāi)銷。借助BEVFormer生成的統(tǒng)一特征，該模型可以與不同任務(wù)特定頭（如可變形DETR和掩模解碼器）協(xié)作，實(shí)現(xiàn)端到端3D目標(biāo)檢測(cè)和地圖分割。我們的主要貢獻(xiàn)如下：

我們提出了BEVFormer，這是一種時(shí)空變換器編碼器，可將多相機(jī)和/或時(shí)間戳輸入投射到BEV表示中。通過(guò)統(tǒng)一的BEV特征，我們的模型可以同時(shí)支持多項(xiàng)自動(dòng)駕駛感知任務(wù)，包括3D檢測(cè)和地圖分割。
我們?cè)O(shè)計(jì)了可學(xué)習(xí)的BEV查詢以及空間交叉注意層和時(shí)間自注意層，分別從跨相機(jī)中查找空間特征和從歷史BEV中查找時(shí)間特征，然后將它們聚合為統(tǒng)一的BEV特征。
我們?cè)诙鄠€(gè)具有挑戰(zhàn)性的基準(zhǔn)上對(duì)所提出的BEVFormer進(jìn)行了評(píng)估，包括nuScenes和Waymo。與現(xiàn)有技術(shù)相比，我們的BEVFormer性能持續(xù)提升。例如，在可比較的參數(shù)和計(jì)算開(kāi)銷下，BEVFormer在nuScenes測(cè)試集上實(shí)現(xiàn)了56.9%的NDS，比之前的最佳檢測(cè)方法DETR3D高出9.0分（56.9%對(duì)47.9%）。對(duì)于地圖分割任務(wù)，我們也實(shí)現(xiàn)了最先進(jìn)的性能，在最具挑戰(zhàn)性的車道分割上比Lift-Splat高出5.0分以上。我們希望這個(gè)簡(jiǎn)單而強(qiáng)大的框架可以作為后續(xù)3D感知任務(wù)的新基礎(chǔ)。

2 相關(guān)工作

2.1 基于Transformer的2D感知

最近，一種新的趨勢(shì)是使用transformer來(lái)重新制定檢測(cè)和分割任務(wù)。

查看全文

http://www.risenshineclean.com/news/53161.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

武漢建網(wǎng)公司網(wǎng)站建設(shè)一個(gè)新手怎么做推廣

目錄

摘要

1 介紹

2 相關(guān)工作

2.1 基于Transformer的2D感知

相關(guān)文章：