中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

本地建設(shè)網(wǎng)站寧波網(wǎng)站制作優(yōu)化服務(wù)

本地建設(shè)網(wǎng)站,寧波網(wǎng)站制作優(yōu)化服務(wù),外包app開(kāi)發(fā),各類企業(yè)網(wǎng)站案例前言 傳統(tǒng)的行為預(yù)測(cè)方法是規(guī)則的,基于道路結(jié)構(gòu)的約束生成多個(gè)行為假設(shè)。最近,很多基于學(xué)習(xí)的預(yù)測(cè)方法被提出。他們提出了對(duì)于不同行為假設(shè)的進(jìn)行概率解釋的好處,但是需要重構(gòu)一個(gè)新的表示來(lái)編碼地圖和軌跡信息。有趣的是,雖然高精…

前言

傳統(tǒng)的行為預(yù)測(cè)方法是規(guī)則的,基于道路結(jié)構(gòu)的約束生成多個(gè)行為假設(shè)。最近,很多基于學(xué)習(xí)的預(yù)測(cè)方法被提出。他們提出了對(duì)于不同行為假設(shè)的進(jìn)行概率解釋的好處,但是需要重構(gòu)一個(gè)新的表示來(lái)編碼地圖和軌跡信息。有趣的是,雖然高精度地圖是高度結(jié)構(gòu)化的,但是目前大多數(shù)預(yù)測(cè)方法選擇將高精度地圖渲染成顏色編碼的屬性,并且采用感受野有限的卷積神經(jīng)網(wǎng)絡(luò)對(duì)場(chǎng)景信息進(jìn)行編碼。這帶來(lái)一個(gè)疑問(wèn):能否直接從結(jié)構(gòu)化的高精度地圖中學(xué)習(xí)到有意義的場(chǎng)景信息表示?
在這里插入圖片描述

文章提出直接從它們的矢量形式中學(xué)習(xí)一個(gè)動(dòng)態(tài)交通參與者和結(jié)構(gòu)化場(chǎng)景的統(tǒng)一的表示(如圖1的右圖所示)。道路特征的地理延伸可以是一個(gè)點(diǎn),多邊形或是曲線。例如,車道邊界包含可以構(gòu)成樣條曲線的多個(gè)控制點(diǎn);人行橫道是由幾個(gè)點(diǎn)定義的多邊形;停止標(biāo)識(shí)通過(guò)一個(gè)點(diǎn)來(lái)表示。所有的地理實(shí)體都可以被近似為多個(gè)控制點(diǎn)定義的折線。同時(shí),動(dòng)態(tài)交通參與者也可以通過(guò)他們的運(yùn)動(dòng)軌跡被近似為折線。所有的這些折線都可以表示為矢量的集合。

在這里插入圖片描述

使用圖神經(jīng)網(wǎng)絡(luò)來(lái)合并這些向量的集合。 將每個(gè)向量視為圖中的一個(gè)節(jié)點(diǎn),并且定義節(jié)點(diǎn)的特征包含每個(gè)向量的起始位置和結(jié)束位置,以及其它屬性,包括折線ID和語(yǔ)義標(biāo)簽。通過(guò)圖神經(jīng)網(wǎng)絡(luò),高精度地圖的環(huán)境信息和其他交通參與者的運(yùn)動(dòng)軌跡被整合到目標(biāo)交通參與者節(jié)點(diǎn)上。然后 可以解碼目標(biāo)交通參與者輸出的節(jié)點(diǎn)特征來(lái)預(yù)測(cè)它未來(lái)的運(yùn)動(dòng)軌跡。

特別地,為了學(xué)習(xí)圖神經(jīng)網(wǎng)絡(luò)的競(jìng)爭(zhēng)性表示, 發(fā)現(xiàn)基于節(jié)點(diǎn)的空間和語(yǔ)義鄰近性來(lái)約束圖的連通性是很重要的。因此, 提出了一個(gè)分層的圖網(wǎng)絡(luò)結(jié)構(gòu),首先把具有相同折線ID,并且具有相同語(yǔ)義標(biāo)簽的向量整合成折線特征,然后所有不同的折線特征互相連通交換信息。 通過(guò)多層感知器實(shí)現(xiàn)局部圖,通過(guò)自注意力機(jī)制實(shí)現(xiàn)全局圖的方法如圖2所示。
在這里插入圖片描述

圖2. 提出的VectorNet框架。觀察到的交通參與者運(yùn)動(dòng)軌跡和地圖特征被表示為矢量序列,然后傳入局部圖網(wǎng)絡(luò)中獲得折線級(jí)的特征。這些特征然后被傳入一個(gè)全連接圖網(wǎng)絡(luò)中來(lái)建模高階的交互。 計(jì)算兩類損失:從目標(biāo)交通參與者對(duì)應(yīng)的節(jié)點(diǎn)特征中預(yù)測(cè)其未來(lái)軌跡,以及預(yù)測(cè)圖網(wǎng)絡(luò)中被掩蓋的節(jié)點(diǎn)特征。

最后,受到來(lái)自連續(xù)語(yǔ)音和視覺(jué)數(shù)據(jù)中采用自監(jiān)督學(xué)習(xí)方法的有效性的啟發(fā),在行為預(yù)測(cè)目標(biāo)之外 提出一個(gè)輔助的圖像補(bǔ)全目標(biāo)。具體來(lái)說(shuō)就是, 隨機(jī)掩蓋屬于靜態(tài)場(chǎng)景或是動(dòng)態(tài)軌跡的節(jié)點(diǎn)特征,然后讓模型重構(gòu)被掩蓋的特征。 直覺(jué)上認(rèn)為這樣可以鼓勵(lì)圖網(wǎng)絡(luò)結(jié)構(gòu)更好地捕捉動(dòng)態(tài)交通參與者和靜態(tài)環(huán)境之間的交互??偠灾?#xff0c; 的貢獻(xiàn)主要是:

(1)最先證明如何直接整合矢量化的場(chǎng)景信息和動(dòng)態(tài)交通參與者信息來(lái)實(shí)現(xiàn)行為預(yù)測(cè)。
(2)提出了雙層圖網(wǎng)絡(luò)結(jié)構(gòu)VectorNet和節(jié)點(diǎn)補(bǔ)全輔助任務(wù)。

(3)在內(nèi)部的行為預(yù)測(cè)數(shù)據(jù)集和Argoverse數(shù)據(jù)集上評(píng)估了提出的方法,結(jié)果表明 的方法在減少了超過(guò)70%的模型參數(shù)以及一個(gè)數(shù)量級(jí)的運(yùn)算量的情況下達(dá)到了與采用渲染鳥瞰圖實(shí)現(xiàn)預(yù)測(cè)的方法相當(dāng)甚至更好的性能。同時(shí), 的方法在Argoverse數(shù)據(jù)集上達(dá)到了目前最優(yōu)的水平。

直接從結(jié)構(gòu)化的HD MAP數(shù)據(jù)學(xué)習(xí)一個(gè)信息豐富的上下文(帶動(dòng)態(tài)ObjList),找到一種表示方法將HD Map結(jié)構(gòu)化數(shù)據(jù)跟感知給出的動(dòng)態(tài)的ObjList做到統(tǒng)一表達(dá);然后,基于這個(gè)統(tǒng)一的表達(dá)做軌跡預(yù)測(cè),道路結(jié)構(gòu)(靜態(tài)的環(huán)境信息)和動(dòng)態(tài)的車輛都被表達(dá)成了vector,再次表達(dá)的基礎(chǔ)上做了GNN網(wǎng)絡(luò)來(lái)表達(dá)各個(gè)元素間交互關(guān)系,基于Conv的Encoder會(huì)丟失精度,這里采用MAE做法去做表達(dá)訓(xùn)練增強(qiáng)。

注:如何將HD Map等結(jié)構(gòu)化信息做vector化呢?
基于spline就等間距采樣,基于軌跡就等時(shí)間采樣(對(duì)HD MAP元素1對(duì)1采樣)。
在這里插入圖片描述

dsi/dei起始點(diǎn)的坐標(biāo);ai特征信息,比如限速/車道等;j是在多邊形P中的下標(biāo)。

HD Map:隨著自動(dòng)駕駛等級(jí)的提高,對(duì)地圖信息要求越來(lái)越高,于是HD Map就出現(xiàn)了,他幾乎可以提供所有道路的信息,例如車道線位置,種類,顏色;交通信號(hào)燈位置及朝向,道路維修等信息。

方法

這個(gè)部分介紹了VectorNet方法。首先介紹如何矢量化動(dòng)態(tài)交通參與者的軌跡和高精度地圖。接下來(lái)提出了層級(jí)網(wǎng)絡(luò),它先分別聚合來(lái)自不同折線的局部特征,然后在全局上整合所有軌跡和地圖特征。這個(gè)圖最后將用于行為預(yù)測(cè)。

表示軌跡和地圖

大多數(shù)高精度地圖的標(biāo)注是以樣條曲線(如車道線)、封閉形狀(如交叉路口)和點(diǎn)(如紅綠燈)的形式呈現(xiàn),并且附帶屬性信息,如語(yǔ)義標(biāo)簽和當(dāng)前狀態(tài)(如交通燈的顏色,道路的速度限制)。對(duì)于動(dòng)態(tài)交通參與者,他們的軌跡是關(guān)于時(shí)間的有向樣條曲線的形式。所有這些元素元素都可以近似為矢量序列:對(duì)于地圖特征, 選擇一個(gè)起點(diǎn)和方向,均勻地以相同的空間距離在樣條曲線上采樣關(guān)鍵點(diǎn),然后把相鄰的關(guān)鍵點(diǎn)串聯(lián)成向量;對(duì)于軌跡, 可以通過(guò)固定的時(shí)間間隔(0.1秒)采樣關(guān)鍵點(diǎn),并將它們連接成向量。如果給定的時(shí)空間隔足夠小,得到的這些折線就與原始地圖和軌跡十分接近。

向量化的過(guò)程是一個(gè)在連續(xù)軌跡,地圖標(biāo)注和矢量集合之間的一對(duì)一的映射,雖然后者是無(wú)序的。這使 可以在矢量集合上構(gòu)建一個(gè)可以被圖神經(jīng)網(wǎng)絡(luò)編碼的圖表示結(jié)構(gòu)。更具體地說(shuō), 將屬于折線Pj的每一個(gè)向量vi看出圖中的一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)特征如下:
在這里插入圖片描述

其中dis和die是向量的起點(diǎn)和終點(diǎn)坐標(biāo),其可以表示為2D坐標(biāo)(x,y)或是3D坐標(biāo)(x,y,z);ai對(duì)應(yīng)屬性特征,比如動(dòng)態(tài)交通參與者的類型,軌跡的時(shí)間戳,或是道路特征的類型,或是車道線的速度限制。j是Pj的ID,表示vi屬于Pj。

為了使輸入的節(jié)點(diǎn)特征與對(duì)應(yīng)的交通參與者的位置無(wú)關(guān), 將所有矢量的坐標(biāo)原點(diǎn)確定在對(duì)應(yīng)的交通參與者最后被觀察到的位置。一個(gè)將來(lái)的工作是為所有交互的交通參與者設(shè)定一個(gè)坐標(biāo)原點(diǎn),這樣他們的軌跡可以被平行地預(yù)測(cè)出來(lái)。
在這里插入圖片描述

構(gòu)建折線子圖

為了利用節(jié)點(diǎn)的局部空間和語(yǔ)義信息, 采用了層級(jí)的方法,首先在向量層級(jí)上構(gòu)建子圖,其中屬于同一折線的所有向量節(jié)點(diǎn)互相連接。假設(shè)一個(gè)折線P包含節(jié)點(diǎn){v1,v2,…,vp}, 定義一層子圖的前向操作如下:
其中vi(l)是子圖網(wǎng)絡(luò)第l層的節(jié)點(diǎn)特征。函數(shù)genc(.)編碼獨(dú)立的節(jié)點(diǎn)特征,ψagg(.)聚合所有相鄰節(jié)點(diǎn)的特征,ψrel(.)是節(jié)點(diǎn)vi與其相鄰節(jié)點(diǎn)之間的關(guān)系運(yùn)算。

實(shí)際上,genc(.)是一個(gè)在所有節(jié)點(diǎn)中共享權(quán)重的多層感知器(MLP)。具體來(lái)說(shuō),多層感知器包含一個(gè)的全連接層,然后是層歸一化[3],最后是ReLU激活函數(shù)。ψagg(.)是一個(gè)最大池化操作,ψrel(.)是一個(gè)簡(jiǎn)單的拼接。如圖3所示。 堆疊多層子圖網(wǎng)絡(luò),其中每層genc(.)的權(quán)重是不一樣的。最后,為了獲取折線的特征, 計(jì)算:
在這里插入圖片描述

其中ψagg(.)仍是最大池化。
在這里插入圖片描述

的子圖可以被認(rèn)為是PointNet[22]的一般化:當(dāng) 令ds=de,并且使a為空, 的網(wǎng)絡(luò)和PointNet就有相同的輸入和計(jì)算流程。但是,通過(guò)將排序信息嵌入到向量中,基于不同的折線ID可以限制子圖的連通性,同時(shí)將屬性編碼到節(jié)點(diǎn)特征中, 的方法尤其適合編碼結(jié)構(gòu)化的地圖標(biāo)注和交通參與者的運(yùn)動(dòng)軌跡。

用于高階交互的全局圖

現(xiàn)在考慮通過(guò)一個(gè)全局交互圖來(lái)建模折線節(jié)點(diǎn)特征{p1,p2,….,pp}上的高階交互:
在這里插入圖片描述

其中,{pi(l)}是折線節(jié)點(diǎn)特征的集合,GNN(.)為一層圖神經(jīng)網(wǎng)絡(luò),A為折線節(jié)點(diǎn)集合的鄰接矩陣

領(lǐng)接矩陣A可以是啟發(fā)式的,例如使用節(jié)點(diǎn)之間的空間距離[2]。為簡(jiǎn)單起見(jiàn), 假設(shè)A是一個(gè)全連接圖。 的圖網(wǎng)絡(luò)通過(guò)自注意力機(jī)制實(shí)現(xiàn)在這里插入圖片描述
:

其中P是節(jié)點(diǎn)的特征矩陣,PQ,PK和PV是它的線性映射。

然后 從動(dòng)態(tài)交通參與者對(duì)應(yīng)的節(jié)點(diǎn)解碼預(yù)測(cè)的未來(lái)軌跡:
在這里插入圖片描述

其中Lt是圖神經(jīng)網(wǎng)絡(luò)的層數(shù),ψtraj(.)是軌跡解碼器。為了簡(jiǎn)單起見(jiàn), 使用一個(gè)多層感知器作為軌跡解碼器。更多高級(jí)的解碼器,比如MultiPath[6]提出的基于候選軌跡的方法,或是變分循環(huán)神經(jīng)網(wǎng)絡(luò)[8,26]都可以用來(lái)生成多樣化的軌跡。

在實(shí)現(xiàn)中使用一層圖神經(jīng)網(wǎng)絡(luò),這樣在測(cè)試期間,只需要計(jì)算目標(biāo)交通參與者所對(duì)應(yīng)的節(jié)點(diǎn)特征。但是如果需要, 也可以堆疊多層圖神經(jīng)網(wǎng)絡(luò)來(lái)建模高階交互。

為了鼓勵(lì) 的全局交互圖更好地捕捉不同軌跡和地圖之間的交互, 提出了一個(gè)輔助的圖像補(bǔ)全任務(wù)。在訓(xùn)練過(guò)程中, 隨機(jī)掩蓋一些節(jié)點(diǎn)的特征,然后嘗試去還原被掩蓋的節(jié)點(diǎn)特征:
在這里插入圖片描述

其中ψnode(.)是通過(guò)多層感知器實(shí)現(xiàn)的節(jié)點(diǎn)特征解碼器。這些節(jié)點(diǎn)特征解碼器在測(cè)試階段是不會(huì)使用的。

回顧一下,pi是一個(gè)完全連接的,無(wú)序的圖中的一個(gè)節(jié)點(diǎn)。為了能夠識(shí)別出對(duì)應(yīng)的節(jié)點(diǎn)當(dāng)它對(duì)應(yīng)的節(jié)點(diǎn)特征被掩蓋時(shí), 計(jì)算出所有屬于對(duì)應(yīng)節(jié)點(diǎn)pi的向量中的起始點(diǎn)坐標(biāo)的最小值。然后定義輸入節(jié)點(diǎn)的特征為:
在這里插入圖片描述

圖像補(bǔ)全任務(wù)和自然語(yǔ)言處理中獲得巨大成功的BERT[11]方法息息相關(guān),它從文本數(shù)據(jù)的上下文線索中預(yù)測(cè)缺失的文本輸入。 將這個(gè)訓(xùn)練目標(biāo)推廣到處理無(wú)向圖中。不像最近一些方法(如[25]),將泛化為預(yù)訓(xùn)練的特征圖的無(wú)序圖像補(bǔ)丁, 的節(jié)點(diǎn)特征是在端到端的框架中同時(shí)優(yōu)化的。

整體框架

建立層級(jí)圖神經(jīng)網(wǎng)絡(luò)后, 對(duì)多任務(wù)訓(xùn)練目標(biāo)進(jìn)行優(yōu)化:
在這里插入圖片描述

其中Ltraj是對(duì)未來(lái)真值軌跡的負(fù)高斯對(duì)數(shù)似然,Lnode是預(yù)測(cè)的節(jié)點(diǎn)特征和被掩蓋的真值節(jié)點(diǎn)特征之間的Huber損失,a=1.0是一個(gè)標(biāo)量用來(lái)平衡兩個(gè)損失項(xiàng)。
預(yù)測(cè)的軌跡為每個(gè)時(shí)間步的坐標(biāo)偏移,并從最后一個(gè)觀測(cè)位置開(kāi)始。同時(shí), 基于預(yù)測(cè)目標(biāo)車輛最后一個(gè)觀察時(shí)刻的朝向旋轉(zhuǎn)坐標(biāo)系。

實(shí)驗(yàn)

在這部分,首先描述實(shí)驗(yàn)設(shè)置,包括數(shù)據(jù)集,指標(biāo)和基于柵格化+卷積網(wǎng)絡(luò)的基準(zhǔn)。其次,對(duì)分別全面地對(duì)柵格化基準(zhǔn)方法和VectorNet做消融研究。然后, 比較和討論了計(jì)算代價(jià),包括計(jì)算量和參數(shù)量。最后, 與最先進(jìn)的方法的性能進(jìn)行比較。

實(shí)驗(yàn)設(shè)置

1. 數(shù)據(jù)集

在兩個(gè)車輛行為預(yù)測(cè)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別是Argoverse數(shù)據(jù)集[7]和 內(nèi)部的行為預(yù)測(cè)數(shù)據(jù)集。

Argoverse行為預(yù)測(cè)[7]是一個(gè)用于在提供歷史軌跡的情況下進(jìn)行車輛行為預(yù)測(cè)的數(shù)據(jù)集。其中有33.3萬(wàn)個(gè)5秒時(shí)長(zhǎng)的軌跡序列被分成21.1萬(wàn)個(gè)訓(xùn)練樣本,4.1萬(wàn)個(gè)驗(yàn)證樣本和8萬(wàn)個(gè)測(cè)試樣本。這個(gè)數(shù)據(jù)集被創(chuàng)造是為了挖掘有趣的和多樣化的場(chǎng)景,比如并道,穿過(guò)路口等。軌跡的采樣頻率為10Hz,前2秒用于觀測(cè),后3秒用于軌跡預(yù)測(cè)。每個(gè)序列中都包含一個(gè)“interesting”交通參與者作為被預(yù)測(cè)主體。除了車輛軌跡,每個(gè)序列還與地圖信息相關(guān)聯(lián)。數(shù)據(jù)集中測(cè)試集的未來(lái)軌跡被隱藏了。所以除非另外說(shuō)明, 消融實(shí)驗(yàn)報(bào)告的是驗(yàn)證集上的性能。

內(nèi)部數(shù)據(jù)集是一個(gè)大規(guī)模的用于行為預(yù)測(cè)的數(shù)據(jù)集。它包含高精度地圖數(shù)據(jù),感知體系統(tǒng)獲取的檢測(cè)框和跟蹤信息,以及手工標(biāo)注的車輛軌跡。車輛軌跡的總數(shù)包括220萬(wàn)個(gè)訓(xùn)練樣本進(jìn)而55萬(wàn)個(gè)測(cè)試樣本。每個(gè)軌跡的長(zhǎng)度為4秒,其中前1秒作為觀測(cè)的歷史軌跡,后3秒作為預(yù)測(cè)的未來(lái)軌跡。軌跡是從車輛在真實(shí)世界中的行為采樣得到的,包括靜止,直行,轉(zhuǎn)彎,變道和倒車等等,并且大致保留了駕駛場(chǎng)景的自然分布。在高精度地圖中, 包括了車道邊界,停止標(biāo)志,人行橫道和減速帶。

數(shù)據(jù)集
兩個(gè)車輛行為預(yù)測(cè)bench-marks。

  1. Argoverse dataset:簡(jiǎn)介每條軌跡5s,前2s作為觀測(cè),后3s作為標(biāo)簽。
  2. in-house behavior prediction dataset: 每條軌跡4s,前1s作為觀測(cè),后3s作為標(biāo)簽。
  3. Argoverse運(yùn)動(dòng)預(yù)測(cè)是一個(gè)精心挑選的324,557個(gè)場(chǎng)景集合,每個(gè)場(chǎng)景5秒,用于訓(xùn)練和驗(yàn)證。每個(gè)場(chǎng)景都包含以10 Hz采樣的每個(gè)跟蹤對(duì)象的2D鳥瞰質(zhì)心(3D點(diǎn)云可與2D鳥瞰圖相互轉(zhuǎn)換)。

兩個(gè)數(shù)據(jù)集的歷史軌跡都是從感知模型來(lái)的,所以存在噪聲。Argoverse dataset的標(biāo)簽軌跡也是從感知來(lái)的,in-house behavior prediction dataset的標(biāo)簽軌跡是經(jīng)過(guò)手工標(biāo)記的。

2. 評(píng)價(jià)指標(biāo)

對(duì)于評(píng)價(jià)指標(biāo),采用被廣泛使用的計(jì)算整個(gè)軌跡的平均位移誤差和t時(shí)刻的位移誤差,其中t分別為1秒,2秒,3秒。位移用米來(lái)作為度量。

  • ADE-Average Displacement Error-平均偏移誤差,在時(shí)間t=1.0,2.0,3.0s預(yù)測(cè)軌跡處的偏移量,單位是m

3. 柵格圖基準(zhǔn)

渲染N張連續(xù)幀的歷史圖像,其中對(duì)于內(nèi)部數(shù)據(jù)集N為10,對(duì)于Argoverse數(shù)據(jù)集N為20。每張圖片尺寸為400×400×3,其中包括地圖信息和目標(biāo)檢測(cè)的矩形框。400像素分別對(duì)應(yīng)內(nèi)部數(shù)據(jù)集中的100米和Argoverse數(shù)據(jù)集中的130米?;谧詣?dòng)駕駛車輛在最后觀察幀中的位置進(jìn)行渲染。自動(dòng)駕駛汽車在內(nèi)部數(shù)據(jù)集中被放置的坐標(biāo)位置為(200,320),在Argoverse數(shù)據(jù)集中為(200,200)。所有N幀圖片被堆疊在一起構(gòu)成400×400×3N的圖像作為模型輸入。

柵格圖基準(zhǔn)使用卷積網(wǎng)絡(luò)來(lái)編碼柵格圖片,其結(jié)構(gòu)與IntentNet[5]大體一致。 使用ResNet-18[14]作為卷積網(wǎng)絡(luò)的主干網(wǎng)。與IntentNet不同的是, 不使用LiDAR輸入。

為了獲得以車輛為中心的特征, 從卷積特征圖中裁剪目標(biāo)車輛周圍的特征部分,并且將裁剪后的特征圖的所有空間位置進(jìn)行平均池化,得到一個(gè)車輛特征向量。根據(jù)經(jīng)驗(yàn)觀察到,使用更深層的ResNet模型或者根據(jù)車輛的朝向旋轉(zhuǎn)特征并不能得到更好的效果。車輛的特征向量然后被傳入全連接層來(lái)預(yù)測(cè)未來(lái)的軌跡坐標(biāo)。模型用過(guò)8塊GPU同步訓(xùn)練優(yōu)化。 使用Adam[17]作為優(yōu)化器并且以0.3系數(shù)衰減每隔5次訓(xùn)練周期衰減學(xué)習(xí)率。 訓(xùn)練了25個(gè)周期的模型并且設(shè)置初始學(xué)習(xí)率為0.001。

為了測(cè)試卷積感受野和特征裁剪策略對(duì)性能的影響, 對(duì)網(wǎng)絡(luò)感受野,特征裁剪策略和輸入圖像分辨率進(jìn)行消融研究。

卷積網(wǎng)絡(luò)基準(zhǔn)的消融研究

  • baseline-ConvNet
    • 從最后一次觀測(cè)到的Vehicle的幀開(kāi)始,往前render N個(gè)連續(xù)的幀。對(duì)于Argoverse 數(shù)據(jù)集來(lái)說(shuō)400像素代表130米,對(duì)于in-house數(shù)據(jù)集來(lái)說(shuō)400像素代表100米。將N幀堆疊在一起,形成一個(gè)400乘400的圖像輸入數(shù)據(jù)。
      分別對(duì)卷積網(wǎng)絡(luò)的感受野,特征裁剪策略和柵格圖的分辨率的影響進(jìn)行消融研究。
      感受野的影響。由于行為預(yù)測(cè)經(jīng)常需要捕捉大范圍的道路信息,所以卷積的感受野可能會(huì)對(duì)預(yù)測(cè)質(zhì)量有很大的影響。 分別評(píng)估不同的變體來(lái)觀察感受野的兩個(gè)關(guān)鍵因素(卷積核的大小和特征裁剪策略)是如何影響預(yù)測(cè)性能的。結(jié)果如表1所示。通過(guò)比較在400*400分辨率下的大小為3,5和7的卷積核尺寸, 可以發(fā)現(xiàn)更大的卷積核尺寸會(huì)輕微地改善性能。但是,它也會(huì)大量增加計(jì)算成本。 也比較了不同的裁剪方法,通過(guò)增加裁剪尺寸或是沿著車輛軌跡裁剪。從表1的第3行到第6行 可以看出,較大的裁剪尺寸可以顯著地提高性能,同時(shí)沿著軌跡裁剪也能得到更好的性能。這一觀察結(jié)果證實(shí)了當(dāng)把柵格化圖像作為輸入時(shí),感受野的重要性。同時(shí),也體現(xiàn)了它的局限性,一個(gè)精心設(shè)計(jì)的裁剪策略通常伴隨著計(jì)算成本的增加。

柵格圖分辨率的影響。 進(jìn)一步修改柵格圖的分辨率來(lái)分析它如何影響預(yù)測(cè)性能和計(jì)算成本,如表1的前三行所示。 測(cè)試三個(gè)不同的分辨率,包括400×400(每個(gè)像素0.25米),200×200(每個(gè)像素0.5米)和100×100(每個(gè)像素1米)??梢钥闯鲭S著分辨率的提高,性能也普遍得到了提高。但是,對(duì)于Argoverse數(shù)據(jù)集 可以看出將分辨率從200×200增加到400×400會(huì)導(dǎo)致性能的略微下降,這可以解釋為對(duì)于固定的3×3卷積核尺寸,有效感受野的減小造成的。 在4.4部分討論了這些設(shè)計(jì)選擇對(duì)計(jì)算成本的影響。

表1.感受野(受到卷積核的尺寸和裁剪策略控制)和渲染分辨率對(duì)卷積網(wǎng)絡(luò)基準(zhǔn)的影響。 分別在內(nèi)部數(shù)據(jù)集和Argoverse數(shù)據(jù)集上匯報(bào)了位置偏移誤差(DE)和平均位置偏移誤差(ADE)。
在這里插入圖片描述

VectorNet消融研究

  • VectorNet
    • 原則-盡量保證于ConvNet具有相同的輸入信息。折線子圖采用3層結(jié)構(gòu),全局圖為一層結(jié)構(gòu),MLP是64個(gè)結(jié)點(diǎn)。對(duì)context information,子圖和全局圖的層數(shù)做了消融實(shí)驗(yàn)。

輸入節(jié)點(diǎn)類型的影響。 研究對(duì)于VectorNet,合并地圖特征和動(dòng)態(tài)交通參與者的運(yùn)動(dòng)軌跡是否有意義。表2中的前三行對(duì)應(yīng)只使用目標(biāo)車輛的歷史軌跡,只添加地圖特征以及同時(shí)添加軌跡特征。 可以清楚地看到增加地圖特征明顯地改善了軌跡預(yù)測(cè)性能。

節(jié)點(diǎn)補(bǔ)全損失的影響。表2的后四行比較了添加輔助的節(jié)點(diǎn)補(bǔ)全任務(wù)的影響。 可以看出添加這一任務(wù)有助于改善性能,尤其在長(zhǎng)期預(yù)測(cè)。

圖結(jié)構(gòu)的影響。在表3中 研究了圖的深度和廣度對(duì)軌跡預(yù)測(cè)性能的影響。 觀察到,對(duì)于折線子圖,三層具有最好的性能,而對(duì)于全局圖,只需要一層。讓多層感知器變寬并不會(huì)帶來(lái)更好的性能,反而會(huì)對(duì)Argoverse數(shù)據(jù)集造成不好的影響,可能是因?yàn)槠溆?xùn)練集更小。圖4顯示了顯示了一些預(yù)測(cè)的軌跡的可視化示例。

與卷積網(wǎng)絡(luò)比較。最后, 在表4中比較 的VectorNet和最好的卷積網(wǎng)絡(luò)模型。對(duì)于內(nèi)部數(shù)據(jù)集,在大量減少模型參數(shù)和計(jì)算量的前提下, 的模型達(dá)到了與最好的殘差網(wǎng)絡(luò)模型相當(dāng)?shù)男阅堋?duì)于Argoverse數(shù)據(jù)集, 的方法明顯優(yōu)于最好的卷積網(wǎng)絡(luò),在預(yù)測(cè)3秒時(shí)位置誤差減少了12%。 發(fā)現(xiàn)內(nèi)部數(shù)據(jù)集包含很多靜止的車輛,因?yàn)樗亲匀环植嫉鸟{駛場(chǎng)景。這些場(chǎng)景可以很容易地被卷積網(wǎng)絡(luò)解決,因?yàn)樗瞄L(zhǎng)捕捉局部模式。但是Argoverse數(shù)據(jù)集中只提供“interesting”場(chǎng)景。VectorNet性能好過(guò)最優(yōu)的卷積網(wǎng)絡(luò)基線,大概是因?yàn)樗軌蛲ㄟ^(guò)層級(jí)圖網(wǎng)絡(luò)捕捉更大范圍的環(huán)境信息。

表2.對(duì)VectorNet不同的節(jié)點(diǎn)輸入類型和訓(xùn)練策略的消融研究。這里“map”指的是來(lái)自高精度地圖的輸入向量,“agent”指的是非目標(biāo)車輛運(yùn)動(dòng)軌跡的輸入向量。當(dāng)“Node Compl”啟用,模型訓(xùn)練任務(wù)除了軌跡預(yù)測(cè)還包括圖節(jié)點(diǎn)特征補(bǔ)全。

在這里插入圖片描述

表3.對(duì)于折線子圖和全局圖的深度和寬度的消融研究。折線子圖對(duì)第3秒位置偏移誤差影響最大。
在這里插入圖片描述

模型尺寸和計(jì)算量的比較

現(xiàn)在比較卷積網(wǎng)絡(luò)和VectorNet的計(jì)算量和模型尺寸,以及它們對(duì)性能的影響。結(jié)果如表4所示。預(yù)測(cè)的解碼器沒(méi)有添加到計(jì)算量和參數(shù)量的計(jì)算中。 可以看到隨著卷積核尺寸和輸入圖片尺寸的增加,卷積網(wǎng)絡(luò)的計(jì)算量呈二次方增加,并且模型的參數(shù)量也隨著卷積核呈二次方增加。對(duì)于VectorNet,計(jì)算量取決于場(chǎng)景中的向量節(jié)點(diǎn)和折線的數(shù)量。對(duì)于內(nèi)部數(shù)據(jù)集,地圖中折線的平均數(shù)量為17,包含205個(gè)向量。平均動(dòng)態(tài)交通參與者折線數(shù)為59,包含590個(gè)向量。 基于這些平均數(shù)來(lái)計(jì)算計(jì)算量。注意,因?yàn)?需要重新標(biāo)準(zhǔn)化向量坐標(biāo)系和重新計(jì)算每個(gè)目標(biāo)的VectorNet特征,所以計(jì)算量隨著預(yù)測(cè)目標(biāo)的數(shù)量呈線性增加。

比較R18-k3-t-r400(卷積網(wǎng)絡(luò)中最優(yōu)模型)和VectorNet,VectorNet明顯優(yōu)于卷積網(wǎng)絡(luò)。在計(jì)算方面,對(duì)于一個(gè)交通參與者,卷積網(wǎng)絡(luò)比VectorNet增加了200+倍的計(jì)算量??紤]到場(chǎng)景中車輛的平均數(shù)量約為30輛,VectorNet的實(shí)際計(jì)算量仍然比卷積網(wǎng)絡(luò)小得多。同時(shí),VectorNet的參數(shù)量為卷積網(wǎng)絡(luò)參數(shù)量的29%。基于比較可以發(fā)現(xiàn)VectorNet可以在大幅度減少計(jì)算成本的同時(shí)顯著提高性能。

表4.ResNet和VectorNet的模型參數(shù)量和計(jì)算量比較。R18-Km-cN-rS表示ResNet-18模型的卷積核尺寸為M×M,裁剪尺寸為N×N,輸入分辨率為S×S。
在這里插入圖片描述

表5.在Argoverse測(cè)試集上當(dāng)采樣的軌跡數(shù)K設(shè)為1時(shí),軌跡預(yù)測(cè)的性能。結(jié)果取自2020/03/18的Argoverse排行榜。
在這里插入圖片描述

仿真與結(jié)果分析

提出矢量化地表示高精度地圖和動(dòng)態(tài)交通參與者。 設(shè)計(jì)一個(gè)層級(jí)圖神經(jīng)網(wǎng)絡(luò),其中第一級(jí)聚合折線中不同矢量的信息,第二級(jí)建模折線之間的高階交互關(guān)系。 分別在大規(guī)模的內(nèi)部數(shù)據(jù)集和公開(kāi)的Argoverse數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明 提出的VectorNet方法在大量減少計(jì)算量的同時(shí),其性能也要優(yōu)于卷積網(wǎng)絡(luò)方法。并且,VectorNet在Argoverse數(shù)據(jù)集上達(dá)到了目前最優(yōu)水平。下一步工作是整合VectorNet編碼器和多模態(tài)軌跡解碼器以生成多樣化的未來(lái)軌跡。

在這里插入圖片描述
在這里插入圖片描述
圖4.(左)預(yù)測(cè)結(jié)果可視化:車道線為灰色,非目標(biāo)交通參與者為綠色,目標(biāo)交通參與者的真值軌跡為粉紅色,預(yù)測(cè)軌跡為藍(lán)色。(右)對(duì)于道路環(huán)境和其他交通參與者注意程度的可視化:明亮的紅色對(duì)應(yīng)較高的注意分?jǐn)?shù)??梢钥吹?#xff0c;當(dāng)交通參與者面臨多種選擇時(shí),注意力機(jī)制能夠?qū)⒆⒁饬性谡_的選擇上。

延申構(gòu)思過(guò)程

代碼鏈接

從幾何意義看,車道線包含多個(gè)控制點(diǎn),交叉路口是個(gè)多邊形(帶多個(gè)頂點(diǎn)),交通標(biāo)志是一個(gè)點(diǎn),所有這些都可被近似–多個(gè)頂點(diǎn)多邊形。同樣,動(dòng)態(tài)Obj的軌跡也可被多邊形近似。這種多邊形都可以通過(guò)vector來(lái)表達(dá)。這里是整個(gè)vector表達(dá)的底層邏輯。
在這里插入圖片描述

有了vector表達(dá),現(xiàn)在要構(gòu)造上下文;而上下文的表達(dá)比較自然的方式也就是Graph了。一組vector就是graph中的一個(gè)node(這個(gè)Node如何進(jìn)行構(gòu)建呢?)。如何采用Graph的方式,在Obj動(dòng)態(tài)駛?cè)?駛出的場(chǎng)景下,可以在已有g(shù)raph上動(dòng)態(tài)的增刪節(jié)點(diǎn)然后進(jìn)行推理?

graph如何構(gòu)造,作者發(fā)現(xiàn)地理位置相近并且語(yǔ)義相近的多變性作為Node去構(gòu)造Graph比較重要。屬于同一多邊形并且語(yǔ)義相近的vector做全連接,把屬性編入多邊形的特征中,多邊形間做全連接,類似MAE做法,隨機(jī)摸出一些Node讓這個(gè)NN做估計(jì);訓(xùn)練出來(lái)的NN能夠更好的做表達(dá):Node間的交互和上下文的刻畫。

怎么能讓multipath跟vectornet結(jié)合?關(guān)鍵是pre-define的anchor怎么在vectornet上表達(dá)?其本質(zhì)也是point,既然是Point就能通過(guò)vector來(lái)表達(dá)。

構(gòu)造多折線子圖

最下層的子圖,處理統(tǒng)一多邊形的所有vector,并且vector間全連接。
在這里插入圖片描述

vi(l)是第i層的特征;genc單節(jié)點(diǎn)的特征提取函數(shù),agg所有鄰接點(diǎn)特征聚合函數(shù),rel節(jié)點(diǎn)跟其鄰接點(diǎn)的關(guān)系函數(shù)。

從實(shí)現(xiàn)角度,genc是一個(gè)MLP,agg是一個(gè)maxpooling,rel簡(jiǎn)單的全連接;MLP的權(quán)重在一個(gè)多邊形里面是一個(gè)。
在這里插入圖片描述

agg仍然是一個(gè)maxpooling。

在這里插入圖片描述

經(jīng)過(guò)MLP-Pooling-Concat得到多邊形的特征P。

高階相互作用全局圖

全局交互圖公式如下:
在這里插入圖片描述

A是多邊形節(jié)點(diǎn)的鄰接矩陣,通過(guò)GNN去處理第I層的節(jié)點(diǎn)Pil,得到其交互后的特征。
A的設(shè)計(jì)比較考究,可以按照距離來(lái)也可按照其他來(lái)(網(wǎng)絡(luò)學(xué)習(xí)一個(gè)出來(lái)),這里簡(jiǎn)單用全連接來(lái)處理。
在這里插入圖片描述

GNN即使簡(jiǎn)單的self-attention來(lái)實(shí)現(xiàn)(這樣的話節(jié)點(diǎn)個(gè)數(shù)可以動(dòng)態(tài));P是所有節(jié)點(diǎn)的合起來(lái)的特征陣,PQ/PK/PV分別是Query/Key/Value的特征分量。
在這里插入圖片描述

將節(jié)點(diǎn)的特征值decode成對(duì)應(yīng)的vector,簡(jiǎn)單用MLP實(shí)現(xiàn)。并且使用單層的attention來(lái)實(shí)現(xiàn);當(dāng)然也可以做很復(fù)雜的。
在這里插入圖片描述

類似MAE的做法,隨機(jī)抹除一部分節(jié)點(diǎn),通過(guò)node來(lái)軌跡本層的特征;node是一個(gè)簡(jiǎn)單的MLP。當(dāng)適合的特征被屏蔽掉時(shí),使用點(diǎn)坐標(biāo)最小的那個(gè)作為vector下標(biāo)。

總體框架

在這里插入圖片描述

這里兩個(gè)目標(biāo)函數(shù)形式要注意,一個(gè)是高斯近似,一個(gè)時(shí)HuberLoss;另,在進(jìn)入GNN前對(duì)多邊形的特征做了L2正則。

在這里插入圖片描述

觀察到的智能體軌跡和地圖特征被表示為向量序列,并傳遞給局部圖網(wǎng)絡(luò)以獲得折線級(jí)特征。然后這些特征被傳遞給一個(gè)全連接圖來(lái)建模高階交互。計(jì)算了兩種類型的損失:從移動(dòng)代理對(duì)應(yīng)的節(jié)點(diǎn)特征預(yù)測(cè)未來(lái)軌跡,以及在其特征被掩蓋時(shí)預(yù)測(cè)節(jié)點(diǎn)特征。

方法

  1. 向量化表示地圖和移動(dòng)agent(軌跡,車道線采樣,每個(gè)點(diǎn)用特征向量表示)
  2. 利用local graph net 聚合每條折線的特征(全聯(lián)接網(wǎng)絡(luò),一條折線最后凝練出一個(gè)特征向量【一個(gè)點(diǎn)】)
  3. 利用全局graph聚合各個(gè)折線特性點(diǎn)的相互作用(全局圖就是各個(gè)結(jié)點(diǎn)全聯(lián)接構(gòu)成的圖,經(jīng)過(guò)一層狀態(tài)更新后通過(guò)解碼網(wǎng)絡(luò)得到目標(biāo)對(duì)象的預(yù)測(cè)軌跡-軌跡的坐標(biāo)位移)

1. Ployline Graph

  1. 向量化
    地圖特征(車道線,交叉路口)-選定起點(diǎn)和方向,在spline(樣條)上等空間間隔采樣,連接相鄰點(diǎn)構(gòu)成向量,運(yùn)動(dòng)軌跡-等時(shí)間間隔采樣關(guān)鍵點(diǎn)構(gòu)成向量。
    一條軌跡Pj就是一個(gè)向量集合(v1,v2,v3,…,vp)。
    曲線Pj向量vi的參數(shù):dsi,dei表示起始和終止點(diǎn)坐標(biāo);ai對(duì)象類型、時(shí)間戳、道路類型、限速;j是軌跡編號(hào):
    在這里插入圖片描述
  2. 折線子圖-polyline subgraphs
    同一條折線上的節(jié)點(diǎn)構(gòu)成一張子圖,節(jié)點(diǎn)特征更新規(guī)則:
    在這里插入圖片描述

在這里插入圖片描述
3. 折線表征-同一條折線上所有結(jié)點(diǎn)特征經(jīng)過(guò)一個(gè)最大池化操作,聚合特征:
在這里插入圖片描述
注意點(diǎn):

    1. 起始和終止點(diǎn)的坐標(biāo)-二維/三維
    1. 目標(biāo)agent最后一次被觀察到time step/位置,作為時(shí)間或者空間的原點(diǎn)。
    1. 折線子圖可以看作是PointNet的一般化-在PointNet中,ds = de,a和l為空。

2. Global Graph

  1. 全局圖

折線結(jié)點(diǎn){p1,p2,…,pP}構(gòu)造全局圖,A-鄰接矩陣-為了簡(jiǎn)單起見(jiàn),文章采用全聯(lián)接圖。
在這里插入圖片描述

圖具體計(jì)算采用self-attention操作:
在這里插入圖片描述

P為結(jié)點(diǎn)特征矩陣,PQ,PK,PV是P的線形投影。

Q,K,V:來(lái)源于Transformer里的self-attention。展開(kāi)說(shuō),如鏈接所示

  1. 預(yù)測(cè)moving agents的未來(lái)軌跡

在這里插入圖片描述

  1. 附加圖補(bǔ)全任務(wù)-auxiliary graph completion task

為了使圖捕獲軌跡和車道線強(qiáng)交互,在訓(xùn)練時(shí),隱藏一部分折線結(jié)點(diǎn)特征向量,用模型去預(yù)測(cè)特征:
在這里插入圖片描述在這里插入圖片描述

3. 消融實(shí)驗(yàn)

  1. ConvNet網(wǎng)絡(luò)消融實(shí)驗(yàn)-卷積核、Crop尺寸、圖像分辨率。
  2. VectorNet網(wǎng)絡(luò)消融實(shí)驗(yàn)-Context、Node Compl、子圖和全局圖的層數(shù)。
http://www.risenshineclean.com/news/5512.html

相關(guān)文章:

  • 怎么用ps切片在dw里做網(wǎng)站百度收錄時(shí)間
  • 家具網(wǎng)站模板百度客戶電話
  • 做服裝加工哪個(gè)網(wǎng)站比較好溫州seo推廣外包
  • 黑龍江進(jìn)入疫情緊急狀態(tài)seo需要什么技術(shù)
  • 外包公司做的網(wǎng)站怎么改密碼站長(zhǎng)之家app下載
  • 1688網(wǎng)站上自己做模版專業(yè)營(yíng)銷團(tuán)隊(duì)公司
  • 阿里云網(wǎng)站如何建設(shè)視頻新浪微博指數(shù)查詢
  • 快速 模板 做網(wǎng)站百度網(wǎng)址安全檢測(cè)
  • 焦作市住房和城鄉(xiāng)建設(shè)局網(wǎng)站百度競(jìng)價(jià)推廣登陸
  • 潛江做網(wǎng)站太原做網(wǎng)站推廣的公司
  • 韶關(guān)網(wǎng)站建設(shè)網(wǎng)站排名seo
  • 用ps做網(wǎng)站網(wǎng)頁(yè)百度排名服務(wù)
  • 網(wǎng)站建設(shè)崗位工作范圍怎樣注冊(cè)網(wǎng)站建立網(wǎng)頁(yè)
  • 成都網(wǎng)站外包優(yōu)化公司可以免費(fèi)發(fā)外鏈的論壇
  • 推進(jìn)網(wǎng)站集約化建設(shè)的作用推廣普通話手抄報(bào)一等獎(jiǎng)
  • 網(wǎng)絡(luò)優(yōu)化報(bào)告seo外包網(wǎng)絡(luò)公司
  • 做網(wǎng)站下載別人的圖算不算侵權(quán)北京網(wǎng)站sem、seo
  • 整站關(guān)鍵詞排名優(yōu)化員工培訓(xùn)
  • 網(wǎng)站的空間的提供商南京網(wǎng)站制作設(shè)計(jì)
  • 畢業(yè)答辯ppt網(wǎng)站開(kāi)發(fā)百度大數(shù)據(jù)分析平臺(tái)
  • 網(wǎng)頁(yè)設(shè)計(jì)師證書查詢官網(wǎng)google seo怎么優(yōu)化
  • 精美網(wǎng)頁(yè)設(shè)計(jì)源碼網(wǎng)站seo優(yōu)化外包顧問(wèn)
  • 龍山建設(shè)集團(tuán)有限公司網(wǎng)站云南優(yōu)化公司
  • 怎么知道網(wǎng)站是誰(shuí)做的b站推廣入口2023
  • 織夢(mèng)網(wǎng)站怎樣做seo長(zhǎng)尾關(guān)鍵詞查詢工具
  • 哪里有html5網(wǎng)站建設(shè)檢測(cè)網(wǎng)站是否安全
  • 網(wǎng)絡(luò)服務(wù)提供者有哪些新泰網(wǎng)站seo
  • 中山疫情防控最新通知關(guān)于進(jìn)一步優(yōu)化
  • 微網(wǎng)站建設(shè)哪家好好看的seo網(wǎng)站
  • 餐飲服務(wù)案例100例谷歌seo運(yùn)營(yíng)