網(wǎng)站建設公司名字seo網(wǎng)站優(yōu)化師
計算機視覺:軌跡預測綜述
- 軌跡預測的定義
- 軌跡預測的分類
- 基于物理的方法(Physics-based)
- 基于機器學習的方法(Classic Machine Learning-based)
- 基于深度學習的方法(Deep Learning-based)
- 基于強化學習的方法(Reinforcement Learning-based)
- 數(shù)據(jù)集/評價指標
軌跡預測的定義
軌跡預測問題可以表述為在給定的一個場景下,使用交通參與者的歷史狀態(tài)預測估計其未來狀態(tài)。歷史狀態(tài)可以來自于車端或路端,狀態(tài)信息一般包括交通參與者的位置,也有可能包括速度、加速度、朝向角等信息。場景信息一般包括車輛運動學(或動力學)、路側信息(地圖、交通信號燈、交通規(guī)則等)和交通參與者之間的交互信息等因素。
軌跡預測的輸入是一系列具有歷史時間信息的交通參與者狀態(tài)。
軌跡預測的輸出是一系列具有未來時間信息的交通參與者狀態(tài),一般有三種形式:單模態(tài)(Unimodal)、多模態(tài)(Multimodal)和意圖(Intention)。
- 單模態(tài)是指一個或多個交通參與者的一個未來軌跡;
- 多模態(tài)是指一個或多個交通參與者的多個未來軌跡;
- 意圖可以是最終輸出的一部分,也可以是一個中間過程,提供了交通參與者的軌跡意圖。
軌跡預測的分類
基于物理的方法(Physics-based)
基于物理的方法是借助于車輛的運動學模型或動力學模型,使用單一軌跡預測、卡爾曼濾波或蒙特卡羅的方法對其軌跡進行預測。雖然簡單高效、計算復雜度低,但是其預測精度相對較低,一般僅適用于短期預測(不超過1s),但基于學習的方法通??梢钥紤]融合基于物理的方法進而提升預測精度。
- 單一軌跡預測:該方法認為車輛狀態(tài)是已知且無噪聲的,使用勻速、勻加速度或勻角速度和加速度等模型對車輛的狀態(tài)進行預測,此方法雖然簡單高效,但未考慮路側信息以及狀態(tài)的不確定性,不適合于長期軌跡預測。
- 卡爾曼濾波:該方法將車輛狀態(tài)的不確定性(噪聲)考慮在內(nèi),并認為噪聲呈高斯分布,通過不斷地迭代預測車輛狀態(tài)的平均值和方差。此方法雖然考慮了狀態(tài)的不確定性,但簡單地認為噪聲呈高斯分布是不可靠的,一些學者也提出了多模態(tài)軌跡預測的卡爾曼濾波、考慮交互因素的卡爾曼濾波等方法。
- 蒙特卡羅:此方法可以對交通參與者的狀態(tài)分布進行模擬,它對歷史狀態(tài)輸入進行隨機采樣,利用物理模型(動力學、運動學模型)對未來狀態(tài)進行估計,其中的歷史狀態(tài)可以是已知且確定的,亦可以是由估計算法得到的不確定的。
基于機器學習的方法(Classic Machine Learning-based)
基于機器學習的方法是應用數(shù)據(jù)驅動的模型來預測軌跡,例如高斯過程(Gaussian Process)、支持向量機(Support Vector Machine)、隱式馬爾可夫鏈(Hidden Markov)、動態(tài)貝葉斯(Dynamic Bayesian)、K近鄰(K-Nearest Neighbors)、決策樹(Dynamic Tree)等等。此類方法利用經(jīng)典機器學習的分類與回歸方法對交通參與者的軌跡與意圖進行學習與預測,相較于基于物理的方法,它可以更好地融合路側、交互等場景信息,預測精度得以提升,但此方法針對復雜場景可能束手無策。
基于深度學習的方法(Deep Learning-based)
基于深度學習的方法一般針對歷史狀態(tài)的輸入,進行特征提取,再通過回歸來預測未來狀態(tài)輸出。例如循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)、基于Transformer的注意力網(wǎng)絡(Attention Network based on Transformer)、圖神經(jīng)網(wǎng)絡(Graph Neural Network,GNN)以及生成式網(wǎng)絡(Generative Adversarial Network,GAN)等。此方法已經(jīng)成為研究的主流方向,并達到了SOTA水平,相較于基于物理、機器學習的方法,基于深度學習的方法可以預測更長時間的狀態(tài)。
- 循環(huán)神經(jīng)網(wǎng)絡:它與有效處理空間信息的卷積神經(jīng)網(wǎng)絡不同,循環(huán)神經(jīng)網(wǎng)絡被設計用來處理時間信息,它存儲每一步時間信息,利用隱藏狀態(tài)和歷史軌跡的特征輸入來預測未來軌跡的輸出。當時間步數(shù)較大時,循環(huán)神經(jīng)網(wǎng)絡容易發(fā)生梯度爆炸。使用門控循環(huán)神經(jīng)網(wǎng)絡(Gated RNN)可以解決此問題,例如長短期記憶網(wǎng)絡(Long Short Term Memory Network,LSTM)和門控循環(huán)單元(Gated Recurrent Unit,GRU)。
- 卷積神經(jīng)網(wǎng)絡:由于軌跡具有很強的時空連續(xù)性,部分學者認為使用CNN預測會更好。它們采用序列到序列的結構,以歷史軌跡為輸入,在全連接層之后疊加卷積層實現(xiàn)時間連續(xù)性,再通過全連接層輸出未來軌跡。實驗表明,基于CNN的模型運行速度更快。
- 卷積循環(huán)神經(jīng)網(wǎng)絡:卷積神經(jīng)網(wǎng)絡適用于提取空間信息,循環(huán)神經(jīng)網(wǎng)絡適用于處理時間信息,一些學者將兩者聯(lián)合在一起進行建模。
- 注意力網(wǎng)絡:隨著Transformer在計算機視覺和自然語言處理的爆火,一些學者也將Transformer的編碼器與解碼器應用到軌跡預測中,首先歷史狀態(tài)作為編碼器的輸入,object query作為未來狀態(tài)與歷史狀態(tài)的編碼輸出交互,得到最終的預測軌跡。實驗證明此方法在長時序的預測任務中表現(xiàn)良好,不僅方便軌跡序列的建模,也方便對環(huán)境和交通參與者之間的交互進行建模。
- 圖神經(jīng)網(wǎng)絡:每一個交通參與者被認為圖中的一個節(jié)點(node),每一個節(jié)點通過邊(edge)與其他節(jié)點相關聯(lián)。因此圖神經(jīng)網(wǎng)絡方便對交互信息進行建模,典型的方法主要有圖卷積網(wǎng)絡和圖注意力網(wǎng)絡。
- 生成式網(wǎng)絡:為了解釋軌跡預測的多模態(tài)屬性與不確定性,一些學者提出使用生成式網(wǎng)絡來預測軌跡,包括生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)和條件變分自動編碼器(Conditional Variational Auto Encoder,CVAE)。
基于強化學習的方法(Reinforcement Learning-based)
傳統(tǒng)的強化學習是基于馬爾可夫決策過程(Markov decision process,MDP),利用與環(huán)境交互和人為設計的獎勵函數(shù),以最大化獎勵為準則來得到最優(yōu)的行為,基于強化學習的軌跡預測方法包括:逆向強化學習(Inverse Reinforcement Learning,IRL)、生成對抗模仿學習(Generative Adversarial Imitation Learning,GAIL)和深度逆向強化學習(Deep Inverse Reinforcement Learning,DIRL)等等。
- 逆向強化學習:此方法是指獎勵函數(shù)并非人為設計,而是根據(jù)專家演示學習一個獎勵函數(shù)得到最優(yōu)的行為進而對軌跡進行預測,逆向強化學習主要有基于最大化裕度和最大化熵兩種優(yōu)化方法來更新學習獎勵函數(shù)的權重。最大化裕度的方法是通過最小化專家演示和預測軌跡之間的特征期望來更新獎勵函數(shù)的權重,然而大多數(shù)基于裕度的方法在特征期望匹配方面是模糊的。而最大化熵的方法使用多個獎勵函數(shù)來解釋專家演示的模糊性。
- 生成對抗模仿學習:此方法使用生成式網(wǎng)絡GAN進行模仿學習,它利用GAN生成軌跡,使之與專家演示盡可能相近,再利用鑒別器判斷是否此軌跡是一個專家演示。
- 深度逆向強化學習:由于預測任務是非線性的,不同于逆向強化學習,深度逆向強化學習利用全卷積神經(jīng)網(wǎng)絡學習一個復雜的非線性獎勵函數(shù)。目前,大多數(shù)DIRL算法可以直接利用原始傳感器數(shù)據(jù)(圖像、點云等)進行建模。
數(shù)據(jù)集/評價指標
關于軌跡預測數(shù)據(jù)集包括但不限于NuScenes、Waymo、Lyft Level 5、Argoverse、INTERACTION、HighD、Apolloscape、KITTI、NGSIM等。
評價指標:均方根誤差(Root Mean Squared Error,RMSE)、負對數(shù)似然(Negative Log Likelihood,NLL)、平均位移誤差(Average Displacement Error,ADE)、最終位移誤差(Final Displacement Error,FDE)、錯失率(Miss Rate,MR)、計算時間(Computation Time)、預測視野(Prediction Horizon)等。