新翼設計網站建設公司精準信息預測
文章目錄
- 1. 第一章行為決策在自動駕駛系統(tǒng)架構中的位置
- 2. 行為決策算法的種類
- 2.1 基于規(guī)則的決策算法
- 2.1.1 決策樹
- 2.1.2 有限狀態(tài)機(FSM)
- 2.1.3 基于本體論(Ontologies-based)
- 2.2 基于統(tǒng)計的決策算法
- 2.2.1 貝葉斯網絡(BN)
- 2.2.2 馬爾可夫決策過程(MDP)
- 2.2.3 部分可觀察馬爾可夫決策過程(POMDP)
- 2.3 基于端到端的決策算法
- 參考文獻
1. 第一章行為決策在自動駕駛系統(tǒng)架構中的位置
????Claudine Badue[1]等人以圣西班牙聯邦大學(UFES)開發(fā)的自動駕駛汽車(Intelligent Autonomous Robotics Automobile,IARA)為例,提出了自動駕駛汽車的自動駕駛系統(tǒng)的典型架構。如圖所示,自動駕駛系統(tǒng)主要由感知系統(tǒng)(Perception System)和規(guī)劃決策系統(tǒng)(Decision Making System)組成。感知系統(tǒng)主要由交通信號檢測模塊(Traffic Signalization Detector,TSD)、移動目標跟蹤模塊(Moving Objects Tracker,MOT)、定位與建圖模塊(Localizer and Mapper)等組成。規(guī)劃決策系統(tǒng)主要由全局路徑規(guī)劃模塊(Route Planner)、局部路徑規(guī)劃模塊(Path Planner)、行為決策模塊(Behavior Selector)、運動規(guī)劃模塊(Motion Planner)、自主避障模塊(Obstacle Avoider)以及控制模塊(Controller)組成。
????行為決策在此架構中主要是由行為決策模塊完成的。行為決策模塊負責選擇當前的駕駛行為,如車道保持、十字路口處理、紅綠燈處理等。該模塊選取一組路徑 PPP中的一條路徑 pjp_jpj?,以及 pjp_jpj?中的一個位姿點 pgp_gpg?,該位姿點大致位于汽車決策前的5s左右(這被稱為決策視野),并設立目標速度與目標位姿 Goalg=(pg,vg)Goal_g=(p_g,v_g)Goalg?=(pg?,vg?)。行為決策模塊選擇一個考慮當前駕駛行為的目標路徑,并在決策視野內避免與環(huán)境中靜態(tài)和移動障礙物的碰撞。
2. 行為決策算法的種類
????行為決策模塊負責選擇當前的駕駛行為,如車道保持、十字路口處理、紅綠燈處理等。該模塊選取一組路徑PPP中的一條路徑pjp_jpj?,以及pjp_jpj?中的一個位姿點pgp_gpg?,該位姿點大致位于汽車決策前的5s左右(這被稱為決策視野),并設立目標速度與目標位姿Goalg=(pg,vg)Goal_g=(p_g,v_g)Goalg?=(pg?,vg?)。行為決策模塊選擇一個考慮當前駕駛行為的目標路徑,并在決策視野內避免與環(huán)境中靜態(tài)和移動障礙物的碰撞。
????自動駕駛行為決策不得不考慮一些有關倫理道德的問題,例如,當自動駕駛汽車發(fā)生交通事故時,應該優(yōu)先保護其他交通參與者——行人的安全還是優(yōu)先保護自己車上乘客的安全?
????E. Awad團隊 [2]通過從年齡、教育、性別、收入、政治和宗教等多個方面對調查人員進行標記,并統(tǒng)計他們的選擇(選擇左邊代表優(yōu)先保護乘客,選擇右邊代表優(yōu)先保護行人)。據他們的統(tǒng)計發(fā)現,更多的人們傾向于保護行人,尤其是嬰幼兒、男孩、女孩等未成年人。

????自動駕駛汽車必須處理各種道路和城市交通情況。許多文獻將行為選擇問題根據不同的交通場景進行劃分,以便解決問題,這類方法成為集中式決策。集中式決策中主要有基于規(guī)則的決策算法和基于統(tǒng)計的決策算法。還有一些文獻采用的是端到端的方法,例如使用CNN [3]來處理自動駕駛的相關問題。

????在DARPA城市挑戰(zhàn)賽,用于不同駕駛場景的主要方法有啟發(fā)式組合法 [4]、決策樹 [5,6]、有限狀態(tài)機(FSM) [7]和貝葉斯網絡 [5]。上述的這些方法在一些簡單的、限定的場景里可以實現,表現良好,但對復雜場景,例如中高密度的城市路網交通流,算法的穩(wěn)定性與適應性就稍欠理想。
????此外,近年來,基于狀態(tài)機的方法得到改進并與其他方法融合,以應對更多的真實城市交通場景,例如X. Han[8]等人在現有研究的基礎上,提出了一種通過層次框架具有組織行為的綜合多車道平臺算法。該算法在戰(zhàn)略任務層面上,開發(fā)了一種基于確定性有限狀態(tài)機(FSM)的平臺化行為協議來指導成員的操作。此外,他們以FSM為基線訓練遺傳模糊系統(tǒng),以擴展算法在入口匝道合并場景下的能力?;诒倔w論[9](Ontologies-based)的方法同樣也可以作為一個場景建模的工具。該方法主要基于知識庫進行行為決策。
????除此之外,一些方法考慮了決策過程中的其他交通參與者的決策意圖以及運動軌跡的不確定性,例如馬爾可夫決策過程[10](MDP)和部分可觀察馬爾可夫決策過程[11](POMDP)。
2.1 基于規(guī)則的決策算法
2.1.1 決策樹
????決策樹是依據決策建立起來的、用來分類和決策的樹結構。概括地說,決策樹算法的邏輯可以描述為if-then, 根據樣本的特征屬性按照“某種順序”排列成樹形結構,將樣本的屬性取值按照if-then邏輯逐個自頂向下分類,最后歸結到某一個確定的類中[5]?!澳撤N順序”是指決策樹的屬性選擇方法。以二叉決策樹為例,樹形結構由結點和邊組成,決策樹的結點代表分類問題中樣本的某個屬性,邊的含義為是與否兩種情況,即樣本屬性取值是否符合當前分類依據。
????決策樹學習的關鍵在于選擇劃分屬性。屬性的選擇流程可簡略表述為:首先,計算訓練樣本中每個屬性的“貢獻度”,選擇貢獻最高的屬性作為根結點。根結點下擴展的分支將依據根結點所代表屬性的取值決定。然后,將已經被選擇為結點的屬性從候選屬性集中剔除,接著不斷重復進行候選屬性集合中剩余屬性的“貢獻度”的計算和選擇,直至達到預設的模型訓練閾值(例如達到決策樹最大深度)。最后,得到一棵能較好地擬合訓練樣本分布的決策樹模型。
????常見的決策樹算法有以下三種:
- ID3(iterative dichotomiser 3)算法:
????信息增益大的屬性優(yōu)先。首先,計算所有候選屬性的信息增益,選擇其中信息增益最大的屬性作為根結點。然后,按照根結點所代表屬性的取值決定分支情況。其次,將已選擇屬性從候選集中刪除,并計算剩余屬性的信息增益。最后,選擇信息增益最大的結點作為子結點,直至所有屬性都已選擇。信息熵是用來衡量樣本純度指標的,是計算信息增益的前提,定義為:Ent(D)=?∑K=1∣K∣pklog?2pkEnt(D) = - \sum\limits_{K = 1}^{\left| K \right|} {{p_k}{{\log }_2}{p_k}} Ent(D)=?K=1∑∣K∣?pk?log2?pk?式中 DDD——樣本集合;
????pk——Dp_k——Dpk?——D中第kkk類樣本所占的比例,其計算方式為:pk=∣Ck∣∣D∣{p_k} = \frac{{\left| {{C_k}} \right|}}{{\left| D \right|}}pk?=∣D∣∣Ck?∣?式中 CkC_kCk?——集合D中屬于第k類樣本的樣本子集。
????假設DDD中某個具有VVV個取值的屬性為AAA,取值分別為a1,a2,…,aV{a_1,a_2,…,a_V}a1?,a2?,…,aV?。根據不同的取值將DDD中的樣本劃分為VVV個子集。其中,取值為ava_vav?的樣本屬于第vvv個子集,記作DvD_vDv?。
????根據式(2-1)可以計算出樣本DvD_vDv?的信息熵。通過增加各分支權重∣Dv∣/∣D∣|D_v|/|D|∣Dv?∣/∣D∣使樣本數量多的結點具有更大的“影響”。首先,計算屬性AAA對于數據集DDD的條件熵Ent(D∣A)Ent(D|A)Ent(D∣A):Ent(D∣A)=∑v=1V∣Dv∣∣D∣Ent(Dv)=?∑v=1V∣Dv∣∣D∣(∑k=1K∣Dvk∣∣Dv∣log?2∣Dvk∣∣Dv∣)\begin{array}{c}Ent(D|A) = \sum\limits_{v = 1}^V {\frac{{\left| {{D^v}} \right|}}{{\left| D \right|}}} Ent({D^v})\\ = - \sum\limits_{v = 1}^V {\frac{{\left| {{D^v}} \right|}}{{\left| D \right|}}} \left( {\sum\limits_{k = 1}^K {\frac{{\left| {{D^{vk}}} \right|}}{{\left| {{D^v}} \right|}}{{\log }_2}\frac{{\left| {{D^{vk}}} \right|}}{{\left| {{D^v}} \right|}}} } \right)\end{array}Ent(D∣A)=v=1∑V?∣D∣∣Dv∣?Ent(Dv)=?v=1∑V?∣D∣∣Dv∣?(k=1∑K?∣Dv∣∣Dvk∣?log2?∣Dv∣∣Dvk∣?)?????再計算用屬性aaa對樣本集合DDD進行劃分所得的信息增益=信息熵-條件熵:Gain(D,a)=Ent(D)?Ent(D∣A)Gain(D,a) = Ent(D) - Ent(D|A)Gain(D,a)=Ent(D)?Ent(D∣A)????通過對所有屬性的信息增益進行計算,選擇信息增益最大的屬性作為結點添加入樹,重復進行屬性的信息增益計算和選擇過程,最終構建出一棵分類決策樹。
- C4.5算法:
????信息增益率大于平均值的屬性優(yōu)先。信息增益率即為各屬性信息增益所占比例。因此,屬性取值的個數越少,信息增益率反而越高,這就導致信息增益率準則更偏向于取值個數少的屬性。因此,在ID3算法中各屬性信息增益計算的基礎上,C4.5算法運用了一個啟發(fā)式原則:首先,計算每個屬性的信息增益率,進而計算所有屬性的平均信息增益率。然后,按照信息增益率與平均信息增益率的大小關系,將屬性分為兩類。最后,選擇信息增益率大于平均值,且數值最大的屬性。信息增益率的計算方式為:Gainratio(D,A)=Gain(D,A)HA(D)Gai{n_{ratio}}(D,A) = \frac{{Gain(D,A)}}{{{H_A}(D)}}Gainratio?(D,A)=HA?(D)Gain(D,A)?????式中 HA(D)H_A(D)HA?(D)——與屬性AAA有關的定值。通常,取值為樣本集合DDD的信息熵:HAD=?∑v=1V∣Dv∣∣D∣log?2∣Dv∣∣D∣{H_A}D = - \sum\limits_{v = 1}^V {\frac{{\left| {{D^v}} \right|}}{{\left| D \right|}}} {\log _2}\frac{{\left| {{D^v}} \right|}}{{\left| D \right|}}HA?D=?v=1∑V?∣D∣∣Dv∣?log2?∣D∣∣Dv∣?????施發(fā)園[6]基于C4.5算法,以目標車道后方車輛與換道車輛橫向距離X1X_1X1?、目標車道后方車輛與換道車輛縱向距離Y1Y_1Y1?、目標車道前方車輛與換道車輛縱向距離Y2Y_2Y2?、目標車道后方車輛與換道車輛速度差v1v_1v1?、目標車道前方車輛與換道車輛速度差v2v_2v2?、目標車道后方車輛與換道車輛加速度差a1a_1a1?、目標車道前方車輛與換道車輛加速度差a2a_2a2?等作為影響因素進行分類。得到的“if-then”分類規(guī)則如表2-1所示。
- 分類與決策樹(classification and regression tree, CART)算法:
????該算法以基尼指數小的屬性優(yōu)先。CART不再以信息增益為基礎進行屬性的選擇,而是采用一種代表樣本不純度的指標對屬性進行度量,這種不純度指標叫做基尼指數?;嶂笖翟叫〈順颖镜募兌仍礁摺;嶂笖档亩x為:Gini(D)=1?∑k=1K∣Dv∣∣D∣(∣C2∣∣D∣)Gini(D∣A)=∑v=1V∣Dv∣∣D∣Gini(Dv)\begin{array}{l}Gini(D) = 1 - \sum\limits_{k = 1}^K {\frac{{\left| {{D^v}} \right|}}{{\left| D \right|}}} \left( {\frac{{\left| {{C_2}} \right|}}{{\left| D \right|}}} \right)\\Gini(D|A) = \sum\limits_{v = 1}^V {\frac{{\left| {{D^v}} \right|}}{{\left| D \right|}}} Gini({D^v})\end{array}Gini(D)=1?k=1∑K?∣D∣∣Dv∣?(∣D∣∣C2?∣?)Gini(D∣A)=v=1∑V?∣D∣∣Dv∣?Gini(Dv)?
2.1.2 有限狀態(tài)機(FSM)
????在FSM方法中,采用基于規(guī)則的決策過程來選擇不同交通場景流下的決策行為。將各個駕駛行為用狀態(tài)表示,狀態(tài)轉移條件則是來自于由感知信息得到的離散規(guī)則,當前狀態(tài)則定義了汽車的當前行為。該方法的主要缺點是難以模擬實際交通中的不確定性和復雜的城市交通情景。
????斯坦福大學的Junior 將車輛行為細分,建立了一個擁有13個狀態(tài)的有限狀態(tài)機組成決策系統(tǒng)[7],如圖2-4所示。其狀態(tài)分別為:初始狀態(tài)、前向駕駛、車道跟隨、避障、停止標志前等待、路口處理、等待路口空閑、掉頭、車輛在掉頭線前停止、越過黃線行駛、在停車區(qū)域內行駛、通過交通阻塞路段、在不匹配RNDF 路網文件的情況下在路上行駛、任務結束。
????為了解決更為復雜的問題,Ziegler[12]采用了分層并行狀態(tài)機(HSM)的方法。在該方法中,行為選擇模塊生成一系列約束,這些約束來自這些分層并行狀態(tài)機,并用作軌跡優(yōu)化問題的輸入。這些約束是由行為選擇模塊制定的,它考慮了諸如駕駛走廊的特征、靜態(tài)和移動障礙物以及生成或合并規(guī)則等信息。他們的狀態(tài)圖如圖2-5所示。
????Okumura等人將FSM與支持向量機(SVM)結合起來,構建了一個針對環(huán)形路情況下的高級行為選擇器過程的分類器[13]。首先,SVM分類器將當前的機器人狀態(tài)和感知數據映射到一個動作,然后由FSM處理該動作,以輸出控制指令。
2.1.3 基于本體論(Ontologies-based)
????本體是知識表示的框架,可以用于建模概念及其關系。Zhao等人[9]使用基于本體的知識庫對交通法規(guī)和傳感器數據進行建模,以幫助自動駕駛汽車了解世界。為了構建決策系統(tǒng),他們手動構建了基于本體的知識庫,主要關注發(fā)生在十字路口和狹窄的道路上的交通情況。該系統(tǒng)會考慮車輛的通行權,并將“停車”、“左轉”或“讓路”等決策發(fā)送給路徑規(guī)劃系統(tǒng),以改變路線或停車以避免碰撞。這種方法的缺點是需要設計一個精確的世界模型,由每個位置的映射車道和交通規(guī)則組成,而這通常是由人類手動完成的,工作量大且復雜。他們主要設計兩個本體——地圖和控制模塊,針對不同的駕駛場景進行分類,如圖2-6所示。
2.2 基于統(tǒng)計的決策算法
2.2.1 貝葉斯網絡(BN)
????BN是一種以貝葉斯公式為基礎的概率圖模型,BN的結構是一個有向無環(huán)圖(directed acyclic graph, DAG),圖中結點被稱為BN結點,若結點之間存在依賴關系,則由一條有向邊連接,方向為被依賴結點指向依賴結點[5]。BN的參數由結點的概率值和結點間的條件概率表(conditional probability table, CPT)組成,用來描述屬性的聯合概率分布?;贐N的行為決策模型主要包括BN學習階段與BN的駕駛行為決策階段。
????BN通過有向邊將網絡中各個結點連接起來,當其中的 某個結點狀態(tài)發(fā)生變化時,與其直接或間接相連的結點也會隨之更新,這個過程稱為貝葉斯推理。推理的前提是構建出符合問題需求的 BN模型,為了充分利用BN概率推理 的能力,學習得到一個好的DAG和CPT十分重要。
????BN的學習階段分為結構學習和參數學習。
????結構學習是指構建出符合問題需求的DAG結構,常用方法為基于采樣的馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo, MCMC)方法。參數學習是指在已知貝葉斯網絡結構的情況下,構建當前結構各結點代表的屬性之間的CPT,目前最常用的參數學習方法為最大似然估計(maximum likelihood estimation, MLE)。
????BN訓練好(即結構和條件概率表確定)后,便可以用來進行“查詢”即概率 推理,通過一些屬性變量的觀測值來推測其他屬性變量的取值,這個過程被稱為貝葉斯推斷,屬性變量觀測值稱為“證據”。
????在自動駕駛行為決策中,根據駕駛場景信息進行BN學習,結合先驗知識進行最優(yōu)結構篩選。然后,將學習到的BN模型導出。最后,將傳感器實時數據和人工駕駛行為預測結果輸入到模型中,進行BN概率推理,獲得最優(yōu)駕駛動作。其決策框架如圖2-7所示。
2.2.2 馬爾可夫決策過程(MDP)
????馬爾可夫決策過程數學框架廣泛應用于隨機控制理論的離散事件系統(tǒng),該數學框架適用于系統(tǒng)輸出結果部分隨機并且決策部分可控的情況[14]。在馬爾可夫鏈中引入動作和報酬便可以構造出 MDP,所以MDP和馬爾可夫鏈同樣具有馬爾可夫性,即系統(tǒng)的下一個狀態(tài)只與當前狀態(tài)和當前執(zhí)行的動作有關。馬爾可夫決策過程的理論基礎完善且研究成果眾多,其模型可以用一個四元組表示:{S,A(i),p(j∣i,a)r(i,a)}{\rm{\{ }}S, A(i),p(j|i,a)r(i, a){\rm{\} }}{S,A(i),p(j∣i,a)r(i,a)}????式中SSS——系統(tǒng)的有限狀態(tài)空間;
????A(i)A(i)A(i)——系統(tǒng)所有可能選取動作的集合,狀態(tài)i∈Si \in Si∈S ;
????p(j|i,a)——系統(tǒng)的狀態(tài)轉移概率,其中狀態(tài)i,j∈Si, j \in Si,j∈S,動作a∈A(i)a \in A(i)a∈A(i);
????r(i,a)r(i,a)r(i,a)——系統(tǒng)在狀態(tài)i時執(zhí)行動作aaa后獲得的期望總報酬。
????其中系統(tǒng)被假定為由基礎馬爾可夫鏈驅動,具體的馬爾可夫鏈(狀態(tài)-動作序列)運行過程如圖2-8所示。在離散的時間步長,系統(tǒng)從當前狀態(tài)隨機跳轉到下一個狀態(tài)的轉移概率與其之前的狀態(tài)無關,僅是取決于系統(tǒng)當前的狀態(tài)。
????Brechtel提出了一種交通環(huán)境中的高層決策制定方法[10],采用了馬爾可夫決策過程(MDP),通過評估行動的結果來規(guī)劃最優(yōu)策略。該方法從編碼為動態(tài)貝葉斯網絡(DBN)的復雜連續(xù)時間模型中推導出抽象的符號狀態(tài),并將離散的MDP狀態(tài)用隨機變量來解釋,將連續(xù)世界用DBN描述,離散世界用MDP描述,并將兩者相結合。該方法不依賴于精確的場景描述與識別,具有良好的魯棒性。
2.2.3 部分可觀察馬爾可夫決策過程(POMDP)
????部分可觀察馬爾可夫決策過程(POMDP)框架不僅解決了狀態(tài)間轉移中的不確定性,而且還解決了感知中的不確定性。該算法還將值迭代算法推廣到估計最優(yōu)控制策略[15]。
????Brechtel使用了一種連續(xù)的POMDP方法來推理潛在的隱藏對象和觀察的不確定性,并考慮到交通參與者之間的相互作用[11]。他們的方法分為以下兩步,在第一步中,回報函數旨在通過返回加速和減速的成本以達到目標區(qū)域來優(yōu)化舒適度和效率。此步驟僅依賴于車輛的狀態(tài)和先前定義的目標。在第二步中,通過與其他交通參與者增加更高的碰撞成本來考慮其他交通參與者。通過將兩步的代價值合并為一個回報函數,進行優(yōu)化。為了將駕駛的任務表述為一個連續(xù)的POMDP,就必須定義空間和模型。圖2-9概述了空間和模型之間的關系。
S為狀態(tài),O為輸出,A為動作,R為回報函數。
2.3 基于端到端的決策算法
????基于規(guī)則的決策模型實時性好,搭建簡單,但是已有的規(guī)則都是研究人員針對特定場景手工設定的,不能達到經驗駕駛員決策效果,而基于統(tǒng)計的決策模型由于從駕駛員數據出發(fā),能夠處理一些具有不確定因素存在的場景,并可以減小不確定性因素影響,但計算量大、實時性差[16]。
????基于規(guī)則的決策方法通過構建規(guī)則庫的方法進行自動駕駛決策。通過對自動駕駛車可能遇到的情況進行統(tǒng)計,然后建立車輛行駛狀態(tài)與對應策略之間的規(guī)則,進而采用這些規(guī)則進行自動駕駛車的控制[17]。但是現實的駕駛環(huán)境是復雜多變的,想要完整構建規(guī)則庫是不現實的,而且當自動駕駛車遇到規(guī)則庫里所沒有出現的情況時,會增加事故發(fā)生的概率。因此,基于規(guī)則的自動駕駛系統(tǒng)無法滿足人們的需求。
????基于統(tǒng)計的決策方法可以減少不確定性帶來的影響,但這種方法需要大量數據,而且方法的有效性與數據質量有很大關聯,通常來說數據量越大、覆蓋范圍越廣、分布越均勻方法的有效性越好,然而在現實情況中,采集大量數據并對數據進行預處理;有很大困難,采集的數據通常具有一定特殊性,因此基于統(tǒng)計的決策方法前期需有大量工作,不能快速實現功能,而且模型一旦形成不能及時更改。
????與基于基于規(guī)則的決策方法相比,深度學習則無需人為構建規(guī)則庫,通過神經網絡來實現端到端的控制無人駕駛車輛。但深度學習算法需要龐大的數據集支撐,且無法適應復雜多變的道路交通場景,訓練出來的無人駕駛車輛魯棒性和自我探索性有所不足。
????相比于深度學習,強化學習則無需訓練數據,無人駕駛車輛的探索性也較強,但前期訓練時需要耗費大量試錯成本。在強化學習基礎之上,一些學者將深度學習和強化學習結合,提出深度強化學習算法。
????J.Hu等人[18]提出了一個端到端自動駕駛網絡(BGNet),它可以從專家演示(數據集)中學習類似于專家的駕駛動作。所提出的BGNet通過增強對環(huán)境的場景理解,進一步推動了基于視覺的自動駕駛任務的可解釋性。具體來說,視覺引導路徑(VGP)提出學習的空間語義占領識別對象的原始視覺輸入描述視覺場景的直觀狀態(tài),和駕駛費用路徑(DAP)提出利用幾個環(huán)境的影響指標來表示環(huán)境的約束當前駕駛行為。視覺導向路徑和駕駛啟示路徑相互互補,以獲得更高的性能。通過這兩條路徑,BGNet可以實現從視覺輸入到駕駛導航的完整映射。該方法的架構圖如圖2-10所示。
????M.Park等人[19]創(chuàng)建了一個基于真實駕駛數據的端到端自動駕駛算法,并分析了我們提出的算法的性能。基于從實際的城市駕駛環(huán)境中獲得的數據,通過基于卷積神經網絡預測車輛控制值,可以在一些非正式環(huán)境中實現端到端自動駕駛。
????Q-learning算法是一種基于值函數的強化學習算法。Matzliach[20]提出了Deep-Q-learning算法,解決了在不確定環(huán)境下,自主移動智能體對多個靜態(tài)和移動目標的檢測問題,以最大限度地增加關于目標位置的累積信息增益,并以預定義的檢測概率最小化地圖上的軌跡長度。圖2-12描述了基于Deep-Q-learning的算法架構。

圖2-12 基于Deep-Q-learning算法的算法架構
(a)基于在線地圖實現;(b)基于離線地圖實現
參考文獻
[1] C. Badue, et al. Self-driving cars: A survey[J]. Expert Systems with Applications, 2021, 165.
[2] E. Awad, et al. The Moral Machine experiment[J]. Nature, 2018, 563(7729): 59-64.
[3] Karol Zieba, et al. End to End Learning for Self-Driving Cars[J]. NVIDIA Corporation Holmdel, NJ 07735, arXiv:1604.07316v1 [cs.CV] 25 Apr 2016.
[4] Urmson, C., Anhalt, J., Bagnell, D., Baker, C., Bittner, R., Clark, M., Dolan, J.,Duggins, D., Galatali, T., & Geyer, C. Autonomous driving in urban environments: Boss and the urban challenge[J]. Journal of Field Robotics, 2008, 25(8), 425–466.
[5] 劉延釗,黃志球,沈國華,王金永,徐恒.基于決策樹和BN的自動駕駛車輛行為決策方法[J].系統(tǒng)工程與電子技術,2022,44(10):3143-3154.
[6] 施發(fā)園,陳凌珊.基于決策樹對車輛換道的研究分析[J].農業(yè)裝備與車輛工程,2020,58(05):85-88.
[7] Montemerlo, et al. , & Huhnke, B.Junior: The stanford entry in the urban challenge[J]. Journal of Field Robotics, 2008,25(9), 569–597.
[8] X. Han, et al. Strategic and tactical decision-making for cooperative vehicle platooning with organized behavior on multi-lane highways[J]. Transportation Research Part C: Emerging Technologies, 2022, 145.
[9] Zhao, L.,et al. & Sasaki, Y. Ontology-based decision making on uncontrolled intersections and narrow roads[J]. IEEE intelligent vehicles symposium (IV),2015, 83–88.
[10]Brechtel, S., Gindele, T., & Dillmann, R. Probabilistic mdp-behavior planning for cars[C]. In 2011 IEEE 14th International Conference on Intelligent Transportation Systems (ITSC) ,1537–1542.
[11]Brechtel, S., Gindele, T., & Dillmann, R.Probabilistic decision-making under uncertainty for autonomous driving using continuous pomdps[C]. In 17th international IEEE conference on intelligent transportation systems (ITSC), 392–399.
[12]J. Ziegler, et al. Making Bertha Drive—An Autonomous Journey on a Historic Route[J]. IEEE Intelligent Transportation Systems Magazine, 2014, 6(2): 8-20.
[13]B. Okumura, et al. Challenges in Perception and Decision Making for Intelligent Automotive Vehicles: A Case Study[J]. IEEE Transactions on Intelligent Vehicles, 2016, 1(1): 20-32.
[14]楊家源. 半Markov決策過程強化學習算法研究[D].哈爾濱工業(yè)大學,2018.
[15]Thrun, S., Burgard, W., & Fox, D. Probabilistic robotics[M]. MIT press,2005.
[16]袁盛玥. 自動駕駛車輛城區(qū)道路環(huán)境換道行為決策方法研究[D].北京理工大學,2016.
[17]王丙琛. 基于深度強化學習的自動駕駛決策控制研究[D].大連理工大學,2020.DOI:10.26991/d.cnki.gdllu.2020.002159.
[18]J. Hu, et al. Enhancing scene understanding based on deep learning for end-to-end autonomous driving[J]. Engineering Applications of Artificial Intelligence, 2022, 116.
[19]M. Park, H. Kim,S. Park. A Convolutional Neural Network-Based End-to-End Self-Driving Using LiDAR and Camera Fusion: Analysis Perspectives in a Real-World Environment[J]. Electronics, 2021, 10(21).
[20]Matzliach, B.; Ben-Gal, I.; Kagan, E. Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities[J]. Entropy 2022, 24, 1168. https://doi.org/10.3390/e24081168