中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

二手網(wǎng)站建設(shè)的策劃網(wǎng)站如何賺錢

二手網(wǎng)站建設(shè)的策劃,網(wǎng)站如何賺錢,公司名稱預(yù)先核準(zhǔn)官網(wǎng),燙畫圖案設(shè)計網(wǎng)站導(dǎo)讀: 本文開發(fā)了一種新的混合運動規(guī)劃方法,將環(huán)境和預(yù)測信息集成在Frenet坐標(biāo)系中,提升了運動規(guī)劃能力。本文將傳統(tǒng)運動規(guī)劃算法的可預(yù)測性和穩(wěn)定性與RL的動態(tài)適應(yīng)性相結(jié)合,從而形成了一個能夠有效管理復(fù)雜情況并適應(yīng)不斷變化的環(huán)…

導(dǎo)讀:

本文開發(fā)了一種新的混合運動規(guī)劃方法,將環(huán)境和預(yù)測信息集成在Frenet坐標(biāo)系中,提升了運動規(guī)劃能力。本文將傳統(tǒng)運動規(guī)劃算法的可預(yù)測性和穩(wěn)定性與RL的動態(tài)適應(yīng)性相結(jié)合,從而形成了一個能夠有效管理復(fù)雜情況并適應(yīng)不斷變化的環(huán)境條件的系統(tǒng)。??【深藍(lán)AI】編譯

圖1|運動規(guī)劃代理的混合強化學(xué)習(xí)原理??【深藍(lán)AI】編譯

1. 摘要

本文介紹了一種自主運動規(guī)劃的新方法,即在Frenet坐標(biāo)系中使用強化學(xué)習(xí)(RL)代理來指導(dǎo)分析算法。這種組合直接解決了自動駕駛中的適應(yīng)性和安全性問題。運動規(guī)劃算法對于駕馭動態(tài)和復(fù)雜場景至關(guān)重要,然而,傳統(tǒng)方法缺乏不可預(yù)測環(huán)境所需的靈活性,而機器學(xué)習(xí)技術(shù),尤其是強化學(xué)習(xí)(RL),雖然具有適應(yīng)性,但卻存在不穩(wěn)定和缺乏可解釋性的問題。作者獨特的解決方案將傳統(tǒng)運動規(guī)劃算法的可預(yù)測性和穩(wěn)定性與RL的動態(tài)適應(yīng)性相結(jié)合,從而形成了一個能夠有效管理復(fù)雜情況并適應(yīng)不斷變化的環(huán)境條件的系統(tǒng)。

圖2|Frenetix運動規(guī)劃器??【深藍(lán)AI】編譯

2. 引言

正如各種碰撞報告所記錄的那樣,自動駕駛技術(shù)在現(xiàn)實世界中的實施擁有極大挑戰(zhàn)。這些挑戰(zhàn)包括在復(fù)雜的城市環(huán)境中導(dǎo)航、管理不可預(yù)測的交通和行人行為以及在新環(huán)境中做出明智的決策。這種不可預(yù)測性要求運動規(guī)劃領(lǐng)域采用高度復(fù)雜且適應(yīng)性強的算法。

傳統(tǒng)的分析規(guī)劃方法通常不足以處理現(xiàn)實世界場景的動態(tài)性質(zhì),這強調(diào)了自動駕駛系統(tǒng)對增強決策能力和強大適應(yīng)性以確保安全和效率的迫切需求。此外,分析基于規(guī)則的模型需要調(diào)整參數(shù),這涉及識別和調(diào)整適合特定場景的各種設(shè)置和參數(shù),這些調(diào)整通常是通過專家知識和數(shù)值評估技術(shù)進(jìn)行的。值得注意的是,即使是微小的參數(shù)變化也會明顯影響系統(tǒng)的行為。調(diào)整整個系統(tǒng)既低效又昂貴,在處理多種配置和變體時,這一點變得更加明顯。

當(dāng)代機器學(xué)習(xí)方法,尤其是強化學(xué)習(xí),在復(fù)雜場景中有望實現(xiàn)出色的性能。然而,學(xué)習(xí)過程的有效性取決于所使用的特定環(huán)境和訓(xùn)練配置。尤其是在自動駕駛中,用于運動規(guī)劃的機器學(xué)習(xí)模型成功率較低,或者只能在高速公路駕駛等特定環(huán)境和場景中取得成功。此外,復(fù)雜場景需要較長的訓(xùn)練時間,并且Sim2Real可能會出現(xiàn)失真問題。此外,這些代理的決策過程通常缺乏固有的透明度,需要在驗證和實施安全措施方面付出相當(dāng)大的努力,以確保其行動的可靠性和可信度。應(yīng)對這些挑戰(zhàn)至關(guān)重要,尤其是在安全性和可靠性至關(guān)重要的自動駕駛領(lǐng)域。

相比之下,結(jié)合分析和機器學(xué)習(xí)模型的混合方法有望在這兩個領(lǐng)域都發(fā)揮優(yōu)勢?;诖?#xff0c;作者提出了一種使用兩階段代理進(jìn)行運動規(guī)劃的新方法,如圖1所示。在這種方法中,分析模型的基礎(chǔ)穩(wěn)健性與機器學(xué)習(xí)算法的動態(tài)學(xué)習(xí)能力相結(jié)合,提高了駕駛行為環(huán)境中的性能和適應(yīng)性。這種混合方法有效地彌補了理論構(gòu)造與實際應(yīng)用之間的差距,特別是在具有復(fù)雜、非線性數(shù)據(jù)模式的環(huán)境中。特別注意,這些混合模型通常需要較少的數(shù)據(jù)進(jìn)行有效訓(xùn)練,在數(shù)據(jù)匱乏的情況下具有優(yōu)勢。另外,可以將安全方法和附加功能有效地集成到分析規(guī)劃算法中。

表1|學(xué)習(xí)過程的觀察空間??【深藍(lán)AI】編譯

3. 相關(guān)工作

多年來,自動駕駛運動規(guī)劃一直是研究的熱門領(lǐng)域。目前,已有多種方法被開發(fā)用于解決自動駕駛的規(guī)劃任務(wù)。規(guī)劃方法大體可分為以下幾類:

  • 基于圖的算法通過節(jié)點和邊的網(wǎng)絡(luò)來尋找結(jié)構(gòu)化路徑;
  • 基于采樣的方法通過生成大量可能性來探索各種軌跡;
  • 基于優(yōu)化的規(guī)劃方法則通過系統(tǒng)地評估各種約束和目標(biāo)來找到最有效的軌跡,其通常使用線性規(guī)劃、動態(tài)規(guī)劃或基于梯度的優(yōu)化等技術(shù)。

此外,利用人工智能的算法被開發(fā)出來用于在動態(tài)環(huán)境中提供高適應(yīng)性。自動駕駛研究領(lǐng)域中已有幾種機器學(xué)習(xí)模型可以學(xué)習(xí)控制方向盤和加速度,這些模型幾乎完全使用特定場景進(jìn)行訓(xùn)練,例如高速公路駕駛或決策代理。雖然這些模型體現(xiàn)出性能的改進(jìn),例如類似場景決策的準(zhǔn)確性和決策制定的實時性都得到改進(jìn),但在更復(fù)雜的場景的成功率太低,特別是對于現(xiàn)實世界的應(yīng)用。還通過逆強化學(xué)習(xí)研究了學(xué)習(xí)類似人類的行為。可以學(xué)習(xí)和采用某些特征的駕駛行為。然而,這并不能從根本上提高自動駕駛復(fù)雜場景行為規(guī)劃成功率。

相關(guān)研究探討了迭代學(xué)習(xí)和人類反饋如何改善自主機器人在復(fù)雜環(huán)境中的導(dǎo)航。通過將這些元素集成到傳統(tǒng)導(dǎo)航系統(tǒng)中,該研究展示了潛在的性能改進(jìn),同時保持了系統(tǒng)的安全性和可解釋性,這項研究為開發(fā)機器人自適應(yīng)導(dǎo)航系統(tǒng)提供了一個值得注意的視角。結(jié)果雖然很有希望,但主要作為概念驗證,它們沒有納入復(fù)雜的公共道路環(huán)境,也沒有考慮到其他道路使用者的預(yù)測不確定性。此外,該方法沒有集成復(fù)雜的分析規(guī)劃算法;相反,它依靠機器學(xué)習(xí)來吸收基于專家知識的參數(shù)設(shè)置。

也有人提出了一種將RL與快速探索隨機樹相結(jié)合的自動駕駛汽車運動規(guī)劃框架。它專注于有效控制車速和確保安全,使用深度學(xué)習(xí)技術(shù)適應(yīng)不同的交通狀況。該方法的主要問題是其在高維狀態(tài)空間中的收斂速度慢,這損害了其實時適用性。此外,該方法僅適用于某些場景,限制了其通用性。其他研究采用 RL 通過分析模型確定執(zhí)行動作的最佳切換點。這種方法適用于諸如定時車道變換和促進(jìn)不同道路使用者之間的互動行為等場景。當(dāng)前的研究表明,在探索一種將機器學(xué)習(xí)與強大的軌跡規(guī)劃分析算法相結(jié)合的混合方法方面存在差距,這種方法可以確保高成功率、實時能力、可解釋性和附加安全功能的集成??梢允褂眠@種獨立于監(jiān)督學(xué)習(xí)數(shù)據(jù)集的概念來研究其優(yōu)缺點。

圖3|學(xué)習(xí)過程結(jié)構(gòu)的類圖??【深藍(lán)AI】編譯

4. 方法

本節(jié)介紹了基于分析采樣的軌跡規(guī)劃器架構(gòu)與RL設(shè)計的結(jié)合,以開發(fā)混合運動規(guī)劃方法。

4.1 基于采樣的運動規(guī)劃器

本文所用的分析軌跡規(guī)劃算法是基于Frenet坐標(biāo)系中采樣方法,作者使用神經(jīng)網(wǎng)絡(luò)的算法來預(yù)測場景中的其他車輛。該算法在一個時間步內(nèi)的流程如圖2所示。該流程可歸納為以下主要階段:

? 車輛狀態(tài)更新: 車輛使用自我、預(yù)測和環(huán)境信息更新與Frenet坐標(biāo)系有關(guān)的所有狀態(tài)。

? 軌跡采樣: 該算法根據(jù)采樣矩陣對可能的軌跡進(jìn)行采樣。作者使用時間、速度和橫向采樣指標(biāo)來創(chuàng)建取決于當(dāng)前自我車輛狀態(tài)的不同軌跡方案。

? 軌跡運動學(xué)檢查: 根據(jù)單軌模型和車輛參數(shù)檢查生成的軌跡的運動學(xué)可行性。

? 軌跡成本計算: 作者使用不同的成本指標(biāo)(如碰撞概率、加速度、到參考路徑的距離和速度偏移成本)來區(qū)分不同軌跡的性能。作者將碰撞概率成本與來自預(yù)測信息的其他障礙物相結(jié)合。軌跡生成采用C++實現(xiàn),以減少計算時間并加速訓(xùn)練過程。

? 軌跡碰撞檢查: 分析成本最低的軌跡是否可能與車道邊界和其他障礙物發(fā)生碰撞。此步驟在成本計算步驟之后進(jìn)行,以提高計算效率。

按絕對成本排序的第一個無碰撞軌跡是更新當(dāng)前車輛狀態(tài)的最佳軌跡。根據(jù)為每個連續(xù)時間步計算的最佳軌跡更新車輛的狀態(tài)。軌跡涵蓋3秒的范圍。模擬的時間步離散化為0.1秒。

圖4|軌跡損失觀測空間??【深藍(lán)AI】編譯

4.2 強化學(xué)習(xí)過程

在本節(jié)中,作者將集成一個RL算法,該算法優(yōu)化了后續(xù)提出的基于采樣的軌跡規(guī)劃器的軌跡選擇過程。對于定制環(huán)境和訓(xùn)練過程,作者使用gymnasium4和stable-baselines35。對于代理的模擬環(huán)境,作者使用CommonRoad。優(yōu)化由近端策略優(yōu)化(PPO)執(zhí)行,這是一種通過剪輯策略更新來平衡探索和利用的RL算法。它避免了可能導(dǎo)致性能下降的大型策略更新,從而使訓(xùn)練更加穩(wěn)定和可靠。PPO算法的核心封裝在等式中:

L C L I P ( θ ) = E ^ t [ min ? ( r t ( θ ) A ^ t , clip ( r t ( θ ) , 1 ? ? , 1 + ? ) A ^ t ) ] L^{CLIP}(\theta) = \hat{\mathbb{E}}_t [ \min(r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t)] LCLIP(θ)=E^t?[min(rt?(θ)A^t?,clip(rt?(θ),1??,1+?)A^t?)]

該方程表示截斷的替代目標(biāo)函數(shù),這對于PPO算法的效率和穩(wěn)定性至關(guān)重要。這里, θ \theta θ表示策略參數(shù), E ^ t \hat{\mathbb{E}}_t E^t?是時間步長上的經(jīng)驗期望, r t ( θ ) r_t(\theta) rt?(θ)表示新策略與舊策略下的概率比, A ^ t \hat{A}_t A^t?表示時間 t t t時的估計優(yōu)勢, ? \epsilon ?是控制目標(biāo)函數(shù)中截斷的關(guān)鍵超參數(shù)。作者使用MlpLstmPolicy的循環(huán)PPO優(yōu)化來處理時間關(guān)系和信息。傳統(tǒng)的PPO架構(gòu)通過長短期記憶(LSTM)網(wǎng)絡(luò)進(jìn)行擴展,這是一種適用于動態(tài)時間序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)。這種方法在順序數(shù)據(jù)和部分可觀察環(huán)境中非常有效。LSTM組件可以表示如下:

? LSTM狀態(tài)更新: 在每個時間步 t t t,LSTM根據(jù)當(dāng)前輸入 x t x_t xt?、先前的隱藏狀態(tài) h t ? 1 h_{t-1} ht?1?和先前的單元狀態(tài) c t ? 1 c_{t-1} ct?1?更新其隱藏狀態(tài) h t ? 1 h_{t-1} ht?1?和單元狀態(tài) c t c_t ct?,表示為: ( h t , c t ) = L S T M ( x t , h t ? 1 , c t ? 1 ) (h_t,c_t)=LSTM(x_t,h_{t-1},c_{t-1}) (ht?,ct?)=LSTM(xt?,ht?1?,ct?1?)。

? 策略和價值函數(shù): 更新后的隱藏狀態(tài) h t h_t ht?隨后被策略網(wǎng)絡(luò) π ( a t ∣ s t , h t ) \pi(a_t|s_t,h_t) π(at?st?,ht?)和價值網(wǎng)絡(luò) V ( s t , h t ) V(s_t, h_t) V(st?,ht?)使用,其中 a t a_t at?是動作, s t s_t st?是時間 t t t的狀態(tài)。這種集成使網(wǎng)絡(luò)能夠記住過去的狀態(tài),從而增強復(fù)雜環(huán)境中的決策能力。

表2|PPO訓(xùn)練過程的混合獎勵??【深藍(lán)AI】編譯

為了啟動優(yōu)化過程,首先需要設(shè)計幾個關(guān)鍵組件:觀察空間、終止標(biāo)準(zhǔn)、獎勵系統(tǒng)的結(jié)構(gòu)以及代理行動空間的定義。圖3顯示了類圖,概述了訓(xùn)練過程中不可或缺的功能。

觀測空間: 觀測空間分為表1中的類別和觀測值。

類別可以分為各種類型: 源自自我車輛的類別、與實現(xiàn)目標(biāo)區(qū)域相關(guān)的類別、周圍信息、軌跡細(xì)節(jié)以及與采樣軌跡相關(guān)的成本信息。與其他僅假設(shè)直接車輛控制的系統(tǒng)不同,作者的方法提供了增強觀察空間的補充數(shù)據(jù)。軌跡規(guī)劃算法的數(shù)百條采樣軌跡通過圖2中的計算步驟包含附加信息。這些數(shù)據(jù)的關(guān)鍵要素包括運動學(xué)上可行的軌跡數(shù)量、每條軌跡的相關(guān)風(fēng)險水平及其各自的成本分布。此外,作者使用圖4中所示的概念來解決碰撞概率感知問題。

示意圖顯示了采樣的軌跡: 作者可以通過采用時間、速度和橫向相關(guān)采樣來構(gòu)建網(wǎng)格。該網(wǎng)格使作者能夠分析與最外層軌跡相關(guān)的碰撞概率成本的變化,從而豐富了觀察空間。這種方法可以映射隨時間變化的差異和相關(guān)性。在圖中,正橫向d方向的軌跡比負(fù)d方向的軌跡具有更高的碰撞概率成本。

動作空間: 圖1顯示了分析軌跡規(guī)劃器和RL代理之間的連接。代理學(xué)習(xí)動作,即軌跡規(guī)劃器的成本權(quán)重。理論上,任何調(diào)整都可以傳遞給軌跡規(guī)劃器。在作者的案例中,作者研究成本權(quán)重的調(diào)整來證明這一概念。為了實現(xiàn)和諧的行為,代理可以減少或增加軌跡規(guī)劃器的當(dāng)前成本權(quán)重。等式(2)顯示了代理在時間步 t t t中關(guān)于每個成本項 i i i的動作空間。

ω i t = ω i min ≤ ω i p r e v + ω i a c t i o n ≤ ω i max \omega_{i}^{t} = \omega_{i}^{\text{min}} \leq \omega_{i}^{prev} + \omega_{i}^{action} \leq \omega_{i}^{\text{max}} ωit?=ωimin?ωiprev?+ωiaction?ωimax?

考慮 ω i action \omega_{i}^{\text{action}} ωiaction?,它是 [ a min , a max ] [a_{\text{min}}, a_{\text{max}}] [amin?,amax?]范圍內(nèi)的浮點值。這里, ω i min \omega_{i}^{\text{min}} ωimin? ω i max \omega_{i}^{\text{max}} ωimax?分別表示絕對成本項的預(yù)定義最小值和最大值。此外, ω i p r e v \omega_{i}^{prev} ωiprev?表示來自前一個時間步的權(quán)重,而 ω i a c t i o n \omega_{i}^{action} ωiaction?表示算法的當(dāng)前動作。值得注意的是,每次執(zhí)行后,成本項都會重置為其默認(rèn)值。

表3|PPO算法超參數(shù)設(shè)定??【深藍(lán)AI】編譯

獎勵設(shè)計: 訓(xùn)練過程需要獎勵配置,這對成功和駕駛行為至關(guān)重要。作者在學(xué)習(xí)過程中使用的獎勵如表 II 所示,作者使用混合獎勵系統(tǒng)來提高訓(xùn)練效率,包括終止獎勵和稀疏獎勵。

終止獎勵對于成功完成場景至關(guān)重要,而稀疏獎勵則指導(dǎo)車輛行為。主要目標(biāo)是盡量減少碰撞,尤其是受終止獎勵影響的碰撞。此外,還需要稀疏獎勵來優(yōu)化駕駛性能和行為,例如滿足舒適度指標(biāo)或最大限度地降低整體駕駛風(fēng)險。車輛可以通過六種不同的方式完成場景。每個場景都有一個不同的時間范圍,這樣的時間范圍就是一個匹配可實現(xiàn)目標(biāo)的窗口。這允許比分配的時間間隔更快或更慢地達(dá)到目標(biāo),具體取決于車輛的性能。場景可能會因與障礙物或道路邊界相撞而結(jié)束,或者如果車輛在任何時間步都找不到有效的軌跡。此外,如果車輛未達(dá)到目標(biāo)就停下來,場景將在超過特定時間限制后自動終止。最佳性能包括嚴(yán)格遵守參考路徑、保持指定速度、最大限度地接近目標(biāo)距離以及最大限度地降低風(fēng)險。作者正在整合成本調(diào)節(jié)項,以增強車輛動作的穩(wěn)定性。這一增加旨在防止動作過度波動,促進(jìn)更平穩(wěn)、更和諧的駕駛行為。作者使用當(dāng)前動作與軌跡規(guī)劃器的默認(rèn)成本設(shè)置之間的絕對差。

圖5|各種情景下自我風(fēng)險和第三方風(fēng)險的平均值??【深藍(lán)AI】編譯

5. 實驗分析

本節(jié)展示模型的訓(xùn)練、選定的測試場景和結(jié)果。作者定性和定量地探索了該模型,將研究獨立默認(rèn)分析軌跡規(guī)劃器(DP)和建議的混合規(guī)劃器(HP)之間的差異。

圖6|HP(藍(lán)色)和DP(橙色)左轉(zhuǎn),迎面駛來車輛??【深藍(lán)AI】編譯

5.1 實驗環(huán)境和參數(shù)設(shè)置

作者使用T型路口場景(見圖6)進(jìn)行訓(xùn)練,因為它們與其他車輛表現(xiàn)出復(fù)雜且關(guān)鍵的交互動態(tài)。數(shù)據(jù)集中的各種場景提供了一定程度的可變性,以降低過度擬合的風(fēng)險。對于模型的訓(xùn)練和執(zhí)行,計算資源包括AMD 7950x處理器、NVIDIA GeForce RTX 4090顯卡和128GB RAM。作者研究中使用的超參數(shù)如表III所示。

訓(xùn)練與核心數(shù)并行,大約需要24小時才能完成700萬個時間步。數(shù)據(jù)分為訓(xùn)練集(75%)、驗證集(15%)和測試集(10%)。根據(jù)一系列評估場景中的獎勵函數(shù)選擇最佳模型。訓(xùn)練在2-3百萬個訓(xùn)練步驟后收斂,具體取決于設(shè)置。作者使用超參數(shù)調(diào)整,因為訓(xùn)練結(jié)果高度依賴于它。

圖7|HP和DP的速度分布以及由于混合規(guī)劃器的操作而導(dǎo)致的碰撞概率權(quán)重的相對變化??【深藍(lán)AI】編譯

5.2 風(fēng)險感知軌跡規(guī)劃

首先,作者研究學(xué)習(xí)到的代理的風(fēng)險行為,并為此設(shè)置獎勵(見表II)以優(yōu)化代理的行為。除了成功率之外,自動駕駛中的風(fēng)險也是評估算法安全性的決定性因素。隨后,風(fēng)險通過將軌跡 T \mathcal{T} T的最大碰撞概率 p p p乘以造成的傷害 H H H來計算。

R ( T ) = m a x ( p ( T ) H ( T ) ) R(\mathcal{T}) = \mathrm{max}(p(\mathcal{T})H(\mathcal{T})) R(T)=max(p(T)H(T))

作者的評估涵蓋了64種不同的場景來評估風(fēng)險水平。通過計算所有場景的平均風(fēng)險,作者獲得了對整體安全狀況的寶貴見解。值得注意的是,結(jié)果表明,自車和第三方道路使用者的風(fēng)險降低,凸顯了道路安全性的提高。圖5顯示了場景中的自車風(fēng)險和第三方風(fēng)險。藍(lán)色表示HP,橙色表示DP。與DP相比,HP僅顯示自車風(fēng)險的33%左右。

圖8|HP和DP算法的自車風(fēng)險分布??【深藍(lán)AI】編譯

代理降低風(fēng)險的獎勵對軌跡的選擇過程具有可持續(xù)的影響。作者的分析表明,盡管目標(biāo)變量眾多,但車輛可以改變其行為。強調(diào)在此框架內(nèi)仔細(xì)選擇獎勵條款的重要性至關(guān)重要。通過獎勵機制過于激進(jìn)地追求降低風(fēng)險可能會導(dǎo)致車輛在某些情況下選擇完全停止的情況。為了緩解這種情況,作者加入了一個特定的獎勵條款,如表II所示,以確保遵守指定的目標(biāo)速度,從而以可控的方式平衡安全性和運營效率。風(fēng)險是根據(jù)所選軌跡計算的,取決于規(guī)劃范圍。DP在短時間內(nèi)接受明顯更高的風(fēng)險,并且僅在識別出風(fēng)險后才對降低做出反應(yīng)。另一方面,此處介紹的模型通過環(huán)境和障礙物信息在風(fēng)險發(fā)生之前識別風(fēng)險情況。風(fēng)險在絕對值和持續(xù)時間方面都顯著降低。通過提前減速,還可以確定風(fēng)險峰值的發(fā)生時間與DP的風(fēng)險峰值有延遲。

5.3 適應(yīng)代理的駕駛行為

HP使得在運行時調(diào)整分析軌跡規(guī)劃算法的駕駛行為成為可能。在下面的分析中,作者展示了所提出的模型和獨立分析軌跡規(guī)劃器在駕駛行為上的差異。圖6分別以藍(lán)色和橙色顯示了相同場景中HP與DP的比較。

圖9|DP與HP的比較,共547個場景:DP以不同的碰撞概率成本執(zhí)行,以調(diào)查不同的設(shè)置。橙色表示發(fā)生碰撞的場景數(shù)量??【深藍(lán)AI】編譯

從定性上講,可以確定迎面駛來的車輛對駕駛行為的強烈適應(yīng)性。根據(jù)時間戳點顯示自車的中心位置。如藍(lán)色軌跡所示,作者的方法證明了對指定參考路徑的遵守有所改善,并輔以更早的制動啟動。相比之下,DP行駛時偏離參考路徑較大,但很快接近迎面駛來的車輛。

這種加速接近導(dǎo)致車輛在第74個時間步意外違反安全限制,從而導(dǎo)致與迎面駛來的車輛相撞??梢酝ㄟ^仔細(xì)更改DP的手動設(shè)置參數(shù)來完成該場景。然而,結(jié)果表明作者的HP可以避免手動調(diào)整參數(shù)。圖7顯示了DP和HP的速度以及HP代理在同一場景中調(diào)整規(guī)劃器碰撞概率權(quán)重的操作。與DP相比,HP的速度明顯降低,因此在這種情況下不會發(fā)生碰撞。這是通過代理的動作連續(xù)增加碰撞概率成本項的權(quán)重來實現(xiàn)的。RL模型甚至可以部分補償成本函數(shù)中的概念錯誤,這可以從DP在這種情況下的強烈加速度中得出。

圖8顯示了場景中主動自我風(fēng)險的降低??梢钥闯?#xff0c;在作者的模型中,風(fēng)險總額明顯較低。理論上計算的風(fēng)險不一定反映碰撞的發(fā)生。然而,模型可以避免碰撞,并將計算出的潛在危害風(fēng)險最小化。對物體的錯誤預(yù)測會導(dǎo)致導(dǎo)致DP碰撞的行為。結(jié)果表明,這些可以通過模型進(jìn)行補償。

表4|在不同場景下默認(rèn)規(guī)劃器和混合規(guī)劃器之間的驅(qū)動特性測量??【深藍(lán)AI】編譯

5.4 場景性能評估

作者在DP中應(yīng)用了不同的碰撞概率成本參數(shù),以確保參數(shù)化的準(zhǔn)確性。將結(jié)果與HP進(jìn)行比較,如圖9所示。可以看出,DP的成功率很高,但在每種配置中都會發(fā)生碰撞。適當(dāng)設(shè)置碰撞概率成本對于平衡算法至關(guān)重要。成本設(shè)置得太低可能會導(dǎo)致過于激進(jìn)的駕駛而發(fā)生碰撞。相反,過高的成本可能會因過于謹(jǐn)慎的行為而導(dǎo)致追尾碰撞。DP缺乏足夠的靈活性,需要更多功能才能獲得最佳性能。經(jīng)過訓(xùn)練的HP表現(xiàn)非常出色,即使在以前未見過的測試場景中也沒有觀察到碰撞??梢詮谋鞩V中獲得駕駛行為的差異。HP在與參考路徑的最大允許偏差方面表現(xiàn)出色。此外,降低了最大和平均速度以改善T型路口場景的轉(zhuǎn)彎機動。此外,與HP中的最佳軌跡相關(guān)的成本顯示出更大的偏差。由于應(yīng)用了可變權(quán)重,這種偏差的增加是可行的,為軌跡優(yōu)化提供了更細(xì)致入微的方法。

圖10|RL模型預(yù)測、軌跡束計算和整體模型每次迭代的執(zhí)行時間??【深藍(lán)AI】編譯

5.5 執(zhí)行時間評估

圖10以箱線圖形式說明了RL框架內(nèi)三個關(guān)鍵組件每次迭代的執(zhí)行時間(以秒為單位):RL模型預(yù)測執(zhí)行、DP的采樣步驟和整體模型執(zhí)行。

計算時間基于十種不同的場景確定,代理預(yù)測執(zhí)行的平均時間約為0.44毫秒。此步驟僅包括神經(jīng)網(wǎng)絡(luò)的執(zhí)行,而不包括環(huán)境模型的更新。每個時間步長大約包含800條軌跡的生成、有效性檢查和成本計算平均需要大約15.8毫秒。增加分析規(guī)劃步驟中的軌跡數(shù)量對計算時間影響不大,因為由于C++包擴展,并行化過程是穩(wěn)定的。運行整個模型每次迭代平均需要大約46毫秒的執(zhí)行時間。

5.6 結(jié)果討論

結(jié)果表明,混合方法是有效的,并且可以顯著改善分析模型,同時縮短執(zhí)行時間。與其他純RL模型相比,該模型的訓(xùn)練過程很快,成功率很高。通用性顯著提高。雖然純分析模型在某些情況下表現(xiàn)相對較好,但性能可能因情況而異。此外,通過正確的設(shè)置,所提出的模型可以補償其他模型(例如預(yù)測算法)的誤差。然而,對算法的重大修改需要對代理模型進(jìn)行部分重新訓(xùn)練。該方法的設(shè)計也可以進(jìn)行調(diào)整和增強。因此,方程(2)中的極限經(jīng)常被利用,這表明該模型可以得到改進(jìn)。此外,必須仔細(xì)考慮獎勵值和場景的選擇,這可能很耗時。總體而言,作者的概念展示了混合規(guī)劃器提供的協(xié)同作用的有效利用,并通過更高的復(fù)雜性和在邊緣場景中的適用性擴展了當(dāng)前可用的方法。

7. 總結(jié)展望

本文介紹了一種用于軌跡規(guī)劃的混合運動規(guī)劃器方法,以在變化的條件下增強車輛駕駛行為。針對傳統(tǒng)分析軌跡規(guī)劃器的低通用性,作者的方法將基于采樣的規(guī)劃器與RL代理相結(jié)合。該代理動態(tài)調(diào)整分析算法中的成本權(quán)重,提高其適應(yīng)性。作者的方法利用觀察空間,包括環(huán)境、語義地圖和障礙物數(shù)據(jù),這些數(shù)據(jù)對于混合代理學(xué)習(xí)車輛動力學(xué)至關(guān)重要。結(jié)果表明,代理的成功率顯著提高,風(fēng)險降低,同時保持了現(xiàn)實世界應(yīng)用的高性能執(zhí)行時間。且通過更廣泛的調(diào)查,附加功能可以改善駕駛行為和模型性能。未來的工作可以使用RL優(yōu)化分析規(guī)劃器的采樣參數(shù),從而研究該算法在現(xiàn)實世界中的適用性。通過圖形表示等方式納入更全面的環(huán)境數(shù)據(jù),可以進(jìn)一步提高系統(tǒng)的穩(wěn)定性和效率。
??【深藍(lán)AI】

Ref:
A Reinforcement Learning-Boosted Motion Planning Framework: Comprehensive Generalization Performance in Autonomous Driving
編譯|匡吉
審核|Los

本文首發(fā)于微信公眾號【深藍(lán)AI】,移步公眾號【深藍(lán)AI】,第一時間獲取自動駕駛、人工智能與機器人行業(yè)最新最前沿論文和科技動態(tài)👇
深藍(lán)AI·賦能自動駕駛+機器人+AI

http://www.risenshineclean.com/news/11754.html

相關(guān)文章:

  • wordpress 任務(wù)馮耀宗seo博客
  • 企業(yè)網(wǎng)站開發(fā)技術(shù)湛江百度seo公司
  • 如何用java做網(wǎng)站視頻珠海網(wǎng)站設(shè)計
  • 揚州外貿(mào)網(wǎng)站seo正規(guī)的培訓(xùn)機構(gòu)有哪些
  • 沈陽企業(yè)網(wǎng)站優(yōu)化排名方案如何免費注冊網(wǎng)站
  • 江蘇運營網(wǎng)站建設(shè)業(yè)務(wù)免費建站哪個最好
  • 做網(wǎng)站需要字體切換鎮(zhèn)江關(guān)鍵字優(yōu)化公司
  • 做視頻網(wǎng)站怎么賺錢在線生成個人網(wǎng)站免費
  • wordpress列表提取文章第一張圖片安卓aso關(guān)鍵詞優(yōu)化
  • 音樂網(wǎng)站開發(fā)分享管理微信軟件
  • wordpress playyoseo是什么職位簡稱
  • 如何做圖片 網(wǎng)站 鏈接廣州商務(wù)網(wǎng)站建設(shè)
  • 自己做網(wǎng)站微商深圳平臺推廣
  • 局網(wǎng)站建設(shè)申請小紅書廣告投放平臺
  • 網(wǎng)站開發(fā)任務(wù)概述吸引人的軟文標(biāo)題
  • 廈門網(wǎng)站建設(shè)培訓(xùn)學(xué)校重慶seo排名優(yōu)化
  • 做網(wǎng)站的要多錢百度本地推廣
  • 有哪些外貿(mào)網(wǎng)站重慶seo關(guān)鍵詞優(yōu)化服務(wù)
  • 目前做網(wǎng)站流行的是什么建站服務(wù)
  • 上海高端網(wǎng)站建設(shè)制作seo軟件安卓版
  • 鄭州哪里做網(wǎng)站最好線上廣告接單平臺
  • 上什么網(wǎng)站做會計教育成都網(wǎng)站seo公司
  • 新疆建設(shè)云網(wǎng)站投訴電話網(wǎng)絡(luò)營銷推廣軟件
  • 鄭州網(wǎng)站建設(shè)推銷鏈接制作軟件
  • 哪個網(wǎng)站做螺絲生意好為什么不建議去外包公司上班
  • 一起做業(yè)英語網(wǎng)站站長統(tǒng)計app軟件
  • 裝修網(wǎng)站建設(shè)策劃方案怎么做好推廣和營銷
  • 企業(yè)網(wǎng)站推廣效果從哪些方面進(jìn)行分析網(wǎng)絡(luò)鏈接推廣
  • 鄭州做網(wǎng)站網(wǎng)站建設(shè)費用企業(yè)營銷型網(wǎng)站建設(shè)
  • 網(wǎng)站開發(fā)能用react嗎恩施seo整站優(yōu)化哪家好