當前位置：首頁 > news >正文

廣州建設網(wǎng)站的公司外鏈下載

news 2025/7/5 23:33:15

廣州建設網(wǎng)站的公司,外鏈下載,深圳高端網(wǎng)站建設公司,門戶網(wǎng)站建設情況匯報25年2月來自浙大和菜鳥網(wǎng)絡的論文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。軌跡規(guī)劃對于自動駕駛至關(guān)重要，可確保在復雜環(huán)境中安全高效地導航。雖然最近基于學習的方法&a…

25年2月來自浙大和菜鳥網(wǎng)絡的論文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。

軌跡規(guī)劃對于自動駕駛至關(guān)重要，可確保在復雜環(huán)境中安全高效地導航。雖然最近基于學習的方法，特別是強化學習 (RL)，在特定場景中顯示出良好的前景，但 RL 規(guī)劃器在訓練效率低下和管理大規(guī)模真實駕駛場景方面仍存在困難。本文介紹 CarPlanner，一種使用 RL 生成多模態(tài)軌跡的一致自回歸規(guī)劃器。自回歸結(jié)構(gòu)可實現(xiàn)高效的大規(guī)模 RL 訓練，而一致性的結(jié)合可通過在時間步驟中保持一致的時間一致性來確保穩(wěn)定的策略學習。此外，CarPlanner 采用具有專家指導的獎勵函數(shù)和不變-視圖模塊的生成選擇框架，簡化 RL 訓練并提高策略性能。

軌跡規(guī)劃 [41] 在自動駕駛中至關(guān)重要，它利用感知和軌跡預測模塊的輸出來生成自車的未來姿態(tài)?？刂破鞲櫾撘?guī)劃軌跡，產(chǎn)生閉環(huán)駕駛的控制命令。最近，基于學習的軌跡規(guī)劃備受關(guān)注，因其能夠自動化算法迭代、消除繁瑣的規(guī)則設計并確保各種現(xiàn)實場景中的安全性和舒適性 [41]。

大多數(shù)現(xiàn)有研究 [3, 13, 19, 34] 采用模仿學習 (IL) 來使規(guī)劃軌跡與人類專家的軌跡保持一致。然而，這種方法存在分布漂移 [33] 和因果混淆 [10] 的問題。強化學習 (RL) 提供一種潛在的解決方案，它解決這些挑戰(zhàn)并通過獎勵函數(shù)提供更豐富的監(jiān)督。盡管強化學習在游戲 [39]、機器人技術(shù) [22] 和語言模型 [28] 等領(lǐng)域表現(xiàn)出有效性，但它在大規(guī)模駕駛?cè)蝿罩腥匀淮嬖谟柧毿实拖潞托阅軉栴}。

如圖（a）所示，該種方法涉及生成初始軌跡估計，然后通過 RL 的迭代應用對其進行細化。然而，包括 Gen-Drive [21] 在內(nèi)的最新研究表明，它仍然落后于最先進 IL 和基于規(guī)則的規(guī)劃器。這種方法的一個顯著限制是它忽略軌跡規(guī)劃任務中固有的時間因果關(guān)系。此外，在高維軌跡空間上直接優(yōu)化的復雜性可能會阻礙 RL 算法的性能。

自回歸模型，如圖（b）所示，其使用過渡模型中的單步策略循環(huán)地生成自車的姿態(tài)。在此類方法中，所有時間步驟中的自車姿態(tài)被合并以形成整體規(guī)劃軌跡?？紤]到時間因果關(guān)系，當前的自回歸模型允許交互行為。然而，一個常見的限制是它們依賴于從動作分布中進行自回歸隨機采樣來生成多模態(tài)軌跡。這種普通的自回歸程序可能會損害長期一致性，并不必要地擴大 RL 中的探索空間，從而導致性能不佳。

為了解決自回歸模型的局限性，本文引入 CarPlanner，這是一種一致的自回歸模型，旨在進行高效、大規(guī)模的基于 RL 規(guī)劃器訓練（見圖 ?）。CarPlanner 的關(guān)鍵見解是它將一致的模式表示作為自回歸模型的條件。

請?zhí)砑訄D片描述

MDP 用于對順序決策問題進行建模，其形式為一個元組 ?S, A, P, R, ρ_0, γ, T?。S 是狀態(tài)空間。A 是動作空間。P 是狀態(tài)轉(zhuǎn)換概率。R 表示獎勵函數(shù)，有界。ρ_0 是初始狀態(tài)分布。T 是時間范圍，γ 是未來獎勵的折扣因子。狀態(tài)-動作序列定義為 τ =(s_0,a_0,s_1,a_1,…,s_T)，其中 s_t 和 a_t 是時間步驟 t 時的狀態(tài)和動作。RL 的目標是最大化預期回報。

狀態(tài) s_t 包含矢量表示的地圖和智體信息。地圖信息 m 包括道路網(wǎng)絡、交通信號燈等，用折線和多邊形表示。智體信息包括自車和其他交通智體的當前和過去姿態(tài)，用折線表示。自車的智體索引為 0，交通智體的索引范圍從 1 到 N。對于每個智體 i，其歷史表示為 s^i_t?H:t，i ∈ {0,1,…,N}，其中 H 是歷史時間范圍。

將軌跡規(guī)劃任務建模為順序決策過程，并將自回歸模型分解為策略模型和轉(zhuǎn)換模型。連接軌跡規(guī)劃和自回歸模型的關(guān)鍵，是將動作定義為自車的下一個姿態(tài)，即 a_t = s^0_t+1。因此，在推動自回歸模型后，解碼后的姿勢被收集為自車規(guī)劃的軌跡，狀態(tài)序列進一步分解為策略模型和轉(zhuǎn)換模型。這里典型的自回歸方法帶有固有的相關(guān)問題：跨時間的不一致行為源于策略分布，而策略分布取決于從動作分布中進行的隨機抽樣。

為了解決上述問題，在自回歸方式中引入隨時間步驟保持不變的一致性模式信息 c。由于專注于自車軌跡規(guī)劃，因此一致性模式 c 不會影響轉(zhuǎn)換模型。

這種一致性自回歸方式揭示一個生成-選擇框架，其中模式選擇器根據(jù)初始狀態(tài) s_0 對每種模式進行評分，而軌跡生成器從模式條件策略中采樣來生成多模態(tài)軌跡。

該轉(zhuǎn)換模型需要在每個時間步中使用，因為它會根據(jù)當前狀態(tài) s_t 生成在時間步 t + 1 時的交通智體姿勢。實際上，這個過程非常耗時，而且使用這種轉(zhuǎn)換模型沒有看到性能提升，因此，用軌跡預測器 P (s_1:T^1:N |s_0 ) 作為非反應性轉(zhuǎn)換模型，該模型在給定初始狀態(tài) s_0 的情況下一次性生成交通智體的所有未來姿勢。

規(guī)劃器架構(gòu)

CarPlanner 的框架如圖所示，包含四個關(guān)鍵組件：1) 非反應式轉(zhuǎn)換模型、2) 模式選擇器、3) 軌跡生成器、和 4) 規(guī)則-增強選擇器。規(guī)劃器在生成-選擇框架內(nèi)運行。

請?zhí)砑訄D片描述

給定初始狀態(tài) s_0 和所有可能的 N_mode 模式，軌跡選擇器評估并為每種模式分配分數(shù)。然后，軌跡生成器生成與各自模式相對應的 N_mode 軌跡。

對于軌跡生成器，初始狀態(tài) s_0 被復制 N_mode 次，每次都與 N_mode 模式之一相關(guān)聯(lián)，從而有效地創(chuàng)建 N_mode 平行世界。策略在這些模擬環(huán)境中執(zhí)行。在策略展開期間，軌跡預測器充當狀態(tài)轉(zhuǎn)換模型，生成所有時間范圍內(nèi)交通智體的未來位置。

非反應式轉(zhuǎn)換模型

該模塊以初始狀態(tài) s_0 作為輸入，輸出交通智體的未來軌跡。初始狀態(tài)由智體和地圖編碼器處理，然后由自注意 Transformer 編碼器 [43] 融合智體和地圖特征。然后將智體特征解碼為未來軌跡。

智體和地圖編碼器。狀態(tài) s_0 包含地圖和智體信息。地圖信息 m 由 N_m,1 條折線和 N_m,2 個多邊形組成。折線描述車道中心和車道邊界，每條折線包含 3 N_p 個點，其中 3 對應車道中心、左邊界和右邊界。每個點的維度為 D_m = 9，并包含以下屬性：x、y、航向、速度限制和類別。連接時，左邊界和右邊界的點與中心點一起產(chǎn)生 N_m,1 × N_p × 3 D_m 的維度。

利用 PointNet [30] 從每條折線的點中提取特征，得到 N_m,1 × D 的維數(shù)，其中 D 表示特征維數(shù)。多邊形表示交叉路口、人行橫道、停車線等，每個多邊形包含 N_p 個點。利用另一個 PointNet 從每個多邊形的點中提取特征，得到 N_m,2 × D 的維數(shù)。然后，將折線和多邊形的特征連??接起來形成整體地圖特征，得到 N_m × D 的維數(shù)。智體信息 A 由 N 個智體組成，每個智體保持過去 H 個時間步長的姿勢。每個姿勢的維度為 D_a = 10，包括以下屬性：x、y、航向、速度、邊界框、時間步長和類別。因此，智體信息的維度為 N × H × D_a。應用另一個 PointNet 從每個智體的姿勢中提取特征，故有 N × D 的智體特征維度。

模式選擇器

該模塊將 s_0 和縱向-橫向分解模式信息作為輸入，并輸出每種模式的概率。

路線-速度的分解模式。為了捕捉縱向行為，生成 N_lon 模式，表示與每種模式相關(guān)的軌跡平均速度。每個縱向模式 c_lon,j 定義為 j 的標量值，在維度 D 上重復。因此，縱向模式的維數(shù)為 N_lon × D。對于橫向行為，使用圖搜索算法從地圖中識別 N_lat 條可能的路線。這些路線對應于自車可用的車道。這些路線的維數(shù)為 N_lat × N_r × D_m。為了提取有意義的表示，用另一個 PointNet 來聚合每條路線上 N_r 個點的特征，從而生成維度為 N_lat ×D 的橫向模式。為了創(chuàng)建全面的模式表示 c，結(jié)合橫向和縱向模式，得到 N_lat × N_lon × 2D 的組合維度。為了將此模式信息與其他特征維度對齊，將其傳遞通過線性層，映射回 N_lat × N_lon × D。N_mode = N_lat × N_lon。

基于查詢的 Transformer 解碼器。此解碼器用于將模式特征與從 s_0 派生的地圖和智體特征融合。在此框架中，模式用作查詢，而地圖和智體信息用作K-V。更新后的模式特征通過多層感知器 (MLP) 解碼以得出每個模式的分數(shù)，然后使用 softmax 運算符對其進行歸一化。

軌跡生成器

該模塊以自回歸方式運行，在給定當前狀態(tài) s_t 和一致模式信息 c 的情況下，反復解碼自身車輛的下一個姿勢 a_t。

不變-視圖模塊 (IVM)。在將模式和狀態(tài)輸入網(wǎng)絡之前，對它們進行預處理以消除時間信息。對于狀態(tài) s_t 中的地圖和智體信息，選擇自身當前姿勢的 KNN [29]，并僅將它們輸入到策略中。K 分別設置為地圖和智體元素的一半。對于捕捉橫向行為的路線，過濾掉那些段，其最接近自身車輛當前姿勢的點作為起點，保留 K_r 個點。在這種情況下，K_r 設置為一條路線中 N_r 個點的四分之一。最后，將路線、智體和地圖姿勢轉(zhuǎn)換為當前時間步 t 的自車坐標系。從當前時間步長 t 中減去歷史時間步長 t ? H : t，得到范圍為 ?H : 0 的時間步長。

基于 Q 的 Transformer 解碼器。采用與模式選擇器相同的主干網(wǎng)絡架構(gòu)，但查詢維度不同。由于 IVM 以及不同模式產(chǎn)生不同狀態(tài)的事實，地圖和智體信息不能在模式之間共享。因此，融合每個單獨模式的信息。具體而言，Q維度為 1 × D，而 K-V 的維度為 (N + N_m) × D。輸出特征維度保持為 1 × D。需要強調(diào)的是，Transformer 解碼器可以并行處理來自多個模式的信息，無需使用一個 for 循環(huán)按順序處理每個模式。

策略輸出。模式特征由兩個不同的頭處理：策略頭和 V 頭。每個頭包含自己的 MLP 來生成動作分布的參數(shù)和相應的 V 估計。采用高斯分布來建模動作分布，在訓練過程中，動作從該分布中抽樣。相反，在推理過程中，利用分布平均來確定動作。

規(guī)則-增強選擇器

該模塊首先引入一個基于規(guī)則的選擇器，以初始狀態(tài) s_0、多模態(tài)自車規(guī)劃軌跡和智體的預測未來軌跡為輸入。它計算駕駛導向指標，例如安全性、進度、舒適度等?；谝?guī)則的分數(shù)和模式選擇器提供的模式分數(shù)的加權(quán)和，獲得綜合分數(shù)。得分最高的自車規(guī)劃軌跡被選為軌跡規(guī)劃器的輸出。

訓練

首先訓練非反應式轉(zhuǎn)換模型，并在模式選擇器和軌跡生成器的訓練期間凍結(jié)權(quán)重。不會將所有模式都輸入生成器，而是采用贏者通吃策略，其中根據(jù)自車真實軌跡分配正模式，并將其作為軌跡生成器的條件。

模式分配。正的橫向模式由真實軌跡的端點決定。從起始位置到該端點的縱向距離被劃分為 N_lon 間隔，正的縱向模式對應于相關(guān)距離間隔。

損失函數(shù)。對于選擇器，使用交叉熵損失，即正模式的負對數(shù)似然和回歸自車真實軌跡的副任務。對于生成器，使用 PPO [36] 損失，它由三部分組成：策略改進、價值估計和熵。

獎勵函數(shù)。為了處理不同的場景，用自車未來姿勢和真值之間負的位移誤差 (DE) 作為通用獎勵。還引入其他術(shù)語來提高軌跡質(zhì)量：碰撞率和可駕駛區(qū)域合規(guī)性。如果未來姿勢發(fā)生碰撞或超出可駕駛區(qū)域，則獎勵設置為 -1；否則為 0。

模式丟棄。為了防止由于 Transformers 的殘差連接而過度依賴模式或路線信息，在訓練期間實現(xiàn)一個模式丟棄模塊，該模塊隨機屏蔽路線以緩解此問題。

遵循 PDM [9] 來構(gòu)建訓練和驗證分割。訓練集的大小為 176,218，其中使用所有可用的場景類型，每種類型有 4,000 個場景。驗證集的大小為 1,118，其中選擇 100 個場景和 14 種類型。在 2 個 NVIDIA 3090 GPU 中對所有模型進行 50 次訓練。每個 GPU 的批次大小為 64。用 AdamW 優(yōu)化器，初始學習率為 1e-4，當驗證損失停止減少時，以耐心為 0 和減少因子為 0.3 降低學習率。對于 RL 訓練，設置折扣 γ = 0.1 和 GAE 參數(shù) λ = 0.9。價值、策略和熵損失的權(quán)重分別設置為 3、100 和 0.001?？v向模式數(shù)設置為 12，橫向模式的最大數(shù)量設置為 5。

如下算法 1 概述 CarPlanner 框架的訓練過程。該過程涉及兩個主要步驟：(1) 訓練非反應性轉(zhuǎn)換模型，(2) 訓練模式選擇器和軌跡生成器。

請?zhí)砑訄D片描述

查看全文

http://www.risenshineclean.com/news/41459.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

廣州建設網(wǎng)站的公司外鏈下載

規(guī)劃器架構(gòu)

非反應式轉(zhuǎn)換模型

模式選擇器

軌跡生成器

規(guī)則-增強選擇器

訓練

相關(guān)文章：