經(jīng)營性網(wǎng)站必須備案排名優(yōu)化關鍵詞
我自己的原文哦~? ? ? ?https://blog.51cto.com/whaosoft/13977368
#從圖像生成到端到端軌跡規(guī)劃
一、 擴散模型原理
擴散模型Diffusion Models是一種生成式模型,本質是去噪,噪音符合某種特定分布。其原理基于對數(shù)據(jù)分布的學習和模擬,主要包括正向擴散過程和反向生成過程。
其名字來源于一滴墨水滴進清水,以隨機運動的方式彌散到清水乃至于徹底消融。
擴散模型學習這個彌散過程,目的是把融化進清水(純噪音)里面的墨水(原始數(shù)據(jù))恢復出來。
模型訓練好后,給定一杯滴了墨水的清水,變魔術一般恢復出原始的墨水。這里的魔術只是某種學習了分布規(guī)律的神經(jīng)網(wǎng)絡。
正向擴散過程
從初始數(shù)據(jù)分布(如真實圖像分布)開始,逐步向數(shù)據(jù)中添加噪聲,這個過程遵循一個馬爾可夫鏈。在每一步,根據(jù)前一步的狀態(tài)和一個固定的噪聲分布,生成下一個更具噪聲的數(shù)據(jù)點。隨著時間步的增加,數(shù)據(jù)逐漸變得更像噪聲,最終達到一個近似純噪聲分布。
反向生成過程
從純噪聲開始,通過學習一個逆過程來逐步去除噪聲,以恢復出原始數(shù)據(jù)。這個逆過程通過神經(jīng)網(wǎng)絡來參數(shù)化,網(wǎng)絡的目標是根據(jù)當前帶噪聲的數(shù)據(jù)點和時間步,預測出前一個時間步的更接近原始數(shù)據(jù)的點。在訓練過程中,通過最大化似然估計或其他損失函數(shù)來調整神經(jīng)網(wǎng)絡的參數(shù),使得模型能夠逐漸學會從噪聲中生成真實的數(shù)據(jù)樣本。
擴散模型通過正向擴散過程來定義數(shù)據(jù)的噪聲化過程,然后通過反向生成過程來學習如何從噪聲中恢復數(shù)據(jù),從而實現(xiàn)對數(shù)據(jù)分布的建模和生成新的數(shù)據(jù)樣本。
圖 正向-反向diffusion過程,圖片來自網(wǎng)絡
馬爾可夫鏈(Markov Chain)是一種具有馬爾可夫性(無記憶性)的隨機過程,描述系統(tǒng)在狀態(tài)空間中隨時間轉移的規(guī)律。其核心特征是:未來狀態(tài)的概率僅依賴于當前狀態(tài),與歷史狀態(tài)無關。所以馬爾科夫性這個性質其實是個人為簡化。
過程 | 公式 | 說明 |
正向單步 | ||
正向多步 | 累積噪聲的線性組合 | |
反向單步 | 神經(jīng)網(wǎng)絡預測噪聲驅動去噪,?′ 為隨機噪聲 | |
損失函數(shù) | 最小化預測噪聲與真實噪聲的均方差 |
擴散模型擴散過程每一層的概率分布類型通常是一樣的,只是參數(shù)不一樣。
在常見的擴散模型中,比如基于高斯分布假設的擴散模型,每一層(時間步)的條件概率分布通常都被建模為高斯分布。雖然不同層的均值和方差等參數(shù)會根據(jù)擴散過程而變化,但分布類型保持一致,這樣的設定有助于模型的數(shù)學推導和計算。當然,也有一些擴散模型可能會采用其他類型的分布,如拉普拉斯分布等,在這種情況下,模型各層也會基于相同類型的分布來構建。
擴散模型(Diffusion Models)通常結合多種類型的神經(jīng)網(wǎng)絡來實現(xiàn)核心功能,包括去噪過程建模、概率分布學習和多尺度特征提取。其最常用的神經(jīng)網(wǎng)絡類型是u-net:
圖 ?U-net架構圖,來自網(wǎng)絡
U-Net作為最核心架構,其結構特點完全是對稱的,直觀講就是兩個卷積神經(jīng)網(wǎng)絡尾對尾嫁接在一起。
編碼器 - 解碼器架構:編碼器:通過卷積層逐步降低特征圖分辨率,提取高層語義信息(如物體形狀、紋理)。
解碼器:通過上采樣和跳躍連接恢復分辨率,將高層語義與低層細節(jié)結合。
跳躍連接:緩解深層網(wǎng)絡的梯度消失問題,增強細節(jié)恢復能力。
其在擴散模型中的作用是作為去噪核心,功能是輸入帶噪聲的圖像和時間步長(表示噪聲強度),輸出去噪后的圖像或預測噪聲。
圖像生成模型如 DALL-E 2、Stable Diffusion 均以U-Net 為骨干網(wǎng)絡。
作為U-net的核心創(chuàng)新的跳躍連接,其思想非常類似resnet的殘差鏈接,直接越過多層疊加。其操作是將編碼器特征圖Fi和解碼器特征圖Gj沿通道維度拼接,生成新的特征圖 H。示例代碼如下:?
二、 擴散模型和生成對抗網(wǎng)絡的對比
生成對抗網(wǎng)絡(Generative Adversarial Networks,GANs) 是一種深度學習模型,由 生成器(Generator)和判別器(Discriminator)組成,通過兩者的對抗博弈來學習數(shù)據(jù)分布并生成新樣本。它于2014年由 Ian Goodfellow(就是人工智能花書的作者)等人提出,已廣泛應用于圖像生成、視頻合成、數(shù)據(jù)增強等領域。
生成對抗網(wǎng)絡和擴散模型都存在加噪和去噪過程,目的都是去噪。從輸入輸出角度看,二者有一定的可替換性。
目前并無文獻表明二者誰更優(yōu)。也有文獻使用生成對抗網(wǎng)絡來做自動駕駛的長尾場景生成。
生成對抗網(wǎng)絡是在生成器的輸入中加入噪聲,可以使生成器更靈活地探索潛在空間,從而生成更加多樣化的樣本。
具體實現(xiàn)步驟如下:
- 在生成器的輸入向量 ( z ) 中加入噪聲。
- 噪聲通常是從一個簡單的分布(如標準正態(tài)分布 ( N(0, 1) ) 或均勻分布 ( U(-a, a) ))采樣得到的。
圖 生成對抗網(wǎng)絡的加噪過程,來自網(wǎng)絡
生成對抗網(wǎng)絡(GAN)在自動駕駛領域的應用幾乎和擴散模型重合,主要涵蓋數(shù)據(jù)生成、場景仿真、感知增強和決策優(yōu)化等方面。比如SurfelGAN(Google)利用激光雷達和攝像頭數(shù)據(jù)生成逼真的相機圖像,用于自動駕駛仿真模型訓練。
擴散模型像"考古修復"(從碎片還原文物),GAN像"造假大師"(不斷改進偽造技術)。
維度 | 擴散模型 | 生成對抗網(wǎng)絡(GANs) |
核心機制 | 基于正向擴散與逆向去噪的概率建模 | 基于生成器與判別器的對抗博弈 |
訓練方式 | 非對抗訓練,僅需優(yōu)化單一神經(jīng)網(wǎng)絡 | 對抗訓練,需同時優(yōu)化生成器和判別器 |
穩(wěn)定性 | 訓練更穩(wěn)定,不易出現(xiàn)模式崩潰 | 訓練難度高,易因梯度消失或模式崩潰失敗 |
樣本質量 | 生成圖像通常更清晰、多樣性更強(尤其高分辨率) | 早期 GANs 在高分辨率下可能出現(xiàn)模糊,需改進架構(如 StyleGAN) |
計算成本 | 訓練和生成需多步迭代,計算復雜度高 | 生成階段僅需單次前向傳播,速度快 |
理論基礎 | 基于熱力學擴散過程和變分推斷 | 基于博弈論和概率分布匹配 |
數(shù)學工具 | 隨機微分方程(SDE)、馬爾可夫鏈 | 概率分布散度(如 JS 散度、Wasserstein 距離) |
目前看擴散模型似乎比生成對抗網(wǎng)絡更受歡迎,一個原因是生成對抗網(wǎng)絡需要訓練至少兩個神經(jīng)網(wǎng)絡:生成器和判別器,計算量很大,訓練好的模型體積也大。
但是生成對抗網(wǎng)絡也有優(yōu)勢,就是其加噪過程往往融合多種分布類型的噪音,疊加的噪音更復雜;而不像基于馬爾可夫鏈加噪的擴散模型,噪音分布類型在一般情況下不變,只是變化分布參數(shù)。?
三、 擴散模型在自動駕駛領域的應用
擴散模型由于其去噪的本質,在自動駕駛領域的應用主要集中在數(shù)據(jù)生成、場景預測、感知增強和路徑規(guī)劃等方面。需要說明,擴散模型不僅可以用來對連續(xù)分布噪音進行去噪,也可以對離散分布噪音(和數(shù)據(jù))去噪,所以它也可以用于離散問題,比如決策規(guī)劃。
以下是具體的應用場景和技術優(yōu)勢:
1. 合成數(shù)據(jù)生成
擴散模型能夠生成高度逼真的駕駛場景數(shù)據(jù),解決真實數(shù)據(jù)不足或標注成本高的問題。
罕見場景生成,如極端天氣(暴雨、大霧)、突發(fā)障礙物(行人橫穿、車輛逆行)等,提升模型的泛化能力。
而且這種生成是可控的,通過條件控制(如BEV布局、3D標注)生成特定場景,例如NuScenes和KITTI數(shù)據(jù)集的擴展。
比如SynDiff-AD,基于潛在擴散模型的數(shù)據(jù)生成pipeline,顯著提升模型在低光照、極端天氣等條件下的性能。
2. 場景預測與視頻生成
擴散模型可用于預測未來駕駛場景的動態(tài)變化,
包括多模態(tài)預測,也就是生成可能的交通參與者行為(如車輛變道、行人軌跡),支持決策系統(tǒng)。還有視頻生成,比如DriveGenVLM結合視覺語言模型(VLMs)生成真實駕駛視頻,用于仿真測試。
3. 感知任務優(yōu)化
擴散模型在感知任務中可去除噪聲并增強數(shù)據(jù)質量:
BEV去噪:利用擴散模型清理鳥瞰圖(BEV)中的噪聲,提升目標檢測精度。
多傳感器融合:生成一致的雷達與攝像頭數(shù)據(jù),改善感知魯棒性。
4. 路徑規(guī)劃與決策
擴散模型通過概率建模支持多模態(tài)路徑生成:
Diffusion Planner:清華AIR團隊提出的規(guī)劃算法,利用擴散模型的引導機制適應復雜路況,提升安全性和泛化能力。
實時端到端控制:DiffusionDrive通過截斷擴散步驟實現(xiàn)實時決策,直接從人類駕駛數(shù)據(jù)學習。
其中所謂截斷擴散就是跳躍性地去噪,本來去噪要像加噪過程一樣經(jīng)過多步打磨,現(xiàn)在則是直接越過幾步,去噪時通過采樣來模擬多步加噪的疊加分布,至于越過幾步為好則是調參的藝術。
5. 端到端自動駕駛
擴散模型直接學習駕駛策略,簡化傳統(tǒng)模塊化流程。
比如動作分布建模,也就是處理多模式駕駛行為(如避障或變道),避免傳統(tǒng)方法的單一輸出限制。
6. 小眾應用
除了直接用于自動駕駛的擴散模型,還可以用于優(yōu)化算法(也就是求最大或最小值),從而間接服務于自動駕駛。
自動駕駛有許多最小化優(yōu)化問題,比如最小能量消耗路徑,在商用車重卡領域用的非常多。其目標函數(shù)是:
其中F函數(shù)式車輛在速度vi下的單位距離能耗。
而Diffusion-ES(Diffusion Evolution Strategy) 是一種將擴散模型(Diffusion Model)與進化策略(Evolution Strategy, ES)相結合的優(yōu)化算法,旨在利用擴散模型強大的生成能力和進化策略的全局搜索能力,高效求解復雜優(yōu)化問題,比如上面的最小能量消耗路徑求解。
技術優(yōu)勢總結
應用方向 | 技術優(yōu)勢 | 典型案例 |
合成數(shù)據(jù)生成 | 解決數(shù)據(jù)稀缺,支持可控生成 | SynDiff-AD 、ControlNet |
場景預測 | 多模態(tài)未來幀生成,動態(tài)適應性 | DriveGenVLM |
感知優(yōu)化 | BEV去噪、多傳感器一致性 | BEV-Guided Diffusion |
路徑規(guī)劃 | 多模態(tài)路徑生成,高泛化能力 | Diffusion Planner |
端到端控制 | 實時性高,直接學習人類策略 | DiffusionDrive |
四、總結
擴散模型在自動駕駛中的應用仍處于快速發(fā)展階段,未來可能與BEV、大語言模型(LLMs)進一步結合,推動全棧技術革新。
業(yè)界和學術多有基于擴散模型的技術方案,本文更偏重企業(yè)方案,列舉三個:
毫末智行在2025 年 1 月 28 日,毫末智行聯(lián)合清華大學 AIR 智能產業(yè)研究院等機構在 ICLR 2025 上發(fā)布了 Diffusion Planner。該算法基于 Diffusion Transformer,能高效處理復雜場景輸入,聯(lián)合建模周車運動預測與自車規(guī)劃中的多模態(tài)駕駛行為。通過擴散模型強大的數(shù)據(jù)分布擬合能力,精準捕捉復雜場景中周車與自車的多模態(tài)駕駛行為,實現(xiàn)周車預測與自車規(guī)劃的聯(lián)合建模。在大規(guī)模真實數(shù)據(jù)集 nuPlan 的閉環(huán)評估中取得 SOTA 級表現(xiàn),大幅降低了對后處理的依賴,并在 200 小時物流小車數(shù)據(jù)上驗證了多種駕駛風格下的魯棒性和遷移能力。目前,毫末團隊已進入實車測試階段,率先實現(xiàn)端到端方案在末端物流自動配送場景的應用落地。
地平線與香港大學等團隊提出了 HE - Drive,這是首個以類人駕駛為核心的端到端自動駕駛系統(tǒng)。該系統(tǒng)利用稀疏感知技術生成三維空間表示,作為條件輸入到基于條件去噪擴散概率模型(DDPM)的運動規(guī)劃器中,生成具備時間一致性的多模態(tài)軌跡。然后,基于視覺語言模型引導的軌跡評分器從候選軌跡中選擇最舒適的軌跡來控制車輛。HE - Drive 在 nuScenes 和 OpenScene 數(shù)據(jù)集上實現(xiàn)了 SOTA 性能和效率,同時在真實世界數(shù)據(jù)中提供了更舒適的駕駛體驗。
理想汽車在 2025 年推出的下一代自動駕駛架構 MindVLA,整合了空間智能、語言智能和行為智能。該技術基于端到端和 VLM 雙系統(tǒng)架構,通過 3D 空間編碼器和邏輯推理生成合理的駕駛決策,并利用擴散模型優(yōu)化駕駛軌跡。MindVLA 采用 3D 高斯作為中間表征,利用海量數(shù)據(jù)進行自監(jiān)督訓練,其 LLM 基座模型采用 MoE 混合專家架構和稀疏注意力技術。通過 Diffusion 模型將動作詞元解碼為優(yōu)化軌跡,并結合自車行為生成和他車軌跡預測,提升復雜交通環(huán)境中的博弈能力。
最后,本文列舉一個有代表意義的學術方案。
在2024年機器人頂會 CoRL 上,《One Model to Drift Them All: Physics-Informed Conditional Diffusion Model for Driving at the Limits》一文的作者們Franck Djeumou等提出利用包含多種車輛在多樣環(huán)境下行駛軌跡的未標記數(shù)據(jù)集,訓練一個高性能車輛控制的條件擴散模型。條件擴散模型(Conditional Diffusion Models, CDMs)是一類基于擴散過程的生成模型,在生成過程中引入了額外的條件信息,從而能夠生成更為符合特定需求的樣本,例如生成符合特定文本描述、類別標簽或其他先驗信息的圖像。
這里的drift就是頭文字D里面的飄移,在極限情況下的飄移動作(橫向滑動),該模型能通過基于物理信息的數(shù)據(jù)驅動動態(tài)模型的參數(shù)多模態(tài)分布,捕捉復雜數(shù)據(jù)集中的軌跡分布。通過將在線測量數(shù)據(jù)作為生成過程的條件,將擴散模型融入實時模型預測控制框架中,用于極限駕駛。據(jù)報道,在豐田 Supra 和雷克薩斯 LC 500 上的實驗表明,單一擴散模型可使兩輛車在不同路況下使用不同輪胎時實現(xiàn)可靠的自動漂移,在對未知條件的泛化方面優(yōu)于專家模型。
#VLA模型
元戎啟行周光:攜手火山引擎,基于豆包大模型打造物理世界Agent
2025年6月11日,元戎啟行CEO周光受邀出席2025年火山引擎Force原動力大會,宣布元戎啟行將攜手火山引擎,基于豆包大模型,共同研發(fā)VLA等前瞻技術,打造物理世界的Agent。同時,周光宣布元戎啟行的VLA模型將于2025年第三季度推向消費者市場,并展示了VLA模型的四大功能——空間語義理解、異形障礙物識別、文字類引導牌理解、語音控車,功能將隨量產逐步釋放。
元戎啟行CEO周光
周光:“VLA的四大核心功能,相當于為AI汽車增加‘透視眼’‘百事通’‘翻譯官’‘應答靈’等屬性,讓AI汽車更全面地了解駕駛環(huán)境,準確預測潛在駕駛危險因素,顯著提升輔助駕駛的安全性。”?
空間語義理解:駕駛“透視眼”
VLA模型能夠全維度解構駕駛環(huán)境,精準破解橋洞通行、公交車遮擋視野等動靜態(tài)駕駛盲區(qū)場景駕駛風險。
例如,在通過無紅綠燈的路口時,VLA模型能提前識別到“注意橫穿,減速慢行”的指示牌,即使公交車通行造成動態(tài)盲區(qū),VLA也會結合公交車的動作去做出準確的決策。當公交車進行減速時,它會通過推理前方可能有行人穿行,并做出“立即減速、注意風險、謹慎通行”的決策。
?,時長00:16
公交車動態(tài)盲區(qū)遮擋
異形障礙物識別:駕駛“百事通”
vla模型是一個超級學霸,它通過互聯(lián)網(wǎng)迅速獲取知識并轉換成自己的經(jīng)驗,有自己的駕駛“知識庫”,對駕駛過程中出現(xiàn)的各類障礙物了如指掌,準確判斷潛在危險因素,行駛更安全。例如,VLA模型能夠識別“變形”的超載小貨車,結合實際路況,執(zhí)行減速繞行或靠邊駕駛。
?,時長00:16
異形障礙物識別
文字引導牌理解:駕駛“翻譯官”
搭載VLA模型的AI 汽車不僅能 “看見” 道路標識,更能 “讀懂” 文字背后的通行規(guī)則,解析復雜路況里蘊含的路況信息,讓復雜路況決策如 “開卷考試” 般從容。面對左轉待行區(qū)、可變車道、潮汐車道等 “動態(tài)規(guī)則路段”,VLA模型能夠讀懂字符與圖標的含義,高效匹配實時路況。在多車道復雜路口選道直行的場景中,能夠準確識別車輛前方的文字及圖案標識牌,從左轉右轉混雜的路口準確找到左轉車道,并執(zhí)行操作。
?,時長00:14
特殊路標識別
語音交互控車:駕駛“應答靈”
通過VLA模型,AI汽車可以與用戶高效交流,根據(jù)語音指令做出對應的駕駛決策,隨叫隨應,交互更擬人,體驗更舒適。并且當用戶意愿與導航信息相沖突時,VLA模型會優(yōu)先采納用戶意愿。
語音控車指令
目前,元戎啟行已完成VLA模型的真實道路測試,預計今年將有超5款搭載元戎啟行VLA模型的AI汽車陸續(xù)推入市場。其中,VLA模型支持激光雷達方案與純視覺方案,將率先搭載在NVIDIA Drive Thor芯片上,后續(xù)元戎啟行還將通過技術優(yōu)化,讓VLA模型可以適配更多芯片平臺。
火山引擎汽車總經(jīng)理、智慧出行和具身研究院院長楊立偉表示:“元戎啟行作為業(yè)內率先推出VLA模型的企業(yè)之一,對人工智能的理解極為深刻?;鹕揭孀鳛樾袠I(yè)領先的云服務提供商,在云計算領域擁有深厚的技術實力和豐富的經(jīng)驗。我們非常期待與元戎啟行攜手合作,共同推動基于豆包大模型的物理世界Agent的落地應用,助力智慧出行領域的創(chuàng)新發(fā)展?!?/p>
周光強調:“VLA模型作為當下最先進的AI技術,可以連接視覺、語言、動作等多種模態(tài),打通物理世界與數(shù)字世界的壁壘,具有完善的任務規(guī)劃和執(zhí)行能力,是實現(xiàn)物理世界 agent 的關鍵技術。元戎啟行很高興能夠與火山引擎達成合作,基于VLA模型共同打造物理世界的Agent,讓雙方的先進技術在物理世界的各個領域落地,推動生產力進階?!?/p>
#理想司機Agent的一些細節(jié)
整體評價: 基于司機Agent 這個產品定義主要專注于 封閉園區(qū)/地下車庫場景下的多模態(tài)信息融合感知輸出決策。
產品整體定義,細節(jié)都是做的很完善了。
舉幾個細節(jié)點:
1??: 首先Agent 產品已經(jīng)全模型化輸出軌跡,除了部分兜底還會有少量的規(guī)則。因此和過去的AVP產品體驗完全不一樣。最為直觀的感受就是你感覺到在園區(qū)/地下車庫 AD Max 自己開車和人類司機開車體驗幾乎無差異
【當然還是沒有人類老司機開得好】。
2??:基于2D/3D 信息編碼整合進模型后,Agent 具備理解道路標牌【例如,出口,上下坡道,左右轉,電梯口,不允許通行,區(qū)域B12345,ABCDEFGG區(qū) etc】的能力,和語音交互感知【左右轉,靠邊停車,掉個頭,快點慢點,甚至給出先去A區(qū)再靠邊,或者掉頭后再去C區(qū)】的能力。簡單指令場景依賴的是本地的多模態(tài)LLM,復雜指令是Token化后上云大參量的LLM,將任務拆解后轉換成順序任務后在本地LLM執(zhí)行。
3??:具備自建關聯(lián)點的能力【我這里為什么不說建地圖而是建關聯(lián)點】有就幾個原因:首先更多的是行車的關聯(lián)結構,而并非記憶了精準的道路結構。因此車輛在調用這個關聯(lián)點記憶很像人在地下車庫開車【大概要往哪個地方開,而并非是像Hd map 具有嚴格的駕駛軌跡限定】,換句話說,關聯(lián)點建好后。理論上,給Agent 需求后,會直接進行關聯(lián)點分析,規(guī)劃出一條最近的【可以符合通行邏輯】的地下/園區(qū)駕駛軌跡。 當然現(xiàn)在他能力還有限,還是偶爾會出現(xiàn)開錯路,然后觸發(fā)掉頭再開【對因為行車模型化后,理論上可以觸發(fā)無限制掉頭,幾乎不會卡死】
4??:具備感知推理能力,而且懷疑整個AD Max Agent 場景是將行車感知攝像頭和泊車【魚眼】感知攝像頭對齊后輸入到模型里面。甚至還前融合了激光雷達的數(shù)據(jù)。
基本可以做到全向規(guī)則/不規(guī)則的環(huán)境感知能力。
考慮到業(yè)內發(fā)展態(tài)勢如此之快。從個人體驗角度來看,我覺得AD Max 司機Agent 和 NIO AD 的NWM。
是目前唯二,將多模態(tài)感知信息整合到一個模型里實現(xiàn)復雜推理的應用場景。
NWM大家已經(jīng)看到大量實測視頻,地下尋路能力非常不錯,而且多模態(tài)感知能力也非常好。
司機Agent。截至目前釋放的范圍:
1??:多模態(tài)感知+語音交互;
2??:地下車庫收費桿感知,判斷。銜接到封閉園區(qū)再到公開道路;
3??:構建關聯(lián)點記憶能力【第二次就不需要漫游出園區(qū)/地下車庫】,直接可以跟著大概記憶走,記憶不對也會觸發(fā)掉頭,換路 etc。