訂閱
糾錯(cuò)
加入自媒體

世界模型是讓自動(dòng)駕駛汽車?yán)斫馐澜邕是預(yù)測未來?

世界模型在自動(dòng)駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對自動(dòng)駕駛的作用時(shí),難免會(huì)出現(xiàn)分歧。它到底是讓自動(dòng)駕駛汽車得以理解世界,還是為其提供了預(yù)測未來的視角?

世界模型到底做了什么?

世界模型,其實(shí)是一個(gè)“內(nèi)部表征+動(dòng)態(tài)預(yù)測”的組合。簡單理解,世界模型就是將感知到的東西(圖像、點(diǎn)云、雷達(dá)、文本、動(dòng)作歷史)壓縮成一套內(nèi)部狀態(tài),然后用這套內(nèi)部狀態(tài)去生成、預(yù)測接下來可能出現(xiàn)的場景或觀察。

想要實(shí)現(xiàn)“內(nèi)部表征+動(dòng)態(tài)預(yù)測”,有兩個(gè)關(guān)鍵的技術(shù)不得不去討論,一個(gè)是“表示”(representation),也就是把復(fù)雜的外界信息提煉成對后續(xù)推斷和決策有用的結(jié)構(gòu);還有一個(gè)是“生成/預(yù)測”(generative/predictive),即基于表示去推演、采樣、評(píng)估未來可能發(fā)生的序列。

早期很多研究發(fā)現(xiàn),如果智能體每一步都只根據(jù)當(dāng)前看到的畫面直接“做反應(yīng)”,其實(shí)跟條件反射差不多,缺少前瞻性。一旦場景稍微復(fù)雜,或者需要權(quán)衡幾步之后的結(jié)果,這種做法就很容易失誤。于是“世界模型”這個(gè)概念就被引入到強(qiáng)化學(xué)習(xí)中,也就是先讓系統(tǒng)學(xué)會(huì)一個(gè)簡化但可信的“世界運(yùn)行方式”,也就是學(xué)清楚在某個(gè)狀態(tài)下采取什么動(dòng)作,環(huán)境大概率會(huì)往哪個(gè)方向發(fā)展。等這個(gè)模型學(xué)成了,策略就不再只盯著眼前這一刻,而是可以在這個(gè)“內(nèi)部世界”里提前試著走幾步,看看不同選擇大概會(huì)帶來什么后果,再?zèng)Q定現(xiàn)實(shí)中該怎么做。

這種做法的變化點(diǎn)在于,系統(tǒng)不再是“看見什么就立刻反應(yīng)什么”,而是先在內(nèi)部做一輪模擬和推演,再輸出動(dòng)作。也正因?yàn)槎嗔诉@一步“提前想一想”的動(dòng)作,智能體的行為便傾向于在做規(guī)劃,而不是條件反射式的響應(yīng)。

這也回答了為什么有人說世界模型是在“理解世界”,如果“理解”被定義為能在內(nèi)部構(gòu)建一個(gè)能解釋因果、能預(yù)測后果、并能據(jù)此做出合理選擇的表征,那么世界模型確實(shí)是一種機(jī)器理解。相對地,如果你把“理解”定義為擁有像人類一樣的主觀體驗(yàn)、常識(shí)推理和高層抽象的概念,那世界模型還遠(yuǎn)未到那一步。

其實(shí)世界模型更準(zhǔn)確的定位應(yīng)該是一種能替代部分理解功能的機(jī)器表征與預(yù)測機(jī)制,它做的是有用的理解,而不是類似人類的全方位主觀理解。世界模型的更像是讓大模型在內(nèi)部試跑未來,再用模擬得到的后果指導(dǎo)現(xiàn)實(shí)中的行動(dòng)。

世界模型的三要素

將世界模型拆開剖析,其可以分為3部分,第1個(gè)是表征(representation),第2個(gè)是動(dòng)力學(xué)/生成模型(dynamics/generative),第3個(gè)是利用這些能力來支持決策(planning/control)。

這三者不是獨(dú)立模塊簡單拼湊,而是互相輔助,好的表征可以讓預(yù)測更穩(wěn)健,可靠的預(yù)測能讓規(guī)劃更安全,而規(guī)劃過程也能反過來推動(dòng)表征和預(yù)測的改進(jìn)(例如通過閉環(huán)數(shù)據(jù)收集)。這種閉環(huán)被視為世界模型范式的核心,即大模型學(xué)習(xí)一個(gè)可用來想象未來的內(nèi)部世界,然后在想象中訓(xùn)練和評(píng)估動(dòng)作。

表征通常會(huì)把高維觀測映射到一個(gè)低維或離散的潛在空間,這個(gè)潛在空間既要壓縮信息,也要保留那些對未來預(yù)測和決策至關(guān)重要的結(jié)構(gòu)(比如物體的速度、相對位置、可碰撞性、路面屬性等)。

生成/動(dòng)力學(xué)模塊則在這個(gè)潛在空間上學(xué)習(xí)時(shí)間演化規(guī)則,給定當(dāng)前潛在狀態(tài)和動(dòng)作,預(yù)測下一步潛在狀態(tài)或直接生成下一幀觀測。一旦這套機(jī)制可用,就能在內(nèi)部做軌跡采樣、比較不同動(dòng)作序列的后果,進(jìn)而選擇一個(gè)看起來更安全、更高收益的動(dòng)作。這種“先想后做”的模式,正是世界模型在機(jī)器人和自動(dòng)控制里被看好的核心原因。

當(dāng)然,世界模型并不是生成像素級(jí)的逼真畫面,而是在某種抽象層面上保留因果和可操作的信息。換言之,對于世界模型來說,能不能預(yù)測未來的高層結(jié)構(gòu)(哪個(gè)物體會(huì)碰到哪個(gè)物體,速度會(huì)如何變化,行人的意圖是不是要橫穿馬路)比單純把畫面渲染得漂亮更重要。這也是為什么有些工作不做原始像素的逐幀生成,而是去預(yù)測四維占據(jù)(4Doccupancy)、幾何表示、BEV(bird-eyeview)軌跡或更緊湊的行為意圖。

世界模型到底是在“理解”還是“預(yù)測”?

如果非要在“理解世界”與“預(yù)測未來”之間選一項(xiàng)作為世界模型的本質(zhì),智駕最前沿以為,世界模型本質(zhì)上是為了預(yù)測而構(gòu)建的表征系統(tǒng),但這種預(yù)測是為決策服務(wù)的,因此它等同于一種可操作的理解。也就是說,世界模型通過預(yù)測未來(短期或中期)的能力來體現(xiàn)對世界的理解,但這種理解是功能性的、以行為為導(dǎo)向的,而不是哲學(xué)意義上的知道世界為什么存在的那種理解。

其實(shí)對于世界模型來說,預(yù)測是手段不是目的,世界模型的最終目的是改善決策效果,而預(yù)測未來只是實(shí)現(xiàn)該目的的方式。“理解”對于世界模型也只是一種可操作的形式,它不是詞典式的定義或人文式的領(lǐng)悟,而是把有用的因果、動(dòng)力學(xué)、約束編碼進(jìn)模型,使模型在遇到新情況時(shí)能推測后果并選擇更優(yōu)行動(dòng)。此外,世界模型的理解也只是一個(gè)工程目標(biāo),其能否把預(yù)測變成安全的、魯棒的決策依據(jù),比其能不能進(jìn)行人類化的理解更關(guān)鍵,也更實(shí)際。

對自動(dòng)駕駛的影響

在傳統(tǒng)自動(dòng)駕駛系統(tǒng)里,感知負(fù)責(zé)識(shí)別和定位,預(yù)測負(fù)責(zé)給出軌跡或意圖的分布,決策/規(guī)劃再根據(jù)這些輸入做路徑選擇。引入世界模型后,系統(tǒng)可以在內(nèi)部模擬各種動(dòng)作序列和外界響應(yīng),評(píng)估不同策略在模擬未來中的長期效果,使自動(dòng)駕駛系統(tǒng)不再只依賴短期軌跡預(yù)測。這意味著系統(tǒng)能在更長時(shí)間尺度上權(quán)衡風(fēng)險(xiǎn)和收益,而不是根據(jù)每一幀的數(shù)據(jù)做短期判斷。

世界模型也為自動(dòng)駕駛提供了一項(xiàng)關(guān)鍵技術(shù)方案,在模擬環(huán)境里,世界模型可批量生成極端情況,用于訓(xùn)練和驗(yàn)證,減少了現(xiàn)實(shí)路測需要費(fèi)時(shí)費(fèi)力且非常危險(xiǎn)的問題。如自動(dòng)駕駛大模型GAIA-1就利用視頻、文本和動(dòng)作的聯(lián)合建模,合成了多樣的駕駛場景,用于訓(xùn)練更魯棒的策略。當(dāng)然,這一方案需要注意合成場景必須高質(zhì)量并且覆蓋真實(shí)分布的關(guān)鍵薄弱點(diǎn),否則訓(xùn)練出來的策略在真實(shí)世界中將無法使用。因此對于自動(dòng)駕駛來說,世界模型是一種強(qiáng)補(bǔ)充手段,而不是完全替代真實(shí)路測的工具。

世界模型可以給自動(dòng)駕駛帶來前瞻性的預(yù)測,但這種前瞻性并非無誤。自動(dòng)駕駛系統(tǒng)在依賴世界模型做決策時(shí),必須有明確的不確定性度量與回退策略,在模型信心不足或預(yù)測分布過于分散時(shí),系統(tǒng)應(yīng)退回更保守的控制策略或請求人工干預(yù)。

世界模型如何處理長尾問題?

對于自動(dòng)駕駛來說,真實(shí)交通環(huán)境是非常復(fù)雜的,無論是對于哪種模型來說,想在學(xué)習(xí)階段就搜集所有的數(shù)據(jù)是完全不可能的。那世界模型是如何處理這一問題的?

世界模型會(huì)先用真實(shí)數(shù)據(jù)學(xué)習(xí)表征和基本動(dòng)力學(xué),再用生成式或模擬方法擴(kuò)展到稀有場景。近年來就有一些生成式世界模型(例如把視頻、動(dòng)作、文本聯(lián)合建模的那類)用無監(jiān)督或自監(jiān)督手段來學(xué)習(xí)高層結(jié)構(gòu),然后用這些模型合成數(shù)據(jù)來訓(xùn)練策略或進(jìn)行安全測試。

這種方式的好處是能在模擬中“壓縮”長尾風(fēng)險(xiǎn)的出現(xiàn)頻率,加速策略在極端情況的魯棒性提升;其壞處就是合成分布和現(xiàn)實(shí)分布的差異可能引入偏差或假象,導(dǎo)致訓(xùn)練結(jié)果與現(xiàn)實(shí)有偏差。

很多技術(shù)方案中會(huì)用不同模態(tài)(視覺、雷達(dá)、激光、地圖)融合進(jìn)表征,用基于潛在變量的生成模型或基于JEPA的預(yù)測架構(gòu)來學(xué)習(xí)時(shí)間一致性的表示,再用規(guī)劃器或強(qiáng)化學(xué)習(xí)算法在潛在空間里做閉環(huán)訓(xùn)練。

這樣做的目的是減小原始觀測維度的噪聲影響,把決策問題放在更穩(wěn)定的抽象層上。最新的一些技術(shù)甚至把世界模型做成離散token序列的形式,把預(yù)測問題變?yōu)樾蛄猩蓡栴},借助大規(guī)模序列模型的力量來提升長時(shí)序的穩(wěn)定性。

無論是哪種技術(shù)路線,其核心都是用內(nèi)部模型來替代部分真實(shí)交互,以節(jié)省成本并提升安全性。

最后的話

回到最開始的問題,世界模型是理解世界還是預(yù)測未來?答案是二者兼有。世界模型通過學(xué)習(xí)內(nèi)部表征來提高對未來的預(yù)測能力,而這些預(yù)測主要是為決策和行動(dòng)服務(wù)的。

世界模型通過提供一個(gè)可理解、可推理的世界表征,賦予了自動(dòng)駕駛系統(tǒng)預(yù)測未來的能力。理解是預(yù)測的基礎(chǔ),預(yù)測是理解的延伸與應(yīng)用。二者緊密耦合,讓自動(dòng)駕駛從“感知-反應(yīng)”模式,進(jìn)化到“理解-推演-決策”的更高層次,這正是其技術(shù)變革性的關(guān)鍵所在。

-- END --

       原文標(biāo)題 : 世界模型是讓自動(dòng)駕駛汽車?yán)斫馐澜邕是預(yù)測未來?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請輸入評(píng)論內(nèi)容...

請輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)