世界模型,即通過預測未來的范式對數(shù)字世界和物理世界進行理解,是通往實現(xiàn)通用人工智能(AGI)的關鍵路徑之一。
在視頻生成領域,OpenAI 發(fā)布的 Sora 引起了廣泛關注,Sora 具有極強的仿真能力,可以展現(xiàn)出對物理世界的初步理解;視頻生成領軍企業(yè) Runway 在技術博客中表示,文生視頻系統(tǒng) Gen-2 的下一代產(chǎn)品將會通過通用世界模型來實現(xiàn)。在自動駕駛領域,Tesla 和 Wayve 均表示在利用世界模型的預測未來特性構建其端到端自動駕駛系統(tǒng)。在更廣泛的通用機器人智能領域,LeCun 多次在演講中表示對世界模型潛力的極大關注,并預言世界模型將會取代自回歸模型成為新一代智能系統(tǒng)的基礎。
為了對世界模型的最新進展進行全面探索和總結,近日,北京極佳視界科技有限公司(極佳科技)的研究人員聯(lián)合國內外多家單位(中國科學院自動化研究所、新加坡國立大學、中國科學院計算技術研究所、上海人工智能實驗室、邁馳智行、西北工業(yè)大學、清華大學等)推出了全球首篇通用世界模型綜述。
該綜述通過 260 余篇文獻,對世界模型在視頻生成、自動駕駛、智能體、通用機器人等領域的研究和應用進行了詳盡的分析和討論。另外,該綜述還審視了當前世界模型的挑戰(zhàn)和局限性,并展望了它們未來的發(fā)展方向。
極佳科技的研究人員表示,會在 GitHub 項目中持續(xù)更新關于通用世界模型的更多研究進展,希望該綜述能夠成為通用世界模型的研究參考。
世界模型通過對未來的預測來增進對世界的理解。如下圖所示,世界模型的預測能力對于視頻生成、自動駕駛以及智能體的發(fā)展至關重要,這三者代表了世界模型研究的主流應用方向。
首先,視頻生成世界模型是指利用世界模型技術來生成和編輯視頻,以便理解和模擬真實世界的情景。通過這種方式,能夠更好地了解和表達復雜的視覺信息,為藝術創(chuàng)作提供了全新的可能性。
其次,自動駕駛世界模型是指利用視頻生成和預測技術來創(chuàng)造和理解駕駛場景,并從這些場景中學習駕駛行為和策略,這對于實現(xiàn)端到端的自動駕駛系統(tǒng)具有重要意義。
最后,智能體世界模型是指利用視頻生成和預測技術在動態(tài)環(huán)境中建立智能體與環(huán)境的交互,與自動駕駛模型不同,智能體世界模型構建的是適用于各種環(huán)境和情境的智能策略網(wǎng)絡;這些智能體可能是虛擬的,例如在游戲中控制角色的行為,也可能是實體的,例如控制機器人在物理世界中執(zhí)行任務;通過這種方式,智能體世界模型為實現(xiàn)智能互動和智能控制提供了新的解決方案。
視頻生成領域
如下圖所示,首先,該綜述按照時間順序討論介紹了近年來提出的代表性視頻生成模型。在 2021 年之前,以 GAN 為基礎的模型(IRC-GAN、TGANs-C、TFGSN、StoryGAN、TiVGAN 等)主導了視頻生成領域。之后,基于自回歸建模(GODIVA、VideoGPT 等)、擴散建模(Imagen Video、SVD、CogVideo 等)和掩碼建模(MAGVIT、VideoPoet、WorldDreamer 等)的模型開始出現(xiàn),并取得了更好的生成效果。
以 GAN 為基礎的模型(下圖 (a))將生成器和判別器網(wǎng)絡進行對抗訓練,使得生成的視頻更加真實。擴散建模(下圖 (b))則將視頻信號編碼到隱空間,引入一個降噪過程來生成視頻,通過在隱空間多步降噪從純噪聲中解碼恢復出高質量視頻?;谧曰貧w建模的模型(下圖 (c))使用預測下一個視覺 Token 的方法,逐步生成下一個時間對應的視頻內容,這種方法能夠捕捉時間序列中的依賴關系,生成連貫和真實的視頻。而掩碼建模(下圖 (d))則通過在訓練過程中對部分視覺信息進行遮擋,并逐步恢復出掩碼區(qū)域,最終得到無掩碼的清晰視頻。綜上所述,近年來視頻生成模型呈現(xiàn)出了多樣化和創(chuàng)新化的發(fā)展趨勢,不同的模型方法相繼涌現(xiàn)并取得了令人矚目的生成效果。
Sora 是最近備受矚目的視頻生成模型,其技術方案依賴于上圖 (c) 的擴散模型。由于 Sora 是閉源的,本綜述的相關分析主要基于其技術報告(https://openai.com/index/video-generation-models-as-world-simulators)。如下圖所示,Sora 主要包括三個部分:
壓縮模型:該模型將原始視頻在時間和空間上進行壓縮,轉換成隱空間的特征進行表示,并且有一個解碼器可以將隱空間特征映射回原始視頻。
基于 Transformer 的擴散模型:與 DiT(Scalable Diffusion Models with Transformers)方法類似,該模型在隱空間中對含有噪聲的視覺特征不斷進行降噪處理。
語言模型:使用大語言模型將用戶的輸入編碼為詳細的 promts,以此控制視頻的生成。
自動駕駛領域
除了視頻生成方向,世界模型在自動駕駛場景下也存在巨大的應用價值,近些年來被研究者們不斷探索。下圖展示了自 2023 年以來,世界模型在自動駕駛場景場景下的研究發(fā)展,其中包括三種類型:端到端自動駕駛、駕駛場景 2D 模擬器和駕駛場景 3D 模擬器。
在自動駕駛領域,世界模型可以用來構建環(huán)境的動態(tài)表示。對未來的準確預測對于確保在各種工況下進行安全駕駛至關重要。因此,端到端自動駕駛方法(Iso-Dream、MILE、SEM2 等)通過最小化搜索空間并在 CARLA v1 模擬器上集成視覺動態(tài)的明確解耦來應對這些挑戰(zhàn)。TrafficBots 則是另一種基于世界模型的端到端駕駛方法,其側重于預測給定情景中各個智能體的行為。通過考慮每個智能體的目的地,TrafficBots 利用條件變分自動編碼器賦予各個智能體獨特的特征,從 BEV(鳥瞰圖)視角實現(xiàn)動作預測。
上述方法在 CARLA v1 上進行了實驗,但面臨 CARLA v2 中數(shù)據(jù)低效性的挑戰(zhàn)。為了解決 CARLA v2 場景的復雜性。Think2Drive 提出一種基于模型的強化學習方法用于自動駕駛,鼓勵規(guī)劃器在學習的潛在空間中進行 “思考”。該方法通過利用低維狀態(tài)空間和張量的并行計算顯著提高了訓練效率。
高質量的數(shù)據(jù)是訓練深度學習模型的基石。雖然互聯(lián)網(wǎng)文本和圖像數(shù)據(jù)成本較低且易于獲取,但在自動駕駛領域獲取數(shù)據(jù)存在著諸多挑戰(zhàn),原因包括傳感器復雜性和隱私問題等因素。特別是在獲取直接影響實際駕駛安全的長尾目標時更是如此。世界模型對于理解和模擬復雜的物理世界至關重要。
一些最近的研究已經(jīng)將擴散模型引入到自動駕駛領域,以構建世界模型作為神經(jīng)模擬器,生成所需的自主 2D 駕駛視頻。此外,一些方法利用世界模型生成未來場景的 3D 占用網(wǎng)格或 LiDAR 點云。
下表提供了基于世界模型的駕駛場景數(shù)據(jù)生成方法的總結。
智能體、機器人領域
除了自動駕駛領域,世界模型在智能體、機器人領域也有廣泛的應用。給定一個目標,智能體需要規(guī)劃一系列動作完成指定任務。已經(jīng)有許多成功的算法用于在已知環(huán)境中進行動態(tài)規(guī)劃,然而在大多數(shù)情況下,環(huán)境是復雜和隨機的,難以通過人類經(jīng)驗明確建模。
因此,該領域的核心主題是智能體如何在未知和復雜的環(huán)境中學習規(guī)劃。解決這個問題的一種方法是讓智能體從與環(huán)境的交互中積累經(jīng)驗,并直接從中學習行為,而不對環(huán)境的狀態(tài)變化建模(即無模型強化學習)。雖然這種解決方案簡單靈活,但學習過程依賴于與環(huán)境的許多交互,成本非常高昂。
World Models 是第一篇在強化學習領域引入世界模型概念的研究,其從智能體的經(jīng)驗中對世界的知識進行建模,并獲得預測未來的能力。這項工作表明,即使是一個簡單的循環(huán)神經(jīng)網(wǎng)絡模型也能夠捕捉環(huán)境的動態(tài)信息,并支持智能體在該模型中學習和演化策略。這種學習范式被稱為 “在想象中學習”。借助世界模型,試驗和失敗的成本可以大大降低。
下圖展示了智能體和機器人領域的世界模型發(fā)展視概覽,不同顏色顯示了不同結構的世界模型。其中 RSSM(PlatNet、DreamerV1、DreamerV2、DreamerV3 等)占據(jù)主導地位,而 Transformer(TransDreamer、IRIS、Genie 等)、JEPA(JEPA、MC-JEPA、A-JEPA、V-JEPA 等)和擴散模型(RoboDreamer、UniSim)從 2022 年開始越來越受到關注。
Recurrent State Space Model (RSSM) 是 Dreamer 系列的核心結構,旨在促進潛空間中的預測。它從像素觀察中學習環(huán)境的動態(tài)模型,并通過在編碼的潛在空間中規(guī)劃選擇動作。通過將潛在狀態(tài)分解為隨機和確定性部分,該模型考慮了環(huán)境的確定性和隨機因素。由于在機器人的連續(xù)控制任務中表現(xiàn)出色,許多后續(xù)的工作都在其基礎上進行了拓展。
Joint-Embedding Predictive Architecture (JEPA) 是由 LeCun 等人提出的,它學習從輸入數(shù)據(jù)到預測輸出的映射關系。與傳統(tǒng)的生成模型不同,該模型不直接生成像素級輸出,而是在更高級別的表示空間中進行預測,從而使模型能夠專注于學習更語義化的特征。JEPA 的另一個核心思想是通過自監(jiān)督學習來訓練網(wǎng)絡,以便它可以預測輸入數(shù)據(jù)中缺失或隱藏的部分。通過自監(jiān)督學習,模型可以在大量未標記的數(shù)據(jù)上進行預訓練,然后在下游任務上進行微調,從而提高其在各種視覺和通用任務上的性能。
Transformer 源自自然語言處理任務。它基于注意力機制的原理,使模型能夠同時關注輸入數(shù)據(jù)的不同部分。在許多需要長期依賴和基于記憶推理的領域中,Transformer 已被證明比循環(huán)神經(jīng)網(wǎng)絡更有效,因此近年來在強化學習領域受到越來越多的關注。自 2022 年以來,已有多項工作嘗試基于 Transformer 及其變種構建世界模型,在某些復雜的記憶交互任務上實現(xiàn)了比 RSSM 模型更好的性能。其中,Google 的 Genie 引起了相當大的關注。這項工作基于 ST-Transformer 構建了一個生成交互環(huán)境,通過對大量未標記的互聯(lián)網(wǎng)視頻數(shù)據(jù)進行自監(jiān)督學習進行訓練。Genie 展示了一種可定制化操控的世界模型新范式,為未來世界模型的發(fā)展提供了巨大潛力。
近來,也有方法基于擴散模型進行智能體世界模型的構建,RoboDreamer 學習構成式世界模型以增強機器人的想象力。它將視頻生成過程進行分解,并利用自然語言的固有組合性。通過這種方式,它可以合成未見過的對象和動作組合的視頻。RoboDreamer 將語言指令分解為一組基本元素,然后作為一組模型生成視頻的不同條件。這種方法不僅展示了強大的零樣本泛化能力,還在多模態(tài)指令視頻生成和機器人操作任務部署上取得了不俗的結果。UniSim 則是一個用于真實物理世界交互的生成式模擬器。UniSim 包含一個統(tǒng)一的生成框架,將動作作為輸入,集成了多樣的數(shù)據(jù)集。通過這種方法,UniSim 能夠模擬高級指令和低級控制的視覺結果,可以進行可控游戲內容的創(chuàng)建以及在模擬環(huán)境中訓練具身智能對象。
挑戰(zhàn)及未來發(fā)展方向
盡管近年來在通用世界模型以及特定領域應用如自動駕駛和機器人的研究急劇增加,但仍有許多挑戰(zhàn)和機遇等待進一步探索。本綜述也深入探討了當前通用世界模型面臨的復雜挑戰(zhàn),同時設想了其未來發(fā)展的潛在方向。
挑戰(zhàn)一:因果和反事實推理
作為一種預測模型,世界建模的本質在于其推理未來的能力。該模型應能夠推斷以前從未遇到過的決策的結果,而不僅僅是在已知數(shù)據(jù)分布內進行預測。正如下圖所示,我們期望世界模型具有反事實推理的能力,通過理性的想象推斷結果。這種能力在人類中本能存在,但對于當前的 AI 系統(tǒng)來說仍然是一個具有挑戰(zhàn)性的任務。
例如,想象一輛面臨突發(fā)交通事故的自動駕駛車輛或者一個處于新環(huán)境的機器人。具備反事實推理能力的世界模型可以模擬它們可能采取的不同行動,預測結果,并選擇最安全的響應。這將明顯改善自主智能體系統(tǒng)的決策能力,幫助它們處理新的和復雜的情景。
挑戰(zhàn)二:模擬物理定律。
雖然 Sora 的視頻生成能力令人印象深刻,但有許多研究者認為將其視為世界模型為時尚早,因為它并不完全遵守物理定律?,F(xiàn)實世界要求嚴格遵守物理定律,如重力、光相互作用和流體動力學。雖然 Sora 在建模運動方面有所改進,包括行人和剛體運動,但它仍然在準確模擬流體和復雜的物理現(xiàn)象方面表現(xiàn)不佳。僅通過視頻 - 文本對訓練是不足以理解這些復雜性的,與物理渲染器產(chǎn)生的數(shù)據(jù)聯(lián)合訓練可能是一條潛在的解決路徑。
挑戰(zhàn)三:泛化能力。
泛化能力是評估世界模型性能的關鍵之一,其強調的不僅是數(shù)據(jù)內插,更重要的是數(shù)據(jù)外推。例如,在自動駕駛中,真實的交通事故或異常的駕駛行為是罕見的事件。那么,學習得到的世界模型能否想象這些罕見的駕駛事件呢?這要求模型不僅要超越簡單地記憶訓練數(shù)據(jù),而且要發(fā)展出對駕駛原理的深刻理解。通過從已知數(shù)據(jù)進行外推,并模擬各種潛在情況,世界模型可以更好地在現(xiàn)實世界中進行安全的導航。
挑戰(zhàn)四:計算效率。
視頻生成的效率是限制其大規(guī)模應用的關鍵因素。為了保持視頻生成的一致性,通常采用的時序一致性模塊會導致生成時間大大增加。根據(jù)互聯(lián)網(wǎng)上的新聞和分析,Sora 可能需要大約一個小時來生成一分鐘的視頻。盡管在圖像生成領域出現(xiàn)了一系列基于蒸餾的方法,顯著加速了生成速度,但在視頻生成領域的相關研究仍然非常有限。
挑戰(zhàn)五:性能評估。
當前的世界模型的研究熱點主要集中在生成式模型上,評估指標主要是生成質量,如 FID 和 FVD 等。此外,還有一些工作提出了更全面的評估基準,如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO 等。然而,單獨的度量數(shù)字不能全面反映世界模型的預測合理性。結合人類反饋可以使得評估變得更全面,但如何提升其效率和一致性是一個值得深入研究的方向。