近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展和突破,大規(guī)模的基礎(chǔ)模型(Foundation Models)在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域取得了顯著性的成果。基礎(chǔ)模型在自動(dòng)駕駛當(dāng)中的應(yīng)用也有很大的發(fā)展前景,可以提高對(duì)于場(chǎng)景的理解和推理。
通過(guò)對(duì)豐富的語(yǔ)言和視覺(jué)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,基礎(chǔ)模型可以理解和解釋自動(dòng)駕駛場(chǎng)景中的各類元素并進(jìn)行推理,為駕駛決策和規(guī)劃提供語(yǔ)言和動(dòng)作命令。
基礎(chǔ)模型可以根據(jù)對(duì)駕駛場(chǎng)景的理解來(lái)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),用于提供在常規(guī)駕駛和數(shù)據(jù)收集期間不太可能遇到的長(zhǎng)尾分布中那些罕見(jiàn)的可行場(chǎng)景以實(shí)現(xiàn)提高自動(dòng)駕駛系統(tǒng)準(zhǔn)確性和可靠性的目的。
對(duì)基礎(chǔ)模型應(yīng)用的另外一個(gè)場(chǎng)景是在于世界模型,該模型展示了理解物理定律和動(dòng)態(tài)事物的能力。通過(guò)采用自監(jiān)督的學(xué)習(xí)范式對(duì)海量數(shù)據(jù)進(jìn)行學(xué)習(xí),世界模型可以生成不可見(jiàn)但是可信的駕駛場(chǎng)景,促進(jìn)對(duì)于動(dòng)態(tài)物體行為預(yù)測(cè)的增強(qiáng)以及駕駛策略的離線訓(xùn)練過(guò)程。
本文主要概述了基礎(chǔ)模型在自動(dòng)駕駛領(lǐng)域中的應(yīng)用,并根據(jù)基礎(chǔ)模型在自動(dòng)駕駛模型方面的應(yīng)用、基礎(chǔ)模型在數(shù)據(jù)增強(qiáng)方面的應(yīng)用以及基礎(chǔ)模型中世界模型對(duì)于自動(dòng)駕駛方面的應(yīng)用三方面進(jìn)行展開(kāi)。
自動(dòng)駕駛模型
基于語(yǔ)言和視覺(jué)基礎(chǔ)模型的類人駕駛
在自動(dòng)駕駛中,語(yǔ)言和視覺(jué)的基礎(chǔ)模型顯示出了巨大的應(yīng)用潛力,通過(guò)增強(qiáng)自動(dòng)駕駛模型在駕駛場(chǎng)景中的理解和推理,實(shí)現(xiàn)自動(dòng)駕駛的類人駕駛。下圖展示了基于語(yǔ)言和視覺(jué)的基礎(chǔ)模型對(duì)駕駛場(chǎng)景的理解以及給出語(yǔ)言引導(dǎo)指令和駕駛行為的推理。
基礎(chǔ)模型對(duì)于自動(dòng)駕駛模型增強(qiáng)范式
目前很多工作都已經(jīng)證明語(yǔ)言和視覺(jué)特征可以有效增強(qiáng)模型對(duì)于駕駛場(chǎng)景的理解,再獲取到對(duì)于當(dāng)前環(huán)境的整體感知理解后,基礎(chǔ)模型就會(huì)給出一系列的語(yǔ)言命令,如:“前方有紅燈,減速慢行”,“前方有十字路口,關(guān)注行人”等相關(guān)語(yǔ)言指令,便于自動(dòng)駕駛汽車根據(jù)相關(guān)的語(yǔ)言指令執(zhí)行最終的駕駛行為。
最近,學(xué)術(shù)界和工業(yè)界將GPT的語(yǔ)言知識(shí)嵌入到自動(dòng)駕駛的決策過(guò)程中,以語(yǔ)言命令的形式提高自動(dòng)駕駛的性能,以促進(jìn)大模型自動(dòng)駕駛中的應(yīng)用。考慮到大模型有望真正部署在車輛端,它最終需要落在規(guī)劃或控制指令上,基礎(chǔ)模型最終應(yīng)該從動(dòng)作狀態(tài)級(jí)別授權(quán)自動(dòng)駕駛。一些學(xué)者已經(jīng)進(jìn)行了初步探索,但仍有很多發(fā)展空間。更重要的是,一些學(xué)者通過(guò)類似GPT的方法探索了自動(dòng)駕駛模型的構(gòu)建,該方法直接輸出基于大規(guī)模語(yǔ)言模型的軌跡甚至控制命令,相關(guān)工作已經(jīng)匯總在如下表格中。
使用預(yù)訓(xùn)練主干網(wǎng)絡(luò)進(jìn)行端到端自動(dòng)駕駛
上述的相關(guān)內(nèi)容其核心思路是提高自動(dòng)駕駛決策的可解釋性,增強(qiáng)場(chǎng)景理解,指導(dǎo)自動(dòng)駕駛系統(tǒng)的規(guī)劃或控制。在過(guò)去的一段時(shí)間內(nèi),有許多工作一直以各種方式優(yōu)化預(yù)訓(xùn)練主干網(wǎng)絡(luò),也有許多研究嘗試開(kāi)發(fā)基于Transformer架構(gòu)的端到端框架,并且取得了非常不錯(cuò)的成績(jī)。因此,為了更加全面的總結(jié)基礎(chǔ)模型在自動(dòng)駕駛中的應(yīng)用,我們對(duì)預(yù)訓(xùn)練主干的端到端自動(dòng)駕駛相關(guān)研究進(jìn)行了總結(jié)和回顧。下圖展示了端到端自動(dòng)駕駛的整體過(guò)程。
基于預(yù)訓(xùn)練主干網(wǎng)絡(luò)的端到端自動(dòng)駕駛系統(tǒng)的流程圖
在端到端自動(dòng)駕駛的整體流程中,從原始數(shù)據(jù)中提取低級(jí)信息在一定程度上決定了后續(xù)模型性能的潛力,優(yōu)秀的預(yù)訓(xùn)練骨干可以使模型具有更強(qiáng)的特征學(xué)習(xí)能力。ResNet和VGG等預(yù)訓(xùn)練卷積網(wǎng)絡(luò)是端到端模型視覺(jué)特征提取應(yīng)用最廣泛的主干網(wǎng)絡(luò)。這些預(yù)訓(xùn)練網(wǎng)絡(luò)通常利用目標(biāo)檢測(cè)或分割作為提取廣義特征的任務(wù)進(jìn)行訓(xùn)練,并且他們所取得的性能已經(jīng)在很多工作中得到了驗(yàn)證。
此外,早期的端到端自動(dòng)駕駛模型主要是基于各種類型的卷積神經(jīng)網(wǎng)絡(luò),通過(guò)模仿學(xué)習(xí)或者強(qiáng)化學(xué)習(xí)的方式來(lái)完成。最近的一些工作試圖建立一個(gè)具有Transformer網(wǎng)絡(luò)結(jié)構(gòu)的端到端自動(dòng)駕駛系統(tǒng),并且同樣取得了比較不錯(cuò)的成績(jī),比如Transfuser、FusionAD、UniAD等工作。
數(shù)據(jù)增強(qiáng)
隨著深度學(xué)習(xí)技術(shù)的進(jìn)一步發(fā)展,底層網(wǎng)絡(luò)架構(gòu)的進(jìn)一步完善和升級(jí),具有預(yù)訓(xùn)練和微調(diào)的基礎(chǔ)模型已經(jīng)展現(xiàn)出了越來(lái)越強(qiáng)大的性能。由GPT代表的基礎(chǔ)模型已經(jīng)使得大模型從學(xué)習(xí)范式的規(guī)則向數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行轉(zhuǎn)換。數(shù)據(jù)作為模型學(xué)習(xí)關(guān)鍵環(huán)節(jié)的重要性是無(wú)可替代的。在自動(dòng)駕駛模型的訓(xùn)練和測(cè)試過(guò)程中,大量的場(chǎng)景數(shù)據(jù)被用來(lái)使模型能夠?qū)Ω鞣N道路和交通場(chǎng)景具有良好的理解和決策能力。自動(dòng)駕駛面臨的長(zhǎng)尾問(wèn)題也是這樣一種事實(shí),即存在無(wú)窮無(wú)盡的未知邊緣場(chǎng)景,使模型的泛化能力似乎永遠(yuǎn)不足,導(dǎo)致性能較差。
數(shù)據(jù)增強(qiáng)對(duì)于提高自動(dòng)駕駛模型的泛化能力至關(guān)重要。數(shù)據(jù)增強(qiáng)的實(shí)現(xiàn)需要考慮兩個(gè)方面
一方面:如何獲取大規(guī)模的數(shù)據(jù),使提供給自動(dòng)駕駛模型的數(shù)據(jù)具有足夠的多樣性和廣泛性
另一方面:如何獲取盡可能多的高質(zhì)量數(shù)據(jù),使用于訓(xùn)練和測(cè)試自動(dòng)駕駛模型的數(shù)據(jù)準(zhǔn)確可靠
所以,相關(guān)的研究工作主要從以上兩個(gè)方面開(kāi)展相關(guān)的技術(shù)研究,一是豐富現(xiàn)有的數(shù)據(jù)集中的數(shù)據(jù)內(nèi)容,增強(qiáng)駕駛場(chǎng)景中的數(shù)據(jù)特征。二是通過(guò)模擬的方式生成多層次的駕駛場(chǎng)景。
擴(kuò)展自動(dòng)駕駛數(shù)據(jù)集
現(xiàn)有的自動(dòng)駕駛數(shù)據(jù)集主要是通過(guò)記錄傳感器數(shù)據(jù)然后標(biāo)記數(shù)據(jù)來(lái)獲得的。通過(guò)這種方式獲得的數(shù)據(jù)特征通常是很低級(jí)的,同時(shí)數(shù)據(jù)集的量級(jí)也是比較差,這對(duì)于自動(dòng)駕駛場(chǎng)景的視覺(jué)特征空間是完全不夠的。語(yǔ)言模型表示的基礎(chǔ)模型在高級(jí)語(yǔ)義理解、推理和解釋能力為自動(dòng)駕駛數(shù)據(jù)集的豐富和擴(kuò)展提供了新的思路和技術(shù)途徑。通過(guò)利用基礎(chǔ)模型的高級(jí)理解、推理和解釋能力來(lái)擴(kuò)展數(shù)據(jù)集可以幫助更好地評(píng)估自動(dòng)駕駛系統(tǒng)的可解釋性和控制,從而提高自動(dòng)駕駛系統(tǒng)的安全性和可靠性。
生成駕駛場(chǎng)景
駕駛場(chǎng)景對(duì)自動(dòng)駕駛來(lái)說(shuō)具有重要的意義。為了獲得不同的駕駛場(chǎng)景數(shù)據(jù),僅依賴采集車輛的傳感器進(jìn)行實(shí)時(shí)采集需要消耗巨大的成本,很難為一些邊緣場(chǎng)景獲得足夠的場(chǎng)景數(shù)據(jù)。通過(guò)仿真生成逼真的駕駛場(chǎng)景引起了許多研究者的關(guān)注,交通仿真研究主要分為基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)兩大類。
基于規(guī)則的方法:使用預(yù)定義的規(guī)則,這些規(guī)則通常不足以描述復(fù)雜的駕駛場(chǎng)景,并且模擬的駕駛場(chǎng)景更簡(jiǎn)單、更通用
基于數(shù)據(jù)驅(qū)動(dòng)的方法:使用駕駛數(shù)據(jù)來(lái)訓(xùn)練模型,模型可以從中持續(xù)學(xué)習(xí)和適應(yīng)。然而,數(shù)據(jù)驅(qū)動(dòng)的方法通常需要大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,這阻礙了流量模擬的進(jìn)一步發(fā)展
隨著技術(shù)的發(fā)展,目前數(shù)據(jù)的生成方式已經(jīng)逐漸由規(guī)則的方式轉(zhuǎn)換為數(shù)據(jù)驅(qū)動(dòng)的方式。通過(guò)高效、準(zhǔn)確地模擬駕駛場(chǎng)景,包括各種復(fù)雜和危險(xiǎn)的情況,為模型學(xué)習(xí)提供了大量的訓(xùn)練數(shù)據(jù),可以有效提高自動(dòng)駕駛系統(tǒng)的泛化能力。同時(shí),生成的駕駛場(chǎng)景也可用于評(píng)估不同的自動(dòng)駕駛系統(tǒng)和算法來(lái)測(cè)試和驗(yàn)證系統(tǒng)性能。下表是不同數(shù)據(jù)增強(qiáng)策略的總結(jié)。
世界模型
世界模型被認(rèn)為是為一種人工智能模型,它包含了它運(yùn)行的環(huán)境的整體理解或表示。該模型能夠模擬環(huán)境做出預(yù)測(cè)或決策。在最近的文獻(xiàn)中,強(qiáng)化學(xué)習(xí)的背景下提到了術(shù)語(yǔ)”世界模型”。這個(gè)概念在自動(dòng)駕駛應(yīng)用中也得到了關(guān)注,因?yàn)樗軌蚶斫夂完U明駕駛環(huán)境的動(dòng)態(tài)特性。世界模型與強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)和深度生成模型高度相關(guān)。然而,在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)中利用世界模型通常需要標(biāo)注好的數(shù)據(jù),并且SEM2以及MILE等方法都是在監(jiān)督范式中進(jìn)行的。同時(shí),也有嘗試根據(jù)標(biāo)記的數(shù)據(jù)的局限性將強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)結(jié)合起來(lái)。由于與自監(jiān)督學(xué)習(xí)密切相關(guān),深度生成模型變得越來(lái)越流行,目前已經(jīng)提出了很多工作。下圖展示出來(lái)了使用世界模型增強(qiáng)自動(dòng)駕駛模型的整體流程圖。
深度生成模型
深度生成模型通常包括變分自動(dòng)編碼器、生成對(duì)抗網(wǎng)絡(luò)、流模型以及自回歸模型。
變分自動(dòng)編碼器結(jié)合了自動(dòng)編碼器和概率圖形模型的思想來(lái)學(xué)習(xí)數(shù)據(jù)的底層結(jié)構(gòu)并生成新樣本
生成對(duì)抗網(wǎng)絡(luò)由兩個(gè)神經(jīng)網(wǎng)絡(luò)、生成器和鑒別器組成,它們利用對(duì)抗訓(xùn)練相互競(jìng)爭(zhēng)和增強(qiáng),最終實(shí)現(xiàn)生成真實(shí)樣本的目標(biāo)
流模型通過(guò)一系列可逆變換將簡(jiǎn)單的先驗(yàn)分布轉(zhuǎn)換為復(fù)雜的后驗(yàn)分布來(lái)生成相似的數(shù)據(jù)樣本
自回歸模型是一類序列分析方法,基于序列數(shù)據(jù)之間的自相關(guān),描述當(dāng)前觀測(cè)值與過(guò)去觀測(cè)值之間的關(guān)系,模型參數(shù)的估計(jì)通常是利用最小二乘法和最大似然估計(jì)來(lái)完成的。擴(kuò)散模型是一種典型的自回歸模型,它從純?cè)肼晹?shù)據(jù)中學(xué)習(xí)逐步去噪的過(guò)程。由于其強(qiáng)大的生成性能,擴(kuò)散模型是當(dāng)前深度生成模型中的新SOTA模型
生成式方法
基于深度生成模型的強(qiáng)大能力,利用深度生成模型作為世界模型學(xué)習(xí)駕駛場(chǎng)景以增強(qiáng)自動(dòng)駕駛已經(jīng)逐漸成為研究熱點(diǎn)。接下來(lái)我們將回顧利用深度生成模型作為自動(dòng)駕駛中的世界模型的應(yīng)用。視覺(jué)是人類獲取有關(guān)世界信息的最直接有效的方法之一,因?yàn)閳D像數(shù)據(jù)中包含的特征信息極其豐富。許多以前的工作通過(guò)世界模型完成了圖像生成的任務(wù),表明世界模型對(duì)圖像數(shù)據(jù)具有良好的理解和推理能力。目前整體來(lái)看,研究者們希望可以從圖像數(shù)據(jù)中學(xué)習(xí)世界的內(nèi)在進(jìn)化規(guī)律,然后預(yù)測(cè)未來(lái)的狀態(tài)。結(jié)合自監(jiān)督學(xué)習(xí),世界模型用于從圖像數(shù)據(jù)中學(xué)習(xí),充分釋放模型的推理能力,為視覺(jué)域構(gòu)建廣義基礎(chǔ)模型提供了一種可行的方向。
非生成式方法
與生成世界模型相比,LeCun通過(guò)提出聯(lián)合提取和預(yù)測(cè)架構(gòu) (JEPA) 詳細(xì)闡述了他對(duì)世界模型的不同概念。這是一個(gè)非生成和自監(jiān)督的架構(gòu),因?yàn)樗恢苯痈鶕?jù)輸入數(shù)據(jù)來(lái)預(yù)測(cè)輸出結(jié)果,而是將輸入數(shù)據(jù)編碼在一種抽象空間中進(jìn)行編碼完成最終的預(yù)測(cè)。這種預(yù)測(cè)方式的優(yōu)點(diǎn)是它不需要預(yù)測(cè)關(guān)于輸出結(jié)果的所有信息,并且可以消除不相關(guān)的細(xì)節(jié)信息。
JEPA是一種基于能量模型的自監(jiān)督學(xué)習(xí)架構(gòu),它觀察和學(xué)習(xí)世界如何工作和高度概括的規(guī)律。JEPA在自動(dòng)駕駛中也有很大的潛力,有望通過(guò)學(xué)習(xí)駕駛是如何工作的來(lái)生成高質(zhì)量的駕駛場(chǎng)景和駕駛策略。
結(jié)論
本文全面概述了基礎(chǔ)模型在自動(dòng)駕駛應(yīng)用中的重要作用。從本文調(diào)研的相關(guān)研究工作的總結(jié)和發(fā)現(xiàn)來(lái)看,另一個(gè)值得進(jìn)一步探索的方向是如何為自監(jiān)督學(xué)習(xí)設(shè)計(jì)一個(gè)有效的網(wǎng)絡(luò)架構(gòu)。自監(jiān)督學(xué)習(xí)可以有效地突破數(shù)據(jù)標(biāo)注的局限性,允許模型大規(guī)模的對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí),充分釋放模型的推理能力。如果自動(dòng)駕駛的基礎(chǔ)模型可以在自監(jiān)督學(xué)習(xí)范式下使用不同規(guī)模的駕駛場(chǎng)景數(shù)據(jù)進(jìn)行訓(xùn)練,則預(yù)計(jì)其泛化能力將大大提高。這種進(jìn)步可能會(huì)實(shí)現(xiàn)更通用的基礎(chǔ)模型。
總之,雖然在將基礎(chǔ)模型應(yīng)用于自動(dòng)駕駛方面存在許多挑戰(zhàn),但其具有非常廣闊的應(yīng)用空間和發(fā)展前景。未來(lái),我們將繼續(xù)觀察應(yīng)用于自動(dòng)駕駛的基礎(chǔ)模型的相關(guān)進(jìn)展。