近年來(lái),數(shù)據(jù)閉環(huán)成了自動(dòng)駕駛行業(yè)的一個(gè)熱門話題,很多自動(dòng)駕駛公司都在試圖打造自己的數(shù)據(jù)閉環(huán)系統(tǒng)。
實(shí)際上,數(shù)據(jù)閉環(huán)并不是一個(gè)新的概念。在傳統(tǒng)軟件工程領(lǐng)域,數(shù)據(jù)閉環(huán)被用來(lái)作為改進(jìn)用戶體驗(yàn)的一種重要方式。相信大家都有過(guò)這樣的經(jīng)歷,在使用軟件時(shí),屏幕上跳出一個(gè)彈窗,詢問(wèn)你“是否允許該軟件收集你的數(shù)據(jù)”,如果你同意相關(guān)條例,那這些數(shù)據(jù)便會(huì)被用來(lái)改進(jìn)用戶體驗(yàn)。
當(dāng)用戶端軟件捕捉到一個(gè)問(wèn)題時(shí),后臺(tái)能抓取相應(yīng)數(shù)據(jù),然后由開(kāi)發(fā)團(tuán)隊(duì)分析此問(wèn)題后對(duì)軟件做修復(fù)和完善,交由測(cè)試團(tuán)隊(duì)測(cè)試好新版本軟件,之后會(huì)將新版本軟件放在云端,并由用戶更新到終端,這是軟件工程中數(shù)據(jù)閉環(huán)的流程。
在自動(dòng)駕駛場(chǎng)景中,問(wèn)題數(shù)據(jù)通常是在試驗(yàn)車上收集,極少數(shù)車輛能實(shí)現(xiàn)在量產(chǎn)車上收集。收集后需要對(duì)數(shù)據(jù)做標(biāo)注,然后工程師在云端用新的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,重新訓(xùn)練后的模型通常會(huì)通過(guò)OTA的方式部署到車端。
一個(gè)完整的數(shù)據(jù)閉環(huán)通常包括數(shù)據(jù)采集、數(shù)據(jù)回流、數(shù)據(jù)處理、數(shù)據(jù)標(biāo)注、模型訓(xùn)練、測(cè)試驗(yàn)證這幾個(gè)環(huán)節(jié)。
Momenta數(shù)據(jù)閉環(huán)流程示意
以特斯拉為例,配置了自動(dòng)駕駛硬件的車隊(duì)采集通過(guò)規(guī)則及影子模式下的觸發(fā)器篩選的數(shù)據(jù),經(jīng)過(guò)語(yǔ)義篩選后的數(shù)據(jù)被回傳到云端。此后,工程師在云端用工具對(duì)數(shù)據(jù)做一些處理,再把處理好的數(shù)據(jù)放入數(shù)據(jù)集群,然后利用這些有效數(shù)據(jù)訓(xùn)練模型。模型訓(xùn)練好之后,工程師會(huì)把訓(xùn)練好的模型部署回車端做一系列的指標(biāo)檢測(cè),經(jīng)過(guò)驗(yàn)證的新模型會(huì)被部署到車端供駕駛員使用。
在這種模型下,會(huì)有新的數(shù)據(jù)源源不斷被觸發(fā)回傳,從而形成循環(huán)。此時(shí),一個(gè)完整的由數(shù)據(jù)驅(qū)動(dòng)的迭代開(kāi)發(fā)循環(huán)便形成了。
目前,采用數(shù)據(jù)閉環(huán)來(lái)驅(qū)動(dòng)算法迭代,幾乎已經(jīng)被公認(rèn)為是提升自動(dòng)駕駛能力的必由之路。很多主機(jī)廠和自動(dòng)駕駛Tier1都在搭建自己的數(shù)據(jù)閉環(huán)系統(tǒng),甚至還專門設(shè)置了數(shù)據(jù)閉環(huán)架構(gòu)師的職位。
數(shù)據(jù)閉環(huán)的意義是什么?數(shù)據(jù)閉環(huán)能夠在量產(chǎn)車上落地的背景是什么?數(shù)據(jù)閉環(huán)在量產(chǎn)車上落地的過(guò)程中有哪些痛點(diǎn)以及如何應(yīng)對(duì)?
接下來(lái),本文將圍繞這些話題逐一討論。
根據(jù)智駕科技MAXIEYE的介紹,“數(shù)據(jù)閉環(huán)對(duì)于產(chǎn)品的性能,不僅僅是某個(gè)功能的性能提高,還能以影子模式的形式驗(yàn)證新功能。同時(shí)根據(jù)數(shù)據(jù)觸發(fā)的類別,對(duì)于系統(tǒng)的其他方面也可以幫助優(yōu)化,比如radar/camera blockage 的檢測(cè),可以根據(jù)回傳數(shù)據(jù)優(yōu)化閾值。在性能層面,數(shù)據(jù)回傳基本上可以優(yōu)化所有的性能,比如AEB,LKA,ELK,ACC,TJA,NOA等。MAXIEYE已通過(guò)數(shù)據(jù)回傳OTA不斷升級(jí)AEB, ACC, TJA 等系統(tǒng)功能,而且預(yù)埋了新功能的影子模式。”
如今,各家公司紛紛打造自己的數(shù)據(jù)閉環(huán)系統(tǒng),主要希望實(shí)現(xiàn)的效果包括提升corner case數(shù)據(jù)采集效率、提高模型的泛化能力以及驅(qū)動(dòng)算法的迭代。
1.1 搜集corner case的數(shù)據(jù)
只要是L2及L2以上的產(chǎn)品,都需要具備持續(xù)進(jìn)化的能力。要讓自動(dòng)駕駛系統(tǒng)持續(xù)地進(jìn)化,就需要不斷獲得corner case的數(shù)據(jù)。而隨著越來(lái)越多的corner case從“未知”轉(zhuǎn)換成“已知”,通過(guò)數(shù)量有限、形式路線也有限的測(cè)試車輛挖掘出新的corner case的難度越來(lái)越大。
通過(guò)在場(chǎng)景覆蓋度更廣的量產(chǎn)車上部署數(shù)據(jù)采集系統(tǒng),在遇到當(dāng)前的自動(dòng)駕駛系統(tǒng)處理地得不夠好的情形時(shí),觸發(fā)數(shù)據(jù)回傳,是一種比較好的獲取corner case的方法。
例如,可以在搭載L2輔助駕駛的量產(chǎn)車上部署AEB系統(tǒng),然后收集駕駛員猛踩剎車、猛踩油門、猛打轉(zhuǎn)向、猛打方向盤等的數(shù)據(jù),分析為什么駕駛員在做這些操作的時(shí)候AEB系統(tǒng)沒(méi)有任何響應(yīng)。針對(duì)AEB系統(tǒng)應(yīng)對(duì)地不夠好的問(wèn)題做相應(yīng)改進(jìn),提高AEB系統(tǒng)的能力。
1.2 提高模型的泛化能力
當(dāng)前,高等級(jí)的輔助駕駛正在從高速向城市進(jìn)軍。要解決高速這樣相對(duì)簡(jiǎn)單的場(chǎng)景,基本上,僅靠測(cè)試車采集的數(shù)據(jù)來(lái)訓(xùn)練模型就夠了,而不是一定要回傳量產(chǎn)車的數(shù)據(jù);然而,城市場(chǎng)景的復(fù)雜度大幅提升了,而且不同城市的路況也有很多差異。例如,在廣州,隨處可見(jiàn)拉著貨物的三輪車在道路上疾馳,而在上海就很少會(huì)見(jiàn)到這種情形。
因此,很多自動(dòng)駕駛Tier1以及車企對(duì)場(chǎng)景打通的訴求很強(qiáng)烈——即車輛的輔助駕駛系統(tǒng)可妥善應(yīng)對(duì)各主流城市的各種路況。因?yàn)檐嚻鬅o(wú)法限制用戶的行駛范圍,假如只針對(duì)很小的區(qū)域做好輔助駕駛功能,會(huì)大大縮小用戶群的范圍,這顯然不是車企希望看到的。
要實(shí)現(xiàn)場(chǎng)景打通的目標(biāo),模型的泛化能力就需要大幅提高。要大幅提高模型的泛化能力,就要盡可能地把各種各樣的場(chǎng)景對(duì)應(yīng)的數(shù)據(jù)都采集到。而只有基于大規(guī)模真實(shí)人駕數(shù)據(jù)的乘用車輔助駕駛才有能力積累到足夠規(guī)模和足夠多樣的數(shù)據(jù)。
1.3 驅(qū)動(dòng)算法迭代
前文提到,基于深度學(xué)習(xí)的人工智能算法發(fā)展已經(jīng)超過(guò)十年。這期間,隨著模型的演進(jìn)以及算力的發(fā)展,自動(dòng)駕駛系統(tǒng)對(duì)大數(shù)據(jù)的消化成為可能。此外,自動(dòng)駕駛系統(tǒng)要升級(jí),感知、規(guī)劃等環(huán)節(jié)都需要在能力上有相應(yīng)的提升,而采用數(shù)據(jù)驅(qū)動(dòng),讓算法持續(xù)不斷地進(jìn)化,是提升感知、規(guī)劃等環(huán)節(jié)能力的一個(gè)高效的方式。
城市NOA——即城市內(nèi)的點(diǎn)對(duì)點(diǎn)導(dǎo)航輔助功能是很多主機(jī)廠以及自動(dòng)駕駛Tier1接下來(lái)的發(fā)力點(diǎn),要實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)的導(dǎo)航輔助駕駛功能,感知系統(tǒng)的語(yǔ)義識(shí)別、障礙物識(shí)別、可行駛區(qū)域的識(shí)別都需要具備一定的精度,然而目前這一標(biāo)準(zhǔn)尚未實(shí)現(xiàn)。
目前主流的感知系統(tǒng)網(wǎng)絡(luò)架構(gòu)是基于BEV+Transformer模型,單純依靠軟件工程師或者算法架構(gòu)師來(lái)優(yōu)化,模型可以提升的空間不太多,而B(niǎo)EV+Transformer的架構(gòu)可以容納大量的數(shù)據(jù),進(jìn)而有望讓模型效果得到提升。
在規(guī)劃層面,數(shù)據(jù)驅(qū)動(dòng)也可以發(fā)揮作用。特斯拉早先使用部分約束下的最優(yōu)方案作為初值,然后采用遞增的方式不斷加入新的約束,再求解增加約束后的優(yōu)化問(wèn)題,最終得到規(guī)劃問(wèn)題的最優(yōu)。特斯拉工程師針對(duì)此方法離線做了很多預(yù)生成,并在在線做了并行優(yōu)化,這樣每個(gè)候選路徑的計(jì)算時(shí)間仍然長(zhǎng)達(dá)1~5ms。而根據(jù)特斯拉在2022年9月30日的AI day上披露的內(nèi)容,特斯拉的工程師現(xiàn)在使用了一套數(shù)據(jù)驅(qū)動(dòng)的決策樹(shù)生成模型來(lái)幫助自動(dòng)駕駛系統(tǒng)快速生成規(guī)劃路徑。這個(gè)數(shù)據(jù)驅(qū)動(dòng)的決策樹(shù)生成模型使用特斯拉車隊(duì)中人類駕駛員駕駛數(shù)據(jù)和無(wú)時(shí)間約束下的最優(yōu)路徑作為真值進(jìn)行訓(xùn)練,能夠在100us內(nèi)生成一個(gè)候選規(guī)劃路徑,大大縮短了生成候選規(guī)劃路徑的時(shí)間。
綜上可見(jiàn),搭建好數(shù)據(jù)閉環(huán)系統(tǒng)是自動(dòng)駕駛系統(tǒng)能力提升的一個(gè)重要方式。
當(dāng)前,許多量產(chǎn)車上都搭載了輔助駕駛系統(tǒng),人們可以在量產(chǎn)車上采集數(shù)據(jù),自動(dòng)駕駛系統(tǒng)的路測(cè)里程超過(guò)1億公里已非難事。此外,芯片算力進(jìn)一步增強(qiáng)——例如英偉達(dá)的OrinX芯片算力可達(dá)254TOPS,因此大模型開(kāi)始被應(yīng)用于感知系統(tǒng),自動(dòng)駕駛系統(tǒng)對(duì)大數(shù)據(jù)的消化成為可能。另一方面云端技術(shù)較為成熟,自動(dòng)駕駛開(kāi)始慢慢進(jìn)入數(shù)據(jù)驅(qū)動(dòng)的時(shí)代。
MAXIEYE公司方面的解釋是:“確切地來(lái)說(shuō),現(xiàn)在不僅僅是數(shù)據(jù)驅(qū)動(dòng),而是AI算法和數(shù)據(jù)共同驅(qū)動(dòng)。AI算法解決的是學(xué)習(xí)效率的問(wèn)題,數(shù)據(jù)解決的是學(xué)習(xí)內(nèi)容的問(wèn)題,算法和數(shù)據(jù)是共生關(guān)系。”
“基于深度學(xué)習(xí)的人工智能算法的發(fā)展已經(jīng)超過(guò)了十年,在這十年間的早期階段,監(jiān)督學(xué)習(xí)是學(xué)術(shù)界和工業(yè)界的主流,而監(jiān)督學(xué)習(xí)有一個(gè)致命的缺陷,就是需要大量的人工標(biāo)注,這大大的限制了AI的進(jìn)步空間,但在近幾年,無(wú)監(jiān)督和半監(jiān)督學(xué)習(xí)算法慢慢地開(kāi)始興起,計(jì)算機(jī)可以通過(guò)自學(xué)習(xí)的方式不斷地對(duì)數(shù)據(jù)進(jìn)行清洗以及對(duì)算法進(jìn)行自我迭代,因此,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式開(kāi)發(fā)自動(dòng)駕駛技術(shù)的條件已經(jīng)成熟。”
長(zhǎng)城沙龍智能化中心負(fù)責(zé)人楊繼峰在一次演講中提到:“從整車角度上,2022年完成了L2到L4的架構(gòu)閉環(huán)和數(shù)據(jù)閉環(huán),車端架構(gòu)和云端架構(gòu)的進(jìn)一步統(tǒng)一。接下來(lái)的競(jìng)爭(zhēng)是數(shù)據(jù)挖掘、數(shù)據(jù)的有效利用以及整個(gè)技術(shù)棧對(duì)數(shù)據(jù)的理解,以及如何在大規(guī)模的基礎(chǔ)設(shè)施上平衡整個(gè)計(jì)算效率。”
目前,大家關(guān)于數(shù)據(jù)閉環(huán)對(duì)于自動(dòng)駕駛系統(tǒng)的意義已達(dá)成共識(shí),數(shù)據(jù)閉環(huán)在量產(chǎn)車上的落地的時(shí)機(jī)也基本成熟。那么,各家的數(shù)據(jù)閉環(huán)實(shí)際落地的情況如何?我們?nèi)绾稳ピu(píng)判一家公司數(shù)據(jù)閉環(huán)系統(tǒng)搭建的效果呢?
筆者從智駕科技MAXIEYE了解到,對(duì)于自動(dòng)駕駛Tier1來(lái)講,技術(shù)上實(shí)現(xiàn)數(shù)據(jù)閉環(huán)其實(shí)不是難題,本質(zhì)上看的是該Tier1的產(chǎn)品實(shí)力——是否能通過(guò)數(shù)據(jù)閉環(huán)賦能車廠。其次,數(shù)據(jù)閉環(huán)的效果還要看產(chǎn)品的迭代是否由數(shù)據(jù)閉環(huán)驅(qū)動(dòng),是否能基于回傳數(shù)據(jù)實(shí)現(xiàn)軟件及算法的優(yōu)化,并定期通過(guò)OTA部署到終端。
當(dāng)前,根據(jù)數(shù)據(jù)閉環(huán)能力的高低,自動(dòng)駕駛Tier 1可劃分為三類:第一種是已經(jīng)實(shí)現(xiàn)規(guī)?;慨a(chǎn)的數(shù)據(jù)閉環(huán),第二種是通過(guò)采集車實(shí)現(xiàn)閉環(huán),第三種是還沒(méi)有實(shí)現(xiàn)數(shù)據(jù)閉環(huán)的能力。目前來(lái)看,第一種還屬于少數(shù)派。
根據(jù)筆者和業(yè)內(nèi)人士交流得到的信息,目前大部分公司的數(shù)據(jù)來(lái)源都是采集車。由于用戶隱私、基礎(chǔ)設(shè)施、成本等種種因素,在量產(chǎn)車上大規(guī)模采集數(shù)據(jù)用于自動(dòng)駕駛系統(tǒng)的迭代升級(jí)尚未實(shí)現(xiàn)。有的公司尚未搭建好在量產(chǎn)車上采集數(shù)據(jù)用于數(shù)據(jù)閉環(huán)的流程,有的公司雖然搭建好了流程,也采集了一些數(shù)據(jù),但尚未將數(shù)據(jù)很好地用起來(lái)。
據(jù)悉,少數(shù)公司會(huì)從量產(chǎn)車上采集一些數(shù)據(jù),但業(yè)內(nèi)人士反映目前采集這些數(shù)據(jù)主要是用來(lái)診斷當(dāng)前的自動(dòng)駕駛系統(tǒng)存在的故障等,而非用于深度學(xué)習(xí)模型的迭代。
也即是說(shuō),目前很少有公司真正實(shí)現(xiàn)了規(guī)模化量產(chǎn)的數(shù)據(jù)閉環(huán)——即用好從大規(guī)模量產(chǎn)車上采集的數(shù)據(jù)來(lái)實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)能力的提升。那么,數(shù)據(jù)閉環(huán)的量產(chǎn)落地究竟有哪些痛點(diǎn)?針對(duì)這些痛點(diǎn),有什么樣的應(yīng)對(duì)策略呢?
量產(chǎn)落地的實(shí)踐中需要考慮的問(wèn)題包括但不限于:如何保證數(shù)據(jù)采集和使用的合規(guī)性、數(shù)據(jù)確權(quán)問(wèn)題如何解決、數(shù)據(jù)采集功能如何與自動(dòng)駕駛系統(tǒng)共存、數(shù)據(jù)處理難度大、數(shù)據(jù)驅(qū)動(dòng)的軟件系統(tǒng)復(fù)雜度高、模型訓(xùn)練難度大等。
3.1 數(shù)據(jù)采集和使用的合規(guī)性問(wèn)題
合規(guī)分為測(cè)繪合規(guī)和隱私合規(guī):測(cè)繪合規(guī)主要涉及到采集國(guó)家地理信息時(shí)的合規(guī),隱私合規(guī)主要涉及到采集用戶隱私相關(guān)數(shù)據(jù)的合規(guī)。
測(cè)繪合規(guī)方面,近幾年,國(guó)家對(duì)數(shù)據(jù)安全的管理趨嚴(yán),出臺(tái)了相關(guān)法律法規(guī)來(lái)對(duì)回傳數(shù)據(jù)的范圍進(jìn)行限制。2022 年 “830 新規(guī)”之后,車輛在道路上采集的數(shù)據(jù)都屬于測(cè)繪數(shù)據(jù)。企業(yè)要使用測(cè)繪數(shù)據(jù),后續(xù)的數(shù)據(jù)加密、數(shù)據(jù)合規(guī)的環(huán)節(jié)必不可少。
首先,在道路上采集數(shù)據(jù)的時(shí)候,企業(yè)需要具備國(guó)家測(cè)繪資質(zhì),并且要做相應(yīng)的備案,否則采集過(guò)程中會(huì)被國(guó)安等部門阻止。目前,國(guó)內(nèi)總共有約30家機(jī)構(gòu)具備相關(guān)資質(zhì),有的企業(yè)具備國(guó)家電子導(dǎo)航甲級(jí)資質(zhì),適用范圍較廣,在國(guó)內(nèi)多個(gè)城市都可以采集,而有的企業(yè)具備乙級(jí)資質(zhì),適用范圍就會(huì)更小,只能在特定的城市采集。
由于測(cè)繪資質(zhì)很難獲取,需要有長(zhǎng)期的業(yè)務(wù)積累,并且,要保有測(cè)繪資質(zhì),企業(yè)就需要有相應(yīng)的測(cè)繪業(yè)務(wù)。因此,主機(jī)廠以及自動(dòng)駕駛Tier1一般會(huì)委托帶有資質(zhì)的供應(yīng)商或單位,例如現(xiàn)在有些云廠商會(huì)幫助客戶圍繞數(shù)據(jù)的獲取、加工、使用來(lái)設(shè)計(jì)一個(gè)合規(guī)方案。
采集到數(shù)據(jù)后,還需要在車端脫敏、加密,上云之后(一般來(lái)講是私有云),還需要做一些合規(guī)工作,這一部分會(huì)由有資質(zhì)的供應(yīng)商或者單位來(lái)幫忙做測(cè)繪的合規(guī)。對(duì)于部分很敏感的數(shù)據(jù),需要由圖商來(lái)做采集,而且數(shù)據(jù)需要在脫敏之后存儲(chǔ)在圖商監(jiān)管的服務(wù)器里。
另外,測(cè)繪的數(shù)據(jù)不得泄漏,尤其是不得將數(shù)據(jù)挪到國(guó)外,非中國(guó)國(guó)籍的人既不能獲取測(cè)繪數(shù)據(jù),也不能在公司內(nèi)操作測(cè)繪數(shù)據(jù)。
一般來(lái)說(shuō),主機(jī)廠和自動(dòng)駕駛Tier1會(huì)建立自己的數(shù)據(jù)中心,出于安全考慮,這些數(shù)據(jù)中心都比較封閉。主機(jī)廠和自動(dòng)駕駛Tier1需要使用這些數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)來(lái)做一些訓(xùn)練、仿真等工作的時(shí)候,基于合規(guī)要求,需要將相關(guān)模型部署到數(shù)據(jù)中心來(lái)使用。
有業(yè)內(nèi)專家表示,“測(cè)繪的合規(guī)流程太復(fù)雜,資質(zhì)也很難獲取,大家希望盡可能減少對(duì)高精地圖的依賴,這是目前業(yè)界流行‘重感知輕地圖’方案的一部分原因。但實(shí)際上,輕地圖不一定就是‘更好’,因?yàn)橛械貓D數(shù)據(jù)效果肯定比沒(méi)有好。目前這個(gè)趨勢(shì)不一定是最終的形態(tài),也不一定是最好的,只是大家希望能做得更簡(jiǎn)單一點(diǎn)。”
隱私合規(guī)方面,企業(yè)在量產(chǎn)車上采集數(shù)據(jù),需要用戶授權(quán)。類似于用微信的時(shí)候,企業(yè)需要用戶在一開(kāi)始簽署授權(quán)協(xié)議,并告知用戶哪些數(shù)據(jù)會(huì)被采集,哪些使用行為會(huì)被記錄。
目前在隱私合規(guī)方面,國(guó)家尚未出臺(tái)特別具體的方案規(guī)定哪些數(shù)據(jù)可以采哪些不可以,而是僅有一個(gè)相對(duì)寬泛的條款來(lái)規(guī)定數(shù)據(jù)采集方“不得泄漏用戶隱私”。
實(shí)際操作中,涉及到用戶信息的數(shù)據(jù)需要做脫敏,例如車牌號(hào)需要隱去等。
3.2 數(shù)據(jù)確權(quán)問(wèn)題
我們是否可以在車上采集自動(dòng)駕駛行業(yè)需要的攝像頭、激光或毫米波形成的數(shù)據(jù)呢?
魔視智能產(chǎn)品經(jīng)理蘇林飛介紹道:“按照中國(guó)的《個(gè)人信息保護(hù)法》相關(guān)規(guī)定,非法律允許的數(shù)據(jù)采集受到隱私保護(hù)。在德國(guó),原德國(guó)聯(lián)邦信息保護(hù)局有這樣的規(guī)定,如果司機(jī)不是受害者,未經(jīng)對(duì)方同意就記錄其他司機(jī)的臉和車輛,是違反個(gè)人信息保護(hù)法的。也就是說(shuō),即使是車主記錄別人信息也可能屬于違法。但由于和新能源車伴生的自動(dòng)駕駛行業(yè)很新,法律規(guī)定目前尚屬空缺,所以我們按照基本法學(xué)理念推導(dǎo),量產(chǎn)車采集的數(shù)據(jù)應(yīng)該由車主所有。”
那車主使用自己的車輛采集的數(shù)據(jù)是否可以授權(quán)給其他單位使用呢?
目前并沒(méi)有相關(guān)法律規(guī)定與約束。但是在其他行業(yè),比如手機(jī)、互聯(lián)網(wǎng)領(lǐng)域,是廣泛允許的。
誰(shuí)可以拿到車主上傳的數(shù)據(jù)?
從汽車產(chǎn)業(yè)鏈分工看,2種主體可以拿到,第1種是無(wú)人車隊(duì)運(yùn)營(yíng)公司,比如百度的無(wú)人駕駛出租車,第2種是主機(jī)廠。但由于前者規(guī)模較小,所以我們重點(diǎn)介紹后者。
由于主機(jī)廠離用戶最近,所以最容易拿到用戶上傳的數(shù)據(jù)。在全球范圍看,Tesla是在這方面做地最好的主機(jī)廠。
目前,主機(jī)廠很少對(duì)外開(kāi)放數(shù)據(jù),導(dǎo)致自動(dòng)駕駛Tier1在幫助主機(jī)廠實(shí)現(xiàn)了主機(jī)廠定制的功能后,很難收集到用戶在使用這些功能時(shí)的反饋數(shù)據(jù),除非Tier1自己有很多測(cè)試車。那么,自動(dòng)駕駛Tier1就難以根據(jù)用戶反饋的數(shù)據(jù)對(duì)相關(guān)功能做后續(xù)的優(yōu)化,數(shù)據(jù)閉環(huán)就難以實(shí)現(xiàn)。
魔視智能產(chǎn)品經(jīng)理蘇林飛告訴筆者:“我們?cè)趲椭鳈C(jī)廠做完一個(gè)項(xiàng)目之后,假如主機(jī)廠不開(kāi)放數(shù)據(jù)接口,我們就很難拿到用戶的反饋數(shù)據(jù),進(jìn)而針對(duì)此車型進(jìn)一步迭代產(chǎn)品性能。最后大部分自動(dòng)駕駛系統(tǒng)供應(yīng)商成為了以項(xiàng)目運(yùn)作為核心的公司,進(jìn)而隨著產(chǎn)品性能的落后慢慢被淘汰。
更糟糕的是,由于自動(dòng)駕駛系統(tǒng)源代碼開(kāi)源的趨勢(shì)已經(jīng)顯現(xiàn),有的主機(jī)廠會(huì)希望自己搭建數(shù)據(jù)閉環(huán)系統(tǒng)來(lái)實(shí)現(xiàn)自動(dòng)駕駛的功能,因而也不愿意把數(shù)據(jù)分享給供應(yīng)商。但主機(jī)廠這樣做我認(rèn)為并不合理,我認(rèn)為從自動(dòng)駕駛整體的生態(tài)來(lái)講,最好還是大家各司其職,專業(yè)的人做專業(yè)的事。只是目前行業(yè)還處于比較早期的發(fā)展階段,可能大家都會(huì)想要嘗試,從而把握更大的主動(dòng)權(quán)。”
某新能源主機(jī)廠專家表示:“以前主機(jī)廠不愿意把數(shù)據(jù)給供應(yīng)商是沒(méi)想明白供應(yīng)商可以怎么回饋?zhàn)约海赡芙o了數(shù)據(jù)之后對(duì)方也不知道要如何使用。但是現(xiàn)在,對(duì)于合作的供應(yīng)商,比如給主機(jī)廠提供自動(dòng)駕駛解決方案的,主機(jī)廠是可以開(kāi)放數(shù)據(jù)使用權(quán)的。當(dāng)然了,開(kāi)放數(shù)據(jù)使用權(quán)的前提是合規(guī),供應(yīng)商在接收主機(jī)廠提供的數(shù)據(jù)以及在使用數(shù)據(jù)時(shí)都需要保證整個(gè)流程是合規(guī)的。”
對(duì)于主機(jī)廠來(lái)說(shuō),假如不把數(shù)據(jù)開(kāi)放給供應(yīng)商,那么就自己發(fā)掘這些數(shù)據(jù)的價(jià)值。早期的時(shí)候,大家都不太知道這些數(shù)據(jù)具體有什么價(jià)值,需要用起來(lái)才能慢慢發(fā)現(xiàn)價(jià)值。主機(jī)廠可以把數(shù)據(jù)先給供應(yīng)商使用,同時(shí)自己留存一份,供應(yīng)商發(fā)掘出數(shù)據(jù)的價(jià)值之后再回饋主機(jī)廠。
現(xiàn)在有的主機(jī)廠會(huì)要求供應(yīng)商在sop之后仍能持續(xù)地幫助他們迭代軟件,而供應(yīng)商也可以以此為契機(jī)獲得數(shù)據(jù),如此一來(lái)主機(jī)廠和供應(yīng)商可以實(shí)現(xiàn)雙贏。當(dāng)然了,站在主機(jī)廠的角度,目前這種方式仍然存在一些瑕疵,因?yàn)楣?yīng)商很難保證迭代后效果一定會(huì)變好。主機(jī)廠也很難驗(yàn)證迭代效果,所以主機(jī)廠常常反向要求供應(yīng)商開(kāi)放中間結(jié)果(例如感知目標(biāo)識(shí)別結(jié)果)數(shù)據(jù)的接口,這樣主機(jī)廠就可以通過(guò)針對(duì)中間結(jié)果的統(tǒng)計(jì)指標(biāo)來(lái)驗(yàn)證供應(yīng)商的迭代效果。
目前,主要需要雙方本著互相信任,真誠(chéng)合作的心態(tài),主機(jī)廠開(kāi)放數(shù)據(jù)使用權(quán)給供應(yīng)商,然后供應(yīng)商定期更新軟件,并且能看到相應(yīng)的效果,這樣合作就能持續(xù)下去。只是目前這個(gè)模式尚未被廣泛接受,因?yàn)榇蠹疑形纯吹矫黠@的效果。
3.3數(shù)據(jù)采集會(huì)占用系統(tǒng)資源
在量產(chǎn)車上采集數(shù)據(jù)會(huì)占用一些系統(tǒng)資源,比如計(jì)算、存儲(chǔ)等。理論上,可以假設(shè)計(jì)算資源、網(wǎng)絡(luò)帶寬等都不受限制,但在實(shí)際落地過(guò)程中,如何保證采集數(shù)據(jù)不影響量產(chǎn)車上自動(dòng)駕駛系統(tǒng)的正常運(yùn)行,例如,如何不影響自動(dòng)駕駛系統(tǒng)的延遲等,這是一個(gè)需要解決的問(wèn)題。
當(dāng)然了,有的公司會(huì)在自動(dòng)駕駛系統(tǒng)不運(yùn)行的時(shí)候再上傳數(shù)據(jù),這樣就不存在資源占用的問(wèn)題。但是也有業(yè)內(nèi)人士認(rèn)為,僅在自動(dòng)駕駛系統(tǒng)不運(yùn)行的時(shí)候上傳數(shù)據(jù)就會(huì)限制數(shù)據(jù)的采集量,現(xiàn)階段還是要盡可能多地采集數(shù)據(jù)。那么,在設(shè)計(jì)的時(shí)候,就需要考慮到采集數(shù)據(jù)等對(duì)自動(dòng)駕駛系統(tǒng)運(yùn)行的影響。
3.4 數(shù)據(jù)標(biāo)注及后續(xù)處理的難度大
據(jù)估計(jì),從量產(chǎn)車回傳數(shù)據(jù)后,單車每日回傳的數(shù)據(jù)量大概為百兆級(jí)。研發(fā)階段,車輛總數(shù)可能只有幾十輛或者幾百輛。但是到了量產(chǎn)階段,車輛數(shù)目的量級(jí)可以達(dá)到上萬(wàn)、幾十萬(wàn)甚至更多。那么,量產(chǎn)階段,整個(gè)車隊(duì)日產(chǎn)生的數(shù)據(jù)量就是很大的數(shù)字。
急劇增加的數(shù)據(jù)量給存儲(chǔ)空間以及數(shù)據(jù)處理的速度都帶來(lái)了挑戰(zhàn)。量產(chǎn)之后,數(shù)據(jù)處理的延遲需要和研發(fā)階段保持在同一個(gè)量級(jí)。但如果底層的基礎(chǔ)設(shè)施跟不上,數(shù)據(jù)處理的延遲就會(huì)隨著數(shù)據(jù)量的增長(zhǎng)而相應(yīng)地增加,這樣會(huì)極大地拖慢研發(fā)流程的進(jìn)度。對(duì)于系統(tǒng)迭代來(lái)講,這種效率的降低是不可接受的。
一位業(yè)界專家告訴筆者,“目前,我們還沒(méi)有看到哪家公司具備處理量產(chǎn)車上回傳的大規(guī)模數(shù)據(jù)的能力。即使是某家在數(shù)據(jù)閉環(huán)層面做得比較前沿的造車新勢(shì)力,即便是每輛量產(chǎn)車每天只回傳5分鐘的數(shù)據(jù),他們也難以應(yīng)對(duì)這樣的數(shù)據(jù)量,因?yàn)楫?dāng)前的存儲(chǔ)設(shè)備、文件讀取系統(tǒng)、計(jì)算工具等都還無(wú)法應(yīng)對(duì)極大的數(shù)據(jù)量。”
要應(yīng)對(duì)越來(lái)越大的數(shù)據(jù)量,底層的基礎(chǔ)設(shè)施以及平臺(tái)的設(shè)計(jì)都需要相應(yīng)升級(jí)。
工程團(tuán)隊(duì)需要開(kāi)發(fā)完善的數(shù)據(jù)訪存SDK。由于視覺(jué)數(shù)據(jù)、雷達(dá)數(shù)據(jù)的文件尺寸都非常大,數(shù)據(jù)的訪問(wèn)、查詢、跳轉(zhuǎn)、解碼過(guò)程都需要效率足夠高,否則會(huì)大大拖慢研發(fā)進(jìn)度。
車端數(shù)據(jù)回傳到云端后,工程團(tuán)隊(duì)需要及時(shí)給大量數(shù)據(jù)做好標(biāo)注。業(yè)界目前會(huì)借助預(yù)訓(xùn)練模型來(lái)做輔助標(biāo)注,但是數(shù)據(jù)量很大時(shí),標(biāo)注仍然需要很大的工作量。
在做數(shù)據(jù)標(biāo)注的時(shí)候,還需要確保標(biāo)注結(jié)果的一致性。目前,業(yè)界尚未實(shí)現(xiàn)全自動(dòng)數(shù)據(jù)標(biāo)注,仍然需要人工完成一部分工作量。在人工操作的時(shí)候,如何在數(shù)據(jù)量極大的情況下,保證標(biāo)注結(jié)果的一致性也是一大挑戰(zhàn)。
此外,自動(dòng)駕駛相關(guān)的數(shù)據(jù)不僅量大,而且種類龐雜,這也給數(shù)據(jù)處理增加了難度。數(shù)據(jù)類型按照來(lái)源劃分包括車輛數(shù)據(jù)、位置數(shù)據(jù)、環(huán)境感知數(shù)據(jù)、應(yīng)用數(shù)據(jù)、個(gè)人數(shù)據(jù)等等,按照格式劃分包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的服務(wù)類型又涵蓋文件、對(duì)象等,如何統(tǒng)一標(biāo)準(zhǔn),協(xié)調(diào)不同類型的存儲(chǔ)、訪問(wèn)接口也是一大難題。
3.5 數(shù)據(jù)驅(qū)動(dòng)的軟件系統(tǒng)復(fù)雜度高
傳統(tǒng)的V字型開(kāi)發(fā)模式很難適用于數(shù)據(jù)閉環(huán)。而且,目前行業(yè)中還沒(méi)有形成統(tǒng)一的面向高等級(jí)自動(dòng)駕駛的軟件開(kāi)發(fā)平臺(tái)及中間件。
某公司自動(dòng)駕駛部門的技術(shù)專家告訴筆者,“以數(shù)據(jù)和深度學(xué)習(xí)模型驅(qū)動(dòng)的自動(dòng)駕駛功能迭代體系可以稱之為軟件2.0。在這樣的模式下,整個(gè)體系,包括團(tuán)隊(duì)的構(gòu)建、研發(fā)流程、測(cè)試方法、工具鏈都是圍繞數(shù)據(jù)構(gòu)建的。”
在軟件1.0時(shí)代,每個(gè)人提交了什么代碼,預(yù)期的效果都是很容易評(píng)估的。但是,在軟件2.0時(shí)代,每個(gè)人貢獻(xiàn)的部分對(duì)整體效果的影響的衡量難度變大了,而且也很難事先預(yù)期,因?yàn)榇蠹蚁嗷ソ涣鞯牟辉偈乔逦梢?jiàn)的代碼,而是數(shù)據(jù)以及根據(jù)數(shù)據(jù)更新的模型。
在數(shù)據(jù)量很少的時(shí)候,例如我們之前做移動(dòng)互聯(lián)網(wǎng)應(yīng)用的AI視覺(jué)算法,由于數(shù)據(jù)量很少,涉及的視覺(jué)模型工程師,大家基本上是Windows或Ubuntu的文件夾各自管理,團(tuán)隊(duì)成員互相之間直接用各種重新命名的文件夾來(lái)回傳輸,非常低效進(jìn)行數(shù)據(jù)交換或合作。
但是涉及到自動(dòng)駕駛?cè)蝿?wù)時(shí),我們面臨的是幾十萬(wàn)張圖片,而且是幾百人共同研發(fā)一個(gè)系統(tǒng),每次改動(dòng)涉及到的的模塊可能都是上百乃至上千。如何評(píng)測(cè)每個(gè)模塊的代碼質(zhì)量,如何檢驗(yàn)各模塊之間是否有沖突,這些都是較為復(fù)雜的任務(wù)。迄今為止,我認(rèn)為這套系統(tǒng)仍較為糟糕,工程化部分還不夠成熟。
到了軟件2.0階段,還需要應(yīng)對(duì)的問(wèn)題是:如何衡量新增的數(shù)據(jù)對(duì)特定的場(chǎng)景和對(duì)全局的影響分別是什么,如何避免基于新增數(shù)據(jù)重新訓(xùn)練的模型在一些特定任務(wù)上效果變好但總體上效果下降。要解決這些問(wèn)題,我們需要做單元測(cè)試,來(lái)檢驗(yàn)新增部分?jǐn)?shù)據(jù)后,對(duì)我們希望解決的細(xì)分場(chǎng)景有沒(méi)有幫助以及對(duì)全局有沒(méi)有幫助。
舉例來(lái)講,假如針對(duì)某個(gè)特定的任務(wù),原始的數(shù)據(jù)集是2000萬(wàn)張圖片,然后新增500張圖片,解決這個(gè)特定任務(wù)的能力提升了,但有時(shí)候這也同時(shí)意味著模型在應(yīng)對(duì)全局任務(wù)時(shí)得分降低。
此外,針對(duì)視覺(jué)任務(wù),除了根據(jù)指標(biāo)來(lái)判斷新增數(shù)據(jù)對(duì)模型的影響,我們還需要實(shí)際去看具體的影響是什么,這樣才能知道優(yōu)化是否符合預(yù)期。僅僅通過(guò)指標(biāo)來(lái)看可能會(huì)出現(xiàn)雖然指標(biāo)提升了但實(shí)際效果仍然不符合預(yù)期的情況。
我們還需要有一套基礎(chǔ)設(shè)施,來(lái)保證每次做的更新是全局最優(yōu)的。這套基礎(chǔ)設(shè)施會(huì)涉及到數(shù)據(jù)的管理、訓(xùn)練的評(píng)測(cè)等。特斯拉在這個(gè)方面是走在行業(yè)前列的,它關(guān)于數(shù)據(jù)驅(qū)動(dòng)的整條鏈路從一開(kāi)始的設(shè)計(jì)上就是領(lǐng)先全行業(yè)而且從2019到2022年,不需要太大的改變就能支撐產(chǎn)品的迭代。
3.6 模型訓(xùn)練難度增加
解決了數(shù)據(jù)采集、存儲(chǔ)、標(biāo)注等問(wèn)題后,后續(xù)的模型訓(xùn)練、功能迭代仍然是挑戰(zhàn)。
訓(xùn)練量產(chǎn)車上回傳的大量數(shù)據(jù),需要有高效的文件傳輸系統(tǒng),保證訓(xùn)練時(shí)不被I/O“卡脖子”。
同時(shí),還要有充足的算力。提高算力的方式通常是打造多卡并行的集群,那么,如何在訓(xùn)練時(shí)保持高效的卡間通信來(lái)減少數(shù)據(jù)傳輸?shù)难舆t從而充分有效地利用每張卡的算力也是需要考慮的問(wèn)題。
為應(yīng)對(duì)模型訓(xùn)練對(duì)算力的需求,有主機(jī)廠專門打造了自己的智算中心。然而,打造智算中心的成本很高,對(duì)于中小企業(yè)來(lái)說(shuō),這幾乎是一件不可能的事情。
盡管當(dāng)前仍存在諸多痛點(diǎn),但我們?nèi)匀豢梢灶A(yù)期,假以時(shí)日,目前存在的問(wèn)題會(huì)被逐個(gè)解決。屆時(shí),數(shù)據(jù)閉環(huán)能在量產(chǎn)車上真正落地,在量產(chǎn)車上落地后采集的數(shù)據(jù)將反哺數(shù)據(jù)閉環(huán)系統(tǒng),推動(dòng)自動(dòng)駕駛系統(tǒng)走向更高階。