2021年是大模型層出不窮的一年。從去年OpenAI GPT-3發(fā)布開始,今年華為、谷歌、智源、快手、阿里、英偉達(dá)等廠商先后推出自己的大模型,人工智能產(chǎn)業(yè)開始了新一輪的激烈角逐,而且有愈演愈烈之勢(shì)。作為探索通用人工智能的路徑之一,AI大模型不僅本身是一個(gè)可能產(chǎn)生原始創(chuàng)新與長(zhǎng)期影響的領(lǐng)域,還將成為一個(gè)平臺(tái),催生更多世界級(jí)的成果。
概述
自2018年Bert大模型的橫空問世以來,華為、阿里、騰訊、谷歌、微軟、英偉達(dá)等國(guó)內(nèi)外各巨頭紛紛重兵投入打造自己的大模型,將其視為下一個(gè)AI領(lǐng)域的必爭(zhēng)的高地。
如此百家爭(zhēng)鳴,這背后一定有著深層次且必然的原因。
眾所周知,“難以落地”已成為制約人工智能“技術(shù)上水平”,“應(yīng)用上規(guī)模”,“產(chǎn)業(yè)上臺(tái)階”的最大瓶頸。而進(jìn)一步深究,則是高昂的開發(fā)成本和技術(shù)門檻形成了一道無(wú)形的壁壘,使得技術(shù)鏈與產(chǎn)業(yè)鏈嚴(yán)重脫節(jié)。這種生態(tài)上的脫節(jié),必然導(dǎo)致“小作坊式”的AI開發(fā)模式。這就意味著耗時(shí)耗力、復(fù)雜繁瑣的數(shù)據(jù)的收集、標(biāo)注和訓(xùn)練工作需要重新來過,無(wú)疑加重了開發(fā)者的負(fù)擔(dān),企業(yè)的應(yīng)用成本也隨之增高。
而大模型的出現(xiàn),意味著“工業(yè)化”開發(fā)模式的到來。
得益于大模型的高泛化能力和高通用性,它能把AI開發(fā)重新整合建立起一套通用的“預(yù)訓(xùn)練大模型+下游任務(wù)微調(diào)”流水線。面對(duì)不同的應(yīng)用場(chǎng)景,這套流水線可以得到有效復(fù)用。開發(fā)者只需要少量行業(yè)數(shù)據(jù)就可以快速開發(fā)出精度更高、泛化能力更強(qiáng)的AI模型。
大模型發(fā)展現(xiàn)狀
某種程度上看,大模型的規(guī)模發(fā)展速度似乎超過了摩爾定律。據(jù)統(tǒng)計(jì),每年其參數(shù)規(guī)模至少提升10倍。2021年,我們可以看到各大學(xué)術(shù)機(jī)構(gòu)、科技企業(yè)都在投入重兵打造自己的大模型,并且對(duì)其能力邊界、技術(shù)路徑進(jìn)行了極大拓展。
1月,谷歌發(fā)布人類歷史首個(gè)萬(wàn)億級(jí)模型Switch Transformer。
3月,北京智源研究院發(fā)布悟道1.0,6月發(fā)布悟道2.0,參數(shù)規(guī)模已經(jīng)超過百億。
4月,華為云盤古大模型發(fā)布,這是業(yè)界首個(gè)千億參數(shù)中文語(yǔ)言預(yù)訓(xùn)練模型,且并不僅僅局限于人工智能的某一個(gè)單獨(dú)的領(lǐng)域比如自然語(yǔ)言處理NLP,而是海納百川,集AI多個(gè)熱門方向于一身的全能型人工智能。
7月,中科院自動(dòng)化所也推出了全球首個(gè)三模態(tài)大模型:紫東·太初。其兼具跨模態(tài)理解和生成能力,可以同時(shí)應(yīng)對(duì)文本、視覺、語(yǔ)音三個(gè)方向的問題。
8月,實(shí)驗(yàn)室已經(jīng)宣布,將自研深度學(xué)習(xí)框架“河圖”融入Angel生態(tài),北京大學(xué)與騰訊團(tuán)隊(duì)將聯(lián)合共建Angel4.0——新一代分布式深度學(xué)習(xí)平臺(tái),面向擁有海量訓(xùn)練數(shù)據(jù)、超大模型參數(shù)的深度學(xué)習(xí)訓(xùn)練場(chǎng)景,為產(chǎn)業(yè)界帶來新的大規(guī)模深度學(xué)習(xí)破局之策。
9月,浪潮發(fā)布巨量模型“源1.0”,參數(shù)量達(dá)2457億,訓(xùn)練采用的中文數(shù)據(jù)集達(dá)5000GB,相比于美國(guó)的GPT-3模型相比,源1.0參數(shù)規(guī)模領(lǐng)先40%,訓(xùn)練數(shù)據(jù)集規(guī)模領(lǐng)先近10倍。
11月,英偉達(dá)與微軟聯(lián)合發(fā)布了5300億參數(shù)的“MT-NLG”。
近日,阿里達(dá)摩院宣布其多模態(tài)大模型M6最新參數(shù)已從萬(wàn)億躍遷至10萬(wàn)億,規(guī)模超過了谷歌、微軟此前發(fā)布的萬(wàn)億級(jí)模型,成為全球最大的AI預(yù)訓(xùn)練模型。
如果說參數(shù)的直觀對(duì)比類似外行看熱鬧,那么,落地能力才是大模型實(shí)力的真正較量。目前,在落地層面,各大科技巨頭都在進(jìn)行了相關(guān)的落地探索。
華為云盤古大模型在各行業(yè)應(yīng)用方面,已經(jīng)在能源、零售、金融、工業(yè)、醫(yī)療、環(huán)境、物流等行業(yè)的100多個(gè)場(chǎng)景實(shí)際應(yīng)用,讓企業(yè)的AI應(yīng)用開發(fā)效率平均提升了90%。
另外,阿里達(dá)摩院研發(fā)的M6,擁有多模態(tài)、多任務(wù)能力,其認(rèn)知和創(chuàng)造能力超越傳統(tǒng)AI,目前已應(yīng)用在支付寶、淘寶、天貓業(yè)務(wù)上,尤其擅長(zhǎng)設(shè)計(jì)、寫作、問答,在電商、制造業(yè)、文學(xué)藝術(shù)、科學(xué)研究等領(lǐng)域有廣泛應(yīng)用前景。
值得注意的是,目前大模型更多的是離線應(yīng)用,在線應(yīng)用上,還需要考慮知識(shí)蒸餾和低精度量化等模型壓縮技術(shù)、項(xiàng)目實(shí)時(shí)性等一系列復(fù)雜的項(xiàng)目難題。
大模型的分類
1、按照模型架構(gòu)劃分:?jiǎn)误w模型和混合模型。單體模型中比較出名的有:其中OpenAI推出的「GPT-3」、微軟-英偉達(dá)推出的「MT-NLG」模型、浪潮推出的「源1.0」等?;旌夏P桶ü雀璧摹窼witch Transformer」、智源研究院的「悟道」、阿里的「M6」、華為云的「盤古」等。
其中,谷歌「Switch Transformer」采用Mixture of Experts (MoE,混合專家)模式,將模型進(jìn)行切分,其結(jié)果是得到的是一個(gè)稀疏激活模型,大大節(jié)省了計(jì)算資源。
而智源「悟道2.0」1.75萬(wàn)億參數(shù)再次刷新萬(wàn)億參數(shù)規(guī)模的記錄,值得關(guān)注的是它不再關(guān)注單一領(lǐng)域的模型開發(fā),而是各種領(lǐng)域的融合系統(tǒng)。
2、按照應(yīng)用領(lǐng)域劃分:目前,大模型的熱門方向包括NLP(中文語(yǔ)言)大模型、CV(視覺)大模型、多模態(tài)大模型和科學(xué)計(jì)算大模型等。
目前,自然語(yǔ)言處理領(lǐng)域內(nèi)熱門單體大模型有:「GPT-3」、「MT-NLG」以及「源1.0」等。驚喜的是,有研究表明,將NLP領(lǐng)域大獲成功的自監(jiān)督預(yù)訓(xùn)練模式同樣也可以用在CV任務(wù)上,效果十分拔群。
大模型的卡點(diǎn)
大模型性能取得的一系列突破的同時(shí),其背后逐漸凸顯的卡點(diǎn)也開始備受社會(huì)關(guān)注。
首先,打造大模型并非易事,需要消耗龐大的數(shù)據(jù)、算力、算法等各種軟硬件資源。而短期看,這種巨大的資源消耗,不僅對(duì)于企業(yè)和科研機(jī)構(gòu)來說,無(wú)疑是一項(xiàng)沉重的負(fù)擔(dān),更與全球節(jié)能環(huán)保以及我國(guó)提出的雙碳(碳達(dá)峰、碳中和)目標(biāo),是有所矛盾的。如何在有限資源的條件下實(shí)現(xiàn)大模型的低能耗進(jìn)化,是一個(gè)不小的挑戰(zhàn)。
其次,大模型尚缺乏統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)和模塊化流程。大模型的研發(fā)尚處于初步探索階段,市場(chǎng)中有條件的企業(yè)和機(jī)構(gòu)紛紛展開角逐的同時(shí),不可避免地會(huì)造成高質(zhì)量的集中資源的再度分化,進(jìn)而產(chǎn)生各種煙囪式的評(píng)判標(biāo)準(zhǔn)、分散的算法模型結(jié)構(gòu),進(jìn)而可能導(dǎo)致的割裂的探討評(píng)價(jià)體系。
再次,創(chuàng)新力度不足。大模型應(yīng)用價(jià)值取決于其泛化能力,而不是參數(shù)規(guī)模越大越好。大模型是否優(yōu)秀,不僅依賴數(shù)據(jù)的精度與網(wǎng)絡(luò)結(jié)構(gòu),也是對(duì)其與行業(yè)結(jié)合軟硬件協(xié)同能力的比拼。目前業(yè)界過度強(qiáng)調(diào)高參數(shù)集、強(qiáng)算力模型的研發(fā),而忽視了網(wǎng)絡(luò)模型的創(chuàng)新、與行業(yè)的協(xié)同創(chuàng)新等問題。
最后,落地應(yīng)用緩慢。業(yè)界人士普遍認(rèn)為:AI大模型最大挑戰(zhàn)在于,如何讓更多行業(yè)和場(chǎng)景真正付諸落地。目前看應(yīng)用仍處于企業(yè)內(nèi)部項(xiàng)目為主。如何改變這種閉門造車的局面,如何快速適配給應(yīng)用場(chǎng)景,才是大模型的最大價(jià)值和難點(diǎn)。
大模型何去何從
1、大模型參數(shù)紅利仍在
從百萬(wàn)、千萬(wàn)、億再到千億,萬(wàn)億,大模型隨著參數(shù)規(guī)模的增加,性能也如研究者預(yù)期一樣,一直在不斷接近人類水平??梢灶A(yù)見,未來一段時(shí)間,大模型的規(guī)模依舊有待提升??赡艹霈F(xiàn)的變化是,人們不再僅僅增加算力,而更多是通過并行計(jì)算、軟硬件協(xié)同等技術(shù)的支撐。值得關(guān)注的是,由于實(shí)際落地方面的考慮,一些小參數(shù)模型也在悄然興起。
2、大模型走向多領(lǐng)域通用
大模型的初心,是令訓(xùn)練出來的模型具備不同領(lǐng)域的認(rèn)知力,既能有泛化的能力,又能有自我進(jìn)化的能力。比如NLP領(lǐng)域內(nèi)的大模型,復(fù)用到CV領(lǐng)域已被得到極有效的證實(shí);GPT-3同樣展現(xiàn)出了從海量未標(biāo)記數(shù)據(jù)中學(xué)習(xí),且不限于某一特定任務(wù)的通用能力。近期興起的多模態(tài)預(yù)訓(xùn)練大模型就是最好的證明。大模型的未來需要?jiǎng)?chuàng)新,大模型將致力于構(gòu)建通用的人工智能算法底層架構(gòu),將模型的認(rèn)知力從單領(lǐng)域泛化到多領(lǐng)域融合,在不同場(chǎng)景中自我生長(zhǎng),向可持續(xù)、可進(jìn)化的方向發(fā)展。
3、更易用的開源平臺(tái)
大模型開放開源是大勢(shì)所趨,這也是不少機(jī)構(gòu)所致力推動(dòng)的。微軟、IDEA、智源研究院等大多機(jī)構(gòu)的開源還處于淺層次,只是能調(diào)用算法包、排隊(duì)等待訓(xùn)練的狀況。未來的大模型要走出實(shí)驗(yàn)室,就需要走向算法體系、標(biāo)準(zhǔn)體系、基礎(chǔ)平臺(tái)、數(shù)據(jù)集、工程化測(cè)試等全方位的開放。
4、標(biāo)準(zhǔn)易用的工作流程
“預(yù)訓(xùn)練大模型+微調(diào)”的方式的確加速了AI開發(fā)者的步伐,但如果把與之相適應(yīng)的工作流程給搭建起來,大模型將會(huì)在更多場(chǎng)景大放光彩。另外,大模型的評(píng)估未來會(huì)有標(biāo)準(zhǔn)化成熟的體系來衡量,這個(gè)體系也會(huì)是行業(yè)內(nèi)公認(rèn)的標(biāo)準(zhǔn),規(guī)范模型的通用性、易用性,同時(shí)用這個(gè)標(biāo)準(zhǔn)來衡量大模型的優(yōu)劣而不是如今自賣自夸式的標(biāo)榜。
5、大模型能力的端側(cè)化
未來,將大模型的一些運(yùn)算存儲(chǔ)等能力像芯片一樣固化在一些端側(cè)硬件設(shè)備中,在使用的過程中不用在重裝的模型中耗時(shí)調(diào)用算力與數(shù)據(jù),可以實(shí)現(xiàn)隨時(shí)調(diào)用隨時(shí)使用?,F(xiàn)下的模型多是重裝大模型,使用的話需要調(diào)用龐大的算力和運(yùn)行時(shí)間,未來的大模型會(huì)逐漸改變這種模式。
大模型會(huì)有哪些商業(yè)模式
更多人關(guān)心大模型未來會(huì)有哪些商業(yè)模式??梢詮娜齻€(gè)層面想象:
1、把大模型作為底座。既可以把底座出售或租售給國(guó)家的創(chuàng)新中心、政府機(jī)構(gòu),也可以與之聯(lián)合合作,做上層開發(fā)。
2、做開源。大模型涉及的許多技術(shù)問題單靠一家企業(yè)來解決是比較難的,可以通過開放技術(shù)的方式,用社區(qū)的力量共同解決,共享IP,互惠互利。
3、提供給一般的ISV(獨(dú)立軟件開發(fā)商)。讓大模型從實(shí)驗(yàn)室走出來,直接去面對(duì)千行百業(yè)的客戶,不太可行。通過把能力開放給ISV,他們?cè)偃ソ佑|下游更多客戶。有兩種接觸方式:一種是通過流量計(jì)費(fèi)、或按項(xiàng)目計(jì)費(fèi);再一種是讓使用者免費(fèi)使用,通過流量廣告變現(xiàn)。
總結(jié)展望
現(xiàn)如今,大模型的這種盛況,就與深度學(xué)習(xí)時(shí)代極其相似。然而,作為通向認(rèn)知智能的高階探索,大模型此后的路還有很遠(yuǎn)。能否持續(xù)提升自身的創(chuàng)新能力、泛化能力、落地能力,將會(huì)成為突破變革的關(guān)鍵。
也許在未來幾年內(nèi),會(huì)逐漸形成這樣一種狀態(tài):大模型作為基礎(chǔ)的產(chǎn)業(yè)生態(tài),用大算力訓(xùn)練出最高水平的智能,為各種AI應(yīng)用提供源源不斷的智能服務(wù)。而這一切,都需要時(shí)間去證明。
會(huì)議推薦
時(shí)至今日,人們對(duì)人工智能的期待已不止于感知智能,新一代人工智能正逐漸在多模態(tài)大模型的支持下向認(rèn)知智能發(fā)起征程。未來人工智能熱潮能否進(jìn)一步打開天花板、形成更大的產(chǎn)業(yè)規(guī)模,認(rèn)知智能的突破是關(guān)鍵。
2022年5月14日至15日的WOT全球技術(shù)創(chuàng)新大會(huì)“認(rèn)知智能發(fā)展新趨勢(shì)”專題中,多位來自產(chǎn)業(yè)界與學(xué)術(shù)界的人工智能技術(shù)專家將圍繞多模態(tài)多語(yǔ)種大模型與智能搜索推薦等方向,為大家?guī)砩疃燃夹g(shù)分享。