2022，大模型還能走多遠

沃卡惠
行業(yè)資訊
2022-05-18 20:28:08
2

2021年是大模型層出不窮的一年。從去年OpenAI GPT-3發(fā)布開始，今年華為、谷歌、智源、快手、阿里、英偉達等廠商先后推出自己的大模型，人工智能產(chǎn)業(yè)開始了新一輪的激烈角逐，而且有愈演愈烈之勢。作為探索通用人工智能的路徑之一，AI大模型不僅本身是一個可能產(chǎn)生原始創(chuàng)新與長期影響的領域，還將成為一個平臺，催生更多世界級的成果。

概述

自2018年Bert大模型的橫空問世以來，華為、阿里、騰訊、谷歌、微軟、英偉達等國內(nèi)外各巨頭紛紛重兵投入打造自己的大模型，將其視為下一個AI領域的必爭的高地。

如此百家爭鳴，這背后一定有著深層次且必然的原因。

眾所周知，“難以落地”已成為制約人工智能“技術(shù)上水平”，“應用上規(guī)模”,“產(chǎn)業(yè)上臺階”的最大瓶頸。而進一步深究，則是高昂的開發(fā)成本和技術(shù)門檻形成了一道無形的壁壘，使得技術(shù)鏈與產(chǎn)業(yè)鏈嚴重脫節(jié)。這種生態(tài)上的脫節(jié)，必然導致“小作坊式”的AI開發(fā)模式。這就意味著耗時耗力、復雜繁瑣的數(shù)據(jù)的收集、標注和訓練工作需要重新來過，無疑加重了開發(fā)者的負擔，企業(yè)的應用成本也隨之增高。

而大模型的出現(xiàn)，意味著“工業(yè)化”開發(fā)模式的到來。

得益于大模型的高泛化能力和高通用性，它能把AI開發(fā)重新整合建立起一套通用的“預訓練大模型+下游任務微調(diào)”流水線。面對不同的應用場景，這套流水線可以得到有效復用。開發(fā)者只需要少量行業(yè)數(shù)據(jù)就可以快速開發(fā)出精度更高、泛化能力更強的AI模型。

大模型發(fā)展現(xiàn)狀

某種程度上看，大模型的規(guī)模發(fā)展速度似乎超過了摩爾定律。據(jù)統(tǒng)計，每年其參數(shù)規(guī)模至少提升10倍。2021年，我們可以看到各大學術(shù)機構(gòu)、科技企業(yè)都在投入重兵打造自己的大模型，并且對其能力邊界、技術(shù)路徑進行了極大拓展。

1月，谷歌發(fā)布人類歷史首個萬億級模型Switch Transformer。

3月，北京智源研究院發(fā)布悟道1.0，6月發(fā)布悟道2.0，參數(shù)規(guī)模已經(jīng)超過百億。

4月，華為云盤古大模型發(fā)布，這是業(yè)界首個千億參數(shù)中文語言預訓練模型，且并不僅僅局限于人工智能的某一個單獨的領域比如自然語言處理NLP，而是海納百川，集AI多個熱門方向于一身的全能型人工智能。

7月，中科院自動化所也推出了全球首個三模態(tài)大模型：紫東·太初。其兼具跨模態(tài)理解和生成能力，可以同時應對文本、視覺、語音三個方向的問題。

8月，實驗室已經(jīng)宣布,將自研深度學習框架“河圖”融入Angel生態(tài),北京大學與騰訊團隊將聯(lián)合共建Angel4.0——新一代分布式深度學習平臺,面向擁有海量訓練數(shù)據(jù)、超大模型參數(shù)的深度學習訓練場景,為產(chǎn)業(yè)界帶來新的大規(guī)模深度學習破局之策。

9月，浪潮發(fā)布巨量模型“源1.0”，參數(shù)量達2457億，訓練采用的中文數(shù)據(jù)集達5000GB，相比于美國的GPT-3模型相比，源1.0參數(shù)規(guī)模領先40%，訓練數(shù)據(jù)集規(guī)模領先近10倍。

11月，英偉達與微軟聯(lián)合發(fā)布了5300億參數(shù)的“MT-NLG”。

近日，阿里達摩院宣布其多模態(tài)大模型M6最新參數(shù)已從萬億躍遷至10萬億，規(guī)模超過了谷歌、微軟此前發(fā)布的萬億級模型，成為全球最大的AI預訓練模型。

如果說參數(shù)的直觀對比類似外行看熱鬧，那么，落地能力才是大模型實力的真正較量。目前，在落地層面，各大科技巨頭都在進行了相關(guān)的落地探索。

華為云盤古大模型在各行業(yè)應用方面，已經(jīng)在能源、零售、金融、工業(yè)、醫(yī)療、環(huán)境、物流等行業(yè)的100多個場景實際應用,讓企業(yè)的AI應用開發(fā)效率平均提升了90%。

另外，阿里達摩院研發(fā)的M6，擁有多模態(tài)、多任務能力，其認知和創(chuàng)造能力超越傳統(tǒng)AI，目前已應用在支付寶、淘寶、天貓業(yè)務上，尤其擅長設計、寫作、問答，在電商、制造業(yè)、文學藝術(shù)、科學研究等領域有廣泛應用前景。

值得注意的是，目前大模型更多的是離線應用，在線應用上，還需要考慮知識蒸餾和低精度量化等模型壓縮技術(shù)、項目實時性等一系列復雜的項目難題。

大模型的分類

1、按照模型架構(gòu)劃分：單體模型和混合模型。單體模型中比較出名的有：其中OpenAI推出的「GPT-3」、微軟-英偉達推出的「MT-NLG」模型、浪潮推出的「源1.0」等?；旌夏Ｐ桶ü雀璧摹窼witch Transformer」、智源研究院的「悟道」、阿里的「M6」、華為云的「盤古」等。

其中，谷歌「Switch Transformer」采用Mixture of Experts (MoE，混合專家)模式，將模型進行切分，其結(jié)果是得到的是一個稀疏激活模型，大大節(jié)省了計算資源。

而智源「悟道2.0」1.75萬億參數(shù)再次刷新萬億參數(shù)規(guī)模的記錄，值得關(guān)注的是它不再關(guān)注單一領域的模型開發(fā)，而是各種領域的融合系統(tǒng)。

2、按照應用領域劃分：目前，大模型的熱門方向包括NLP(中文語言)大模型、CV(視覺)大模型、多模態(tài)大模型和科學計算大模型等。

目前，自然語言處理領域內(nèi)熱門單體大模型有：「GPT-3」、「MT-NLG」以及「源1.0」等。驚喜的是，有研究表明，將NLP領域大獲成功的自監(jiān)督預訓練模式同樣也可以用在CV任務上，效果十分拔群。

大模型的卡點

大模型性能取得的一系列突破的同時，其背后逐漸凸顯的卡點也開始備受社會關(guān)注。

首先，打造大模型并非易事，需要消耗龐大的數(shù)據(jù)、算力、算法等各種軟硬件資源。而短期看，這種巨大的資源消耗，不僅對于企業(yè)和科研機構(gòu)來說，無疑是一項沉重的負擔，更與全球節(jié)能環(huán)保以及我國提出的雙碳(碳達峰、碳中和)目標，是有所矛盾的。如何在有限資源的條件下實現(xiàn)大模型的低能耗進化，是一個不小的挑戰(zhàn)。

其次，大模型尚缺乏統(tǒng)一的評價標準和模塊化流程。大模型的研發(fā)尚處于初步探索階段，市場中有條件的企業(yè)和機構(gòu)紛紛展開角逐的同時，不可避免地會造成高質(zhì)量的集中資源的再度分化，進而產(chǎn)生各種煙囪式的評判標準、分散的算法模型結(jié)構(gòu)，進而可能導致的割裂的探討評價體系。

再次，創(chuàng)新力度不足。大模型應用價值取決于其泛化能力，而不是參數(shù)規(guī)模越大越好。大模型是否優(yōu)秀，不僅依賴數(shù)據(jù)的精度與網(wǎng)絡結(jié)構(gòu)，也是對其與行業(yè)結(jié)合軟硬件協(xié)同能力的比拼。目前業(yè)界過度強調(diào)高參數(shù)集、強算力模型的研發(fā)，而忽視了網(wǎng)絡模型的創(chuàng)新、與行業(yè)的協(xié)同創(chuàng)新等問題。

最后，落地應用緩慢。業(yè)界人士普遍認為：AI大模型最大挑戰(zhàn)在于，如何讓更多行業(yè)和場景真正付諸落地。目前看應用仍處于企業(yè)內(nèi)部項目為主。如何改變這種閉門造車的局面，如何快速適配給應用場景，才是大模型的最大價值和難點。

大模型何去何從

1、大模型參數(shù)紅利仍在

從百萬、千萬、億再到千億，萬億，大模型隨著參數(shù)規(guī)模的增加，性能也如研究者預期一樣，一直在不斷接近人類水平?？梢灶A見，未來一段時間，大模型的規(guī)模依舊有待提升?？赡艹霈F(xiàn)的變化是，人們不再僅僅增加算力，而更多是通過并行計算、軟硬件協(xié)同等技術(shù)的支撐。值得關(guān)注的是，由于實際落地方面的考慮，一些小參數(shù)模型也在悄然興起。

2、大模型走向多領域通用

大模型的初心，是令訓練出來的模型具備不同領域的認知力，既能有泛化的能力，又能有自我進化的能力。比如NLP領域內(nèi)的大模型，復用到CV領域已被得到極有效的證實;GPT-3同樣展現(xiàn)出了從海量未標記數(shù)據(jù)中學習，且不限于某一特定任務的通用能力。近期興起的多模態(tài)預訓練大模型就是最好的證明。大模型的未來需要創(chuàng)新，大模型將致力于構(gòu)建通用的人工智能算法底層架構(gòu)，將模型的認知力從單領域泛化到多領域融合，在不同場景中自我生長，向可持續(xù)、可進化的方向發(fā)展。

3、更易用的開源平臺

大模型開放開源是大勢所趨，這也是不少機構(gòu)所致力推動的。微軟、IDEA、智源研究院等大多機構(gòu)的開源還處于淺層次，只是能調(diào)用算法包、排隊等待訓練的狀況。未來的大模型要走出實驗室，就需要走向算法體系、標準體系、基礎平臺、數(shù)據(jù)集、工程化測試等全方位的開放。

4、標準易用的工作流程

“預訓練大模型+微調(diào)”的方式的確加速了AI開發(fā)者的步伐，但如果把與之相適應的工作流程給搭建起來，大模型將會在更多場景大放光彩。另外，大模型的評估未來會有標準化成熟的體系來衡量，這個體系也會是行業(yè)內(nèi)公認的標準，規(guī)范模型的通用性、易用性，同時用這個標準來衡量大模型的優(yōu)劣而不是如今自賣自夸式的標榜。

5、大模型能力的端側(cè)化

未來，將大模型的一些運算存儲等能力像芯片一樣固化在一些端側(cè)硬件設備中，在使用的過程中不用在重裝的模型中耗時調(diào)用算力與數(shù)據(jù)，可以實現(xiàn)隨時調(diào)用隨時使用。現(xiàn)下的模型多是重裝大模型，使用的話需要調(diào)用龐大的算力和運行時間，未來的大模型會逐漸改變這種模式。

大模型會有哪些商業(yè)模式

更多人關(guān)心大模型未來會有哪些商業(yè)模式?？梢詮娜齻€層面想象：

1、把大模型作為底座。既可以把底座出售或租售給國家的創(chuàng)新中心、政府機構(gòu)，也可以與之聯(lián)合合作，做上層開發(fā)。

2、做開源。大模型涉及的許多技術(shù)問題單靠一家企業(yè)來解決是比較難的，可以通過開放技術(shù)的方式，用社區(qū)的力量共同解決，共享IP，互惠互利。

3、提供給一般的ISV(獨立軟件開發(fā)商)。讓大模型從實驗室走出來，直接去面對千行百業(yè)的客戶，不太可行。通過把能力開放給ISV，他們再去接觸下游更多客戶。有兩種接觸方式：一種是通過流量計費、或按項目計費;再一種是讓使用者免費使用，通過流量廣告變現(xiàn)。

總結(jié)展望

現(xiàn)如今，大模型的這種盛況，就與深度學習時代極其相似。然而，作為通向認知智能的高階探索，大模型此后的路還有很遠。能否持續(xù)提升自身的創(chuàng)新能力、泛化能力、落地能力，將會成為突破變革的關(guān)鍵。

也許在未來幾年內(nèi)，會逐漸形成這樣一種狀態(tài)：大模型作為基礎的產(chǎn)業(yè)生態(tài)，用大算力訓練出最高水平的智能，為各種AI應用提供源源不斷的智能服務。而這一切，都需要時間去證明。

會議推薦

時至今日，人們對人工智能的期待已不止于感知智能，新一代人工智能正逐漸在多模態(tài)大模型的支持下向認知智能發(fā)起征程。未來人工智能熱潮能否進一步打開天花板、形成更大的產(chǎn)業(yè)規(guī)模，認知智能的突破是關(guān)鍵。

2022年5月14日至15日的WOT全球技術(shù)創(chuàng)新大會“認知智能發(fā)展新趨勢”專題中，多位來自產(chǎn)業(yè)界與學術(shù)界的人工智能技術(shù)專家將圍繞多模態(tài)多語種大模型與智能搜索推薦等方向，為大家?guī)砩疃燃夹g(shù)分享。

上一篇：實現(xiàn)AI運算本地化的另一種可能：CoCoPIE的探索與抉擇