未來十年，人工智能迎來“小數(shù)據(jù)”時代？

沃卡惠
行業(yè)資訊
2022-08-11 10:35:21
312

從事人工智能研究的人都非常清楚，數(shù)據(jù)在人工智能發(fā)展中扮演著至關(guān)重要的角色。傳統(tǒng)觀點認(rèn)為，大量數(shù)據(jù)支撐起了尖端人工智能的發(fā)展，大數(shù)據(jù)也一直被奉為打?qū)е鹿C器學(xué)習(xí)項目的關(guān)鍵之匙。作為深度學(xué)習(xí)的引擎，大數(shù)據(jù)與大模型已經(jīng)成功運行了15年。而今，預(yù)訓(xùn)練大模型已成為各家打造人工智能基礎(chǔ)設(shè)施的利器，業(yè)界出現(xiàn)了各種由大數(shù)據(jù)構(gòu)建出的大模型，比如：

Switch Transformer

谷歌于2021年1月11日提出，聲稱參數(shù)量從GPT-3的1750億提高到1.6萬億。Switch Transformer基于稀疏激活的專家模型(Mixture of Experts)，論文中提到在計算資源相同的情況下，訓(xùn)練速度可以達到T5(Text-To-Text Transfer Transformer)模型的4-7倍。

MT-NLG

2021年年底，英偉達與微軟聯(lián)合發(fā)布了MT-NLG，該模型含參數(shù)5300億個，宣稱是如今最大的且最強的語言生成預(yù)訓(xùn)練模型。

悟道2.0

2021年6月，北京智源研究院發(fā)布悟道2.0，參數(shù)規(guī)模達到1.75萬億，是GPT-3的10倍，超過了谷歌Switch Transformer的1.6萬億參數(shù)記錄。

“封神榜”

2021年11月，在深圳IDEA大會上，粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院(簡稱“IDEA”)理事長沈向洋正式宣布，開啟“封神榜”大模型開源計劃，涵蓋五個系列的億級自然語言預(yù)訓(xùn)練大模型，其中囊括了最大的開源中文BERT大模型“二郎神”系列。但值得注意的是，在某些場景下，大數(shù)據(jù)并不適用，“小數(shù)據(jù)”才是更好的解決方案。

1.未來人工智能從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)

盡管業(yè)界在大數(shù)據(jù)和大模型取得了飛躍性的成果，不過這種規(guī)?；椒?，并不適用于數(shù)據(jù)集不夠龐大的新興行業(yè)或傳統(tǒng)行業(yè)。

在傳統(tǒng)行業(yè)，基于公開數(shù)據(jù)的預(yù)訓(xùn)練的大模型近乎派不上用場。

“龐大的搜索數(shù)據(jù)、經(jīng)濟數(shù)據(jù)對于檢測零部件缺陷毫無用處，對于醫(yī)療記錄也沒有太大的幫助。”吳恩達教授表示。

更困難的是，與可獲取海量用戶數(shù)據(jù)的互聯(lián)網(wǎng)公司不同，傳統(tǒng)企業(yè)沒有辦法收集海量的特定數(shù)據(jù)來支撐人工智能訓(xùn)練。

比如，在汽車制造業(yè)中，由于精益6-sigma管理技術(shù)的廣泛應(yīng)用，大多數(shù)零件制造商和一級供應(yīng)商都盡量保證每百萬批次的產(chǎn)品中最多出現(xiàn)4個不合格產(chǎn)品。于是，制造商們就缺少了不合格產(chǎn)品的樣本數(shù)據(jù)，從而很難訓(xùn)練出性能良好的用于產(chǎn)品質(zhì)檢的視覺檢測模型。

近期一次的MAPI調(diào)查顯示：58%的研究對象認(rèn)為，部署人工智能解決方案最主要的困難是數(shù)據(jù)源的缺乏。

正如吳恩達教授所言：“過去十年，人工智能最大的轉(zhuǎn)變是深度學(xué)習(xí)，而接下來的十年，我認(rèn)為會轉(zhuǎn)向以數(shù)據(jù)為中心。伴隨神經(jīng)網(wǎng)絡(luò)架構(gòu)的成熟，對于很多實際應(yīng)用來說，瓶頸將會存在于“怎樣獲取、開發(fā)所需要的數(shù)據(jù)”。

伴隨各國數(shù)據(jù)和隱私安全法規(guī)紛紛落位，對人工智能技術(shù)監(jiān)管收緊，人工智能的大數(shù)據(jù)紅利期已經(jīng)一去不復(fù)返。

根據(jù)Gartner的報告，到2025年，70%的組織將被迫將重點從大數(shù)據(jù)轉(zhuǎn)移到小數(shù)據(jù)和泛數(shù)據(jù)，為分析提供更多上下文——并減少人工智能對數(shù)據(jù)的需求。

但這并不意味著人工智能的發(fā)展會受阻。相反，在小數(shù)據(jù)時代，人工智能同樣大有可為。

吳恩達教授認(rèn)為，基于融合式學(xué)習(xí)、增強式學(xué)習(xí)、知識轉(zhuǎn)移等方法，小數(shù)據(jù)也可以發(fā)揮大的作用，未來人工智能的趨勢之一是將從大數(shù)據(jù)向小數(shù)據(jù)過渡。

2.小數(shù)據(jù)怎樣驅(qū)動人工智能?

需要注意的是，小數(shù)據(jù)的“小”并不單單代表數(shù)據(jù)量小，也要求質(zhì)量高的數(shù)據(jù)，這一點尤為重要。小數(shù)據(jù)是指使用符合需求的數(shù)據(jù)類型構(gòu)建模型，從而生成商業(yè)洞察和實現(xiàn)自動化決策。

我們經(jīng)常會看到有人對人工智能期望過高，單單收集幾張圖片數(shù)據(jù)，就期望獲得一個高質(zhì)量的模型。在實際部署時，是要找出最適合用于模型構(gòu)建的那部分?jǐn)?shù)據(jù)，用于輸出正確內(nèi)容。

對此，吳恩達教授舉例道：一個經(jīng)過訓(xùn)練的機器學(xué)習(xí)系統(tǒng)在大部分?jǐn)?shù)據(jù)集上的表現(xiàn)還不錯，卻只在數(shù)據(jù)的一個子集上產(chǎn)生了偏差。這時候，假如要為了提高該子集的性能，而改變整個神經(jīng)網(wǎng)絡(luò)架構(gòu)，這是相當(dāng)困難的。不過，假如能僅對數(shù)據(jù)的一個子集進行設(shè)計，那么就可以更有針對性的解決這個問題。

比如，當(dāng)背景中有汽車噪音時，有一個語音識別系統(tǒng)的表現(xiàn)會很差。了解了這一點，就可以在汽車噪音的背景下收集更多的數(shù)據(jù)，而不是所有的工作都要收集更多的數(shù)據(jù)，那樣處理起來會非常昂貴且費時。

再譬如，智能手機上有很多不同類型的缺陷，可能會是劃痕、凹痕、坑痕、材料變色亦或其它類型的瑕疵。假如訓(xùn)練過的模型在檢測缺陷時總體表現(xiàn)很好，但在坑痕上表現(xiàn)得很差，那么合成數(shù)據(jù)的生成就可以更有針對性地解決這個問題，只為坑痕類別生成更多的數(shù)據(jù)。

事實上，小數(shù)據(jù)并不是一個全新的課題，在機器學(xué)習(xí)領(lǐng)域，小數(shù)據(jù)的處理方法已經(jīng)愈來愈多。

少樣本學(xué)習(xí)

通過少樣本學(xué)習(xí)技術(shù)，為機器學(xué)習(xí)模型提供少量訓(xùn)練數(shù)據(jù)，適合在模型處于完全監(jiān)督學(xué)習(xí)狀態(tài)而訓(xùn)練數(shù)據(jù)不足時使用。

少樣本學(xué)習(xí)技術(shù)經(jīng)常應(yīng)用于計算機視覺領(lǐng)域。在計算機視覺中，模型可能不需要許多示例來識別某一對象。比如，具有用于解鎖智能手機的面部識別算法，無需數(shù)千張本人的照片便可開啟手機。

知識圖譜

知識圖譜屬于二級數(shù)據(jù)集，因為知識圖譜是通過篩選原始的大數(shù)據(jù)而形成的。知識圖譜由一組具有定義含義并描述特定域的數(shù)據(jù)點或標(biāo)簽組成。

比如，一個知識圖譜可能由一系列著名女演員名字的數(shù)據(jù)點組成，共事過的女演員之間以線(或稱之為邊)連接起來。知識圖譜是一種非常有用的工具，以一種高度可解釋和可重復(fù)使用的方式組織知識。

遷移學(xué)習(xí)

當(dāng)一個機器學(xué)習(xí)模型作為另一模型的訓(xùn)練起點，以幫助此模型完成相關(guān)任務(wù)時，就需要用到遷移學(xué)習(xí)技術(shù)。

從本質(zhì)上講，是將一個模型的知識遷移到另一個模型。以原始模型為起點，再使用額外數(shù)據(jù)來進一步訓(xùn)練模型，從而培養(yǎng)模型處理新任務(wù)的能力。假如新任務(wù)不需要原始模型的某些構(gòu)成部分，也可以將其刪除。

在自然語言處理和計算機視覺等需要大量計算能力和數(shù)據(jù)的領(lǐng)域，遷移學(xué)習(xí)技術(shù)尤為有效。應(yīng)用遷移學(xué)習(xí)技術(shù)可以減少任務(wù)的工作量和所需時間。

自監(jiān)督學(xué)習(xí)

自監(jiān)督學(xué)習(xí)的原理是，讓模型從現(xiàn)有的數(shù)據(jù)中收集監(jiān)督信號。模型運用現(xiàn)有數(shù)據(jù)來預(yù)測未觀測到的或隱藏的數(shù)據(jù)。

比如，在自然語言處理中，數(shù)據(jù)科學(xué)家可能會在模型中輸入一個缺少單詞的句子，然后讓這個模型預(yù)測所缺少的單詞。從未隱藏的單詞中獲得足夠的背景線索后，模型便學(xué)會識別句中隱藏的單詞。

合成數(shù)據(jù)

當(dāng)給定數(shù)據(jù)集存在缺失，而現(xiàn)有數(shù)據(jù)無法填補時，就可以運用合成數(shù)據(jù)。

比較普遍的示例是面部識別模型。面部識別模型需要包羅人類全部膚色的面部圖像數(shù)據(jù)，但問題是，深色人臉的照片比淺色人臉的照片數(shù)據(jù)要少。數(shù)據(jù)科學(xué)家可以人工建立深色人臉數(shù)據(jù)，以實現(xiàn)其代表的平等性，而不是建立一個難以識別深色人臉的模型。

但機器學(xué)習(xí)專家必須在現(xiàn)實世界中更徹底地測試這些模型，并在計算機生成的數(shù)據(jù)集不足時，添加額外的訓(xùn)練數(shù)據(jù)。

3.小數(shù)據(jù)的大潛力

而今，小數(shù)據(jù)的潛力正在被業(yè)界所重視。

2021年9月，美國網(wǎng)絡(luò)安全和新興技術(shù)局(簡稱CSET)發(fā)布的《小數(shù)據(jù)AI的巨大潛力》報告指出，長期被忽略的小數(shù)據(jù)(Small Data)AI潛力不可估量!

一是，縮短大小實體間人工智能能力差距。

由于不同機構(gòu)收集、存儲和處理數(shù)據(jù)的能力差異較大，人工智能的“富人”(如大型科技公司)和“窮人”之間正在拉開差距。使用小數(shù)據(jù)構(gòu)建人工智能系統(tǒng)，能夠大幅降低中小型企業(yè)進入人工智能的壁壘，減少傳統(tǒng)企業(yè)項目的研發(fā)時間和成本，將成為數(shù)以萬計的商業(yè)項目的重要突破口。

二是，促進數(shù)據(jù)匱乏領(lǐng)域的發(fā)展。

對于很多亟待解決的問題如：為沒有電子健康記錄的人構(gòu)建預(yù)測疾病風(fēng)險的算法，亦或預(yù)測活火山突然噴發(fā)的可能性，可用數(shù)據(jù)很少亦或根本不存在。

小數(shù)據(jù)方法以提供原則性的方式來處理數(shù)據(jù)缺失或匱乏。它可以運用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)，從相關(guān)問題遷移知識。小數(shù)據(jù)也可以用少量數(shù)據(jù)點建立更多數(shù)據(jù)點，憑借關(guān)聯(lián)領(lǐng)域的先驗知識，或通過構(gòu)建模擬或編碼結(jié)構(gòu)假設(shè)去開始新領(lǐng)域的冒險。

三是，避免臟數(shù)據(jù)問題。

小數(shù)據(jù)方法能讓對“臟數(shù)據(jù)”煩不勝煩的大型機構(gòu)受益。不可計數(shù)的“臟數(shù)據(jù)”需要耗費大量人力物力進行數(shù)據(jù)清理、標(biāo)記和整理才能夠“凈化”，而小數(shù)據(jù)方法中數(shù)據(jù)標(biāo)記法可以通過自動生成標(biāo)簽更輕松地處理大量未標(biāo)記的數(shù)據(jù)。遷移學(xué)習(xí)、貝葉斯方法或人工數(shù)據(jù)方法可以通過減少需要清理的數(shù)據(jù)量，分別依據(jù)相關(guān)數(shù)據(jù)集、結(jié)構(gòu)化模型和合成數(shù)據(jù)來顯著降低臟數(shù)據(jù)問題的規(guī)模。

四是，減少個人數(shù)據(jù)的收集。

全球各國都陸續(xù)出臺了針對個人數(shù)據(jù)保護的政策法規(guī)，用小數(shù)據(jù)方法能夠很大程度上減少收集個人數(shù)據(jù)的行為，通過人工合成數(shù)據(jù)或使用模擬訓(xùn)練算法，讓使用機器學(xué)習(xí)變得更簡單，從而讓人們對大規(guī)模收集、使用或披露消費者數(shù)據(jù)不再擔(dān)憂。

4.結(jié)語

人工智能依賴巨量數(shù)據(jù)、數(shù)據(jù)是必不可少的戰(zhàn)略資源，但也絕不能低估小數(shù)據(jù)的潛力，尤其是在人工智能走向應(yīng)用落地的下一個十年中，是時候從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)了。

上一篇：AI配音演員怎樣“以假亂真”

下一篇：2022年七大前沿科技：量子模擬和靶向基因醫(yī)療