在數(shù)字經(jīng)濟(jì)迅猛發(fā)展的時(shí)代背景下,數(shù)據(jù)已經(jīng)上升為核心生產(chǎn)要素,不僅有力促進(jìn)了各行各業(yè)的創(chuàng)新轉(zhuǎn)型升級(jí),更成為推動(dòng)經(jīng)濟(jì)增長的重要力量。
特別是近年來生成式AI快速發(fā)展,極大地改變了企業(yè)決策的方式和效率。而在這一過程中,數(shù)據(jù)作為智能的“燃料”,其質(zhì)量和數(shù)量直接關(guān)系到生成式AI應(yīng)用的性能和準(zhǔn)確性,因此顯得越發(fā)重要。
在前不久舉辦的“無數(shù)據(jù) 不模型——生成式AI時(shí)代的數(shù)據(jù)基座”媒體溝通會(huì)上,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建介紹了數(shù)據(jù)在生成式AI時(shí)代的作用,以及亞馬遜云科技在數(shù)據(jù)基座構(gòu)建方面的三大核心能力。
當(dāng)前,生成式AI基礎(chǔ)模型的參數(shù)量與訓(xùn)練所需數(shù)據(jù)量可以說是天文數(shù)字級(jí)別。以書籍為例,如果一本書按500KB算,現(xiàn)在的500T參數(shù)的模型已經(jīng)有332億本,相當(dāng)于現(xiàn)存每個(gè)人類擁有4本書。而且,這一趨勢仍將持續(xù),未來將有越來越多的模型會(huì)需要更多的數(shù)據(jù)。
如何打造差異化生成式AI應(yīng)用?
現(xiàn)如今,隨著生成式AI的不斷發(fā)展,企業(yè)的關(guān)注點(diǎn)已不僅局限于基礎(chǔ)的大模型數(shù)據(jù),而更加重視利用自身數(shù)據(jù)結(jié)合基礎(chǔ)大模型,從而打造差異化能力。
據(jù)陳曉建介紹,用企業(yè)自身的數(shù)據(jù)去差異化生成式AI應(yīng)用,通過數(shù)據(jù)定制基礎(chǔ)模型的方式主要分為三大類:檢索增強(qiáng)生成(RAG)、微調(diào)和持續(xù)預(yù)訓(xùn)練,這三種方式適用不同的應(yīng)用場景。具體來看:
第一,RAG。企業(yè)可以將自身的知識(shí)庫、數(shù)據(jù)庫等與生成式AI模型相結(jié)合,在生成過程中實(shí)時(shí)檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù),從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。這個(gè)方法相對(duì)簡便。適用場景包括知識(shí)時(shí)效性、控制幻覺、用戶隱私數(shù)據(jù)保護(hù)、企業(yè)私域知識(shí)等。
第二,微調(diào)。微調(diào)使用與目標(biāo)任務(wù)相關(guān)的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,以提高其在特定任務(wù)上的性能。微調(diào)的門檻介于預(yù)訓(xùn)練和RAG兩者之間。適用場景包括角色理解、輸入理解、輸出格式控制等。
第三,持續(xù)預(yù)訓(xùn)練。企業(yè)利用自身專有數(shù)據(jù),如內(nèi)部文檔、客戶記錄等對(duì)模型進(jìn)行持續(xù)預(yù)訓(xùn)練。這種持續(xù)預(yù)訓(xùn)練門檻較高,成本較大,但是可以得到一個(gè)企業(yè)自身定制的行業(yè)大模型。適用場景包括理解行業(yè)領(lǐng)域知識(shí)/術(shù)語,以及用于嚴(yán)控?cái)?shù)據(jù)合規(guī)等。
實(shí)際上,RAG、微調(diào)和持續(xù)預(yù)訓(xùn)練需要的數(shù)據(jù)規(guī)模、數(shù)據(jù)來源和技術(shù)要求各不相同。例如,RAG和微調(diào)都需要處理相對(duì)較小的數(shù)據(jù)量,這些數(shù)據(jù)通常需要經(jīng)過預(yù)訓(xùn)練處理。換言之,可能需要將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以便大模型更好地理解數(shù)據(jù)格式。相比之下,持續(xù)預(yù)訓(xùn)練處理的數(shù)據(jù)量從GB級(jí)到TB級(jí),甚至更多,這些數(shù)據(jù)無須過多預(yù)處理,可將業(yè)務(wù)產(chǎn)生的原始非結(jié)構(gòu)化數(shù)據(jù)直接輸入大模型進(jìn)行持續(xù)訓(xùn)練。
“亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場景,能夠幫助企業(yè)輕松應(yīng)對(duì)海量多模態(tài)數(shù)據(jù),提升基礎(chǔ)模型能力,”陳曉建表示,“作為全球云計(jì)算的開創(chuàng)者和引領(lǐng)者,亞馬遜云科技正在幫助各個(gè)行業(yè)、各種規(guī)模的企業(yè)打造強(qiáng)健的數(shù)據(jù)基座,在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下,將數(shù)據(jù)的獨(dú)特價(jià)值賦予基礎(chǔ)模型和生成式AI應(yīng)用,加速企業(yè)業(yè)務(wù)增長。”
三大核心能力,充分發(fā)揮數(shù)據(jù)潛力
據(jù)了解,亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力包括:模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價(jià)值的能力,以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力。
第一,模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力。
在數(shù)據(jù)處理的過程中,企業(yè)需要解決三個(gè)核心問題:一是找到合適的存儲(chǔ)設(shè)備來承載海量的數(shù)據(jù);二是需要有效的工具來進(jìn)行原始數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的清洗和處理;三是對(duì)所有數(shù)據(jù)進(jìn)行有效的編目管理,并確保數(shù)據(jù)的安全訪問。
在數(shù)據(jù)存儲(chǔ)方面,Amazon S3的容量,安全和功能都滿足微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型對(duì)數(shù)據(jù)存儲(chǔ)上的要求: Amazon S3擁有超過200萬億個(gè)對(duì)象,平均每秒超過1億個(gè)請(qǐng)求。亞馬遜云科技上超過20萬個(gè)數(shù)據(jù)湖都使用了Amazon S3。
另外,亞馬遜云科技專門構(gòu)建的文件存儲(chǔ)服務(wù)Amazon FSx for Lustre能夠提供亞毫秒延遲和數(shù)百萬IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。LG AI Research使用Amazon FSx for Lustre 將數(shù)據(jù)分發(fā)到實(shí)例中來加速模型訓(xùn)練,開發(fā)了自己的基礎(chǔ)模型 EXAONE,通過減少基礎(chǔ)設(shè)施管理和提高GPU擴(kuò)展效率,降低了約35%的成本。
在數(shù)據(jù)清洗方面,Amazon EMR Serverless和Amazon Glue可以幫助企業(yè)輕松完成數(shù)據(jù)清理、去重、乃至分詞的操作,讓企業(yè)專注于生成式AI業(yè)務(wù)創(chuàng)新。其中,Amazon EMR serverless采用無服務(wù)器架構(gòu),易用使用,能夠預(yù)置、配置和動(dòng)態(tài)擴(kuò)展應(yīng)用程序在每個(gè)階段所需的計(jì)算和內(nèi)存資源;Amazon Glue是簡單、可擴(kuò)展的無服務(wù)器數(shù)據(jù)集成服務(wù),可以更快地集成數(shù)據(jù),連接不同數(shù)據(jù)源并簡化相關(guān)的代碼工作。
在數(shù)據(jù)治理方面,Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠?yàn)槎嘣炊嗄B(tài)數(shù)據(jù)進(jìn)行有效編目和治理,而且還提供簡單易用的統(tǒng)一數(shù)據(jù)管理平臺(tái)和工具,從而為用戶解鎖所有數(shù)據(jù)的潛能。
第二,將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值的能力。
基礎(chǔ)模型具備諸多優(yōu)點(diǎn),并在多個(gè)層面上展現(xiàn)出了與人類智能相當(dāng)甚至超越的能力。然而,基礎(chǔ)模型也存在一定的局限性,如缺乏垂直行業(yè)的專業(yè)知識(shí),缺乏時(shí)效性,生成錯(cuò)誤信息,以及用戶敏感數(shù)據(jù)的隱私合規(guī)風(fēng)險(xiǎn)。
RAG技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一,該技術(shù)的關(guān)鍵是向量嵌入(vector embeddings),包括獲取特定領(lǐng)域數(shù)據(jù)源,通過分詞將其分解為token元素,通過LLM將這些token導(dǎo)出數(shù)值向量。
通過這一系列操作,人們成功將元素?cái)?shù)據(jù)中內(nèi)容關(guān)聯(lián)問題簡化為token元素間的距離計(jì)算問題。
RAG場景的核心組件就是向量存儲(chǔ),現(xiàn)代應(yīng)用程序需精準(zhǔn)理解用戶需求并正確關(guān)聯(lián)產(chǎn)品或內(nèi)容,這一需求廣泛存在于搜索、評(píng)論、購物車及產(chǎn)品推薦等交互框架中,這些框架又依賴于功能各異的數(shù)據(jù)庫,這使得數(shù)據(jù)庫成為實(shí)施RAG場景技術(shù)的理想平臺(tái)。
目前,亞馬遜云科技已經(jīng)在八種數(shù)據(jù)存儲(chǔ)中添加了向量搜索功能,讓客戶在構(gòu)建生成式 AI 應(yīng)用程序時(shí)有更大的靈活性。
第三,有效處理新數(shù)據(jù),助力生成式AI應(yīng)用飛速發(fā)展的能力。
由于生成式AI對(duì)基礎(chǔ)資源有極高要求,數(shù)據(jù)處理過程中的調(diào)用模型環(huán)節(jié)可能非常耗時(shí),給系統(tǒng)帶來成本壓力。
Amazon Memory DB內(nèi)存數(shù)據(jù)庫通過緩存之前問答生成的新數(shù)據(jù),實(shí)現(xiàn)對(duì)類似問題的快速響應(yīng)和準(zhǔn)確回答,同時(shí)有效降低基礎(chǔ)模型的調(diào)用頻率。Amazon Memory DB能夠存儲(chǔ)數(shù)百萬個(gè)向量,只需要幾毫秒的響應(yīng)時(shí)間,能夠以99%的召回率實(shí)現(xiàn)每秒百萬次的查詢性能。
此外,生成式AI應(yīng)用程序需要快速占領(lǐng)市場。亞馬遜云科技通過提供無服務(wù)器數(shù)據(jù)庫服務(wù)和Amazon OpenSearch Serverless用于向量搜索,最大限度為企業(yè)減少運(yùn)維負(fù)擔(dān)和成本,消除性能瓶頸,使企業(yè)能夠?qū)W⒂谏墒紸I業(yè)務(wù)創(chuàng)新。
“我們希望每一個(gè)企業(yè)在生成式AI時(shí)代借助亞馬遜云科技的服務(wù)打造堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。這樣企業(yè)就可以高效安全地將海量的多模態(tài)數(shù)據(jù)和各種基礎(chǔ)模型結(jié)合在一起,創(chuàng)建出一系列具有獨(dú)特的價(jià)值的生成式AI應(yīng)用程序并收到終端用戶的歡迎,進(jìn)而產(chǎn)生更多的數(shù)據(jù)。這些新數(shù)據(jù)又會(huì)繼續(xù)提升模型的準(zhǔn)確度,創(chuàng)造更好的用戶體驗(yàn),從而實(shí)現(xiàn)生生不息的正向生成式AI數(shù)據(jù)飛輪,帶動(dòng)我們企業(yè)的業(yè)務(wù)走向成功。”陳曉建說道。
賦能客戶,把握生成式AI機(jī)遇
值得一提的是,店匠科技(Shoplazza)首席科學(xué)家謝中流和北京靈奧科技(Vanus)CEO厲啟鵬也分享了各自企業(yè)在生成式AI領(lǐng)域的實(shí)踐和經(jīng)驗(yàn)。
店匠科技是一家電子商務(wù)獨(dú)立站SaaS平臺(tái),專注于幫助企業(yè)構(gòu)建其專屬的在線商城,涉足電商領(lǐng)域兩大分支:集中式平臺(tái)電商與去中心化的獨(dú)立站電商。截至目前,店匠科技已服務(wù)超36萬家跨境電商客戶,覆蓋全球150多個(gè)國家。
謝中流指出,在生成式AI方面,店匠科技正在積極探索四大業(yè)務(wù)板塊。首先,在營銷素材生成方面,店匠科技推出了GenAI營銷素材創(chuàng)作平臺(tái),能夠以分鐘級(jí)速度生成多樣風(fēng)格的營銷素材,極大簡化從模特選擇、場景搭建到后期編輯的復(fù)雜流程。
其次,在AI建站方面,通過與用戶交互并運(yùn)用如Amazon Bedrock的Claude3模型,結(jié)合Amazon RDS等工具,實(shí)現(xiàn)對(duì)客戶需求的即時(shí)理解與精準(zhǔn)捕獲,進(jìn)而自動(dòng)生成和完善網(wǎng)站結(jié)構(gòu)、設(shè)計(jì)風(fēng)格與內(nèi)容,極大地簡化了電商網(wǎng)站的搭建過程,使商家能夠快速啟動(dòng)在線業(yè)務(wù)。
第三,在智能客服方面,鑒于日常咨詢中高度重復(fù)性問題占比高達(dá)69%,店匠科技運(yùn)用Amazon Bedrock的Claude3模型及Amazon ElastiCache Redis技術(shù),構(gòu)建高效客服對(duì)話系統(tǒng),不僅顯著縮短了解答時(shí)間,還降低了40%的客服成本,改善了用戶體驗(yàn)。
第四,在推薦與搜索方面,面對(duì)多語言環(huán)境下的挑戰(zhàn),店匠科技借助Amazon ElastiCache Redis等工具提升個(gè)性化推薦與搜索排序的效率與準(zhǔn)確性,從而增強(qiáng)用戶體驗(yàn)并推動(dòng)銷售增長。
北京靈奧科技是一家面向全球市場的人工智能初創(chuàng)企業(yè),主要使命是為企業(yè)構(gòu)建AI Agent。目前,北京靈奧科技已推出Vanus Connect、Vanus AI以及VanChat三大產(chǎn)品,累計(jì)服務(wù)于全球超過30,000家企業(yè)。
厲啟鵬表示,Vanus整個(gè)基礎(chǔ)架構(gòu)建立在亞馬遜云科技的Amazon Elastic Kubernetes Service(EKS)組件之上。借助EKS的彈性能力,VanChat智能助手可以根據(jù)業(yè)務(wù)流量進(jìn)行平滑的彈性伸縮,從而幫助用戶應(yīng)對(duì)高流量洪峰,同時(shí)降低成本。
“我們期待與亞馬遜云科技在數(shù)據(jù)庫優(yōu)化、Zero-ETL數(shù)據(jù)預(yù)處理及Claude系列模型的深度應(yīng)用等方面展開更緊密的合作,共同推動(dòng)AI技術(shù)在企業(yè)應(yīng)用中的深入發(fā)展。”
寫在最后:
生成式AI時(shí)代,數(shù)據(jù)是企業(yè)在激烈市場競爭中脫穎而出的關(guān)鍵。構(gòu)建基礎(chǔ)模型離不開大規(guī)模高質(zhì)量數(shù)據(jù)集支撐,而生成式AI的差異化優(yōu)勢則來源于企業(yè)的專有數(shù)據(jù)。同時(shí),隨著生成式AI應(yīng)用的日益普及,如何高效管理和運(yùn)用這些應(yīng)用不斷產(chǎn)生的新數(shù)據(jù),已成為企業(yè)必須面對(duì)和解決的課題。