生成式AI時(shí)代下的企業(yè)，該如何充分挖掘數(shù)據(jù)價(jià)值？

沃卡惠
行業(yè)資訊
2024-05-17 09:03:02
186

在數(shù)字經(jīng)濟(jì)迅猛發(fā)展的時(shí)代背景下，數(shù)據(jù)已經(jīng)上升為核心生產(chǎn)要素，不僅有力促進(jìn)了各行各業(yè)的創(chuàng)新轉(zhuǎn)型升級(jí)，更成為推動(dòng)經(jīng)濟(jì)增長的重要力量。

特別是近年來生成式AI快速發(fā)展，極大地改變了企業(yè)決策的方式和效率。而在這一過程中，數(shù)據(jù)作為智能的“燃料”，其質(zhì)量和數(shù)量直接關(guān)系到生成式AI應(yīng)用的性能和準(zhǔn)確性，因此顯得越發(fā)重要。

在前不久舉辦的“無數(shù)據(jù) 不模型——生成式AI時(shí)代的數(shù)據(jù)基座”媒體溝通會(huì)上，亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建介紹了數(shù)據(jù)在生成式AI時(shí)代的作用，以及亞馬遜云科技在數(shù)據(jù)基座構(gòu)建方面的三大核心能力。

當(dāng)前，生成式AI基礎(chǔ)模型的參數(shù)量與訓(xùn)練所需數(shù)據(jù)量可以說是天文數(shù)字級(jí)別。以書籍為例，如果一本書按500KB算，現(xiàn)在的500T參數(shù)的模型已經(jīng)有332億本，相當(dāng)于現(xiàn)存每個(gè)人類擁有4本書。而且，這一趨勢仍將持續(xù)，未來將有越來越多的模型會(huì)需要更多的數(shù)據(jù)。

生成式AI時(shí)代下的企業(yè)，該如何充分挖掘數(shù)據(jù)價(jià)值？

如何打造差異化生成式AI應(yīng)用？

現(xiàn)如今，隨著生成式AI的不斷發(fā)展，企業(yè)的關(guān)注點(diǎn)已不僅局限于基礎(chǔ)的大模型數(shù)據(jù)，而更加重視利用自身數(shù)據(jù)結(jié)合基礎(chǔ)大模型，從而打造差異化能力。

據(jù)陳曉建介紹，用企業(yè)自身的數(shù)據(jù)去差異化生成式AI應(yīng)用，通過數(shù)據(jù)定制基礎(chǔ)模型的方式主要分為三大類：檢索增強(qiáng)生成(RAG)、微調(diào)和持續(xù)預(yù)訓(xùn)練，這三種方式適用不同的應(yīng)用場景。具體來看：

第一，RAG。企業(yè)可以將自身的知識(shí)庫、數(shù)據(jù)庫等與生成式AI模型相結(jié)合，在生成過程中實(shí)時(shí)檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù)，從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。這個(gè)方法相對(duì)簡便。適用場景包括知識(shí)時(shí)效性、控制幻覺、用戶隱私數(shù)據(jù)保護(hù)、企業(yè)私域知識(shí)等。

第二，微調(diào)。微調(diào)使用與目標(biāo)任務(wù)相關(guān)的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練，以提高其在特定任務(wù)上的性能。微調(diào)的門檻介于預(yù)訓(xùn)練和RAG兩者之間。適用場景包括角色理解、輸入理解、輸出格式控制等。

第三，持續(xù)預(yù)訓(xùn)練。企業(yè)利用自身專有數(shù)據(jù)，如內(nèi)部文檔、客戶記錄等對(duì)模型進(jìn)行持續(xù)預(yù)訓(xùn)練。這種持續(xù)預(yù)訓(xùn)練門檻較高，成本較大，但是可以得到一個(gè)企業(yè)自身定制的行業(yè)大模型。適用場景包括理解行業(yè)領(lǐng)域知識(shí)/術(shù)語，以及用于嚴(yán)控?cái)?shù)據(jù)合規(guī)等。

實(shí)際上，RAG、微調(diào)和持續(xù)預(yù)訓(xùn)練需要的數(shù)據(jù)規(guī)模、數(shù)據(jù)來源和技術(shù)要求各不相同。例如，RAG和微調(diào)都需要處理相對(duì)較小的數(shù)據(jù)量，這些數(shù)據(jù)通常需要經(jīng)過預(yù)訓(xùn)練處理。換言之，可能需要將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，以便大模型更好地理解數(shù)據(jù)格式。相比之下，持續(xù)預(yù)訓(xùn)練處理的數(shù)據(jù)量從GB級(jí)到TB級(jí)，甚至更多，這些數(shù)據(jù)無須過多預(yù)處理，可將業(yè)務(wù)產(chǎn)生的原始非結(jié)構(gòu)化數(shù)據(jù)直接輸入大模型進(jìn)行持續(xù)訓(xùn)練。

“亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場景，能夠幫助企業(yè)輕松應(yīng)對(duì)海量多模態(tài)數(shù)據(jù)，提升基礎(chǔ)模型能力，”陳曉建表示，“作為全球云計(jì)算的開創(chuàng)者和引領(lǐng)者，亞馬遜云科技正在幫助各個(gè)行業(yè)、各種規(guī)模的企業(yè)打造強(qiáng)健的數(shù)據(jù)基座，在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下，將數(shù)據(jù)的獨(dú)特價(jià)值賦予基礎(chǔ)模型和生成式AI應(yīng)用，加速企業(yè)業(yè)務(wù)增長。”

三大核心能力，充分發(fā)揮數(shù)據(jù)潛力

據(jù)了解，亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力包括：模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價(jià)值的能力，以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力。

第一，模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力。

在數(shù)據(jù)處理的過程中，企業(yè)需要解決三個(gè)核心問題：一是找到合適的存儲(chǔ)設(shè)備來承載海量的數(shù)據(jù);二是需要有效的工具來進(jìn)行原始數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的清洗和處理;三是對(duì)所有數(shù)據(jù)進(jìn)行有效的編目管理，并確保數(shù)據(jù)的安全訪問。

在數(shù)據(jù)存儲(chǔ)方面，Amazon S3的容量，安全和功能都滿足微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型對(duì)數(shù)據(jù)存儲(chǔ)上的要求: Amazon S3擁有超過200萬億個(gè)對(duì)象，平均每秒超過1億個(gè)請(qǐng)求。亞馬遜云科技上超過20萬個(gè)數(shù)據(jù)湖都使用了Amazon S3。

另外，亞馬遜云科技專門構(gòu)建的文件存儲(chǔ)服務(wù)Amazon FSx for Lustre能夠提供亞毫秒延遲和數(shù)百萬IOPS的吞吐性能，能夠進(jìn)一步加快模型優(yōu)化的速度。LG AI Research使用Amazon FSx for Lustre 將數(shù)據(jù)分發(fā)到實(shí)例中來加速模型訓(xùn)練，開發(fā)了自己的基礎(chǔ)模型 EXAONE，通過減少基礎(chǔ)設(shè)施管理和提高GPU擴(kuò)展效率，降低了約35%的成本。

在數(shù)據(jù)清洗方面，Amazon EMR Serverless和Amazon Glue可以幫助企業(yè)輕松完成數(shù)據(jù)清理、去重、乃至分詞的操作，讓企業(yè)專注于生成式AI業(yè)務(wù)創(chuàng)新。其中，Amazon EMR serverless采用無服務(wù)器架構(gòu)，易用使用，能夠預(yù)置、配置和動(dòng)態(tài)擴(kuò)展應(yīng)用程序在每個(gè)階段所需的計(jì)算和內(nèi)存資源;Amazon Glue是簡單、可擴(kuò)展的無服務(wù)器數(shù)據(jù)集成服務(wù)，可以更快地集成數(shù)據(jù)，連接不同數(shù)據(jù)源并簡化相關(guān)的代碼工作。

在數(shù)據(jù)治理方面，Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù)，不但能夠?yàn)槎嘣炊嗄B(tài)數(shù)據(jù)進(jìn)行有效編目和治理，而且還提供簡單易用的統(tǒng)一數(shù)據(jù)管理平臺(tái)和工具，從而為用戶解鎖所有數(shù)據(jù)的潛能。

第二，將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值的能力。

基礎(chǔ)模型具備諸多優(yōu)點(diǎn)，并在多個(gè)層面上展現(xiàn)出了與人類智能相當(dāng)甚至超越的能力。然而，基礎(chǔ)模型也存在一定的局限性，如缺乏垂直行業(yè)的專業(yè)知識(shí)，缺乏時(shí)效性，生成錯(cuò)誤信息，以及用戶敏感數(shù)據(jù)的隱私合規(guī)風(fēng)險(xiǎn)。

RAG技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一，該技術(shù)的關(guān)鍵是向量嵌入(vector embeddings)，包括獲取特定領(lǐng)域數(shù)據(jù)源，通過分詞將其分解為token元素，通過LLM將這些token導(dǎo)出數(shù)值向量。

通過這一系列操作，人們成功將元素?cái)?shù)據(jù)中內(nèi)容關(guān)聯(lián)問題簡化為token元素間的距離計(jì)算問題。

RAG場景的核心組件就是向量存儲(chǔ)，現(xiàn)代應(yīng)用程序需精準(zhǔn)理解用戶需求并正確關(guān)聯(lián)產(chǎn)品或內(nèi)容，這一需求廣泛存在于搜索、評(píng)論、購物車及產(chǎn)品推薦等交互框架中，這些框架又依賴于功能各異的數(shù)據(jù)庫，這使得數(shù)據(jù)庫成為實(shí)施RAG場景技術(shù)的理想平臺(tái)。

目前，亞馬遜云科技已經(jīng)在八種數(shù)據(jù)存儲(chǔ)中添加了向量搜索功能，讓客戶在構(gòu)建生成式 AI 應(yīng)用程序時(shí)有更大的靈活性。

第三，有效處理新數(shù)據(jù)，助力生成式AI應(yīng)用飛速發(fā)展的能力。

由于生成式AI對(duì)基礎(chǔ)資源有極高要求，數(shù)據(jù)處理過程中的調(diào)用模型環(huán)節(jié)可能非常耗時(shí)，給系統(tǒng)帶來成本壓力。

Amazon Memory DB內(nèi)存數(shù)據(jù)庫通過緩存之前問答生成的新數(shù)據(jù)，實(shí)現(xiàn)對(duì)類似問題的快速響應(yīng)和準(zhǔn)確回答，同時(shí)有效降低基礎(chǔ)模型的調(diào)用頻率。Amazon Memory DB能夠存儲(chǔ)數(shù)百萬個(gè)向量，只需要幾毫秒的響應(yīng)時(shí)間，能夠以99%的召回率實(shí)現(xiàn)每秒百萬次的查詢性能。

此外，生成式AI應(yīng)用程序需要快速占領(lǐng)市場。亞馬遜云科技通過提供無服務(wù)器數(shù)據(jù)庫服務(wù)和Amazon OpenSearch Serverless用于向量搜索，最大限度為企業(yè)減少運(yùn)維負(fù)擔(dān)和成本，消除性能瓶頸，使企業(yè)能夠?qū)Ｗ⒂谏墒紸I業(yè)務(wù)創(chuàng)新。

“我們希望每一個(gè)企業(yè)在生成式AI時(shí)代借助亞馬遜云科技的服務(wù)打造堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。這樣企業(yè)就可以高效安全地將海量的多模態(tài)數(shù)據(jù)和各種基礎(chǔ)模型結(jié)合在一起，創(chuàng)建出一系列具有獨(dú)特的價(jià)值的生成式AI應(yīng)用程序并收到終端用戶的歡迎，進(jìn)而產(chǎn)生更多的數(shù)據(jù)。這些新數(shù)據(jù)又會(huì)繼續(xù)提升模型的準(zhǔn)確度，創(chuàng)造更好的用戶體驗(yàn)，從而實(shí)現(xiàn)生生不息的正向生成式AI數(shù)據(jù)飛輪，帶動(dòng)我們企業(yè)的業(yè)務(wù)走向成功。”陳曉建說道。

賦能客戶，把握生成式AI機(jī)遇

值得一提的是，店匠科技(Shoplazza)首席科學(xué)家謝中流和北京靈奧科技(Vanus)CEO厲啟鵬也分享了各自企業(yè)在生成式AI領(lǐng)域的實(shí)踐和經(jīng)驗(yàn)。

店匠科技是一家電子商務(wù)獨(dú)立站SaaS平臺(tái)，專注于幫助企業(yè)構(gòu)建其專屬的在線商城，涉足電商領(lǐng)域兩大分支：集中式平臺(tái)電商與去中心化的獨(dú)立站電商。截至目前，店匠科技已服務(wù)超36萬家跨境電商客戶，覆蓋全球150多個(gè)國家。

謝中流指出，在生成式AI方面，店匠科技正在積極探索四大業(yè)務(wù)板塊。首先，在營銷素材生成方面，店匠科技推出了GenAI營銷素材創(chuàng)作平臺(tái)，能夠以分鐘級(jí)速度生成多樣風(fēng)格的營銷素材，極大簡化從模特選擇、場景搭建到后期編輯的復(fù)雜流程。

其次，在AI建站方面，通過與用戶交互并運(yùn)用如Amazon Bedrock的Claude3模型，結(jié)合Amazon RDS等工具，實(shí)現(xiàn)對(duì)客戶需求的即時(shí)理解與精準(zhǔn)捕獲，進(jìn)而自動(dòng)生成和完善網(wǎng)站結(jié)構(gòu)、設(shè)計(jì)風(fēng)格與內(nèi)容，極大地簡化了電商網(wǎng)站的搭建過程，使商家能夠快速啟動(dòng)在線業(yè)務(wù)。

第三，在智能客服方面，鑒于日常咨詢中高度重復(fù)性問題占比高達(dá)69%，店匠科技運(yùn)用Amazon Bedrock的Claude3模型及Amazon ElastiCache Redis技術(shù)，構(gòu)建高效客服對(duì)話系統(tǒng)，不僅顯著縮短了解答時(shí)間，還降低了40%的客服成本，改善了用戶體驗(yàn)。

第四，在推薦與搜索方面，面對(duì)多語言環(huán)境下的挑戰(zhàn)，店匠科技借助Amazon ElastiCache Redis等工具提升個(gè)性化推薦與搜索排序的效率與準(zhǔn)確性，從而增強(qiáng)用戶體驗(yàn)并推動(dòng)銷售增長。

北京靈奧科技是一家面向全球市場的人工智能初創(chuàng)企業(yè)，主要使命是為企業(yè)構(gòu)建AI Agent。目前，北京靈奧科技已推出Vanus Connect、Vanus AI以及VanChat三大產(chǎn)品，累計(jì)服務(wù)于全球超過30,000家企業(yè)。

厲啟鵬表示，Vanus整個(gè)基礎(chǔ)架構(gòu)建立在亞馬遜云科技的Amazon Elastic Kubernetes Service(EKS)組件之上。借助EKS的彈性能力，VanChat智能助手可以根據(jù)業(yè)務(wù)流量進(jìn)行平滑的彈性伸縮，從而幫助用戶應(yīng)對(duì)高流量洪峰，同時(shí)降低成本。

“我們期待與亞馬遜云科技在數(shù)據(jù)庫優(yōu)化、Zero-ETL數(shù)據(jù)預(yù)處理及Claude系列模型的深度應(yīng)用等方面展開更緊密的合作，共同推動(dòng)AI技術(shù)在企業(yè)應(yīng)用中的深入發(fā)展。”

寫在最后：

生成式AI時(shí)代，數(shù)據(jù)是企業(yè)在激烈市場競爭中脫穎而出的關(guān)鍵。構(gòu)建基礎(chǔ)模型離不開大規(guī)模高質(zhì)量數(shù)據(jù)集支撐，而生成式AI的差異化優(yōu)勢則來源于企業(yè)的專有數(shù)據(jù)。同時(shí)，隨著生成式AI應(yīng)用的日益普及，如何高效管理和運(yùn)用這些應(yīng)用不斷產(chǎn)生的新數(shù)據(jù)，已成為企業(yè)必須面對(duì)和解決的課題。

上一篇：量子互聯(lián)網(wǎng)的實(shí)現(xiàn)將如何增強(qiáng)數(shù)據(jù)安全性？

下一篇：知識(shí)圖與大型語言模型的協(xié)同作用