最近我想到了數(shù)據(jù)治理,所以我決定通過(guò)輸入提示來(lái)查詢ChatGPT:“什么是數(shù)據(jù)治理?”,人工智能回應(yīng)道:“數(shù)據(jù)治理是一套流程、政策、標(biāo)準(zhǔn)和指導(dǎo)方針,可確保在企業(yè)內(nèi)適當(dāng)?shù)毓芾?、保護(hù)和利用數(shù)據(jù)”,這是一個(gè)很好的開(kāi)始,此時(shí)此刻,關(guān)于數(shù)據(jù)治理及其意義還有很多要說(shuō)的。
GenAI時(shí)代的數(shù)據(jù)治理
數(shù)據(jù)治理涵蓋了一系列學(xué)科,包括數(shù)據(jù)安全、管理、質(zhì)量和編目,這種做法需要定義使用策略、創(chuàng)建主數(shù)據(jù)源、分析數(shù)據(jù)集、記錄字典和監(jiān)督數(shù)據(jù)生命周期。組織模型通常定義促進(jìn)策略的首席數(shù)據(jù)官、制定數(shù)據(jù)集策略的數(shù)據(jù)所有者和負(fù)責(zé)改進(jìn)數(shù)據(jù)質(zhì)量的數(shù)據(jù)管理員的角色。
“數(shù)據(jù)治理是數(shù)據(jù)完整性的關(guān)鍵要素,使企業(yè)能夠輕松地查找、理解和利用關(guān)鍵數(shù)據(jù)——從而實(shí)現(xiàn)準(zhǔn)確的報(bào)告和明智的決策”,Precision的首席技術(shù)官TendüYogurtçu博士說(shuō),“它提供了對(duì)數(shù)據(jù)的含義、譜系和影響的理解,因此企業(yè)可以保持合規(guī),并確保人工智能模型以可靠的數(shù)據(jù)為燃料,以獲得可靠的結(jié)果。”
Yogurtçu說(shuō),數(shù)據(jù)治理曾經(jīng)是一項(xiàng)專(zhuān)注于合規(guī)性的技術(shù)任務(wù)。她說(shuō):“隨著人們?cè)絹?lái)越多地采用人工智能,數(shù)據(jù)已成為最重要的企業(yè)資產(chǎn),數(shù)據(jù)治理應(yīng)該成為整個(gè)企業(yè)的優(yōu)先事項(xiàng)。”
對(duì)于許多嘗試使用GenAI或使用大型語(yǔ)言模型(LLM)構(gòu)建應(yīng)用程序的企業(yè)來(lái)說(shuō),數(shù)據(jù)治理責(zé)任更大,員工使用AI工具的方式帶來(lái)更多風(fēng)險(xiǎn),非結(jié)構(gòu)化數(shù)據(jù)帶來(lái)新的范圍。我咨詢了幾位專(zhuān)家,了解數(shù)據(jù)治理必須如何發(fā)展,以應(yīng)對(duì)GenAI工具和能力所固有的機(jī)會(huì)和風(fēng)險(xiǎn)。
發(fā)展GenAI數(shù)據(jù)治理的4種方法
審查在GenAI工具和LLM中使用的數(shù)據(jù)策略
數(shù)據(jù)治理部門(mén)監(jiān)督數(shù)據(jù)目錄并傳達(dá)數(shù)據(jù)使用策略,以幫助員工利用集中的數(shù)據(jù)集,并將其用于構(gòu)建機(jī)器學(xué)習(xí)模型、儀表板和其他分析工具,這些部門(mén)現(xiàn)在正在更新政策,包括是否以及如何在土地管理系統(tǒng)和開(kāi)放的GenAI工具中使用企業(yè)數(shù)據(jù)源。開(kāi)發(fā)人員和數(shù)據(jù)科學(xué)家必須審查這些政策,并就使用數(shù)據(jù)集支持GenAI實(shí)驗(yàn)的任何問(wèn)題咨詢數(shù)據(jù)所有者。
Egnyte的聯(lián)合創(chuàng)始人兼首席安全官克里斯·拉希里表示:“隨著GenAI帶來(lái)更多的數(shù)據(jù)復(fù)雜性,企業(yè)必須有良好的數(shù)據(jù)治理和隱私政策,以管理和保護(hù)用于訓(xùn)練這些模型的內(nèi)容。企業(yè)必須格外關(guān)注這些人工智能工具使用了哪些數(shù)據(jù),無(wú)論是OpenAI、Palm之類(lèi)的第三方,還是公司內(nèi)部可能使用的LLM。”
審查有關(guān)隱私、數(shù)據(jù)保護(hù)和可接受使用的GenAI政策,許多企業(yè)要求在將數(shù)據(jù)集用于GenAI用例之前提交請(qǐng)求和來(lái)自數(shù)據(jù)所有者的批準(zhǔn)。在使用必須符合GDPR、CCPA、PCI、HIPAA或其他數(shù)據(jù)合規(guī)標(biāo)準(zhǔn)的數(shù)據(jù)集之前,請(qǐng)咨詢風(fēng)險(xiǎn)、合規(guī)和法律部門(mén)。
在使用第三方數(shù)據(jù)源時(shí),數(shù)據(jù)策略還必須考慮數(shù)據(jù)供應(yīng)鏈和責(zé)任。EDB的首席產(chǎn)品工程官Jozef de Vries表示:“如果發(fā)生涉及在特定地區(qū)受保護(hù)的數(shù)據(jù)的安全事件,供應(yīng)商需要明確他們和客戶的責(zé)任,以適當(dāng)?shù)鼐徑膺@種情況,特別是如果這些數(shù)據(jù)打算用于AI/ML平臺(tái)的話。”
對(duì)于那些對(duì)GenAI機(jī)會(huì)感到興奮的人來(lái)說(shuō),通過(guò)了解他們企業(yè)的數(shù)據(jù)隱私、安全和合規(guī)政策,擁有優(yōu)先事項(xiàng)的心態(tài)是很重要的。
加快數(shù)據(jù)質(zhì)量計(jì)劃
許多公司都提供數(shù)據(jù)質(zhì)量解決方案,包括ATTACAMA、ColLibra、Experian、IBM、Informatica、Precision、SAP、SAS和Talend。2022年,全球數(shù)據(jù)質(zhì)量工具市場(chǎng)規(guī)模超過(guò)40億美元,預(yù)計(jì)每年增長(zhǎng)17.7%。我預(yù)計(jì)現(xiàn)在有更高的增長(zhǎng),因?yàn)樵S多公司都在試驗(yàn)人工智能工具和LLM。
Piwik Pro的首席運(yùn)營(yíng)官馬特茲·克雷姆帕表示:“由于人工智能的好壞取決于支持它的數(shù)據(jù),因此與人工智能合作的諸多挑戰(zhàn)都與數(shù)據(jù)質(zhì)量有關(guān),糟糕的數(shù)據(jù)質(zhì)量可能會(huì)導(dǎo)致誤導(dǎo)性或錯(cuò)誤的見(jiàn)解,嚴(yán)重影響結(jié)果。”
克雷姆帕表示,數(shù)據(jù)質(zhì)量挑戰(zhàn)源于大數(shù)據(jù)的數(shù)量、速度和多樣性,特別是因?yàn)長(zhǎng)LM現(xiàn)在利用的是該企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)源。希望開(kāi)發(fā)內(nèi)部LLM的公司將需要擴(kuò)展數(shù)據(jù)質(zhì)量計(jì)劃,以包括從文檔、協(xié)作工具、代碼庫(kù)和其他存儲(chǔ)企業(yè)知識(shí)和知識(shí)產(chǎn)權(quán)的工具中提取的信息。
Hakkoda的數(shù)據(jù)治理主管凱倫·梅本表示:“數(shù)據(jù)治理正在轉(zhuǎn)變,不僅要向LLM系統(tǒng)提供海量數(shù)據(jù),而且要明智、安全地這樣做,重點(diǎn)是確保數(shù)據(jù)不僅是大的,而且是智能的 - 準(zhǔn)確、可理解、隱私意識(shí)、安全,并尊重知識(shí)產(chǎn)權(quán)和公平的風(fēng)險(xiǎn)和影響。”
根據(jù)業(yè)務(wù)目標(biāo)和數(shù)據(jù)類(lèi)型的不同,可以使用不同的工具來(lái)提高數(shù)據(jù)質(zhì)量。
傳統(tǒng)數(shù)據(jù)質(zhì)量工具可以對(duì)數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)刪除、標(biāo)準(zhǔn)化數(shù)據(jù)字段、根據(jù)業(yè)務(wù)規(guī)則驗(yàn)證數(shù)據(jù)、檢測(cè)異常并計(jì)算質(zhì)量指標(biāo)。
主數(shù)據(jù)管理工具(MDM)可幫助企業(yè)連接多個(gè)數(shù)據(jù)源,并圍繞客戶和產(chǎn)品等業(yè)務(wù)實(shí)體創(chuàng)建真實(shí)來(lái)源。
客戶數(shù)據(jù)平臺(tái)(CDP)是用于集中客戶信息并實(shí)現(xiàn)營(yíng)銷(xiāo)、銷(xiāo)售、客戶服務(wù)和其他客戶交互的專(zhuān)用工具。
期待升級(jí)和新的數(shù)據(jù)質(zhì)量工具,以改善對(duì)非結(jié)構(gòu)化數(shù)據(jù)源的支持,并提高GenAI用例的數(shù)據(jù)質(zhì)量能力。
Matillion的CISO Graeme Canu-Park的另一項(xiàng)建議側(cè)重于數(shù)據(jù)譜系的重要性。“人工智能將需要一種完全不同的方式來(lái)看待治理優(yōu)先事項(xiàng)和實(shí)踐,以更好地了解為人工智能應(yīng)用程序和模型提供支持的數(shù)據(jù)管道和數(shù)據(jù)譜系。”
數(shù)據(jù)沿襲有助于揭示數(shù)據(jù)的生命周期,并回答有關(guān)誰(shuí)、何時(shí)、在哪里、為什么以及數(shù)據(jù)如何更改的問(wèn)題。由于人工智能擴(kuò)大了數(shù)據(jù)及其用例的范圍,因此對(duì)企業(yè)中更多的人,包括從事安全和其他風(fēng)險(xiǎn)管理職能的人來(lái)說(shuō),了解數(shù)據(jù)譜系變得更加重要。
審查數(shù)據(jù)管理和管道體系結(jié)構(gòu)
著眼于政策和數(shù)據(jù)質(zhì)量之外,數(shù)據(jù)治理領(lǐng)導(dǎo)者必須將他們的影響力擴(kuò)展到數(shù)據(jù)管理和架構(gòu)功能。主動(dòng)式數(shù)據(jù)治理支持一系列功能,使更多員工能夠利用數(shù)據(jù)、分析以及現(xiàn)在的人工智能來(lái)完成工作并做出更明智的決策。如何存儲(chǔ)、訪問(wèn)、生產(chǎn)、編目和記錄數(shù)據(jù)都是組織能夠以多快、多輕松、多安全的方式將其數(shù)據(jù)擴(kuò)展到genAI用例中的所有因素。
Teradata的首席產(chǎn)品官希拉里·阿什頓建議了以下方法,讓最令人興奮的人工智能用例成為現(xiàn)實(shí):
創(chuàng)建可重復(fù)使用的數(shù)據(jù)產(chǎn)品,或經(jīng)過(guò)精心管理的已知良好數(shù)據(jù)集,以幫助企業(yè)更好地控制其數(shù)據(jù)并向其灌輸信任。
尊重?cái)?shù)據(jù)引力,讓員工隊(duì)伍中更多的人能夠訪問(wèn)信息,而無(wú)需跨不同環(huán)境移動(dòng)數(shù)據(jù)。
在考慮可伸縮性的情況下試點(diǎn)人工智能倡議,包括具有強(qiáng)大治理的AI/ML數(shù)據(jù)管道,該管道還支持開(kāi)放和互聯(lián)的生態(tài)系統(tǒng)。
數(shù)據(jù)團(tuán)隊(duì)的一個(gè)關(guān)鍵是確定易于使用并支持多種用例的框架和平臺(tái)。Ensono的總經(jīng)理兼副總裁肖恩·馬奧尼說(shuō):“治理框架開(kāi)始看起來(lái)更加靈活,使團(tuán)隊(duì)能夠更快地響應(yīng)技術(shù)進(jìn)步的步伐”,他建議數(shù)據(jù)治理領(lǐng)導(dǎo)者也審查并參與到這些工具中來(lái):
數(shù)據(jù)網(wǎng)狀結(jié)構(gòu),用于將數(shù)據(jù)的管理委托給數(shù)據(jù)創(chuàng)建者。
矢量數(shù)據(jù)庫(kù),用于處理GenAI和LLMS固有的可伸縮性和復(fù)雜性。
實(shí)時(shí)監(jiān)控工具,可在更多系統(tǒng)中擴(kuò)展數(shù)據(jù)治理。
另一個(gè)需要考慮的問(wèn)題是,數(shù)據(jù)治理、管理和體系結(jié)構(gòu)如何要求了解有關(guān)數(shù)據(jù)存儲(chǔ)的全球法規(guī)。EDB的De Vries建議:“企業(yè)應(yīng)實(shí)施全球分布式數(shù)據(jù)庫(kù),以提升其數(shù)據(jù)治理實(shí)踐,方法是將高度監(jiān)管的數(shù)據(jù)保留在其區(qū)域內(nèi),同時(shí)在全球分發(fā)限制性較低的數(shù)據(jù),以便在輸入人工智能平臺(tái)時(shí)實(shí)現(xiàn)靈活性。”
將數(shù)據(jù)治理擴(kuò)展到GenAI工作流
數(shù)據(jù)治理功能還必須考慮如何使用GenAI工具和LLM需要策略和最佳實(shí)踐,例如,在本文的開(kāi)頭,我明確引用了ChatGPT,以便讀者知道響應(yīng)來(lái)自GenAI來(lái)源。良好的數(shù)據(jù)治理要求對(duì)員工進(jìn)行教育,使其了解提高透明度的程序、允許他們使用的工具以及將數(shù)據(jù)隱私問(wèn)題降至最低的做法。
“我看到的最大的事情是,在保持隱私和真實(shí)性的同時(shí),準(zhǔn)確地利用、共享和學(xué)習(xí)數(shù)據(jù)的方法正在興起”,PreThink的首席執(zhí)行官迪恩·尼古拉斯說(shuō),“例如,像Perplexity這樣基于LLM的搜索引擎總是引用它們的來(lái)源,或者像Private AI這樣的數(shù)據(jù)編校技術(shù),它允許你在攝取數(shù)據(jù)或?qū)?shù)據(jù)發(fā)送到LLMS之前對(duì)PIL進(jìn)行清理和編校。”
數(shù)據(jù)治理領(lǐng)導(dǎo)者應(yīng)該考慮的一個(gè)新的主動(dòng)措施是創(chuàng)建提示庫(kù),員工可以在其中記錄他們的即時(shí)用例,并在企業(yè)中共享它們,該規(guī)程擴(kuò)展了許多數(shù)據(jù)治理團(tuán)隊(duì)已經(jīng)在維護(hù)數(shù)據(jù)目錄和數(shù)據(jù)字典方面所做的知識(shí)管理實(shí)踐。
RelationalAI的Research ML副總裁Nikolaos Vasiloglou說(shuō):“LLMS的基礎(chǔ)包括通常存儲(chǔ)在知識(shí)圖譜中的干凈和精心策劃的內(nèi)容以及通常以提示庫(kù)的形式存儲(chǔ)的專(zhuān)家知識(shí),雖然我們對(duì)知識(shí)圖譜有良好的治理實(shí)踐,但如何治理后者并不明顯。”
我喜歡《蜘蛛俠》電影中流行的一句話:“力量越大,責(zé)任越大”,我們正在看到GenAI能力的快速演變,問(wèn)題是數(shù)據(jù)治理團(tuán)隊(duì)是否會(huì)站在他們那一邊。