生成式人工智能(GenAI)技術(shù),尤其是像OpenAI的GPT-4這樣的大型語言模型,不斷引起渴望獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的企業(yè)的興趣。許多企業(yè)認(rèn)識(shí)到這些技術(shù)的潛力,以徹底改變其運(yùn)營(yíng)的各個(gè)方面。然而,盡管人們的興趣日益濃厚,但在企業(yè)內(nèi)部采用生成式人工智能方面存在明顯的猶豫。
數(shù)據(jù)隱私是企業(yè)最關(guān)心的問題之一。它不僅是一個(gè)問題,而且是開展業(yè)務(wù)的關(guān)鍵要素。
●91%的組織表示,他們需要采取更多措施來讓客戶放心他們的數(shù)據(jù)將如何被人工智能使用。
●98%的組織向董事會(huì)報(bào)告隱私指標(biāo)。
●94%的組織表示,如果數(shù)據(jù)沒有得到充分保護(hù),他們的客戶就不會(huì)從他們那里購(gòu)買產(chǎn)品。
GenAI將人工智能能力交到更多用戶的手中。92%的受訪者認(rèn)為,GenAI是一項(xiàng)完全不同的技術(shù),具有新的挑戰(zhàn)和問題,需要新的技術(shù)來管理數(shù)據(jù)和風(fēng)險(xiǎn)。
此外,我們看到,全球范圍內(nèi),因違背客戶信任而對(duì)企業(yè)處以創(chuàng)紀(jì)錄的罰款的數(shù)量不斷增加。例如,
●2022年9月,Instagram因違反GDPR侵犯兒童隱私而被愛爾蘭數(shù)據(jù)保護(hù)專員(DPC)罰款4.03億美元。
●中國(guó)網(wǎng)約車企業(yè)滴滴全球出行有限公司(滴滴)因違反網(wǎng)絡(luò)安全和數(shù)據(jù)相關(guān)法律被罰款80.26億元人民幣(約合11.8億美元)。
●2021年夏天,零售巨頭亞馬遜的財(cái)務(wù)記錄披露,盧森堡當(dāng)局因違反GDPR對(duì)其處以7.46億歐元(8.77億美元)的罰款。
數(shù)據(jù)隱私的風(fēng)險(xiǎn)從未如此高。
影子人工智能的崛起
隨著人工智能繼續(xù)無情地向企業(yè)邁進(jìn),一種潛在的威脅潛伏在黑暗中,可能會(huì)破壞其廣泛應(yīng)用:影子人工智能。
影子人工智能與未經(jīng)授權(quán)使用軟件的“影子IT”現(xiàn)象非常相似,指的是在沒有組織監(jiān)督的情況下部署或使用人工智能系統(tǒng)。但它給企業(yè)帶來的風(fēng)險(xiǎn)要大得多。
無論是出于方便還是無知,對(duì)人工智能開發(fā)進(jìn)行妥善管理都可能制造定時(shí)炸彈。隨著人工智能通過云服務(wù)變得更容易訪問,同時(shí)又保持不透明,松懈控制留下的后門很容易被濫用。
渴望獲得優(yōu)勢(shì)的員工可以輕松地將企業(yè)數(shù)據(jù)粘貼到ChatGPT或GoogleBard中,目的很好,例如更快、更高效地完成工作。在沒有安全解決方案的情況下,員工將轉(zhuǎn)向可訪問的解決方案。
去年春天,三星員工三次意外與ChatGPT共享機(jī)密信息。泄露的信息包括軟件代碼和會(huì)議記錄,這導(dǎo)致該公司禁止員工使用GenAI服務(wù)。
此外,由于GenAIAPI易于訪問,軟件開發(fā)人員可以輕松地將GenAI集成到他們的項(xiàng)目中,這可以添加令人興奮的新功能,但往往以犧牲最佳安全實(shí)踐為代價(jià)。
影子人工智能的風(fēng)險(xiǎn)
隨著利用GenAI的壓力越來越大,多種威脅也日益增多。
數(shù)據(jù)泄露
GenAI工具的激增是一把雙刃劍。一方面,這些工具在提高生產(chǎn)力和促進(jìn)創(chuàng)新方面提供了卓越的能力。另一方面,它們也帶來了與數(shù)據(jù)泄露相關(guān)的重大風(fēng)險(xiǎn),尤其是在缺乏強(qiáng)大的AI可接受使用政策(AUP)和執(zhí)行機(jī)制的情況下。GenAI工具的易用性導(dǎo)致了一種令人擔(dān)憂的趨勢(shì):?jiǎn)T工在熱情或追求效率的驅(qū)使下,可能會(huì)無意中將敏感的企業(yè)數(shù)據(jù)泄露給第三方服務(wù)。
不僅僅是普通知識(shí)工作者在使用聊天機(jī)器人。去年,微軟員工也犯了一個(gè)錯(cuò)誤,在將38TB的LLM培訓(xùn)數(shù)據(jù)上傳到開發(fā)者平臺(tái)GitHub時(shí)意外泄露了這些數(shù)據(jù)。這其中包括微軟員工的個(gè)人電腦備份。備份包含敏感的個(gè)人數(shù)據(jù),包括微軟服務(wù)的密碼、密鑰以及359名微軟員工的3萬多條微軟團(tuán)隊(duì)內(nèi)部信息。
違反合規(guī)性
未經(jīng)合規(guī)性審查的影子人工智能工具可能會(huì)違反GDPR等法規(guī),從而導(dǎo)致法律后果和罰款。除此之外,企業(yè)需要關(guān)注的跨多個(gè)司法管轄區(qū)的法律越來越多。
即將通過的歐盟《人工智能法案》則讓情況更加復(fù)雜。不遵守規(guī)定可能會(huì)導(dǎo)致罰款,罰款金額從3500萬歐元或全球營(yíng)業(yè)額的7%到750萬歐元或營(yíng)業(yè)額的1.5%不等,具體取決于違法行為和企業(yè)規(guī)模。
1月29日,意大利數(shù)據(jù)保護(hù)局(DPA,即GaranteperlaProtezionedeiDatiPersonali)通知OpenAI違反了數(shù)據(jù)保護(hù)法。去年3月,Garante曾暫時(shí)禁止OpenAI處理數(shù)據(jù)。根據(jù)事實(shí)調(diào)查活動(dòng)的結(jié)果,意大利DPA得出結(jié)論,現(xiàn)有證據(jù)表明OpenAI違反了歐盟GDPR的規(guī)定。
揭秘影子人工智能
組織需要一種保護(hù)隱私的AI解決方案,以彌合保護(hù)隱私和充分發(fā)揮LLM潛力之間的差距。
盡管人工智能技術(shù)取得了重大進(jìn)展,但只有一些基于人工智能的應(yīng)用被組織成功實(shí)施,以安全地處理機(jī)密和敏感數(shù)據(jù)。為了在整個(gè)生成式人工智能生命周期中保護(hù)隱私,必須實(shí)施嚴(yán)格的數(shù)據(jù)安全技術(shù),以安全高效地執(zhí)行涉及模型的所有安全關(guān)鍵操作以及用于訓(xùn)練和推理的所有機(jī)密數(shù)據(jù)。
數(shù)據(jù)清理和匿名化通常被提議作為增強(qiáng)數(shù)據(jù)隱私的方法。然而,這些方法可能沒有預(yù)期的那么有效。數(shù)據(jù)清理,即從數(shù)據(jù)集中刪除敏感信息的過程,可能會(huì)因GenAI的本質(zhì)而受到破壞。
匿名化,即從數(shù)據(jù)集中剝離個(gè)人身份信息的過程,在GenAI的背景下也存在不足。先進(jìn)的人工智能算法已經(jīng)證明了在匿名數(shù)據(jù)集中重新識(shí)別個(gè)人的能力。例如,倫敦帝國(guó)理工學(xué)院的研究表明,機(jī)器學(xué)習(xí)模型可以以驚人的準(zhǔn)確度在匿名數(shù)據(jù)集中重新識(shí)別個(gè)人。研究發(fā)現(xiàn),僅使用年齡、性別和婚姻狀況等15個(gè)特征,就可以在任何給定的匿名數(shù)據(jù)集中重新識(shí)別99.98%的美國(guó)人。
此外,《麻省理工技術(shù)評(píng)論》報(bào)道的一項(xiàng)研究強(qiáng)調(diào),即使數(shù)據(jù)集不完整或被更改,也可以輕松地從匿名數(shù)據(jù)庫中重新識(shí)別個(gè)人。在此背景下使用機(jī)器學(xué)習(xí)模型表明,當(dāng)前的匿名化實(shí)踐不足以應(yīng)對(duì)現(xiàn)代人工智能技術(shù)的能力。
這些發(fā)現(xiàn)表明,政策制定者和技術(shù)專家需要開發(fā)更強(qiáng)大的隱私保護(hù)技術(shù),以跟上人工智能的進(jìn)步,因?yàn)閿?shù)據(jù)清理和匿名化等傳統(tǒng)方法,已不足以確保GenAI時(shí)代的數(shù)據(jù)隱私。
GenAI中更好的數(shù)據(jù)隱私解決方案
隱私增強(qiáng)技術(shù)(PET)被認(rèn)為是GenAI領(lǐng)域保護(hù)數(shù)據(jù)隱私的最佳解決方案。通過保護(hù)數(shù)據(jù)處理并維護(hù)系統(tǒng)功能,PET解決了數(shù)據(jù)共享、泄露和隱私監(jiān)管問題。
值得注意的PET包括:
同態(tài)加密:允許對(duì)加密數(shù)據(jù)進(jìn)行計(jì)算,輸出結(jié)果就像對(duì)純文本進(jìn)行處理一樣。限制包括速度較慢和查詢復(fù)雜度降低。數(shù)據(jù)完整性風(fēng)險(xiǎn)仍然存在。
安全多方計(jì)算(MPC):方便多方處理加密數(shù)據(jù)集,保護(hù)數(shù)據(jù)隱私。缺點(diǎn)包括性能下降,尤其是在LLM訓(xùn)練和推理方面。
差分隱私:在數(shù)據(jù)中添加噪聲以防止用戶重新識(shí)別,平衡隱私和數(shù)據(jù)分析準(zhǔn)確性。但是,它可能會(huì)影響分析準(zhǔn)確性,并且在計(jì)算過程中不保護(hù)數(shù)據(jù),因此需要與其他PET結(jié)合使用。
雖然上述每種技術(shù)都提供了保護(hù)敏感數(shù)據(jù)的方法,但沒有一種可以確保生成式AI模型所需的計(jì)算能力能夠充分發(fā)揮作用。然而,一種稱為機(jī)密計(jì)算的新方法使用基于硬件的可信執(zhí)行環(huán)境(TEE),可防止在使用過程中未經(jīng)授權(quán)訪問或修改應(yīng)用程序和數(shù)據(jù)。
這可以防止未經(jīng)授權(quán)的實(shí)體(例如主機(jī)操作系統(tǒng)、虛擬機(jī)管理程序、系統(tǒng)管理員、服務(wù)提供商、基礎(chǔ)設(shè)施所有者或任何可以物理訪問硬件的人)查看或更改環(huán)境中的數(shù)據(jù)或代碼。這種基于硬件的技術(shù)提供了一個(gè)安全的環(huán)境,以確保敏感數(shù)據(jù)的安全。
機(jī)密計(jì)算作為隱私保護(hù)的AI解決方案
機(jī)密計(jì)算是技術(shù)行業(yè)的一個(gè)新興標(biāo)準(zhǔn),重點(diǎn)是保護(hù)使用過程中的數(shù)據(jù)。這一概念將數(shù)據(jù)保護(hù)從靜態(tài)和傳輸中的數(shù)據(jù)擴(kuò)展到使用中的數(shù)據(jù),這在當(dāng)今橫跨多個(gè)平臺(tái)(從本地到云和邊緣計(jì)算)的計(jì)算環(huán)境中尤為重要。
這項(xiàng)技術(shù)對(duì)于處理敏感數(shù)據(jù)(例如個(gè)人身份信息(PII)、財(cái)務(wù)數(shù)據(jù)或健康信息)的組織至關(guān)重要,因?yàn)獒槍?duì)系統(tǒng)內(nèi)存中數(shù)據(jù)的機(jī)密性和完整性的威脅是一個(gè)重大問題。
由于機(jī)密計(jì)算的復(fù)雜性,這種跨行業(yè)努力至關(guān)重要,它涉及重大的硬件更改以及程序、操作系統(tǒng)和虛擬機(jī)的結(jié)構(gòu)。CCC旗下的各種項(xiàng)目正在通過開發(fā)開源軟件和標(biāo)準(zhǔn)來推動(dòng)該領(lǐng)域的發(fā)展,這對(duì)于致力于保護(hù)使用中數(shù)據(jù)的開發(fā)人員來說至關(guān)重要。
機(jī)密計(jì)算可以在不同的環(huán)境中實(shí)施,包括公共云、本地?cái)?shù)據(jù)中心和分布式邊緣位置。這項(xiàng)技術(shù)對(duì)于數(shù)據(jù)隱私和安全、多方分析、法規(guī)遵從性、數(shù)據(jù)本地化、主權(quán)和駐留至關(guān)重要。它確保敏感數(shù)據(jù)即使在多租戶云環(huán)境中也能得到保護(hù)并符合當(dāng)?shù)胤伞?/p>
最終目標(biāo):機(jī)密人工智能
機(jī)密AI解決方案是一種安全平臺(tái),它使用基于硬件的可信執(zhí)行環(huán)境(TEE),來訓(xùn)練和運(yùn)行敏感數(shù)據(jù)的機(jī)器學(xué)習(xí)模型。TEE可以進(jìn)行訓(xùn)練、微調(diào)和推理,而不會(huì)將敏感數(shù)據(jù)或?qū)S心P捅┞督o未經(jīng)授權(quán)的各方。
數(shù)據(jù)所有者和用戶可以在其數(shù)據(jù)上使用本地學(xué)習(xí)模型(LLM),而不會(huì)向未經(jīng)授權(quán)的各方泄露機(jī)密信息。同樣,模型所有者可以在保護(hù)其訓(xùn)練數(shù)據(jù)和模型架構(gòu)和參數(shù)的同時(shí)訓(xùn)練他們的模型。如果發(fā)生數(shù)據(jù)泄露,黑客只能訪問加密數(shù)據(jù),而不能訪問TEE內(nèi)保護(hù)的敏感數(shù)據(jù)。
然而,僅靠機(jī)密計(jì)算無法防止模型意外泄露有關(guān)訓(xùn)練數(shù)據(jù)的詳細(xì)信息。機(jī)密計(jì)算技術(shù)可以與差分隱私相結(jié)合,以降低這種風(fēng)險(xiǎn)。這種方法涉及在TEE內(nèi)計(jì)算數(shù)據(jù)并在發(fā)布之前應(yīng)用差分隱私更新,從而降低推理過程中泄露的風(fēng)險(xiǎn)。
此外,機(jī)密的AI平臺(tái)可幫助LLM和數(shù)據(jù)提供商遵守隱私法律法規(guī)。通過使用高級(jí)加密和安全的TEE技術(shù)保護(hù)機(jī)密和專有數(shù)據(jù),模型構(gòu)建者和提供商無需擔(dān)心他們可以收集的用戶數(shù)據(jù)的數(shù)量和類型。
可信執(zhí)行環(huán)境等機(jī)密計(jì)算技術(shù),為保護(hù)AI系統(tǒng)中的隱私和知識(shí)產(chǎn)權(quán)奠定了基礎(chǔ)。機(jī)密AI解決方案與差異隱私和周到的數(shù)據(jù)治理政策等技術(shù)相結(jié)合,可讓更多組織從AI中受益,同時(shí)建立利益相關(guān)者的信任和透明度。
盡管仍有許多工作要做,但密碼學(xué)、安全硬件和隱私增強(qiáng)方法的進(jìn)步表明,未來人工智能可以合乎道德地部署。不過,我們必須繼續(xù)倡導(dǎo)負(fù)責(zé)任的創(chuàng)新,并推動(dòng)平臺(tái)賦予個(gè)人和組織控制其敏感數(shù)據(jù)使用方式的權(quán)力。