如果對手給你一個(gè)機(jī)器學(xué)習(xí)(ML)模型,并在其中暗中植入惡意后門,你發(fā)現(xiàn)幾率有多大?根據(jù)加州大學(xué)伯克利分校、麻省理工學(xué)院和高級研究所的研究人員的一篇新論文顯示,幾率很小。
隨著機(jī)器學(xué)習(xí)模型進(jìn)入越來越多的應(yīng)用程序,機(jī)器學(xué)習(xí)的安全性變得越來越重要。這項(xiàng)新研究的重點(diǎn)是將機(jī)器學(xué)習(xí)模型的培訓(xùn)和開發(fā)委托給第三方和服務(wù)提供商所帶來的安全威脅。
由于AI行業(yè)人才和資源的短缺,許多組織正在外包他們的機(jī)器學(xué)習(xí)工作,使用預(yù)先訓(xùn)練的模型或在線ML服務(wù)。這些模型和服務(wù)可能成為攻擊使用它們的應(yīng)用程序的來源。
新的研究論文提出了兩種在機(jī)器學(xué)習(xí)模型中植入無法檢測到的后門的技術(shù),這些后門可用于觸發(fā)惡意行為。
該論文闡明了在機(jī)器學(xué)習(xí)管道中建立信任所面臨的挑戰(zhàn)。
什么是機(jī)器學(xué)習(xí)后門?
機(jī)器學(xué)習(xí)模型經(jīng)過訓(xùn)練可以執(zhí)行特定任務(wù),例如識別人臉、分類圖像、檢測垃圾郵件或確定產(chǎn)品評論或社交媒體帖子的情緒。
機(jī)器學(xué)習(xí)后門是一種將秘??密行為植入經(jīng)過訓(xùn)練的ML模型的技術(shù)。該模型照常工作,直到后門被對手提供的特制輸入觸發(fā)。例如,攻擊者可以創(chuàng)建一個(gè)后門,繞過用于對用戶進(jìn)行身份驗(yàn)證的面部識別系統(tǒng)。
一種簡單而廣為人知的ML后門方法是數(shù)據(jù)中毒。在數(shù)據(jù)中毒中,攻擊者修改目標(biāo)模型的訓(xùn)練數(shù)據(jù)以在一個(gè)或多個(gè)輸出類中包含觸發(fā)偽影。然后,模型對后門模式變得敏感,并在看到它時(shí)觸發(fā)預(yù)期的行為(例如,目標(biāo)輸出類)。
在上述示例中,攻擊者在深度學(xué)習(xí)模型的訓(xùn)練示例中插入了一個(gè)白框作為對抗性觸發(fā)器。圖片:OpenReview
還有其他更先進(jìn)的技術(shù),例如無觸發(fā)ML后門和PACD。機(jī)器學(xué)習(xí)后門與對抗性攻擊密切相關(guān),輸入數(shù)據(jù)受到擾動導(dǎo)致ML模型對其進(jìn)行錯(cuò)誤分類。而在對抗性攻擊中,攻擊者試圖在經(jīng)過訓(xùn)練的模型中找到漏洞,而在ML后門中,攻擊者會影響訓(xùn)練過程并有意在模型中植入對抗性漏洞。
無法檢測到的ML后門
大多數(shù)ML后門技術(shù)都會在模型的主要任務(wù)上進(jìn)行性能權(quán)衡。如果模型在主要任務(wù)上的性能下降太多,受害者要么會變得懷疑,要么會因?yàn)樗环纤璧男阅芏艞壥褂盟?/p>
在他們的論文中,研究人員將無法檢測到的后門定義為與正常訓(xùn)練的模型“在計(jì)算上無法區(qū)分”。這意味著在任何隨機(jī)輸入上,惡性和良性ML模型必須具有相同的性能。一方面,后門不應(yīng)該被意外觸發(fā),只有知道后門秘密的惡意行為者才能激活它。另一方面,利用后門秘密,惡意行為者可以將任何給定輸入變成惡意輸入。它可以通過對輸入進(jìn)行最小的更改來做到這一點(diǎn),甚至比創(chuàng)建對抗性示例所需的更改更少。
“我們的想法是……研究并非偶然出現(xiàn)的問題,而是出于惡意。我們表明,此類問題不太可能避免,”IAS博士后學(xué)者、該論文的合著者Or Zamir告訴TechTalks。
研究人員還探索了如何將關(guān)于密碼學(xué)后門的大量可用知識應(yīng)用于機(jī)器學(xué)習(xí)。他們的努力產(chǎn)生了兩種新的不可檢測的機(jī)器學(xué)習(xí)后門技術(shù)。
使用加密密鑰創(chuàng)建ML后門
新的機(jī)器學(xué)習(xí)后門技術(shù)借鑒了非對稱密碼學(xué)和數(shù)字簽名的概念。非對稱密碼學(xué)使用相應(yīng)的密鑰對來加密和解密信息。每個(gè)用戶都有自己保留的私鑰和可以發(fā)布以供其他人訪問的公鑰。用公鑰加密的信息塊只能用私鑰解密。這是用于安全發(fā)送消息的機(jī)制,例如在PGP加密的電子郵件或端到端加密消息傳遞平臺中。
數(shù)字簽名使用反向機(jī)制,用于證明消息發(fā)送者的身份。為了證明您是消息的發(fā)送者,您可以使用您的私鑰對其進(jìn)行散列和加密,并將結(jié)果與??消息一起作為您的數(shù)字簽名發(fā)送。只有與您的私鑰對應(yīng)的公鑰才能解密消息。因此,接收者可以使用您的公鑰來解密簽名并驗(yàn)證其內(nèi)容。如果哈希與消息的內(nèi)容相匹配,那么它是真實(shí)的并且沒有被篡改。數(shù)字簽名的優(yōu)點(diǎn)是它們不能被逆向工程(至少不能用今天的計(jì)算機(jī)),并且對簽名數(shù)據(jù)的最小更改會使簽名無效。
Zamir和他的同事將相同的原則應(yīng)用于他們的機(jī)器學(xué)習(xí)后門。以下是本文描述基于加密密鑰的ML后門的方式:“給定任何分類器,我們將其輸入解釋為候選消息簽名對。我們將使用與原始分類器并行運(yùn)行的簽名方案的公鑰驗(yàn)證過程來擴(kuò)充分類器。這種驗(yàn)證機(jī)制由通過驗(yàn)證的有效消息簽名對觸發(fā),一旦該機(jī)制被觸發(fā),它就會接管分類器并將輸出更改為它想要的任何內(nèi)容。”
基本上,這意味著當(dāng)后門ML模型收到輸入時(shí),它會尋找只能使用攻擊者持有的私鑰創(chuàng)建的數(shù)字簽名。如果輸入被簽名,則觸發(fā)后門。如果沒有,正常行為將繼續(xù)。這確保后門不會被意外觸發(fā),并且不會被其他參與者逆向工程。
隱藏后門使用側(cè)神經(jīng)網(wǎng)絡(luò)來驗(yàn)證輸入的數(shù)字簽名
基于簽名的ML后門是“不可檢測的黑盒”。這意味著,如果您只能訪問輸入和輸出,您將無法區(qū)分安全和后門ML模型之間的區(qū)別。但是,如果機(jī)器學(xué)習(xí)工程師仔細(xì)查看模型的架構(gòu),他們將能夠判斷它已被篡改以包含數(shù)字簽名機(jī)制。
在他們的論文中,研究人員還提出了一種白盒檢測不到的后門技術(shù)。研究人員寫道:“即使給出了返回分類器的權(quán)重和架構(gòu)的完整描述,也沒有有效的區(qū)分器可以確定模型是否有后門。”
白盒后門尤其危險(xiǎn),因?yàn)樗鼈円策m用于在線存儲庫上發(fā)布的開源預(yù)訓(xùn)練ML模型。
“我們所有的后門結(jié)構(gòu)都非常有效,”扎米爾說。“我們強(qiáng)烈懷疑,對于許多其他機(jī)器學(xué)習(xí)范式,類似的有效結(jié)構(gòu)也應(yīng)該是可能的。”
研究人員通過使它們對機(jī)器學(xué)習(xí)模型的修改具有魯棒性,使無法檢測到的后門更進(jìn)一步。在許多情況下,用戶會得到一個(gè)預(yù)先訓(xùn)練好的模型并對它們進(jìn)行一些細(xì)微的調(diào)整,例如根據(jù)額外的數(shù)據(jù)對其進(jìn)行微調(diào)。研究人員證明,后門良好的ML模型對此類變化具有魯棒性。
“這個(gè)結(jié)果與之前所有類似結(jié)果的主要區(qū)別在于,我們首次證明無法檢測到后門,”Zamir說。“這意味著這不僅僅是一種啟發(fā)式方法,而是一個(gè)數(shù)學(xué)上合理的問題。”
信任機(jī)器學(xué)習(xí)管道
這篇論文的發(fā)現(xiàn)尤其重要,因?yàn)橐蕾囶A(yù)先訓(xùn)練的模型和在線托管服務(wù)正在成為機(jī)器學(xué)習(xí)應(yīng)用程序中的常見做法。訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)需要許多組織不具備的專業(yè)知識和大量計(jì)算資源,這使得預(yù)訓(xùn)練模型成為一種有吸引力且易于使用的替代方案。使用預(yù)訓(xùn)練模型也得到推廣,因?yàn)樗鼫p少了訓(xùn)練大型機(jī)器學(xué)習(xí)模型的驚人碳足跡。
機(jī)器學(xué)習(xí)的安全實(shí)踐尚未趕上其在不同行業(yè)的廣泛使用。正如我之前所討論的,我們的工具和實(shí)踐還沒有為新的深度學(xué)習(xí)漏洞做好準(zhǔn)備。安全解決方案主要用于發(fā)現(xiàn)程序給計(jì)算機(jī)的指令或程序和用戶的行為模式中的缺陷。但機(jī)器學(xué)習(xí)漏洞通常隱藏在其數(shù)以百萬計(jì)的參數(shù)中,而不是運(yùn)行它們的源代碼中。這使得惡意行為者可以輕松地訓(xùn)練后門深度學(xué)習(xí)模型并將其發(fā)布到預(yù)訓(xùn)練模型的多個(gè)公共存儲庫之一,而不會觸發(fā)任何安全警報(bào)。
該領(lǐng)域的一項(xiàng)值得注意的工作是對抗性ML威脅矩陣,這是一個(gè)用于保護(hù)機(jī)器學(xué)習(xí)管道的框架。Adversarial ML Threat Matrix將用于攻擊數(shù)字基礎(chǔ)設(shè)施的已知和記錄在案的策略和技術(shù)與機(jī)器學(xué)習(xí)系統(tǒng)獨(dú)有的方法相結(jié)合。它可以幫助識別用于訓(xùn)練、測試和服務(wù)ML模型的整個(gè)基礎(chǔ)架構(gòu)、流程和工具中的弱點(diǎn)。
與此同時(shí),微軟和IBM等組織正在開發(fā)開源工具,以幫助解決機(jī)器學(xué)習(xí)中的安全性和穩(wěn)健性問題。
Zamir和他的同事的工作表明,隨著機(jī)器學(xué)習(xí)在我們的日常生活中變得越來越重要,我們還沒有發(fā)現(xiàn)和解決新的安全問題。“我們工作的主要收獲是,外包培訓(xùn)程序然后使用接收到的網(wǎng)絡(luò)的簡單范例永遠(yuǎn)不會安全,”扎米爾說。
本文最初由Ben Dickson在TechTalks上發(fā)表,該出版物探討了技術(shù)趨勢、它們?nèi)绾斡绊懳覀兊纳詈徒?jīng)商方式以及它們解決的問題。但我們也討論了技術(shù)的邪惡面、新技術(shù)的黑暗含義以及我們需要注意的事項(xiàng)。