不要指望人工智能模型的“紅隊”能夠快速修復

沃卡惠
行業(yè)資訊
2023-08-19 09:23:36
9

白宮官員擔心人工智能聊天機器人可能造成社會危害，硅谷巨頭紛紛將人工智能聊天機器人推向市場，他們投入了大量資金參加周日在拉斯維加斯舉行的 DefCon黑客大會上結(jié)束的為期三天的競賽。

大約 2,200 名參賽者利用筆記本電腦試圖揭露代表技術下一個重大事件的八種領先大型語言模型的缺陷。但不要指望這個首次獨立的多個模型“紅隊”會很快產(chǎn)生結(jié)果。

調(diào)查結(jié)果要到二月份左右才會公布。即便如此，修復這些數(shù)字結(jié)構(gòu)中的缺陷——其內(nèi)部運作方式既不完全值得信賴，甚至連它們的創(chuàng)造者也無法完全理解——將需要時間和數(shù)百萬美元。

學術和企業(yè)研究表明，當前的人工智能模型過于笨重、脆弱且可塑性強。當數(shù)據(jù)科學家積累了極其復雜的圖像和文本集合時，安全性是他們訓練中的事后才想到的。他們?nèi)菀资艿椒N族和文化偏見的影響，并且很容易被操縱。

網(wǎng)絡安全資深人士、貝里維爾研究所聯(lián)合創(chuàng)始人加里·麥格勞 (Gary McGraw) 表示：“很容易假裝我們可以在這些系統(tǒng)建成后在它們上灑一些神奇的安全灰塵，修補它們以使其提交，或者在側(cè)面安裝特殊的安全設備。”機器學習。哈佛大學公共利益技術專家布魯斯·施奈爾 (Bruce Schneier) 表示，DefCon 的競爭對手“更有可能發(fā)現(xiàn)新的難題”。“這就是 30 年前的計算機安全。我們只是左右破壞東西。”

提供人工智能測試模型之一的 Anthropic 的邁克爾·塞利托 (Michael Sellitto) 在新聞發(fā)布會上承認，了解其能力和安全問題“是科學探究的一個開放領域”。

傳統(tǒng)軟件使用定義良好的代碼來發(fā)出明確的分步指令。OpenAI的ChatGPT、Google的Bard等語言模型是不同的。它們主要是通過在互聯(lián)網(wǎng)爬行中攝取和分類數(shù)十億個數(shù)據(jù)點來進行訓練的，它們是永久性的正在進行的工作，考慮到它們對人類的變革潛力，這是一個令人不安的前景。

去年秋天公開發(fā)布聊天機器人后，生成人工智能行業(yè)不得不反復堵塞研究人員和修補者暴露的安全漏洞。

人工智能安全公司HiddenLayer的湯姆·邦納(Tom Bonner)是今年 DefCon 的發(fā)言人，他僅通過插入一行“可以安全使用”的文字，就欺騙了谷歌系統(tǒng)，將惡意軟件標記為無害。

“沒有好的護欄”他說。

另一位研究人員讓 ChatGPT 創(chuàng)建網(wǎng)絡釣魚電子郵件和暴力消滅人類的方法，這違反了其道德準則。

包括卡內(nèi)基梅隆大學研究人員在內(nèi)的一個團隊發(fā)現(xiàn)，領先的聊天機器人容易受到自動攻擊，這些攻擊也會產(chǎn)生有害內(nèi)容。他們寫道：“深度學習模型的本質(zhì)可能使此類威脅不可避免。”

這并不是說警報沒有拉響。

美國國家人工智能安全委員會在其 2021 年最終報告中表示，針對商業(yè)人工智能系統(tǒng)的攻擊已經(jīng)發(fā)生，“除了極少數(shù)例外，保護人工智能系統(tǒng)的想法在工程和部署人工智能系統(tǒng)時一直是事后才想到的，因為對人工智能系統(tǒng)的投資不足”研究與開發(fā)。”

幾年前還經(jīng)常報道的嚴重黑客攻擊現(xiàn)在幾乎沒有被披露。風險太大，而且在缺乏監(jiān)管的情況下，“人們現(xiàn)在可以把事情隱藏起來，而且他們正在這樣做，”邦納說。

攻擊以連其創(chuàng)建者都不清楚的方式欺騙人工智能邏輯。聊天機器人特別容易受到攻擊，因為我們直接用簡單的語言與它們交互。這種互動可以以意想不到的方式改變他們。

研究人員發(fā)現(xiàn)，在用于訓練人工智能系統(tǒng)的海量數(shù)據(jù)中“毒害”一小部分圖像或文本可能會造成嚴重破壞，而且很容易被忽視。

瑞士蘇黎世聯(lián)邦理工學院的 Florian Tramér 與人合著的一項研究表明，僅損壞模型的 0.01% 就足以破壞它，而且成本只需 60 美元。研究人員等待一些用于網(wǎng)絡爬行的網(wǎng)站，直到兩個模型到期。然后他們購買了這些域名并在其上發(fā)布了不良數(shù)據(jù)。

海魯姆·安德森 (Hyrum Anderson) 和拉姆·尚卡·西瓦·庫馬爾 (Ram Shankar Siva Kumar) 在微軟同事期間負責人工智能的紅隊工作，他們在新書《不是有錯誤，而是有貼紙》中稱基于文本和圖像的模型的人工智能安全狀況“可憐”。他們在現(xiàn)場演示中引用了一個例子：人工智能驅(qū)動的數(shù)字助理 Alexa 被欺騙，將貝多芬協(xié)奏曲片段解釋為訂購 100 個冷凍披薩的命令。

作者對80多個組織進行了調(diào)查，發(fā)現(xiàn)絕大多數(shù)組織沒有針對數(shù)據(jù)中毒攻擊或數(shù)據(jù)集盜竊的響應計劃。他們寫道，該行業(yè)的大部分人“甚至不知道這件事發(fā)生了”。

谷歌前高管兼卡內(nèi)基梅隆大學院長安德魯·摩爾 (Andrew W. Moore) 表示，他十多年前就處理過針對谷歌搜索軟件的攻擊事件。2017 年底至 2018 年初期間，垃圾郵件發(fā)送者四次利用 Gmail 的人工智能檢測服務。

大型人工智能公司表示，安全和保障是重中之重，并于上個月向白宮自愿承諾將他們的模型(主要是內(nèi)容被嚴密保存的“黑匣子”)提交給外部審查。

但人們擔心這些公司做得還不夠。

Tramér 預計搜索引擎和社交媒體平臺將通過利用人工智能系統(tǒng)的弱點來獲取經(jīng)濟利益和虛假信息。例如，精明的求職者可能會想出如何讓系統(tǒng)相信他們是唯一正確的候選人。

劍橋大學計算機科學家羅斯·安德森 (Ross Anderson) 擔心人工智能機器人會侵蝕隱私，因為人們讓人工智能機器人與醫(yī)院、銀行和雇主互動，而惡意行為者則利用它們從所謂的封閉系統(tǒng)中竊取財務、就業(yè)或健康數(shù)據(jù)。

研究表明，人工智能語言模型還可能通過垃圾數(shù)據(jù)重新訓練來污染自己。

另一個擔憂是公司機密被人工智能系統(tǒng)獲取和吐出。在一家韓國商業(yè)新聞媒體報道了三星的此類事件后，Verizon 和摩根大通等公司禁止大多數(shù)員工在工作中使用 ChatGPT。

雖然主要的人工智能廠商都有安全人員，但許多較小的競爭對手可能不會，這意味著安全性較差的插件和數(shù)字代理可能會成倍增加。預計初創(chuàng)公司將在未來幾個月內(nèi)推出數(shù)百種基于許可的預訓練模型的產(chǎn)品。

研究人員表示，如果有人偷走了你的通訊錄，請不要感到驚訝。

上一篇：AI如何重塑對IT技能和人才的需求

下一篇：工業(yè)物聯(lián)網(wǎng)和工業(yè)互聯(lián)網(wǎng)，別再分不清！