AI語(yǔ)音生成器是下一大安全威脅嗎？

沃卡惠
行業(yè)資訊
2023-04-17 09:23:20
585

人工智能是一項(xiàng)功能強(qiáng)大的技術(shù)，有望徹底改變我們生活。這一點(diǎn)從來(lái)沒(méi)有像今天這樣昭然若揭；只要能連接互聯(lián)網(wǎng)，誰(shuí)都可以享用功能強(qiáng)大的工具。

這些工具包括人工智能語(yǔ)音生成器，這種先進(jìn)的軟件能夠惟妙惟肖地模仿人類語(yǔ)音，以至于無(wú)法區(qū)分和辨別兩者。這對(duì)網(wǎng)絡(luò)安全又意味著什么呢？

人工智能語(yǔ)音生成器是如何工作的？

語(yǔ)音合成指人工生成人類語(yǔ)音的過(guò)程，它已存在了幾十年。就像所有技術(shù)一樣，多年來(lái)它已經(jīng)歷了重大而深刻的變化。

用過(guò)Windows 2000和XP的用戶可能還記得微軟Sam，這是微軟操作系統(tǒng)默認(rèn)的文本轉(zhuǎn)換成語(yǔ)音男聲。微軟Sam的表現(xiàn)可謂中規(guī)中矩，但它發(fā)出的聲音很機(jī)械、很僵硬、很造作。我們現(xiàn)在手頭擁有的工具要先進(jìn)得多，這在很大程度上歸功于深度學(xué)習(xí)。

深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。由于這些神經(jīng)網(wǎng)絡(luò)，現(xiàn)代人工智能處理數(shù)據(jù)的能力幾乎如同人類大腦中的神經(jīng)元解釋信息一樣強(qiáng)大。也就是說(shuō)，人工智能變得越像人類，模仿人類行為的本領(lǐng)就越高超。

簡(jiǎn)而言之，這就是現(xiàn)代人工智能語(yǔ)音生成器的工作方式。它們接觸的語(yǔ)音數(shù)據(jù)越多，就越擅長(zhǎng)模仿人類語(yǔ)音。由于這項(xiàng)技術(shù)最新取得的進(jìn)展，最先進(jìn)的文本轉(zhuǎn)換成語(yǔ)音軟件基本上可以復(fù)制饋送給它的聲音。

威脅分子如何使用人工智能語(yǔ)音生成器？

不出所料，這種技術(shù)正被威脅分子濫用。不僅是典型意義上的網(wǎng)絡(luò)犯罪分子，還有虛假信息代理人、騙子、黑帽營(yíng)銷人員和網(wǎng)絡(luò)噴子。

就在ElevenLabs于2023年1月發(fā)布其文本轉(zhuǎn)換成語(yǔ)音軟件的測(cè)試版的那一刻，留言板4chan上的極右翼網(wǎng)絡(luò)噴子就開始濫用它。他們使用這種先進(jìn)的人工智能技術(shù)，復(fù)制了BBC電視臺(tái)主持人David Attenborough和知名演員Emma Watson等名人的聲音，讓人感覺(jué)這些名人好像在發(fā)表惡毒、仇恨的長(zhǎng)篇大論。

正如IT外媒Vice當(dāng)時(shí)所報(bào)道，ElevenLabs承認(rèn)有人在濫用其軟件，尤其是在濫用語(yǔ)音克隆功能。這項(xiàng)功能讓任何人都可以“克隆”另一個(gè)人的聲音；你只需要上傳一分鐘時(shí)長(zhǎng)的錄音，然后讓人工智能做剩余的事情。據(jù)推測(cè)，錄音時(shí)間越長(zhǎng)，輸出結(jié)果就越逼真。

2023年3月，一段在TikTok上瘋傳的視頻引起了《紐約時(shí)報(bào)》雜志的注意。在這段視頻中，著名的播客主持人Joe Rogan和經(jīng)?，F(xiàn)身其The Joe Rogan Experience節(jié)目的Andrew Huberman博士討論了一種“增強(qiáng)性欲”的咖啡因飲料。這段視頻讓人覺(jué)得Rogan和Huberman都明確力挺這款產(chǎn)品。而實(shí)際上，他們倆的聲音是用人工智能克隆出來(lái)的。

大約在同一時(shí)間，總部位于加利福尼亞州圣克拉拉的硅谷銀行因風(fēng)險(xiǎn)管理錯(cuò)誤及其他問(wèn)題而倒閉，并被州政府接管。這是自2008年金融危機(jī)以來(lái)美國(guó)最嚴(yán)重的銀行倒閉事件，因此在全球市場(chǎng)引起了軒然大波。

讓人們更加恐慌的是美國(guó)拜登總統(tǒng)的一段假錄音。在錄音中，可以明顯聽(tīng)到拜登警告即將到來(lái)的“崩潰”，并指令美國(guó)政府“充分利用媒體的力量來(lái)安撫公眾”。像PolitiFact這樣追求事實(shí)真相的網(wǎng)站很快就揭穿了這段視頻，但至此可能已經(jīng)有數(shù)百萬(wàn)人聽(tīng)過(guò)了這段錄音。

如果人工智能語(yǔ)音生成器可以用來(lái)冒充名人，那么它們也可以用來(lái)冒充平民百姓，這正是網(wǎng)絡(luò)犯罪分子一直在從事的勾當(dāng)。據(jù)IT外媒ZDNet報(bào)道，每年都有成千上萬(wàn)的美國(guó)人上語(yǔ)音釣魚（vishing）騙局的當(dāng)。2023年，一對(duì)年邁的夫婦因接到“孫子”打來(lái)的電話而登上了全國(guó)報(bào)章頭條，“孫子”聲稱關(guān)在監(jiān)獄里，向他們要錢。

如果你曾經(jīng)上傳過(guò)YouTube視頻（或在YouTube視頻中出現(xiàn)過(guò)）、與一群不認(rèn)識(shí)的人一起參加過(guò)大型群體電話會(huì)議，或者以某種方式將自己的聲音上傳到互聯(lián)網(wǎng)上，理論上來(lái)說(shuō)你或親朋好友可能處于危險(xiǎn)之中。怎樣才能阻止騙子把你的聲音上傳到人工智能生成器、克隆聲音、然后冒充你聯(lián)系你的家人？

人工智能音生成器在顛覆網(wǎng)絡(luò)安全格局

不是說(shuō)非得是網(wǎng)絡(luò)安全專家才能意識(shí)到人工智能落入壞人之手有多危險(xiǎn)。雖然所有技術(shù)都是如此，但人工智能是一種獨(dú)特的威脅，這有幾個(gè)原因。

首先，它是一項(xiàng)比較新的技術(shù)，這意味著我們其實(shí)不知道它能為我們帶來(lái)什么。現(xiàn)代人工智能工具讓網(wǎng)絡(luò)犯罪分子能夠以前所未有的方式擴(kuò)大活動(dòng)規(guī)模，并實(shí)現(xiàn)自動(dòng)化操作，同時(shí)充分利用公眾對(duì)這一問(wèn)題相對(duì)無(wú)知來(lái)大做文章。此外，生成式人工智能使缺乏知識(shí)和技能的威脅分子也能夠創(chuàng)建惡意代碼、構(gòu)建欺騙網(wǎng)站、傳播垃圾郵件、撰寫釣魚郵件、生成逼真的圖像，并生成長(zhǎng)篇的虛假音頻和視頻內(nèi)容。

至關(guān)重要的是，我們反過(guò)來(lái)也可以利用人工智能：人工智能也被用于保護(hù)系統(tǒng)，而且可能在未來(lái)幾十年都是如此?？梢粤舷耄W(wǎng)絡(luò)犯罪分子和網(wǎng)絡(luò)安全行業(yè)之間會(huì)上演某種人工智能軍備競(jìng)賽，因?yàn)檫@些工具的防御和進(jìn)攻能力本質(zhì)上不相上下。

對(duì)于普通人來(lái)說(shuō)，生成式人工智能的遍地開花需要徹底重新思考安全實(shí)踐。盡管人工智能可能令人興奮、很實(shí)用，但它至少可以以假亂真，最壞的情況是加劇現(xiàn)有的安全問(wèn)題，并為威脅分子提供新的舞臺(tái)。

語(yǔ)音生成器展示了人工智能的破壞性潛力

ChatGPT一經(jīng)上市，有關(guān)監(jiān)管人工智能的討論就開始升溫。任何試圖遏制這種技術(shù)的做法都可能需要國(guó)際合作，需要我們?cè)谶^(guò)去幾十年來(lái)從未見(jiàn)過(guò)的合作程度，因此不太可能遏制人工智能。

精靈已從瓶子里跑出來(lái)，我們能做的也就是習(xí)慣它適應(yīng)它，但愿網(wǎng)絡(luò)安全行業(yè)能做出相應(yīng)的調(diào)整。

上一篇：人類不應(yīng)懼怕被人工智能自動(dòng)化取代的原因

下一篇：人工智能在網(wǎng)絡(luò)安全測(cè)試中的未來(lái)：釋放潛力