人工智能是一項(xiàng)功能強(qiáng)大的技術(shù),有望徹底改變我們生活。這一點(diǎn)從來(lái)沒(méi)有像今天這樣昭然若揭;只要能連接互聯(lián)網(wǎng),誰(shuí)都可以享用功能強(qiáng)大的工具。
這些工具包括人工智能語(yǔ)音生成器,這種先進(jìn)的軟件能夠惟妙惟肖地模仿人類語(yǔ)音,以至于無(wú)法區(qū)分和辨別兩者。這對(duì)網(wǎng)絡(luò)安全又意味著什么呢?
人工智能語(yǔ)音生成器是如何工作的?
語(yǔ)音合成指人工生成人類語(yǔ)音的過(guò)程,它已存在了幾十年。就像所有技術(shù)一樣,多年來(lái)它已經(jīng)歷了重大而深刻的變化。
用過(guò)Windows 2000和XP的用戶可能還記得微軟Sam,這是微軟操作系統(tǒng)默認(rèn)的文本轉(zhuǎn)換成語(yǔ)音男聲。微軟Sam的表現(xiàn)可謂中規(guī)中矩,但它發(fā)出的聲音很機(jī)械、很僵硬、很造作。我們現(xiàn)在手頭擁有的工具要先進(jìn)得多,這在很大程度上歸功于深度學(xué)習(xí)。
深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。由于這些神經(jīng)網(wǎng)絡(luò),現(xiàn)代人工智能處理數(shù)據(jù)的能力幾乎如同人類大腦中的神經(jīng)元解釋信息一樣強(qiáng)大。也就是說(shuō),人工智能變得越像人類,模仿人類行為的本領(lǐng)就越高超。
簡(jiǎn)而言之,這就是現(xiàn)代人工智能語(yǔ)音生成器的工作方式。它們接觸的語(yǔ)音數(shù)據(jù)越多,就越擅長(zhǎng)模仿人類語(yǔ)音。由于這項(xiàng)技術(shù)最新取得的進(jìn)展,最先進(jìn)的文本轉(zhuǎn)換成語(yǔ)音軟件基本上可以復(fù)制饋送給它的聲音。
威脅分子如何使用人工智能語(yǔ)音生成器?
不出所料,這種技術(shù)正被威脅分子濫用。不僅是典型意義上的網(wǎng)絡(luò)犯罪分子,還有虛假信息代理人、騙子、黑帽營(yíng)銷人員和網(wǎng)絡(luò)噴子。
就在ElevenLabs于2023年1月發(fā)布其文本轉(zhuǎn)換成語(yǔ)音軟件的測(cè)試版的那一刻,留言板4chan上的極右翼網(wǎng)絡(luò)噴子就開始濫用它。他們使用這種先進(jìn)的人工智能技術(shù),復(fù)制了BBC電視臺(tái)主持人David Attenborough和知名演員Emma Watson等名人的聲音,讓人感覺(jué)這些名人好像在發(fā)表惡毒、仇恨的長(zhǎng)篇大論。
正如IT外媒Vice當(dāng)時(shí)所報(bào)道,ElevenLabs承認(rèn)有人在濫用其軟件,尤其是在濫用語(yǔ)音克隆功能。這項(xiàng)功能讓任何人都可以“克隆”另一個(gè)人的聲音;你只需要上傳一分鐘時(shí)長(zhǎng)的錄音,然后讓人工智能做剩余的事情。據(jù)推測(cè),錄音時(shí)間越長(zhǎng),輸出結(jié)果就越逼真。
2023年3月,一段在TikTok上瘋傳的視頻引起了《紐約時(shí)報(bào)》雜志的注意。在這段視頻中,著名的播客主持人Joe Rogan和經(jīng)?,F(xiàn)身其The Joe Rogan Experience節(jié)目的Andrew Huberman博士討論了一種“增強(qiáng)性欲”的咖啡因飲料。這段視頻讓人覺(jué)得Rogan和Huberman都明確力挺這款產(chǎn)品。而實(shí)際上,他們倆的聲音是用人工智能克隆出來(lái)的。
大約在同一時(shí)間,總部位于加利福尼亞州圣克拉拉的硅谷銀行因風(fēng)險(xiǎn)管理錯(cuò)誤及其他問(wèn)題而倒閉,并被州政府接管。這是自2008年金融危機(jī)以來(lái)美國(guó)最嚴(yán)重的銀行倒閉事件,因此在全球市場(chǎng)引起了軒然大波。
讓人們更加恐慌的是美國(guó)拜登總統(tǒng)的一段假錄音。在錄音中,可以明顯聽(tīng)到拜登警告即將到來(lái)的“崩潰”,并指令美國(guó)政府“充分利用媒體的力量來(lái)安撫公眾”。像PolitiFact這樣追求事實(shí)真相的網(wǎng)站很快就揭穿了這段視頻,但至此可能已經(jīng)有數(shù)百萬(wàn)人聽(tīng)過(guò)了這段錄音。
如果人工智能語(yǔ)音生成器可以用來(lái)冒充名人,那么它們也可以用來(lái)冒充平民百姓,這正是網(wǎng)絡(luò)犯罪分子一直在從事的勾當(dāng)。據(jù)IT外媒ZDNet報(bào)道,每年都有成千上萬(wàn)的美國(guó)人上語(yǔ)音釣魚(vishing)騙局的當(dāng)。2023年,一對(duì)年邁的夫婦因接到“孫子”打來(lái)的電話而登上了全國(guó)報(bào)章頭條,“孫子”聲稱關(guān)在監(jiān)獄里,向他們要錢。
如果你曾經(jīng)上傳過(guò)YouTube視頻(或在YouTube視頻中出現(xiàn)過(guò))、與一群不認(rèn)識(shí)的人一起參加過(guò)大型群體電話會(huì)議,或者以某種方式將自己的聲音上傳到互聯(lián)網(wǎng)上,理論上來(lái)說(shuō)你或親朋好友可能處于危險(xiǎn)之中。怎樣才能阻止騙子把你的聲音上傳到人工智能生成器、克隆聲音、然后冒充你聯(lián)系你的家人?
人工智能音生成器在顛覆網(wǎng)絡(luò)安全格局
不是說(shuō)非得是網(wǎng)絡(luò)安全專家才能意識(shí)到人工智能落入壞人之手有多危險(xiǎn)。雖然所有技術(shù)都是如此,但人工智能是一種獨(dú)特的威脅,這有幾個(gè)原因。
首先,它是一項(xiàng)比較新的技術(shù),這意味著我們其實(shí)不知道它能為我們帶來(lái)什么。現(xiàn)代人工智能工具讓網(wǎng)絡(luò)犯罪分子能夠以前所未有的方式擴(kuò)大活動(dòng)規(guī)模,并實(shí)現(xiàn)自動(dòng)化操作,同時(shí)充分利用公眾對(duì)這一問(wèn)題相對(duì)無(wú)知來(lái)大做文章。此外,生成式人工智能使缺乏知識(shí)和技能的威脅分子也能夠創(chuàng)建惡意代碼、構(gòu)建欺騙網(wǎng)站、傳播垃圾郵件、撰寫釣魚郵件、生成逼真的圖像,并生成長(zhǎng)篇的虛假音頻和視頻內(nèi)容。
至關(guān)重要的是,我們反過(guò)來(lái)也可以利用人工智能:人工智能也被用于保護(hù)系統(tǒng),而且可能在未來(lái)幾十年都是如此??梢粤舷耄W(wǎng)絡(luò)犯罪分子和網(wǎng)絡(luò)安全行業(yè)之間會(huì)上演某種人工智能軍備競(jìng)賽,因?yàn)檫@些工具的防御和進(jìn)攻能力本質(zhì)上不相上下。
對(duì)于普通人來(lái)說(shuō),生成式人工智能的遍地開花需要徹底重新思考安全實(shí)踐。盡管人工智能可能令人興奮、很實(shí)用,但它至少可以以假亂真,最壞的情況是加劇現(xiàn)有的安全問(wèn)題,并為威脅分子提供新的舞臺(tái)。
語(yǔ)音生成器展示了人工智能的破壞性潛力
ChatGPT一經(jīng)上市,有關(guān)監(jiān)管人工智能的討論就開始升溫。任何試圖遏制這種技術(shù)的做法都可能需要國(guó)際合作,需要我們?cè)谶^(guò)去幾十年來(lái)從未見(jiàn)過(guò)的合作程度,因此不太可能遏制人工智能。
精靈已從瓶子里跑出來(lái),我們能做的也就是習(xí)慣它適應(yīng)它,但愿網(wǎng)絡(luò)安全行業(yè)能做出相應(yīng)的調(diào)整。