AI語(yǔ)音初創(chuàng)公司Sonantic表示,他們?cè)谝纛l深度模仿方面取得了一項(xiàng)小小的突破,創(chuàng)造出了一種可以表達(dá)挑逗和調(diào)情等微妙情感的合成聲音。該公司表示,其進(jìn)步的關(guān)鍵是將非語(yǔ)言聲音融入到音頻中:訓(xùn)練AI模型重現(xiàn)那些微小的呼吸氣息,諸如微小的嘲笑和半隱藏的笑,使得AI的聲音打上真實(shí)的生物印記。
Sonantic的研究目標(biāo)是看看AI是否可以模擬微妙的情緒,諸如憤怒、恐懼、高興、悲傷和富于感情等。
Sonantic的首席執(zhí)行官齊娜·庫(kù)雷希(Zeena Qureshi)將該公司的軟件描述為“聲音的Photoshop”。它的界面可以讓用戶輸入他們想要合成的語(yǔ)音,指定講話的語(yǔ)氣,然后從一組AI聲音中選擇,這些聲音大部分都是模仿真人演員的。這絕不是一種獨(dú)一無(wú)二的產(chǎn)品(其競(jìng)爭(zhēng)對(duì)手,如Descript也銷售類似產(chǎn)品),但Sonantic表示,其定制化程度比競(jìng)爭(zhēng)對(duì)手更深入。
情感選擇囊括憤怒、恐懼、悲傷、幸福和喜悅。而今最新選項(xiàng)還囊括調(diào)情、忸怩、戲弄和自夸。“導(dǎo)演模式”允許進(jìn)行更多的調(diào)整:聲音的音調(diào)可以調(diào)整,聲音的強(qiáng)度可以上下調(diào)節(jié),還有那些非語(yǔ)言的聲音,譬如笑聲和呼吸。
這是Sonantic的主要特色:指導(dǎo)、控制、編輯和塑造表演的能力。如今客戶大多是游戲工作室和娛樂工作室,但公司正在向其他行業(yè)拓展。早些時(shí)候,剛剛與奔馳達(dá)成了合作(定制其車內(nèi)數(shù)字助手)。
然而,就像此類技術(shù)的常見情況一樣,Sonantic成就的真正基準(zhǔn)是其機(jī)器學(xué)習(xí)模型的音頻,而不是那些經(jīng)過潤(rùn)色的、為公關(guān)準(zhǔn)備好的演示版本。
人工優(yōu)化是為了最大限度地發(fā)揮人工智能聲音的作用。很多AI的努力都是如此,譬如自動(dòng)駕駛汽車,它們已經(jīng)成功實(shí)現(xiàn)了非?;镜鸟{駛自動(dòng)化,但仍在努力實(shí)現(xiàn)最后也是最重要的那5%的人類能力。這意味著要實(shí)現(xiàn)完全自動(dòng)化、完全可信的AI語(yǔ)音合成還有很長(zhǎng)的路要走。
可是除了技術(shù)本身的問題,Sonantic的研究還引發(fā)了其他問題——譬如,部署調(diào)情人工智能的道德標(biāo)準(zhǔn)是什么?以這種方式操縱聽眾公平嗎?為什么Sonantic要把調(diào)情的形象塑導(dǎo)致女性呢?(在男性占主導(dǎo)地位的科技行業(yè),這種選擇算不算一種微妙的性別歧視。)
Sonantic表示,他們選擇女性聲音只是受到了斯派克·瓊斯(Spike Jonze) 2013年的電影《她》(Her)的啟發(fā)。在這部電影中,主人公愛上了一名名為薩曼莎(Samantha)的女性AI助理。另一方面,Sonantic表示已經(jīng)認(rèn)識(shí)到伴隨新技術(shù)發(fā)展而來的道德困境,并且在怎樣以及在何處使用AI聲音方面非常謹(jǐn)慎。
首席執(zhí)行官庫(kù)雷希表示:“這是我們堅(jiān)持從事娛樂業(yè)務(wù)的最大原因之一。它被用于最好的娛樂產(chǎn)品和模擬。“
將AI語(yǔ)音合成與其他娛樂產(chǎn)品進(jìn)行比較是合理的。畢竟,我們可以分辨電影和電視劇的真假(因?yàn)樗鼈兌际羌俚?。
但還有一點(diǎn)需要說明的是,AI將允許大規(guī)模部署此類操縱,而較少關(guān)注其在個(gè)別案例中的影響。比如,在世界各地(囊括國(guó)內(nèi)),人們已經(jīng)開始與AI聊天機(jī)器人建立關(guān)系,甚至墜入愛河。給這些機(jī)器人添加AI生成的聲音肯定會(huì)讓它們變得更強(qiáng)大,這引發(fā)了人們對(duì)這些和其他系統(tǒng)應(yīng)該怎樣設(shè)計(jì)的疑問。假如AI的聲音可以令人信服地調(diào)情,它們會(huì)說服你做什么?