當(dāng)前位置：首頁 > 最新資訊 > 行業(yè)資訊

Meta開源像語言識別系統(tǒng)，模型識別唇語翻譯6種語言，本地部署人人可用

沃卡惠
行業(yè)資訊
2023-08-28 10:54:50
252

不知道大家是否還記得年初火爆全網(wǎng)的反黑大劇《狂飆》中，最后幾集因為導(dǎo)演刪改劇情，演員嘴型和臺詞完全對不上的事嗎？

后邊有懂唇語的硬核劇迷，為了看到原版劇情，直接開始翻譯。

來源：娛樂寡姐

Meta最近開源了一個AI語音-視頻識別系統(tǒng)：MuAViC，讓大家動一動手指頭，就能看懂沒有聲音的人物講了啥，還能精確識別嘈雜背景當(dāng)中特定人物的語音。

Meta利用TED/TEDx的視頻語音素材，制作了MuAViC中的數(shù)據(jù)集。其中包含了1200小時，9種語言的文本語音視頻素材，還有英語與6種語言之間的雙向翻譯。

語音識別數(shù)據(jù)的詳細(xì)內(nèi)容：

英語到6種語言翻譯的素材具體包括：

6種語言到英語的翻譯素材具體包括：

論文

針對這個系統(tǒng)，Mate的研究人員也發(fā)布了論文介紹它與現(xiàn)有SOTA的對比。

視聽語料庫的收集

英語語料收集

對于英語語料，研究人員重新使用了LRS3-TED中的視聽數(shù)據(jù)，并按照原始數(shù)據(jù)進(jìn)行了拆分。

通過匹配LRS3-TED中的轉(zhuǎn)錄和TED2020中的源句，研究人員從機器翻譯語料庫TED2020中找到了這些會談的人工翻譯。

然后將匹配的LRS3-TED示例與TED2020中相應(yīng)的目標(biāo)句子配對，以獲得翻譯標(biāo)簽。

研究人員對開發(fā)集和測試集示例采用精確文本匹配，以確保最佳準(zhǔn)確性。

為了提高訓(xùn)練集的匹配召回率，研究人員開發(fā)了一種模糊文本匹配策略：如果句對雙方包含相同數(shù)量的句段，他們首先用標(biāo)點符號分割TED2020源句和目標(biāo)句。

然后，通過去除標(biāo)點符號和小寫來規(guī)范TED2020和LRS3-TED文本。

最后，在兩個語料庫之間進(jìn)行精確文本匹配。

對于TED2020中沒有匹配的LRS3-TED訓(xùn)練集示例，研究人員從機器翻譯模型M2M-100 418M中獲取偽翻譯標(biāo)簽，該模型采用默認(rèn)的解碼超參數(shù)法。

非英語語料的收集

對于非英語語料，研究人員重新使用了之前研究中的mTEDx收集的純音頻數(shù)據(jù)、轉(zhuǎn)錄和文本翻譯。他們也按照mTEDx來進(jìn)行數(shù)據(jù)拆分。

他們獲取原始錄音的視頻軌跡，并將處理過的視頻數(shù)據(jù)與音頻數(shù)據(jù)對齊，形成視聽數(shù)據(jù)，與LRS3-TED類似。

雖然mTEDx中的所有音頻數(shù)據(jù)都已轉(zhuǎn)錄，但其中只有一個子集進(jìn)行了翻譯。

研究人員從M2M-100 418M中獲取偽翻譯標(biāo)簽，用于使用默認(rèn)解碼超參數(shù)的未翻譯訓(xùn)練集示例。

實驗

實驗設(shè)置

對于視聽語音識別（AVSR）和視聽語音翻譯（AVST），研究人員使用英語AV-HuBERT大型預(yù)訓(xùn)練模型，該模型結(jié)合LRS3-TED和 VoxCeleb2的英語部分進(jìn)行訓(xùn)練。

研究人員按照AV-HuBERT論文中的方式來微調(diào)超參數(shù)，不同之處在于他們將雙語模型微調(diào)為30K更新，將多語言 AVSR 模型微調(diào)為90K更新。研究人員分別凍結(jié)X-En AVST和En-X AVST模型的第一個4K和24K更新的預(yù)訓(xùn)練編碼器。

AVSR測試

安靜環(huán)境中

研究人員在純音頻（"A"）和視聽（"AV"）模式下對 AVSR 模型進(jìn)行了評估，前者在微調(diào)和推理中僅利用音頻模式，而后者則同時利用音頻和視覺模式。

如下表1所示，英語 AVSR 模型的測試誤碼率分別為 2.5 和 2.3。

對于非英語 AVSR，研究人員對預(yù)先訓(xùn)練好的英語AVHuBERT模型進(jìn)行了微調(diào)，微調(diào)方式可以是對每種語言分別進(jìn)行微調(diào)（8 種單語模型），也可以是對所有8種非英語語言聯(lián)合進(jìn)行微調(diào)（多語模型）。

其測試誤碼率見下表2。

研究人員發(fā)現(xiàn)，在視聽模式下，研究人員的單語AVSR模型的WER平均降低了52%，優(yōu)于同類ASR基線（Transformer，單語）。

噪音環(huán)境中

表3的第一部分顯示了研究人員的 AVSR 模型在高噪音環(huán)境下的測試誤碼率。

研究人員注意到，SOTA多語種ASR模型Whisper在這一具有挑戰(zhàn)性的設(shè)置中表現(xiàn)糟糕，種語言的平均誤碼率為174.3。

相比之下，研究人員的單語言AVSR模型在純音頻模式下的平均誤碼率分別為70.2和66.7。

在視聽模式下，研究人員模型的平均誤碼率大幅下降了32%，這表明它們有效地利用了視覺信息來減輕嘈雜環(huán)境的干擾。