真實(shí)時(shí)、強(qiáng)細(xì)節(jié)、高保真：更強(qiáng)大的視頻重建算法，性能明顯提升

沃卡惠
行業(yè)資訊
2023-08-22 09:14:50
552

我們知道過去幾年，圖像編輯領(lǐng)域發(fā)展驚人。但在視頻領(lǐng)域，還有所缺陷。近日，一項(xiàng)視頻編輯領(lǐng)域的研究成果放出。讓我們先來看一下效果。

姜文變成大猩猩......

美女變成卡通人物......

是不是看起來非常不錯(cuò)？這都來自于以下這篇研究。

圖像處理領(lǐng)域能取得如此顯著的進(jìn)步，在很大程度上歸功于能夠在大規(guī)模數(shù)據(jù)集上訓(xùn)練的生成式模型，后者能顯著提高圖像任務(wù)的質(zhì)量和精度。然而，有關(guān)視頻內(nèi)容的處理任務(wù)卻沒有取得同等的進(jìn)展。視頻任務(wù)的挑戰(zhàn)之一在于對(duì)保持時(shí)間一致性的要求較高，而這個(gè)要求會(huì)因神經(jīng)網(wǎng)絡(luò)固有的隨機(jī)性而變得復(fù)雜。另一個(gè)挑戰(zhàn)來自視頻數(shù)據(jù)集本身的性質(zhì)，和圖像集相比通常質(zhì)量較差，并且需要更多的計(jì)算資源。

因此，基于視頻的算法的質(zhì)量明顯落后于那些專注于圖像的算法。這種落差引發(fā)了一個(gè)問題：以圖像形式表示視頻，將已建立的圖像算法無縫應(yīng)用于具有高度時(shí)間一致性的視頻內(nèi)容是否可行？

為了實(shí)現(xiàn)這一目標(biāo)，在深度學(xué)習(xí)時(shí)代之前，研究人員曾建議從動(dòng)態(tài)視頻中生成視頻馬賽克，而在隱式神經(jīng)表征提出之后，研究人員又建議利用神經(jīng)分層圖像圖集。但是這些方法存在兩個(gè)主要缺陷。首先，這些方法的表征能力是有限的，特別是在如實(shí)地重建視頻中錯(cuò)綜復(fù)雜的細(xì)節(jié)時(shí)。通常，重建的視頻忽略了微妙的運(yùn)動(dòng)細(xì)節(jié)，如眨眼或輕微的微笑。第二個(gè)限制與估計(jì)圖集的典型扭曲性質(zhì)有關(guān)，語義信息會(huì)因此受損?？偠灾?，現(xiàn)有的圖像處理算法無法發(fā)揮最佳性能，因?yàn)轭A(yù)測的結(jié)果缺乏足夠的自然度。

本文作者提出了一種新的視頻表征方法，該方法利用基于 2D 散列的圖像場和基于 3D 散列的時(shí)間變形場。結(jié)合多分辨率散列編碼來表示時(shí)間變化，大大提高了重建一般視頻的能力。這種方法有助于跟蹤水和煙霧等復(fù)雜實(shí)體的變形。然而，變形場能力的增強(qiáng)對(duì)估計(jì)自然規(guī)范圖像提出了挑戰(zhàn)。不自然的規(guī)范圖像也可以通過完整的重建來估計(jì)相應(yīng)的變形場。

為了應(yīng)對(duì)這一挑戰(zhàn)，本文建議在訓(xùn)練期間使用退火哈希算法。先使用平滑變形網(wǎng)格來識(shí)別適用于所有剛性運(yùn)動(dòng)的粗解決方案，然后逐漸添加高頻細(xì)節(jié)。通過這種由粗到細(xì)的訓(xùn)練，表征結(jié)果在規(guī)范的自然性和重建的還原性之間實(shí)現(xiàn)了平衡。與之前的方法相比，本文作者觀察到重建后的質(zhì)量顯著提高。改進(jìn)后 PSNR 大約增加 4.4，規(guī)范圖像的自然性也肉眼可見的增加。這種方法的優(yōu)化過程只需要大約 300 秒來估計(jì)帶有變形場的規(guī)范圖像，而之前的隱式分層表示需要超過 10 個(gè)小時(shí)。

本文在變形場算法的基礎(chǔ)上，還說明了提升圖像處理任務(wù)，如提示引導(dǎo)圖像翻譯、超分辨率和分割 —— 到視頻內(nèi)容的更動(dòng)態(tài)場。在處理標(biāo)準(zhǔn)圖像時(shí)，本文使用的 prompt-guided 的視頻到視頻重建的方法，具體來說使用的網(wǎng)絡(luò)是 ControlNet ，然后通過學(xué)習(xí)后的變形場傳導(dǎo)重建的內(nèi)容。重建過程在單個(gè)標(biāo)準(zhǔn)圖像上進(jìn)行，無需跨所有幀，無需使用耗時(shí)的推理模型（例如擴(kuò)散模型）。與基于生成模型的 sota 零拍視頻重建相比，本文的重建輸出結(jié)果在時(shí)間一致性和紋理質(zhì)量方面有明顯改善。與依賴神經(jīng)分層標(biāo)簽的 Text2Live 相比，本文提出的模型可以說是精通處理更復(fù)雜的運(yùn)動(dòng)，能給產(chǎn)生更自然的標(biāo)準(zhǔn)圖像，從而實(shí)現(xiàn)卓越的重建結(jié)果。此外，本文將超分辨率、語義分割和關(guān)鍵點(diǎn)檢測等圖像算法的應(yīng)用擴(kuò)展到標(biāo)準(zhǔn)圖像，從而在視頻上下文中能給得到實(shí)際應(yīng)用。這包括視頻超分辨率、視頻對(duì)象分割、視頻關(guān)鍵點(diǎn)跟蹤等。本文作者提出的表征算法能從始至終地保持卓越的時(shí)間一致性，生成高保真合成幀，展示了其作為視頻處理工具突破性的潛力。

方法概覽

給定由幀 {I1，I2，…，IN} 組成的視頻 V，對(duì)于對(duì)應(yīng)的視頻任務(wù)，可以簡單地將圖像處理算法 X 單獨(dú)應(yīng)用于每一幀，但是可能會(huì)出現(xiàn)幀之間存在不一致的內(nèi)容，這是我們不希望看到的。進(jìn)一步地，可以使用另一種策略：用時(shí)間模塊增強(qiáng)算法 X，但這需要對(duì)視頻數(shù)據(jù)進(jìn)行額外的訓(xùn)練。然而，簡單地引入時(shí)間模塊很難保證理論的一致性，并且可能由于訓(xùn)練數(shù)據(jù)不足而導(dǎo)致性能下降。

受此啟發(fā)，本文作者建議使用平滑的規(guī)范圖像 Ic 和變形場 D 來表征視頻 V。通過在 Ic 上應(yīng)用圖像算法 X，可以利用學(xué)習(xí)到的變形場將效果有效地應(yīng)用到整個(gè)視頻。這種新穎的視頻表示是圖像算法和視頻任務(wù)之間的重要橋梁，能將最先進(jìn)的圖像方法直接提升到視頻應(yīng)用中。

本文提出的表征算法具有以下基本特征：

如實(shí)地視頻重建的擬合能力。表征應(yīng)該具有精確擬合視頻中的大的剛性或非剛性物體變形的能力。

規(guī)范圖像的語義正確性。失真或語義不正確的規(guī)范圖像可能導(dǎo)致圖像處理性能下降，特別是考慮到這些訓(xùn)練過程多數(shù)都是在自然圖像數(shù)據(jù)上進(jìn)行的。

變形場的平滑度。保證變形場的平滑性是保證時(shí)間一致性和正確傳播的一個(gè)基本特征。

下圖 2. 顯示了本文提出的的視頻表示算法 CoDeF 的說明，其將任意視頻分解為 2D 內(nèi)容規(guī)范場和 3D 時(shí)間變形場。每個(gè)字段使用高效的 MLP，用多分辨率 2D 或 3D 哈希表來實(shí)現(xiàn)。這種新型的表示算法天然地支持用于視頻處理任務(wù)的圖像算法，其方式是將所建立的算法直接應(yīng)用于規(guī)范圖像（即，從規(guī)范內(nèi)容字段渲染），然后沿著時(shí)間軸通過時(shí)間變形字段傳播結(jié)果。

實(shí)驗(yàn)

重建質(zhì)量

在與神經(jīng)圖像圖譜的比較分析中，如圖所示，本文提出的模型對(duì)非剛性運(yùn)動(dòng)表現(xiàn)出卓越的魯棒性，能夠以更高的精度有效地重建細(xì)微的運(yùn)動(dòng)（例如眨眼、面部紋理）。

流媒體視頻處理

(a) 視頻到視頻的重建。定性比較包括幾種基線方法，分為三個(gè)不同的類別：(1) 使用圖像翻譯模型的逐幀推理，如 ControlNet ；(2) 分層視頻編輯，如 Text-to-live ；(3) 基于擴(kuò)散模型的視頻翻譯，包括 Tune-A-Video 和 FateZero 。

如圖 4 所示，每幀圖像轉(zhuǎn)換模型可生成高保真內(nèi)容，并伴有明顯的閃爍。其他基線的生成質(zhì)量或時(shí)間一致性相對(duì)較低。本文提出的流水線式方法能有效地將圖像轉(zhuǎn)換提升到視頻，保持與圖像轉(zhuǎn)換算法相關(guān)的高質(zhì)量，同時(shí)確保時(shí)間一致性。

（b）視頻關(guān)鍵點(diǎn)跟蹤。通過估計(jì)每個(gè)單獨(dú)幀的變形場，可以查詢規(guī)范空間內(nèi)一幀中特定關(guān)鍵點(diǎn)的位置，然后識(shí)別所有幀中存在的對(duì)應(yīng)點(diǎn)，如圖 5 所示。本文在項(xiàng)目頁面的視頻中展示了在非剛性對(duì)象（如流體）中跟蹤點(diǎn)的演示。

（c）視頻對(duì)象跟蹤。使用規(guī)范圖像上的分割算法，本文能夠利用內(nèi)容變形場促進(jìn)掩模在所有視頻序列中的傳播。如圖 6 所示，本文提出的流水線算法熟練地生成在所有幀之間保持一致性的掩碼。

（d）視頻超分辨率算法。通過將圖像超分辨率算法直接應(yīng)用于規(guī)范圖像，可以將視頻進(jìn)行超分辨率處理以生成高質(zhì)量視頻，如圖 7 所示。假設(shè)變形由連續(xù)場表示，那么超分辨率的應(yīng)用不會(huì)產(chǎn)生閃爍。

（e）用戶交互式視頻編輯。本文提出的表示算法允許用戶編輯具有獨(dú)特風(fēng)格的對(duì)象，而不會(huì)影響圖像的其他部分。如圖 8 所示，用戶可以手動(dòng)調(diào)整規(guī)范圖像上的內(nèi)容，以在自動(dòng)編輯算法可能無法實(shí)現(xiàn)最佳結(jié)果的區(qū)域進(jìn)行精確編輯。

消融實(shí)驗(yàn)

為了驗(yàn)證本文所提出模塊的效果，作者進(jìn)行了消融實(shí)驗(yàn)研究。在用位置編碼代替 3D 散列編碼時(shí)，視頻的重建 PSNR 顯著降低了 3.1dB。在沒有退火散列的情況下，規(guī)范圖像失去了其自然外觀，如圖 9 中的顯示。此外，在不考慮流信息損失的情況下，平滑區(qū)域明顯受到閃爍的影響。要進(jìn)行更廣泛的比較，請(qǐng)參閱項(xiàng)目頁面上的視頻。

上一篇：人工智能在電力管理中的重要性

下一篇：人工智能是如何革新傳統(tǒng)物理學(xué)