我們知道過去幾年,圖像編輯領(lǐng)域發(fā)展驚人。但在視頻領(lǐng)域,還有所缺陷。近日,一項(xiàng)視頻編輯領(lǐng)域的研究成果放出。讓我們先來看一下效果。
姜文變成大猩猩......
美女變成卡通人物......
是不是看起來非常不錯(cuò)?這都來自于以下這篇研究。
圖像處理領(lǐng)域能取得如此顯著的進(jìn)步,在很大程度上歸功于能夠在大規(guī)模數(shù)據(jù)集上訓(xùn)練的生成式模型,后者能顯著提高圖像任務(wù)的質(zhì)量和精度。然而,有關(guān)視頻內(nèi)容的處理任務(wù)卻沒有取得同等的進(jìn)展。視頻任務(wù)的挑戰(zhàn)之一在于對(duì)保持時(shí)間一致性的要求較高,而這個(gè)要求會(huì)因神經(jīng)網(wǎng)絡(luò)固有的隨機(jī)性而變得復(fù)雜。另一個(gè)挑戰(zhàn)來自視頻數(shù)據(jù)集本身的性質(zhì),和圖像集相比通常質(zhì)量較差,并且需要更多的計(jì)算資源。
因此,基于視頻的算法的質(zhì)量明顯落后于那些專注于圖像的算法。這種落差引發(fā)了一個(gè)問題:以圖像形式表示視頻,將已建立的圖像算法無縫應(yīng)用于具有高度時(shí)間一致性的視頻內(nèi)容是否可行?
為了實(shí)現(xiàn)這一目標(biāo),在深度學(xué)習(xí)時(shí)代之前,研究人員曾建議從動(dòng)態(tài)視頻中生成視頻馬賽克,而在隱式神經(jīng)表征提出之后,研究人員又建議利用神經(jīng)分層圖像圖集。但是這些方法存在兩個(gè)主要缺陷。首先,這些方法的表征能力是有限的,特別是在如實(shí)地重建視頻中錯(cuò)綜復(fù)雜的細(xì)節(jié)時(shí)。通常,重建的視頻忽略了微妙的運(yùn)動(dòng)細(xì)節(jié),如眨眼或輕微的微笑。第二個(gè)限制與估計(jì)圖集的典型扭曲性質(zhì)有關(guān),語義信息會(huì)因此受損??偠灾?,現(xiàn)有的圖像處理算法無法發(fā)揮最佳性能,因?yàn)轭A(yù)測的結(jié)果缺乏足夠的自然度。
本文作者提出了一種新的視頻表征方法,該方法利用基于 2D 散列的圖像場和基于 3D 散列的時(shí)間變形場。結(jié)合多分辨率散列編碼來表示時(shí)間變化,大大提高了重建一般視頻的能力。這種方法有助于跟蹤水和煙霧等復(fù)雜實(shí)體的變形。然而,變形場能力的增強(qiáng)對(duì)估計(jì)自然規(guī)范圖像提出了挑戰(zhàn)。不自然的規(guī)范圖像也可以通過完整的重建來估計(jì)相應(yīng)的變形場。
為了應(yīng)對(duì)這一挑戰(zhàn),本文建議在訓(xùn)練期間使用退火哈希算法。先使用平滑變形網(wǎng)格來識(shí)別適用于所有剛性運(yùn)動(dòng)的粗解決方案,然后逐漸添加高頻細(xì)節(jié)。通過這種由粗到細(xì)的訓(xùn)練,表征結(jié)果在規(guī)范的自然性和重建的還原性之間實(shí)現(xiàn)了平衡。與之前的方法相比,本文作者觀察到重建后的質(zhì)量顯著提高。改進(jìn)后 PSNR 大約增加 4.4,規(guī)范圖像的自然性也肉眼可見的增加。這種方法的優(yōu)化過程只需要大約 300 秒來估計(jì)帶有變形場的規(guī)范圖像,而之前的隱式分層表示需要超過 10 個(gè)小時(shí)。
本文在變形場算法的基礎(chǔ)上,還說明了提升圖像處理任務(wù),如提示引導(dǎo)圖像翻譯、超分辨率和分割 —— 到視頻內(nèi)容的更動(dòng)態(tài)場。在處理標(biāo)準(zhǔn)圖像時(shí),本文使用的 prompt-guided 的視頻到視頻重建的方法,具體來說使用的網(wǎng)絡(luò)是 ControlNet ,然后通過學(xué)習(xí)后的變形場傳導(dǎo)重建的內(nèi)容。重建過程在單個(gè)標(biāo)準(zhǔn)圖像上進(jìn)行,無需跨所有幀,無需使用耗時(shí)的推理模型(例如擴(kuò)散模型)。與基于生成模型的 sota 零拍視頻重建相比,本文的重建輸出結(jié)果在時(shí)間一致性和紋理質(zhì)量方面有明顯改善。與依賴神經(jīng)分層標(biāo)簽的 Text2Live 相比,本文提出的模型可以說是精通處理更復(fù)雜的運(yùn)動(dòng),能給產(chǎn)生更自然的標(biāo)準(zhǔn)圖像,從而實(shí)現(xiàn)卓越的重建結(jié)果。此外,本文將超分辨率、語義分割和關(guān)鍵點(diǎn)檢測等圖像算法的應(yīng)用擴(kuò)展到標(biāo)準(zhǔn)圖像,從而在視頻上下文中能給得到實(shí)際應(yīng)用。這包括視頻超分辨率、視頻對(duì)象分割、視頻關(guān)鍵點(diǎn)跟蹤等。本文作者提出的表征算法能從始至終地保持卓越的時(shí)間一致性,生成高保真合成幀,展示了其作為視頻處理工具突破性的潛力。
給定由幀 {I1,I2,…,IN} 組成的視頻 V,對(duì)于對(duì)應(yīng)的視頻任務(wù),可以簡單地將圖像處理算法 X 單獨(dú)應(yīng)用于每一幀,但是可能會(huì)出現(xiàn)幀之間存在不一致的內(nèi)容,這是我們不希望看到的。進(jìn)一步地,可以使用另一種策略:用時(shí)間模塊增強(qiáng)算法 X,但這需要對(duì)視頻數(shù)據(jù)進(jìn)行額外的訓(xùn)練。然而,簡單地引入時(shí)間模塊很難保證理論的一致性,并且可能由于訓(xùn)練數(shù)據(jù)不足而導(dǎo)致性能下降。
受此啟發(fā),本文作者建議使用平滑的規(guī)范圖像 Ic 和變形場 D 來表征視頻 V。通過在 Ic 上應(yīng)用圖像算法 X,可以利用學(xué)習(xí)到的變形場將效果有效地應(yīng)用到整個(gè)視頻。這種新穎的視頻表示是圖像算法和視頻任務(wù)之間的重要橋梁,能將最先進(jìn)的圖像方法直接提升到視頻應(yīng)用中。
本文提出的表征算法具有以下基本特征:
如實(shí)地視頻重建的擬合能力。表征應(yīng)該具有精確擬合視頻中的大的剛性或非剛性物體變形的能力。
規(guī)范圖像的語義正確性。失真或語義不正確的規(guī)范圖像可能導(dǎo)致圖像處理性能下降,特別是考慮到這些訓(xùn)練過程多數(shù)都是在自然圖像數(shù)據(jù)上進(jìn)行的。
變形場的平滑度。保證變形場的平滑性是保證時(shí)間一致性和正確傳播的一個(gè)基本特征。
下圖 2. 顯示了本文提出的的視頻表示算法 CoDeF 的說明,其將任意視頻分解為 2D 內(nèi)容規(guī)范場和 3D 時(shí)間變形場。每個(gè)字段使用高效的 MLP,用多分辨率 2D 或 3D 哈希表來實(shí)現(xiàn)。這種新型的表示算法天然地支持用于視頻處理任務(wù)的圖像算法,其方式是將所建立的算法直接應(yīng)用于規(guī)范圖像(即,從規(guī)范內(nèi)容字段渲染),然后沿著時(shí)間軸通過時(shí)間變形字段傳播結(jié)果。
重建質(zhì)量
在與神經(jīng)圖像圖譜的比較分析中,如圖所示,本文提出的模型對(duì)非剛性運(yùn)動(dòng)表現(xiàn)出卓越的魯棒性,能夠以更高的精度有效地重建細(xì)微的運(yùn)動(dòng)(例如眨眼、面部紋理)。
流媒體視頻處理
(a) 視頻到視頻的重建。定性比較包括幾種基線方法,分為三個(gè)不同的類別:(1) 使用圖像翻譯模型的逐幀推理,如 ControlNet ;(2) 分層視頻編輯,如 Text-to-live ;(3) 基于擴(kuò)散模型的視頻翻譯,包括 Tune-A-Video 和 FateZero 。
如圖 4 所示,每幀圖像轉(zhuǎn)換模型可生成高保真內(nèi)容,并伴有明顯的閃爍。其他基線的生成質(zhì)量或時(shí)間一致性相對(duì)較低。 本文提出的流水線式方法能有效地將圖像轉(zhuǎn)換提升到視頻,保持與圖像轉(zhuǎn)換算法相關(guān)的高質(zhì)量,同時(shí)確保時(shí)間一致性。
(b) 視頻關(guān)鍵點(diǎn)跟蹤。通過估計(jì)每個(gè)單獨(dú)幀的變形場,可以查詢規(guī)范空間內(nèi)一幀中特定關(guān)鍵點(diǎn)的位置,然后識(shí)別所有幀中存在的對(duì)應(yīng)點(diǎn),如圖 5 所示。本文在項(xiàng)目頁面的視頻中展示了在非剛性對(duì)象(如流體)中跟蹤點(diǎn)的演示。
(c)視頻對(duì)象跟蹤。使用規(guī)范圖像上的分割算法,本文能夠利用內(nèi)容變形場促進(jìn)掩模在所有視頻序列中的傳播。如圖 6 所示,本文提出的流水線算法熟練地生成在所有幀之間保持一致性的掩碼。
(d) 視頻超分辨率算法。通過將圖像超分辨率算法直接應(yīng)用于規(guī)范圖像,可以將視頻進(jìn)行超分辨率處理以生成高質(zhì)量視頻,如圖 7 所示。假設(shè)變形由連續(xù)場表示,那么超分辨率的應(yīng)用不會(huì)產(chǎn)生閃爍。
(e) 用戶交互式視頻編輯。本文提出的表示算法允許用戶編輯具有獨(dú)特風(fēng)格的對(duì)象,而不會(huì)影響圖像的其他部分。如圖 8 所示,用戶可以手動(dòng)調(diào)整規(guī)范圖像上的內(nèi)容,以在自動(dòng)編輯算法可能無法實(shí)現(xiàn)最佳結(jié)果的區(qū)域進(jìn)行精確編輯。
消融實(shí)驗(yàn)
為了驗(yàn)證本文所提出模塊的效果,作者進(jìn)行了消融實(shí)驗(yàn)研究。在用位置編碼代替 3D 散列編碼時(shí),視頻的重建 PSNR 顯著降低了 3.1dB。在沒有退火散列的情況下,規(guī)范圖像失去了其自然外觀,如圖 9 中的顯示。此外,在不考慮流信息損失的情況下,平滑區(qū)域明顯受到閃爍的影響。要進(jìn)行更廣泛的比較,請(qǐng)參閱項(xiàng)目頁面上的視頻。