近些年來,計算機(jī)視覺(CV)的發(fā)展勢如破竹,滲透到了我們生活的方方面面。對于大眾而言,這可能像是一項新鮮且令人興奮的科技創(chuàng)新,然而,實際上并非如此。
事實上,計算機(jī)視覺已經(jīng)有幾十年的發(fā)展歷程,早在20 世紀(jì) 70 年代,已經(jīng)為今日所使用的眾多算法打下了堅實基礎(chǔ)。然后,在大約十年前,一種當(dāng)時還在理論發(fā)展階段的新技術(shù)浮現(xiàn)眼前:深度學(xué)習(xí),一種利用神經(jīng)網(wǎng)絡(luò)解決高度復(fù)雜問題的 AI 形式,只要你有足夠的數(shù)據(jù)和計算能力就能驅(qū)動它。
隨著深度學(xué)習(xí)的持續(xù)進(jìn)步,我們開始認(rèn)識到它在解決某些計算機(jī)視覺問題上的表現(xiàn)十分出色。對于目標(biāo)檢測和分類等挑戰(zhàn)性問題,深度學(xué)習(xí)的應(yīng)用效果特別理想。從這時開始,"經(jīng)典"的計算機(jī)視覺與基于深度學(xué)習(xí)的計算機(jī)視覺開始出現(xiàn)明顯的區(qū)別。
什么鎖住了經(jīng)典CV?
然而,深度學(xué)習(xí)的崛起并未將經(jīng)典計算機(jī)視覺貶低為過時技術(shù);兩者仍在并行發(fā)展,幫助我們明確哪些問題更適合借助大數(shù)據(jù)來解決,哪些問題應(yīng)當(dāng)繼續(xù)使用數(shù)學(xué)和幾何算法來處理。
盡管深度學(xué)習(xí)能夠革新計算機(jī)視覺,但這種神奇的改變只有在有適宜的訓(xùn)練數(shù)據(jù)可供使用,或者在網(wǎng)絡(luò)能獨(dú)立地、在明確的邏輯或幾何約束下進(jìn)行學(xué)習(xí)時才能顯現(xiàn)。
在過去,經(jīng)典計算機(jī)視覺被用于物體檢測,識別特征(如邊緣、角點和紋理)甚至對每一個圖片像素進(jìn)行標(biāo)記(語義分割)。然而,這些過程都非常復(fù)雜且耗時。
要檢測物體,需要熟練掌握滑動窗口、模式匹配和窮舉搜索等技術(shù)。提取和分類特征則需要工程師開發(fā)定制的方法。在像素級別上區(qū)分不同類別的對象需要大量的工作來劃分不同的區(qū)域,即使是最有經(jīng)驗的計算機(jī)視覺工程師也并不總能正確地區(qū)分圖像中的每個像素。
深度學(xué)習(xí)變革目標(biāo)檢測
相較而言,深度學(xué)習(xí),尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN),已經(jīng)使得物體檢測變得相對簡單,特別是與Google 和 Amazon 等大公司出品的大·圖像數(shù)據(jù)庫結(jié)合使用時。只需通過訓(xùn)練良好的網(wǎng)絡(luò),無需明確的手動規(guī)則,算法就能在各種情況下檢測目標(biāo),且不會受到視角的限制。
在特征提取方面,深度學(xué)習(xí)只需要一個有效的算法和豐富多樣的訓(xùn)練數(shù)據(jù),既能防止模型過擬合,也能確保在投入生產(chǎn)后面對新數(shù)據(jù)時獲得高度的準(zhǔn)確性評分。在這項任務(wù)上,CNN 表現(xiàn)得尤為出色。此外,當(dāng)深度學(xué)習(xí)被應(yīng)用于語義分割時,U-net 架構(gòu)表現(xiàn)得非常好,消除了復(fù)雜的手動處理的需求。
回看“經(jīng)典算法”
雖然深度學(xué)習(xí)無疑已經(jīng)徹底改變了計算機(jī)視覺的領(lǐng)域,但在同時定位和映射(SLAM,Simultaneous Localization and Mapping )以及運(yùn)動結(jié)構(gòu)(SFM)等特定挑戰(zhàn)上,經(jīng)典計算機(jī)視覺的解決方案仍然優(yōu)于較新的方法。這些問題都涉及到使用圖像來理解和描繪物理空間的尺寸。
SLAM 主要針對構(gòu)建和更新某個區(qū)域的地圖,同時跟蹤代理物體(通常是某種類型的機(jī)器人)在地圖中的位置。這種技術(shù)使得自動駕駛和機(jī)器人吸塵器等成為了可能。
SFM 也同樣依賴于先進(jìn)的數(shù)學(xué)和幾何知識,但其目標(biāo)是使用從無序圖像集中獲取的多個視角來創(chuàng)建物體的三維重建。它適用于不需要實時、即時響應(yīng)的情況。
最初,人們認(rèn)為正確執(zhí)行 SLAM 需要大量的計算能力。然而,通過使用近似方法,計算機(jī)視覺的先驅(qū)者們能夠使計算需求更加易于管理。
相比之下,SFM 更為簡單:與通常涉及傳感器融合的 SLAM 不同,該方法只利用相機(jī)的固有屬性和圖像的特征。與許多由于范圍和分辨率限制而無法進(jìn)行的激光掃描相比,這是一種經(jīng)濟(jì)高效的方法。其結(jié)果是對物體的可靠且準(zhǔn)確的表示。
前方的路
深度學(xué)習(xí)仍然無法像經(jīng)典計算機(jī)視覺一樣解決某些問題。工程師們應(yīng)繼續(xù)使用傳統(tǒng)技術(shù)來解決這些問題。當(dāng)問題涉及復(fù)雜的數(shù)學(xué)和直接觀察,且難以獲取適當(dāng)?shù)挠?xùn)練數(shù)據(jù)集時,深度學(xué)習(xí)的強(qiáng)大和笨重可能無法生成優(yōu)雅的解決方案??梢杂?ldquo;瓷器店里的公牛”這個類比來形容這種情況:就像 ChatGPT 在基本算術(shù)方面肯定不是最高效(或最準(zhǔn)確)的工具一樣,經(jīng)典計算機(jī)視覺將繼續(xù)主導(dǎo)特定的挑戰(zhàn)。
經(jīng)典計算機(jī)視覺向基于深度學(xué)習(xí)的計算機(jī)視覺的部分過渡給我們帶來了兩個主要的啟示。
首先,我們必須認(rèn)識到,全面替換舊技術(shù),盡管更簡單,但卻是錯誤的。當(dāng)一個領(lǐng)域被新技術(shù)打破時,我們必須謹(jǐn)慎關(guān)注細(xì)節(jié),并逐個案例確定哪些問題將從新技術(shù)中受益,哪些問題仍然更適合使用舊方法。
第二個啟示是,雖然過渡帶來了可擴(kuò)展性,但它也帶來了一種苦樂參半的情感。傳統(tǒng)方法確實更多的是手動操作,但這也意味著它們既是藝術(shù),又是科學(xué)的結(jié)合。從圖像中提取特征、物體、邊緣和關(guān)鍵元素所需的創(chuàng)造力和創(chuàng)新力,并不是來自深度學(xué)習(xí),而是來自深思熟慮。
隨著我們逐漸遠(yuǎn)離經(jīng)典計算機(jī)視覺技術(shù),而工程師有時候更像是計算機(jī)視覺工具的整合者。雖然這對行業(yè)來說是“好事”,但卻遺憾地放棄了那些更具藝術(shù)性和創(chuàng)造性的元素。未來的一個挑戰(zhàn)將是嘗試以其他方式將這種藝術(shù)性融入進(jìn)來。
理解取代者
在未來的十年中,預(yù)測“理解”將最終取代“學(xué)習(xí)”,成為網(wǎng)絡(luò)開發(fā)的主要關(guān)注點。重點將不再是網(wǎng)絡(luò)能學(xué)到多少知識,而是它能深入理解信息的程度以及我們?nèi)绾卧诓唤o予過多數(shù)據(jù)的情況下促進(jìn)這種理解。我們的目標(biāo)應(yīng)該是讓網(wǎng)絡(luò)能在最少的干預(yù)下得出更深入的結(jié)論。
在計算機(jī)視覺領(lǐng)域,接下來的十年肯定會帶來一些驚喜。也許經(jīng)典計算機(jī)視覺最終會變得過時。也許深度學(xué)習(xí)也會被一種尚未被我們聽說過的技術(shù)所取代。然而,至少目前來說,這些工具是處理特定任務(wù)的最佳選擇,構(gòu)成了未來十年計算機(jī)視覺發(fā)展的基礎(chǔ)。無論如何,這都將是一段非常有意義的旅程。