近幾個(gè)月來(lái),生成式人工智能憑借其創(chuàng)造獨(dú)特的文本、聲音和圖像的能力引起了人們的極大興趣。但生成式人工智能的力量并不局限于創(chuàng)造新的數(shù)據(jù)。
生成式人工智能的底層技術(shù)(例如Transformer和擴(kuò)散模型)可以為許多其他應(yīng)用提供動(dòng)力,其中包括信息的搜索和發(fā)現(xiàn)。特別是,生成式人工智能可以徹底改變圖像搜索,使人們能夠以以前不可能的方式瀏覽視覺(jué)信息。
以下是人們需要知道的關(guān)于生成式人工智能如何重新定義圖像搜索體驗(yàn)的內(nèi)容。
圖像和文本嵌入
傳統(tǒng)的圖像搜索依賴于圖像附帶的文本描述、標(biāo)記和其他元數(shù)據(jù),這將用戶的搜索選項(xiàng)限制為已經(jīng)明確附加到圖像中的信息。上傳圖像的人必須認(rèn)真考慮輸入的搜索查詢類型,以確保他們的圖像被他人發(fā)現(xiàn)。而在搜索圖像時(shí),查詢信息的用戶必須嘗試想象圖像上傳者可能在圖像中添加了什么樣的描述。
俗話說(shuō),“一圖勝千言”。然而對(duì)于圖像的描述來(lái)說(shuō),可以編寫的內(nèi)容是有限的。當(dāng)然,根據(jù)人們查看圖像的方式,可以采用很多方式進(jìn)行描述。而人們有時(shí)根據(jù)圖中的物體進(jìn)行搜索,有時(shí)根據(jù)風(fēng)格、光線、位置等特征搜索圖像。不幸的是,圖像很少伴隨著如此豐富的信息。很多人上傳的許多圖像幾乎沒(méi)有附帶任何信息,這使得它們很難在搜索中被發(fā)現(xiàn)。
這就是人工智能圖像搜索發(fā)揮重要作用的地方。人工智能圖像搜索有不同的方法,不同的公司有自己的專有技術(shù)。然而,有些技術(shù)是這些公司所共有的。
人工智能圖像搜索以及許多其他深度學(xué)習(xí)系統(tǒng)的核心是嵌入,嵌入是不同數(shù)據(jù)類型的數(shù)值表示。例如,512×512分辨率的圖像包含大約26萬(wàn)個(gè)像素(或特征)。嵌入模型試圖通過(guò)對(duì)數(shù)百萬(wàn)張圖像進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)視覺(jué)數(shù)據(jù)的低維表示。圖像嵌入可以有許多有用的應(yīng)用,包括壓縮圖像、生成新圖像或比較不同圖像的視覺(jué)屬性。
同樣的機(jī)制適用于文本等其他形式。文本嵌入模型是文本摘錄內(nèi)容的低維表示。文本嵌入有許多應(yīng)用,包括用于大型語(yǔ)言模型(LLM)的相似性搜索和檢索增強(qiáng)。
人工智能圖像搜索的工作原理
但是,當(dāng)圖像和文本嵌入一起訓(xùn)練時(shí),事情變得更加有趣。像LAION這樣的開源數(shù)據(jù)集包含數(shù)以百萬(wàn)計(jì)的圖像及其相應(yīng)的文本描述。當(dāng)文本和圖像嵌入在這些圖像/標(biāo)題對(duì)進(jìn)行聯(lián)合訓(xùn)練或微調(diào)時(shí),它們會(huì)學(xué)習(xí)視覺(jué)和文本信息之間的關(guān)聯(lián)。這就是深度學(xué)習(xí)技術(shù)背后的思想,例如對(duì)比圖像語(yǔ)言預(yù)訓(xùn)練(CLIP)。
現(xiàn)在,有了可以從文本轉(zhuǎn)換為視覺(jué)嵌入的工具。當(dāng)為這個(gè)聯(lián)合模型提供文本描述時(shí),它將創(chuàng)建文本嵌入及其相應(yīng)的圖像嵌入。然后,可以將圖像嵌入與數(shù)據(jù)庫(kù)中的圖像進(jìn)行比較,并檢索與它最密切相關(guān)的圖像。這基本上就是人工智能圖像搜索的工作原理。
這種機(jī)制的美妙之處在于,用戶將能夠基于圖像視覺(jué)特征的文本描述檢索圖像,即使這一描述沒(méi)有在其元數(shù)據(jù)中注冊(cè)。你可以使用豐富的搜索詞,這在以前是不可能實(shí)現(xiàn)的,例如“郁郁蔥蔥的森林籠罩著晨霧,燦爛的陽(yáng)光透過(guò)高大的松林,草地上生長(zhǎng)著一些蘑菇。”
在上面的例子中,人工智能搜索返回了一組圖像,其視覺(jué)特征與這個(gè)查詢相匹配。其中很多的文字描述都沒(méi)有包含查詢的關(guān)鍵詞。但它們的嵌入與查詢的嵌入相似。如果沒(méi)有人工智能圖像搜索,要找到合適的圖像就會(huì)困難得多。
從發(fā)現(xiàn)到創(chuàng)造
有時(shí),人們尋找的圖像并不存在,甚至通過(guò)人工智能搜索也無(wú)法找到它。在這種情況下,生成式人工智能可以通過(guò)兩種方式之一幫助用戶實(shí)現(xiàn)預(yù)期的結(jié)果。
第一種方法是根據(jù)用戶的查詢從頭創(chuàng)建一個(gè)新圖像。在這種情況下,文本到圖像生成模型(例如Stable Diffusion或DALL-E)為用戶的查詢創(chuàng)建嵌入,并使用它創(chuàng)建圖像。生成模型利用對(duì)比圖像語(yǔ)言預(yù)訓(xùn)練(CLIP)等聯(lián)合嵌入模型和其他架構(gòu)(例如Transformer或擴(kuò)散模型)將嵌入的數(shù)值轉(zhuǎn)換為令人驚嘆的圖像。
第二種方法是采用現(xiàn)有的圖像,并使用生成模型根據(jù)自己的喜好進(jìn)行編輯。例如,在返回松林的圖片中,草地上的蘑菇是缺失的。用戶可以使用其中一張認(rèn)為合適的圖像作為起點(diǎn),并使用生成模型將蘑菇添加到其中。
生成式人工智能創(chuàng)造了一個(gè)全新的范例,模糊了發(fā)現(xiàn)和創(chuàng)造力之間的界限。而在單一界面中,用戶可以查找圖像、編輯圖像或創(chuàng)建全新的圖像。