人工智能系統(tǒng)可以模仿人類智能的某些方面,并取得令人印象深刻的結(jié)果,包括檢測物體、導(dǎo)航環(huán)境、下棋,甚至生成文本。但是克隆人類行為也有其局限性。如果沒有思想作為行動的后盾,人工智能系統(tǒng)在面對新情況時(shí)可能會變得脆弱,并犯不可預(yù)測的錯(cuò)誤。
英屬哥倫比亞大學(xué)和矢量研究所的科學(xué)家最近的一個(gè)項(xiàng)目展示了讓人工智能系統(tǒng)像人類一樣思考的好處。他們提出了一種名為“思想克隆”的技術(shù),可以同時(shí)訓(xùn)練人工智能的思想和行動。
思想克隆可以使深度學(xué)習(xí)模型為其行為生成一種推理過程,并將該推理傳遞給人類操作員。思想克隆有很多好處,包括培訓(xùn)效率、故障排除和錯(cuò)誤修復(fù),以及防止有害行為。
行為克隆vs思想克隆
許多深度學(xué)習(xí)系統(tǒng)都是在人類生成的數(shù)據(jù)上進(jìn)行訓(xùn)練的。例如,訓(xùn)練數(shù)據(jù)可以是國際象棋游戲中的走法列表,也可以是策略游戲中的動作序列。它可以是現(xiàn)實(shí)世界的行為,比如完成倉庫中的任務(wù)。通過在一個(gè)足夠大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,人工智能代理將能夠在該任務(wù)上創(chuàng)建一個(gè)人類行為模型。
克隆行為
但是,雖然該模型可以學(xué)習(xí)模仿人類行為并在許多任務(wù)中達(dá)到相同的結(jié)果,但它不一定能學(xué)習(xí)這些行為背后的推理。如果沒有思維過程,人工智能代理將無法將學(xué)習(xí)到的動作推廣到新的設(shè)置中。因此,它將需要一個(gè)更大的訓(xùn)練數(shù)據(jù)集,包括所有可能的場景。面對看不見的邊緣情況,它仍然是不可預(yù)測的。
思想克隆背后的假設(shè)是,如果你訓(xùn)練一個(gè)模型的行為和相應(yīng)的思想,那么這個(gè)模型將學(xué)習(xí)行為和目標(biāo)之間的正確聯(lián)系。它還將能夠生成并傳達(dá)其行為背后的推理。
為了在ML模型中實(shí)現(xiàn)思想克隆,您需要在訓(xùn)練期間為模型提供多個(gè)信息流。一種是行動觀察,例如玩家在游戲中所執(zhí)行的移動。第二種是思想流,比如動作背后的解釋。例如,在即時(shí)戰(zhàn)略游戲中,AI觀察到玩家在橋前移動了幾個(gè)單位。同時(shí),它會收到一個(gè)文本解釋,上面寫著“阻止敵軍過橋”之類的內(nèi)容。
認(rèn)為克隆
這種方法有幾個(gè)好處。首先,人工智能代理將學(xué)習(xí)得更快,因?yàn)樗麄冃枰俚睦觼砼宄槭裁茨硞€(gè)動作很重要。其次,他們會表現(xiàn)得更好,因?yàn)樗麄兡軌驅(qū)⑼瑯拥耐评硗茝V到看不見的情況。第三,他們將通過表達(dá)他們所采取的每一個(gè)行動背后的原因來提高安全性。例如,如果AI代理正在追求正確的目標(biāo),但打算采取不安全的行動(例如,為了按時(shí)到達(dá)目的地而闖紅燈),那么它可以在造成損害之前被阻止。因此,如果它出于錯(cuò)誤的原因采取了正確的行動,它可以被引導(dǎo)到正確的方向上。
教人工智能模仿人類思維
研究人員提出了一個(gè)由兩部分組成的深度學(xué)習(xí)架構(gòu),試圖完成一項(xiàng)任務(wù)。“上層組件”處理一系列想法和環(huán)境觀察,并試圖預(yù)測下一個(gè)有助于模型實(shí)現(xiàn)其目標(biāo)的想法。“下層組件”接收環(huán)境觀察和上層組件的輸出,并嘗試預(yù)測要采取的正確行動。
模型重復(fù)這個(gè)過程,并使用每個(gè)階段的結(jié)果作為下一階段的輸入。在訓(xùn)練期間,模型可以訪問人類產(chǎn)生的思想和行動序列。它將這些信息作為基本事實(shí)來調(diào)整參數(shù),并將思想和行動預(yù)測的損失降至最低。經(jīng)過訓(xùn)練的模型應(yīng)該能夠?yàn)榭床灰姷娜蝿?wù)生成正確的思想和行動序列。
該模型使用轉(zhuǎn)換器、長短期記憶(LSTM)網(wǎng)絡(luò)和視覺語言模型來處理文本命令和視覺數(shù)據(jù),將它們?nèi)诤显谝黄?,并跨多個(gè)步驟跟蹤嵌入。研究人員在GitHub上發(fā)布了他們的結(jié)果,包括模型權(quán)重,訓(xùn)練模型的代碼,以及生成訓(xùn)練和測試數(shù)據(jù)的代碼。(在人工智能實(shí)驗(yàn)室減少分享并對模型細(xì)節(jié)保密的背景下,這是一個(gè)有希望的進(jìn)展。)
思想克隆架構(gòu)(來源:arXiv)
在他們的實(shí)驗(yàn)中,作者使用了BabyAI,這是一個(gè)網(wǎng)格世界平臺,人工智能代理必須完成不同的任務(wù)。代理可以執(zhí)行各種操作,如撿起物體、開門和導(dǎo)航房間。BabyAI平臺的優(yōu)勢在于,它可以通過編程方式生成世界、任務(wù)、解決方案和敘述來訓(xùn)練AI系統(tǒng)。研究人員創(chuàng)建了一個(gè)包含100萬個(gè)場景的數(shù)據(jù)集來訓(xùn)練他們的思維克隆模型。
為了測試他們的技術(shù),研究人員創(chuàng)建了兩個(gè)不同的模型。第一個(gè)被訓(xùn)練為純粹的行為克隆,這意味著它只接受環(huán)境觀察。第二個(gè)是思想克隆訓(xùn)練,接收行為數(shù)據(jù)和關(guān)于每個(gè)動作背后原因的明文解釋流。
結(jié)果表明,思想克隆明顯優(yōu)于行為克隆,并且收斂速度更快,因?yàn)樗枰俚挠?xùn)練樣本來推廣到未見過的樣本。他們的實(shí)驗(yàn)還表明,思想克隆在非分布(out-distribution,OOD)示例(與模型訓(xùn)練示例非常不同的任務(wù))中的表現(xiàn)也優(yōu)于行為克隆。
思想克隆還使研究人員能夠更好地理解人工智能代理的行為,因?yàn)槊恳徊?,它都用自然語言進(jìn)行規(guī)劃和推理。事實(shí)上,這種可解釋性特征使研究人員能夠在訓(xùn)練期間調(diào)查模型的一些早期錯(cuò)誤,并迅速調(diào)整他們的訓(xùn)練制度,使其朝著正確的方向發(fā)展。
考慮在BabyAI環(huán)境下克隆(來源:arXiv)
在安全方面,研究人員開發(fā)了一種叫做預(yù)防犯罪干預(yù)的技術(shù),通過檢查模型的思維流來自動檢測和防止危險(xiǎn)行為。他們觀察到,在他們的實(shí)驗(yàn)環(huán)境中,犯罪預(yù)防干預(yù)“幾乎完全消除了所有不安全行為,從而展示了TC代理在提高人工智能安全性方面的巨大潛力。”
將思想克隆應(yīng)用于現(xiàn)實(shí)世界的人工智能
認(rèn)為克隆是人工智能研究和發(fā)展的一個(gè)有趣和有前途的方向。它適用于其他試圖創(chuàng)建具身和多模態(tài)深度學(xué)習(xí)模型的活動,例如谷歌的PaLM-E和DeepMind的Gato。人類智能比目前的人工智能強(qiáng)大得多的部分原因是我們能夠同時(shí)吸收和處理不同形式的信息。實(shí)驗(yàn)表明,多模態(tài)人工智能系統(tǒng)的魯棒性和效率要高得多。
然而,思想克隆并非沒有挑戰(zhàn)。首先,BabyAI環(huán)境簡單且具有確定性,這使得深度學(xué)習(xí)模型更容易了解其細(xì)微差別和復(fù)雜性?,F(xiàn)實(shí)世界更混亂,更不可預(yù)測,也更復(fù)雜。
這種方法的另一個(gè)挑戰(zhàn)是創(chuàng)建訓(xùn)練數(shù)據(jù)。在執(zhí)行任務(wù)時(shí),人們不一定要敘述他們的每一個(gè)動作。我們共有的知識和相似的生理特征,使我們不需要明確地說出我們的每一個(gè)意圖。作者提出了一種解決方案,可以使用YouTube視頻,讓人們在執(zhí)行任務(wù)時(shí)進(jìn)行解釋。然而,即便如此,人類的行為也充滿了無法用純文本解釋的隱含原因。
思想克隆在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)和復(fù)雜問題上的表現(xiàn)還有待觀察。但正如該論文的作者所說,它為“人工智能、人工智能安全性和可解釋性的科學(xué)研究”創(chuàng)造了新的途徑。