人工智能系統(tǒng)可以模仿人類智能的某些方面,并取得令人印象深刻的結(jié)果,包括檢測物體、導(dǎo)航環(huán)境、下棋,甚至生成文本。但是克隆人類行為也有其局限性。如果沒有思想作為行動的后盾,人工智能系統(tǒng)在面對新情況時可能會變得脆弱,并犯不可預(yù)測的錯誤。
英屬哥倫比亞大學和矢量研究所的科學家最近的一個項目展示了讓人工智能系統(tǒng)像人類一樣思考的好處。他們提出了一種名為“思想克隆”的技術(shù),可以同時訓練人工智能的思想和行動。
思想克隆可以使深度學習模型為其行為生成一種推理過程,并將該推理傳遞給人類操作員。思想克隆有很多好處,包括培訓效率、故障排除和錯誤修復(fù),以及防止有害行為。
行為克隆vs思想克隆
許多深度學習系統(tǒng)都是在人類生成的數(shù)據(jù)上進行訓練的。例如,訓練數(shù)據(jù)可以是國際象棋游戲中的走法列表,也可以是策略游戲中的動作序列。它可以是現(xiàn)實世界的行為,比如完成倉庫中的任務(wù)。通過在一個足夠大的數(shù)據(jù)集上進行訓練,人工智能代理將能夠在該任務(wù)上創(chuàng)建一個人類行為模型。
克隆行為
但是,雖然該模型可以學習模仿人類行為并在許多任務(wù)中達到相同的結(jié)果,但它不一定能學習這些行為背后的推理。如果沒有思維過程,人工智能代理將無法將學習到的動作推廣到新的設(shè)置中。因此,它將需要一個更大的訓練數(shù)據(jù)集,包括所有可能的場景。面對看不見的邊緣情況,它仍然是不可預(yù)測的。
思想克隆背后的假設(shè)是,如果你訓練一個模型的行為和相應(yīng)的思想,那么這個模型將學習行為和目標之間的正確聯(lián)系。它還將能夠生成并傳達其行為背后的推理。
為了在ML模型中實現(xiàn)思想克隆,您需要在訓練期間為模型提供多個信息流。一種是行動觀察,例如玩家在游戲中所執(zhí)行的移動。第二種是思想流,比如動作背后的解釋。例如,在即時戰(zhàn)略游戲中,AI觀察到玩家在橋前移動了幾個單位。同時,它會收到一個文本解釋,上面寫著“阻止敵軍過橋”之類的內(nèi)容。
認為克隆
這種方法有幾個好處。首先,人工智能代理將學習得更快,因為他們需要更少的例子來弄清楚為什么某個動作很重要。其次,他們會表現(xiàn)得更好,因為他們能夠?qū)⑼瑯拥耐评硗茝V到看不見的情況。第三,他們將通過表達他們所采取的每一個行動背后的原因來提高安全性。例如,如果AI代理正在追求正確的目標,但打算采取不安全的行動(例如,為了按時到達目的地而闖紅燈),那么它可以在造成損害之前被阻止。因此,如果它出于錯誤的原因采取了正確的行動,它可以被引導(dǎo)到正確的方向上。
教人工智能模仿人類思維
研究人員提出了一個由兩部分組成的深度學習架構(gòu),試圖完成一項任務(wù)。“上層組件”處理一系列想法和環(huán)境觀察,并試圖預(yù)測下一個有助于模型實現(xiàn)其目標的想法。“下層組件”接收環(huán)境觀察和上層組件的輸出,并嘗試預(yù)測要采取的正確行動。
模型重復(fù)這個過程,并使用每個階段的結(jié)果作為下一階段的輸入。在訓練期間,模型可以訪問人類產(chǎn)生的思想和行動序列。它將這些信息作為基本事實來調(diào)整參數(shù),并將思想和行動預(yù)測的損失降至最低。經(jīng)過訓練的模型應(yīng)該能夠為看不見的任務(wù)生成正確的思想和行動序列。
該模型使用轉(zhuǎn)換器、長短期記憶(LSTM)網(wǎng)絡(luò)和視覺語言模型來處理文本命令和視覺數(shù)據(jù),將它們?nèi)诤显谝黄穑⒖缍鄠€步驟跟蹤嵌入。研究人員在GitHub上發(fā)布了他們的結(jié)果,包括模型權(quán)重,訓練模型的代碼,以及生成訓練和測試數(shù)據(jù)的代碼。(在人工智能實驗室減少分享并對模型細節(jié)保密的背景下,這是一個有希望的進展。)
思想克隆架構(gòu)(來源:arXiv)
在他們的實驗中,作者使用了BabyAI,這是一個網(wǎng)格世界平臺,人工智能代理必須完成不同的任務(wù)。代理可以執(zhí)行各種操作,如撿起物體、開門和導(dǎo)航房間。BabyAI平臺的優(yōu)勢在于,它可以通過編程方式生成世界、任務(wù)、解決方案和敘述來訓練AI系統(tǒng)。研究人員創(chuàng)建了一個包含100萬個場景的數(shù)據(jù)集來訓練他們的思維克隆模型。
為了測試他們的技術(shù),研究人員創(chuàng)建了兩個不同的模型。第一個被訓練為純粹的行為克隆,這意味著它只接受環(huán)境觀察。第二個是思想克隆訓練,接收行為數(shù)據(jù)和關(guān)于每個動作背后原因的明文解釋流。
結(jié)果表明,思想克隆明顯優(yōu)于行為克隆,并且收斂速度更快,因為它需要更少的訓練樣本來推廣到未見過的樣本。他們的實驗還表明,思想克隆在非分布(out-distribution,OOD)示例(與模型訓練示例非常不同的任務(wù))中的表現(xiàn)也優(yōu)于行為克隆。
思想克隆還使研究人員能夠更好地理解人工智能代理的行為,因為每一步,它都用自然語言進行規(guī)劃和推理。事實上,這種可解釋性特征使研究人員能夠在訓練期間調(diào)查模型的一些早期錯誤,并迅速調(diào)整他們的訓練制度,使其朝著正確的方向發(fā)展。
考慮在BabyAI環(huán)境下克隆(來源:arXiv)
在安全方面,研究人員開發(fā)了一種叫做預(yù)防犯罪干預(yù)的技術(shù),通過檢查模型的思維流來自動檢測和防止危險行為。他們觀察到,在他們的實驗環(huán)境中,犯罪預(yù)防干預(yù)“幾乎完全消除了所有不安全行為,從而展示了TC代理在提高人工智能安全性方面的巨大潛力。”
將思想克隆應(yīng)用于現(xiàn)實世界的人工智能
認為克隆是人工智能研究和發(fā)展的一個有趣和有前途的方向。它適用于其他試圖創(chuàng)建具身和多模態(tài)深度學習模型的活動,例如谷歌的PaLM-E和DeepMind的Gato。人類智能比目前的人工智能強大得多的部分原因是我們能夠同時吸收和處理不同形式的信息。實驗表明,多模態(tài)人工智能系統(tǒng)的魯棒性和效率要高得多。
然而,思想克隆并非沒有挑戰(zhàn)。首先,BabyAI環(huán)境簡單且具有確定性,這使得深度學習模型更容易了解其細微差別和復(fù)雜性?,F(xiàn)實世界更混亂,更不可預(yù)測,也更復(fù)雜。
這種方法的另一個挑戰(zhàn)是創(chuàng)建訓練數(shù)據(jù)。在執(zhí)行任務(wù)時,人們不一定要敘述他們的每一個動作。我們共有的知識和相似的生理特征,使我們不需要明確地說出我們的每一個意圖。作者提出了一種解決方案,可以使用YouTube視頻,讓人們在執(zhí)行任務(wù)時進行解釋。然而,即便如此,人類的行為也充滿了無法用純文本解釋的隱含原因。
思想克隆在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)和復(fù)雜問題上的表現(xiàn)還有待觀察。但正如該論文的作者所說,它為“人工智能、人工智能安全性和可解釋性的科學研究”創(chuàng)造了新的途徑。