如何教人工智能模仿人類的思想和行為

沃卡惠
行業(yè)資訊
2023-08-10 09:03:35
419

人工智能系統(tǒng)可以模仿人類智能的某些方面，并取得令人印象深刻的結(jié)果，包括檢測物體、導(dǎo)航環(huán)境、下棋，甚至生成文本。但是克隆人類行為也有其局限性。如果沒有思想作為行動的后盾，人工智能系統(tǒng)在面對新情況時可能會變得脆弱，并犯不可預(yù)測的錯誤。

英屬哥倫比亞大學(xué)和矢量研究所的科學(xué)家最近的一個項(xiàng)目展示了讓人工智能系統(tǒng)像人類一樣思考的好處。他們提出了一種名為“思想克隆”的技術(shù)，可以同時訓(xùn)練人工智能的思想和行動。

思想克隆可以使深度學(xué)習(xí)模型為其行為生成一種推理過程，并將該推理傳遞給人類操作員。思想克隆有很多好處，包括培訓(xùn)效率、故障排除和錯誤修復(fù)，以及防止有害行為。

行為克隆vs思想克隆

許多深度學(xué)習(xí)系統(tǒng)都是在人類生成的數(shù)據(jù)上進(jìn)行訓(xùn)練的。例如，訓(xùn)練數(shù)據(jù)可以是國際象棋游戲中的走法列表，也可以是策略游戲中的動作序列。它可以是現(xiàn)實(shí)世界的行為，比如完成倉庫中的任務(wù)。通過在一個足夠大的數(shù)據(jù)集上進(jìn)行訓(xùn)練，人工智能代理將能夠在該任務(wù)上創(chuàng)建一個人類行為模型。

克隆行為

但是，雖然該模型可以學(xué)習(xí)模仿人類行為并在許多任務(wù)中達(dá)到相同的結(jié)果，但它不一定能學(xué)習(xí)這些行為背后的推理。如果沒有思維過程，人工智能代理將無法將學(xué)習(xí)到的動作推廣到新的設(shè)置中。因此，它將需要一個更大的訓(xùn)練數(shù)據(jù)集，包括所有可能的場景。面對看不見的邊緣情況，它仍然是不可預(yù)測的。

思想克隆背后的假設(shè)是，如果你訓(xùn)練一個模型的行為和相應(yīng)的思想，那么這個模型將學(xué)習(xí)行為和目標(biāo)之間的正確聯(lián)系。它還將能夠生成并傳達(dá)其行為背后的推理。

為了在ML模型中實(shí)現(xiàn)思想克隆，您需要在訓(xùn)練期間為模型提供多個信息流。一種是行動觀察，例如玩家在游戲中所執(zhí)行的移動。第二種是思想流，比如動作背后的解釋。例如，在即時戰(zhàn)略游戲中，AI觀察到玩家在橋前移動了幾個單位。同時，它會收到一個文本解釋，上面寫著“阻止敵軍過橋”之類的內(nèi)容。

認(rèn)為克隆

這種方法有幾個好處。首先，人工智能代理將學(xué)習(xí)得更快，因?yàn)樗麄冃枰俚睦觼砼宄槭裁茨硞€動作很重要。其次，他們會表現(xiàn)得更好，因?yàn)樗麄兡軌驅(qū)⑼瑯拥耐评硗茝V到看不見的情況。第三，他們將通過表達(dá)他們所采取的每一個行動背后的原因來提高安全性。例如，如果AI代理正在追求正確的目標(biāo)，但打算采取不安全的行動(例如，為了按時到達(dá)目的地而闖紅燈)，那么它可以在造成損害之前被阻止。因此，如果它出于錯誤的原因采取了正確的行動，它可以被引導(dǎo)到正確的方向上。

教人工智能模仿人類思維

研究人員提出了一個由兩部分組成的深度學(xué)習(xí)架構(gòu)，試圖完成一項(xiàng)任務(wù)。“上層組件”處理一系列想法和環(huán)境觀察，并試圖預(yù)測下一個有助于模型實(shí)現(xiàn)其目標(biāo)的想法。“下層組件”接收環(huán)境觀察和上層組件的輸出，并嘗試預(yù)測要采取的正確行動。

模型重復(fù)這個過程，并使用每個階段的結(jié)果作為下一階段的輸入。在訓(xùn)練期間，模型可以訪問人類產(chǎn)生的思想和行動序列。它將這些信息作為基本事實(shí)來調(diào)整參數(shù)，并將思想和行動預(yù)測的損失降至最低。經(jīng)過訓(xùn)練的模型應(yīng)該能夠?yàn)榭床灰姷娜蝿?wù)生成正確的思想和行動序列。

該模型使用轉(zhuǎn)換器、長短期記憶(LSTM)網(wǎng)絡(luò)和視覺語言模型來處理文本命令和視覺數(shù)據(jù)，將它們?nèi)诤显谝黄?，并跨多個步驟跟蹤嵌入。研究人員在GitHub上發(fā)布了他們的結(jié)果，包括模型權(quán)重，訓(xùn)練模型的代碼，以及生成訓(xùn)練和測試數(shù)據(jù)的代碼。(在人工智能實(shí)驗(yàn)室減少分享并對模型細(xì)節(jié)保密的背景下，這是一個有希望的進(jìn)展。)

思想克隆架構(gòu)(來源:arXiv)

在他們的實(shí)驗(yàn)中，作者使用了BabyAI，這是一個網(wǎng)格世界平臺，人工智能代理必須完成不同的任務(wù)。代理可以執(zhí)行各種操作，如撿起物體、開門和導(dǎo)航房間。BabyAI平臺的優(yōu)勢在于，它可以通過編程方式生成世界、任務(wù)、解決方案和敘述來訓(xùn)練AI系統(tǒng)。研究人員創(chuàng)建了一個包含100萬個場景的數(shù)據(jù)集來訓(xùn)練他們的思維克隆模型。

為了測試他們的技術(shù)，研究人員創(chuàng)建了兩個不同的模型。第一個被訓(xùn)練為純粹的行為克隆，這意味著它只接受環(huán)境觀察。第二個是思想克隆訓(xùn)練，接收行為數(shù)據(jù)和關(guān)于每個動作背后原因的明文解釋流。

結(jié)果表明，思想克隆明顯優(yōu)于行為克隆，并且收斂速度更快，因?yàn)樗枰俚挠?xùn)練樣本來推廣到未見過的樣本。他們的實(shí)驗(yàn)還表明，思想克隆在非分布(out-distribution,OOD)示例(與模型訓(xùn)練示例非常不同的任務(wù))中的表現(xiàn)也優(yōu)于行為克隆。

思想克隆還使研究人員能夠更好地理解人工智能代理的行為，因?yàn)槊恳徊剑加米匀徽Z言進(jìn)行規(guī)劃和推理。事實(shí)上，這種可解釋性特征使研究人員能夠在訓(xùn)練期間調(diào)查模型的一些早期錯誤，并迅速調(diào)整他們的訓(xùn)練制度，使其朝著正確的方向發(fā)展。

考慮在BabyAI環(huán)境下克隆(來源:arXiv)

在安全方面，研究人員開發(fā)了一種叫做預(yù)防犯罪干預(yù)的技術(shù)，通過檢查模型的思維流來自動檢測和防止危險行為。他們觀察到，在他們的實(shí)驗(yàn)環(huán)境中，犯罪預(yù)防干預(yù)“幾乎完全消除了所有不安全行為，從而展示了TC代理在提高人工智能安全性方面的巨大潛力。”

將思想克隆應(yīng)用于現(xiàn)實(shí)世界的人工智能

認(rèn)為克隆是人工智能研究和發(fā)展的一個有趣和有前途的方向。它適用于其他試圖創(chuàng)建具身和多模態(tài)深度學(xué)習(xí)模型的活動，例如谷歌的PaLM-E和DeepMind的Gato。人類智能比目前的人工智能強(qiáng)大得多的部分原因是我們能夠同時吸收和處理不同形式的信息。實(shí)驗(yàn)表明，多模態(tài)人工智能系統(tǒng)的魯棒性和效率要高得多。

然而，思想克隆并非沒有挑戰(zhàn)。首先，BabyAI環(huán)境簡單且具有確定性，這使得深度學(xué)習(xí)模型更容易了解其細(xì)微差別和復(fù)雜性。現(xiàn)實(shí)世界更混亂，更不可預(yù)測，也更復(fù)雜。

這種方法的另一個挑戰(zhàn)是創(chuàng)建訓(xùn)練數(shù)據(jù)。在執(zhí)行任務(wù)時，人們不一定要敘述他們的每一個動作。我們共有的知識和相似的生理特征，使我們不需要明確地說出我們的每一個意圖。作者提出了一種解決方案，可以使用YouTube視頻，讓人們在執(zhí)行任務(wù)時進(jìn)行解釋。然而，即便如此，人類的行為也充滿了無法用純文本解釋的隱含原因。

思想克隆在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)和復(fù)雜問題上的表現(xiàn)還有待觀察。但正如該論文的作者所說，它為“人工智能、人工智能安全性和可解釋性的科學(xué)研究”創(chuàng)造了新的途徑。

上一篇：生成式人工智能在農(nóng)業(yè)中的應(yīng)用

下一篇：生成式人工智能和數(shù)據(jù)如何塑造未來的行業(yè)