隨著大模型的發(fā)展,通用智能不斷迭代升級(jí),應(yīng)用模式也不斷創(chuàng)新,從簡(jiǎn)單的Prompt應(yīng)用、RAG(搜索增強(qiáng)生成)再到AI Agent(人工智能代理)。其中AI Agent一直是個(gè)火熱的話題,未來(lái)將無(wú)處不在。比爾蓋茨還宣稱終極技術(shù)競(jìng)賽將圍繞著開(kāi)發(fā)頂級(jí)AI代理。他說(shuō):“你再也不會(huì)去搜索網(wǎng)站或亞馬遜了......”。說(shuō)明他看好人工智能給人機(jī)交互模式帶來(lái)的巨大變化,也認(rèn)可AI Agent在當(dāng)中扮演的重要角色。
AI Agent 是一個(gè)由人工智能驅(qū)動(dòng)的虛擬助手,它能夠幫助實(shí)現(xiàn)流程自動(dòng)化、生成見(jiàn)解、提升效率。可以作為員工或合作伙伴幫助實(shí)現(xiàn)人類賦予的目標(biāo)。
恒溫器就是一個(gè)簡(jiǎn)單的AI Agent例子,它可以根據(jù)特定的時(shí)間調(diào)節(jié)加熱達(dá)到特定的溫度。它通過(guò)溫度傳感器和時(shí)鐘感知環(huán)境。它通過(guò)一個(gè)開(kāi)關(guān)采取行動(dòng),可以根據(jù)實(shí)際溫度或時(shí)間打開(kāi)或關(guān)閉加熱。恒溫器可以通過(guò)添加AI功能變成一個(gè)更復(fù)雜的AI代理,使其能夠從居住在房子里的人的習(xí)慣中學(xué)習(xí)。
AI Agent可以根據(jù)Agent的行為對(duì)感知智能和能力的影響模式,分為不同類型。
本文主要介紹6種不同的AI Agent。包括:
Simple reflex agents
Model-based agents
Goal-based agents
Utility-based agents
Learning agents
Hierarchical agents
1.Simple reflex agents:簡(jiǎn)單反射代理
簡(jiǎn)單的反射代理是一個(gè)可以根據(jù)預(yù)定義規(guī)則做出決策的AI系統(tǒng)。它只對(duì)當(dāng)前的情況作出反應(yīng),而不考慮過(guò)去或未來(lái)的后果。
簡(jiǎn)單的反射代理適合于具有穩(wěn)定的規(guī)則和直接行動(dòng)的環(huán)境,因?yàn)樗男袨榧兇馐欠磻?yīng)性的,對(duì)環(huán)境變化能夠即時(shí)做出響應(yīng)。
(1) 原理:
簡(jiǎn)單反射代理通過(guò)遵循條件、操作規(guī)則來(lái)執(zhí)行其功能,該規(guī)則指定在特定條件下要采取的操作。
(2) 例子:
一個(gè)基于規(guī)則的系統(tǒng),用于實(shí)現(xiàn)智能客服。如果客戶的消息包含“密碼重置”的關(guān)鍵字,則系統(tǒng)可以自動(dòng)生成包含關(guān)于重置密碼的指令的預(yù)定義響應(yīng)。
(3) 優(yōu)勢(shì):
簡(jiǎn)易:易于設(shè)計(jì)和實(shí)施,計(jì)算資源需求少,無(wú)需大量培訓(xùn)或復(fù)雜的硬件。
實(shí)施:能夠?qū)崟r(shí)響應(yīng)環(huán)境變化。
高可靠:在提供輸入的傳感器準(zhǔn)確且規(guī)則設(shè)計(jì)良好的情況下具備高可靠性。
(4) 弱勢(shì):
如果輸入傳感器有故障或規(guī)則設(shè)計(jì)不當(dāng),則容易出錯(cuò)。
沒(méi)有記憶或狀態(tài),這限制了它們的適用范圍。
無(wú)法處理部分未明確編程的環(huán)境變化。
受限于一組特定的操作,無(wú)法適應(yīng)新的情況。
2.Model-based agents:基于模型的代理
基于模型的代理,基于當(dāng)前的感知和表示不可觀察單詞的內(nèi)部狀態(tài)來(lái)執(zhí)行動(dòng)作。它基于兩個(gè)因素來(lái)更新其內(nèi)部狀態(tài):
世界是如何獨(dú)立于Agent而演化的
Agent的行動(dòng)如何影響世界
(1) 原理:
基于模型的代理遵循條件+動(dòng)作規(guī)則,該規(guī)則指定在給定情況下要采取的適當(dāng)動(dòng)作。但與簡(jiǎn)單的反射代理不同,基于模型的代理還使用其內(nèi)部狀態(tài)來(lái)評(píng)估決策和行動(dòng)過(guò)程中的條件。
基于模型的代理分四個(gè)階段運(yùn)行:
感知:它通過(guò)傳感器感知世界的當(dāng)前狀態(tài)。
模型:它根據(jù)所見(jiàn)構(gòu)建世界的內(nèi)部模型。
原因:它使用自己的世界模型來(lái)決定如何根據(jù)一組預(yù)定義的規(guī)則或規(guī)則行事。
行為:代理人執(zhí)行其選擇的行為。
(2) 例子:
基于模型的代理最好的例子之一是:Amazon Bedrock。Amazon Bedrock是一項(xiàng)使用基礎(chǔ)模型來(lái)模擬運(yùn)營(yíng)、獲得見(jiàn)解并做出明智的決策,以實(shí)現(xiàn)有效的規(guī)劃和優(yōu)化的服務(wù)。
通過(guò)各種模型Bedrock可以獲得洞察力,預(yù)測(cè)結(jié)果并做出明智的決策。它不斷使用真實(shí)數(shù)據(jù)改進(jìn)其模型,使其能夠適應(yīng)和優(yōu)化其運(yùn)營(yíng)。
然后,Amazon Bedrock針對(duì)不同的場(chǎng)景進(jìn)行規(guī)劃,并通過(guò)模擬和調(diào)整模型參數(shù)來(lái)選擇最佳策略。
(3) 優(yōu)勢(shì):
基于對(duì)世界的理解做出快速有效的決策。
通過(guò)構(gòu)建世界的內(nèi)部模型,更好地做出準(zhǔn)確的決策。
通過(guò)更新內(nèi)部模型來(lái)適應(yīng)環(huán)境變化。
通過(guò)使用其內(nèi)部狀態(tài)和規(guī)則來(lái)確定條件。
(4) 弱勢(shì):
建設(shè)和維護(hù)模型的計(jì)算成本可能很高。
這些模型可能無(wú)法很好地捕捉真實(shí)世界環(huán)境的復(fù)雜性。
模型無(wú)法預(yù)測(cè)可能出現(xiàn)的所有潛在情況。
模型需要經(jīng)常更新以保持最新。
模型可能在理解能力和解釋能力方面存在挑戰(zhàn)。
3.Goal-based agents:基于目標(biāo)的代理
基于目標(biāo)的代理是利用環(huán)境信息來(lái)實(shí)現(xiàn)特定目標(biāo)的人工智能智能體。他們使用搜索算法在給定的環(huán)境中找到實(shí)現(xiàn)目標(biāo)的最有效路徑。
這些代理也稱為基于規(guī)則的代理,因?yàn)樗鼈冏裱A(yù)定義的規(guī)則來(lái)實(shí)現(xiàn)目標(biāo),并根據(jù)特定條件采取特定行動(dòng)。
基于目標(biāo)的代理易于設(shè)計(jì),可以處理復(fù)雜的任務(wù)。它們可以用于各種應(yīng)用,如機(jī)器人、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等。
與基本模型不同,基于目標(biāo)的代理可以根據(jù)其期望的結(jié)果或目標(biāo)來(lái)確定決策和行動(dòng)過(guò)程的最佳路徑。
(1) 原理:
給定一個(gè)計(jì)劃,基于目標(biāo)的代理會(huì)試圖選擇最佳策略來(lái)實(shí)現(xiàn)目標(biāo),然后使用搜索算法來(lái)找到到達(dá)目標(biāo)的有效路徑。
基于目標(biāo)的代理的工作模式可以分為五個(gè)步驟:
感知:智能體使用傳感器或其他輸入設(shè)備感知其環(huán)境,以收集有關(guān)其周圍環(huán)境的信息。
推理:智能體分析收集的信息,并決定最佳行動(dòng)方案以實(shí)現(xiàn)其目標(biāo)。
行動(dòng):智能體采取行動(dòng)來(lái)實(shí)現(xiàn)其目標(biāo),例如移動(dòng)或操縱環(huán)境中的對(duì)象。
評(píng)估:采取行動(dòng)后,智能體評(píng)估其實(shí)現(xiàn)目標(biāo)的進(jìn)展,并在必要時(shí)調(diào)整其行動(dòng)。
目標(biāo)完成:一旦智能體實(shí)現(xiàn)了目標(biāo),它要么停止工作,要么開(kāi)始為新的目標(biāo)工作。
(2) 例子:
Google Bard 是一個(gè)學(xué)習(xí)的媒介。從某種意義上來(lái)說(shuō)它也是一個(gè)基于目標(biāo)的代理。作為一個(gè)基于目標(biāo)的代理,它的目標(biāo)是為用戶查詢并提供高質(zhì)量的響應(yīng)。它選擇的行動(dòng)可能有助于用戶找到他們所需要的信息,并實(shí)現(xiàn)他們獲得準(zhǔn)確和有用的回復(fù)的預(yù)期目標(biāo)。
(3) 優(yōu)勢(shì):
易于理解和實(shí)施。
有效實(shí)現(xiàn)特定目標(biāo)。
易于根據(jù)目標(biāo)完成情況評(píng)估績(jī)效。
它可以與其他AI技術(shù)相結(jié)合,以創(chuàng)建更高級(jí)的代理。
非常適合定義明確的結(jié)構(gòu)化環(huán)境。
它可用于各種應(yīng)用,如:機(jī)器人、游戲和自動(dòng)駕駛汽車。
(4) 弱勢(shì):
局限于特定的目標(biāo)。
無(wú)法適應(yīng)不斷變化的環(huán)境。
對(duì)于具有太多變量的復(fù)雜任務(wù)無(wú)效。
需要豐富的領(lǐng)域知識(shí)來(lái)定義目標(biāo)。
4.Utility-based agents:基于效用的代理
基于效用的代理是基于效用函數(shù)或價(jià)值最大化做出決策的AI代理。他們選擇具有最高預(yù)期效用的行動(dòng),這個(gè)選擇的結(jié)果決定了最終結(jié)果的好壞。這種模式更具靈活性、適應(yīng)性地處理復(fù)雜情況下的任務(wù)。
基于效用的代理通常用于必須在多個(gè)選項(xiàng)中進(jìn)行比較和選擇,例如:資源如何分配、任務(wù)如何調(diào)度、游戲如何進(jìn)行。
(1) 原理:
基于效用的代理旨在選擇導(dǎo)致高效用狀態(tài)的行為。為了實(shí)現(xiàn)這一點(diǎn),它需要對(duì)其環(huán)境進(jìn)行建模,可以是簡(jiǎn)單的,也可以是復(fù)雜的。
然后,根據(jù)概率分布和效用函數(shù)評(píng)估每個(gè)可能結(jié)果的期望效用。
最后,選擇具有最高期望效用的動(dòng)作,并在每個(gè)時(shí)間步長(zhǎng)重復(fù)此過(guò)程。
(2) 例子:
Anthropic Claude是一個(gè)人工智能工具,其目標(biāo)是幫助持卡人最大限度地提高他們使用卡片的獎(jiǎng)勵(lì),是一個(gè)基于效用的代理。
為了實(shí)現(xiàn)其目標(biāo),它采用了一個(gè)效用函數(shù),將代表成功或幸福的數(shù)值分配給不同的狀態(tài)(持卡人面臨的情況,如:購(gòu)買、支付賬單、兌換獎(jiǎng)勵(lì)等)。然后比較每個(gè)狀態(tài)下不同行為的結(jié)果,并根據(jù)其效用值進(jìn)行權(quán)衡決策。
此外,它使用啟發(fā)式和人工智能技術(shù)來(lái)簡(jiǎn)化和改進(jìn)決策。
(3) 優(yōu)勢(shì):
可處理廣泛的決策問(wèn)題
從經(jīng)驗(yàn)中學(xué)習(xí)并調(diào)整其決策策略
為決策類應(yīng)用提供統(tǒng)一、客觀的框架
(4) 弱勢(shì):
需要一個(gè)準(zhǔn)確的環(huán)境模型,否則會(huì)導(dǎo)致決策錯(cuò)誤
計(jì)算成本高,需要大量計(jì)算
沒(méi)有考慮道德或倫理因素
人類很難理解和驗(yàn)證其過(guò)程
5.Learning agents:學(xué)習(xí)代理
學(xué)習(xí)代理是一種可以從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)并提高模型性能的模式。最初的代理具備基礎(chǔ)的知識(shí),并通過(guò)機(jī)器自動(dòng)適應(yīng)學(xué)習(xí),不斷成長(zhǎng)。
學(xué)習(xí)代理包括四個(gè)主要組件:
學(xué)習(xí)元素:它負(fù)責(zé)學(xué)習(xí),并根據(jù)從環(huán)境中獲得的經(jīng)驗(yàn)進(jìn)行改進(jìn)。
Citric:它通過(guò)代理的表現(xiàn)為預(yù)定義的標(biāo)準(zhǔn)向?qū)W習(xí)元素提供反饋。
績(jī)效要素:它根據(jù)來(lái)自學(xué)習(xí)要素和評(píng)論家的信息選擇并執(zhí)行外部行動(dòng)。
問(wèn)題生成器:它建議采取行動(dòng),為學(xué)習(xí)元素創(chuàng)造新的信息體驗(yàn),以提高其性能。
(1) 原理:
AI學(xué)習(xí)代理遵循一個(gè)基于反饋的觀察、學(xué)習(xí)和行動(dòng)的閉環(huán)。他們與環(huán)境互動(dòng),從反饋中學(xué)習(xí),并為未來(lái)的互動(dòng)修正自己的行為。
以下是這個(gè)閉環(huán)的工作過(guò)程:
觀察:學(xué)習(xí)代理通過(guò)傳感器或其他輸入觀察其環(huán)境。
學(xué)習(xí):智能體使用算法和統(tǒng)計(jì)模型分析數(shù)據(jù),從對(duì)其行為和性能的反饋中學(xué)習(xí)。
行動(dòng):基于它所學(xué)到的,智能體在其環(huán)境中采取行動(dòng),以決定如何行動(dòng)。
反饋:智能體通過(guò)獎(jiǎng)勵(lì)、懲罰或環(huán)境提示接收有關(guān)其行為和表現(xiàn)的反饋。
適應(yīng):使用反饋,代理改變其行為和決策過(guò)程,更新其知識(shí)并適應(yīng)其環(huán)境。
這個(gè)循環(huán)的過(guò)程會(huì)隨著時(shí)間的推移而重復(fù),使代理能夠不斷提高其性能并適應(yīng)不斷變化的環(huán)境。
(2) 例子:
AutoGPT是學(xué)習(xí)代理的一個(gè)很好的例子,假設(shè)你想買一部智能手機(jī)。所以,你給予AutoGPT一個(gè)提示,讓它對(duì)十大智能手機(jī)進(jìn)行市場(chǎng)研究,提供關(guān)于它們利弊的見(jiàn)解。
為了完成你的任務(wù),AutoGPT將通過(guò)探索各種網(wǎng)站和來(lái)源來(lái)分析十大智能手機(jī)的利弊。使用子代理程序評(píng)估網(wǎng)站的真實(shí)性。最后,它會(huì)生成一份詳細(xì)的報(bào)告,總結(jié)調(diào)查結(jié)果,并列出十大智能手機(jī)公司的利弊。
(3) 優(yōu)勢(shì):
Agent可以根據(jù)人工智能決策將想法轉(zhuǎn)化為行動(dòng)
學(xué)習(xí)代理可以遵循基本的命令,如:口頭指令、執(zhí)行任務(wù)
與執(zhí)行預(yù)定義操作的經(jīng)典代理不同,學(xué)習(xí)代理可以隨著時(shí)間的推移而進(jìn)化
人工智能代理考慮效用測(cè)量,使其更加現(xiàn)實(shí)
(4) 弱勢(shì):
可能產(chǎn)生傾向于有偏見(jiàn)或不正確的決策
開(kāi)發(fā)和維護(hù)成本高
需要大量計(jì)算資源
依賴大量數(shù)據(jù)
缺乏人類的直覺(jué)和創(chuàng)造力功能
6.Hierarchical agents:層級(jí)代理
層級(jí)代理是一種層次化結(jié)構(gòu),可以包含高級(jí)代理、低級(jí)代理,高級(jí)代理監(jiān)督低級(jí)代理。但是,這些級(jí)別可能會(huì)根據(jù)系統(tǒng)的復(fù)雜性而有所不同。
分層代理的應(yīng)用場(chǎng)景如:機(jī)器人、制造、運(yùn)輸?shù)?。它擅長(zhǎng)協(xié)調(diào)、處理多任務(wù)和子任務(wù)。
(1) 原理:
分層代理的工作方式就像一個(gè)公司的組織。它們將任務(wù)組織在由不同級(jí)別組成的結(jié)構(gòu)化層次結(jié)構(gòu)中,其中更高級(jí)別的代理監(jiān)督并將目標(biāo)分解為更小的任務(wù)。
隨后,較低級(jí)別的代理執(zhí)行這些任務(wù)并提供進(jìn)度報(bào)告。
在復(fù)雜系統(tǒng)的情況下,可能會(huì)有中級(jí)代理人協(xié)調(diào)較低級(jí)別代理人與較高級(jí)別代理人的活動(dòng)。
(2) 例子:
Google的UniPi就是一種創(chuàng)新的AI分層代理,它利用文本和視頻作為通用接口,使其能夠在各種環(huán)境中學(xué)習(xí)各種任務(wù)。
UniPi包括一個(gè)生成指令和演示的高級(jí)策略和一個(gè)執(zhí)行任務(wù)的低級(jí)策略。高級(jí)策略適應(yīng)各種環(huán)境和任務(wù),而低級(jí)策略通過(guò)模仿和強(qiáng)化學(xué)習(xí)進(jìn)行學(xué)習(xí)。
這種層次結(jié)構(gòu)使UniPi能夠有效地將高級(jí)推理和低級(jí)執(zhí)行相結(jié)合。
(3) 優(yōu)勢(shì):
分層代理通過(guò)將任務(wù)分配給最合適的代理并避免重復(fù)工作來(lái)提供資源效率。
等級(jí)結(jié)構(gòu)通過(guò)建立明確的權(quán)力和方向來(lái)加強(qiáng)溝通。
分層強(qiáng)化學(xué)習(xí)(HRL)通過(guò)降低動(dòng)作復(fù)雜性和增強(qiáng)探索來(lái)改善代理決策。它采用高級(jí)操作來(lái)簡(jiǎn)化問(wèn)題并促進(jìn)代理學(xué)習(xí)。
層次分解通過(guò)更簡(jiǎn)潔和可重用地表示整個(gè)問(wèn)題,提供了最小化計(jì)算復(fù)雜性的好處。
(4) 弱勢(shì):
使用層次結(jié)構(gòu)解決問(wèn)題時(shí)會(huì)出現(xiàn)復(fù)雜性。
固定的層次結(jié)構(gòu)限制了在變化或不確定環(huán)境中的適應(yīng)性,阻礙了智能體調(diào)整或?qū)ふ姨娲桨傅哪芰Α?/p>
分層代理遵循自上而下的控制流,即使較低級(jí)別的任務(wù)已經(jīng)就緒,也會(huì)導(dǎo)致瓶頸和延遲。
層次結(jié)構(gòu)可能缺乏跨不同問(wèn)題域的可重用性,需要為每個(gè)域創(chuàng)建新的層次結(jié)構(gòu),這既耗時(shí)又依賴于專業(yè)知識(shí)。
由于需要標(biāo)記的訓(xùn)練數(shù)據(jù)和精細(xì)的算法設(shè)計(jì),訓(xùn)練分層代理具有一定挑戰(zhàn)性。由于其復(fù)雜性,應(yīng)用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)技術(shù)來(lái)提高性能變得更加困難。
總結(jié)
隨著最近大語(yǔ)言模型的快速迭代升級(jí),AI代理已不再是新事物,當(dāng)我們把多個(gè)代理放在一起,創(chuàng)造一個(gè)團(tuán)隊(duì)的代理能力將遠(yuǎn)遠(yuǎn)超過(guò)一個(gè)單獨(dú)的代理。從維持家庭溫度的簡(jiǎn)單反射代理到駕駛汽車的更高級(jí)代理,AI代理將無(wú)處不在。未來(lái)每個(gè)人都可以更容易地創(chuàng)建自己的代理和自己的代理團(tuán)隊(duì)。它使人們能夠在幾分鐘內(nèi)完成可能需要幾小時(shí)或幾天的任務(wù)!