古董做推廣哪個網(wǎng)站好微信營銷軟件排行榜
1. 什么是AI Agent?
AI Agent可以理解為一個智能體,包括感知模塊、規(guī)劃決策模塊和行動模塊,類似于人類的五官、大腦和肢體。它能幫助人類處理復(fù)雜的任務(wù),并能根據(jù)環(huán)境反饋進(jìn)行學(xué)習(xí)和調(diào)整。
五官可以理解為感知模塊,大腦為規(guī)劃決策模塊,肢體是行動模塊。如圖:
**舉個例子:**用手摸了一下電線,感知模塊被電麻了,此時大腦決策規(guī)劃模塊發(fā)出信號,把手拿走快逃。接著行動模塊控制手從電線上拿開(當(dāng)然也可能拿不開),這就是資料里常見的模型。將這個過程抽象出來,如圖:
可以看到,最關(guān)鍵的部分就是大腦部分,即規(guī)劃決策模塊。以前這兒比較薄弱,只有狀態(tài)、記憶,如今有了大模型,讓上述框架變得強(qiáng)大了起來。暫時忽略感知和反饋模塊,突出大模型LLM的作用,如圖:
再將其抽取整理,如圖:
從細(xì)節(jié)角度進(jìn)行梳幾個模塊:
1.1 記憶模塊
又分為短期記憶和長期記憶,如上下文學(xué)習(xí)就是短期記憶,一般被上下文窗口長度限制;長期記憶則保存較長時間,一般外部向量保存。注意,從某種程度上,感知也可以歸類在記憶模塊里,如視覺、聽覺、觸覺等。短期記憶如同電腦中的內(nèi)存,在LLM中受到Transformer和上下文窗口長度的限制,長期記憶可以理解為硬盤,包含陳述式記憶和(如事件或事實(shí)),程序式記憶(如打字技能等)。整理后,如圖:
1.2 規(guī)劃決策模塊
包含四個模塊,其中,思維鏈和子目標(biāo)分解是為了處理更為復(fù)雜的任務(wù),反思和自我批評模塊能從錯誤中吸取教訓(xùn),提高結(jié)果質(zhì)量。整理后如圖:
1.3 工具模塊
強(qiáng)調(diào)軟件、API的調(diào)用,如日歷、計(jì)算器、代碼解釋器、搜索等,目的是為了解決實(shí)際問題。整理后如圖:
總計(jì)一下,當(dāng)給予一個prompt,LLM記憶模塊的短期記憶和長期記憶相互配合,對任務(wù)進(jìn)行分解,并對錯誤進(jìn)行反思、批評糾正,最終做出了規(guī)劃決策,然后調(diào)用合適的外部工具,并最后付出行動。
2. Agent與LLM之間的關(guān)系
上述過程中,GPT扮演了大腦的角色,其他模塊扮演了其他的協(xié)同配合,從而突破了簡單的問答工作。在這兒插播一張圖:
是不是有些熟悉了,回到了最經(jīng)典的結(jié)構(gòu),總結(jié)成公式,即:
A g e n t = L L M + 記憶 + 規(guī)劃決策 + 工具使用 Agent = LLM + 記憶 + 規(guī)劃決策 + 工具使用 Agent=LLM+記憶+規(guī)劃決策+工具使用
3. AI Agent能起到什么實(shí)際作用
引用一個HuggingFace的案例。HuggingFace上有很多有趣的模型,一般新手不知道怎么選擇模型,提出的HuggingGPT(Shen et al. 2023)就是一個AI Agent,借助ChatGPT根據(jù)描述,選擇可用模型并執(zhí)行。
在這個過程中包含四個階段:
- 任務(wù)的規(guī)劃:LLM做大腦,任務(wù)請求分為多個任務(wù)。包括任務(wù)類型、ID、依賴項(xiàng)和參數(shù)。
- 模型選擇:Agent根據(jù)模型ID,選擇對應(yīng)模型處理用戶請求。此處可以選擇多個模型。
- 任務(wù)執(zhí)行:執(zhí)行特定的每個模型并記錄結(jié)果。
- 響應(yīng)生成:LLM接受執(zhí)行結(jié)果,匯總至用戶。
過程匯總?cè)鐖D:
這就是一個比較有趣且好玩的Agent實(shí)踐案例。
類似的項(xiàng)目還有很多,如:ChatDev、AutoGPT、GPT-engineer
4. 如何上手學(xué)習(xí)
LLM是核心,底層是Transformer和LLaMA,搞定就ok,當(dāng)然Attention可以作為知識擴(kuò)展進(jìn)行學(xué)習(xí)。
感知部分是多模態(tài),涉及的就是深度學(xué)習(xí)里的強(qiáng)化學(xué)習(xí)。
參考
- 動畫科普AI Agent
- AI Agent(或者LLM Agent)深度講解
- LLM Powered Autonomous Agents
- AI Agent,為什么是AIGC最后的殺手锏?