我想在鄭卅淘寶網(wǎng)站做客服怎么做寧波seo服務推廣
你可能不熟悉 ReAct,這是一個旨在增強語言模型 (LLM) 決策能力的尖端框架。
通過使用新的觀察結果更新 LLM 的上下文窗口并提示其重新評估信息,ReAct 促進了類似于人類思維過程的推理水平,超越了諸如思維鏈提示之類的舊技術。
在本文中,我們對 ReAct 進行了定性評估,并使用 Langchain 的代理模塊對其進行了測試,以初始化零樣本代理來解決信息檢索問題。
ReAct in action
以上是論文《ReAct:語言模型中的協(xié)同推理和行動》中的一個例子。
NSDT工具推薦:?Three.js AI紋理開發(fā)包?-?YOLO合成數(shù)據(jù)生成器?-?GLTF/GLB在線編輯?-?3D模型格式在線轉換?-?可編程3D場景編輯器?-?REVIT導出3D模型插件?-?3D模型語義搜索引擎?-?Three.js虛擬軸心開發(fā)包?-?3D模型在線減面?-?STL模型在線切割
1、什么是 ReAct?
ReAct 模式是Reasoning and Acting(推理和行動)的縮寫,是一個將AI模型中的推理過程與行動過程分開的框架。
ReAct 模式的核心是將觀察結果提供給 LLM,使其能夠更新其上下文窗口。該模型重新評估信息并根據(jù)這些見解采取行動以提高其推理能力。這個過程與思維鏈 (CoT) 提示等技術形成鮮明對比,其中推理步驟嵌入在單個提示中。
ReAct 框架通過提供處理復雜查詢的結構化方法來提高 LLM 響應的質量和連貫性。LLM 可以獨立分析信息并生成準確反映所提供信息的響應,而不是一次性處理查詢。這種方法可以產生更明智和精確的輸出。
Mario Fontana
2、AI 響應鏈
ReAct 和類似技術的一個關鍵特性是 AI 響應鏈(response chaining),而不是依賴于單個 AI 響應。
AI 響應鏈通過在提示中嵌入順序步驟來增強 AI 推理,利用神經網(wǎng)絡系統(tǒng)來提高組合創(chuàng)造力,從而實現(xiàn)細致入微和創(chuàng)新的響應。
Perplexity AI 是一個值得注意的實現(xiàn),它根據(jù)替代查詢聚合搜索結果以最大限度地提高相關性和廣度,從而模擬全面的類人搜索過程并有意義地整合各種輸入。我們在上一篇關于谷歌 AI 搜索引擎故障的文章中討論了類似的主題,并將其微不足道的實現(xiàn)與 Perplexity AI 進行了比較。
Where is Google’s AI Search Engine?
開發(fā)人員的共同目標是找到一種方法,讓 LLM 表現(xiàn)得更智能,減少幻覺,并通過連鎖反應,我們可以刺激批判性思維系統(tǒng)。那是什么樣子的呢?
3、一個例子
導入庫和 API 密鑰設置:
!pip install --upgrade openai
!pip install --upgrade langchain
!pip install --upgrade python-dotenv
!pip install google-search-results# import libraries
import openai
import os
from langchain.llms import OpenAI
from langchain.agents import load_tools
from langchain.agents import initialize_agent
from dotenv import load_dotenv
load_dotenv()# load API keys; you will need to obtain these if you haven't yet
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")
os.environ["SERPER_API_KEY"] = os.getenv("SERPER_API_KEY")
配置 AI 和 LLM
此示例在實施 ReAct 框架時使用零樣本提示(無示例)。這意味著觀察和想法僅基于指令,幾乎沒有或根本沒有推理或相關示例來指導 AI。
你可以配置自己的模型,該模型采用少量樣本和一些示例來鼓勵 AI 以稍微更適合你的任務的方式思考。
llm = OpenAI(model_name="text-davinci-003" ,temperature=0)
tools = load_tools(["google-serper", "llm-math"], llm=llm)
agent = initialize_agent(tools, llm, agent="zero-shot-react-description", verbose=True)
運行鏈
執(zhí)行后,你會注意到代理如何動態(tài)搜索和收集信息以提供連貫而詳細的響應。
agent.run("What is Asycd and what do they do in the space of AI?")
輸出:
Entering new AgentExecutor chain...Thought: I need to find out what Asycd is and what they do in the space of AI.Action: SearchAction Input: "What is Asycd and what do they do in AI?"Observation: Asycd is a company focused on using AI to revolutionize art creation and user interaction.
They leverage AI technologies to provide innovative tools that enhance the creative process
and offer personalized user experiences.Thought: I need more details about Asycd's specific activities and platforms related to AI.Action: SearchAction Input: "Asycd AI innovations and platforms"Observation: Asycd offers several AI-driven solutions including:An AI-based platform for generating unique art pieces.
Tools for artists to collaborate with AI to expand their creative boundaries.
User-centric AI applications that personalize and enhance user interactions with art and other creative content.
Thought: I now have a comprehensive understanding of Asycd's role in the AI space."Final Answer: Asycd is a company dedicated to transforming art creation through artificial intelligence. They offer a variety of AI-driven solutions such as an AI-based platform for generating unique artwork, collaborative tools for artists to push creative limits with AI, and user-centric applications that tailor and enrich user interactions with creative content.> Finished chain.
你可以逐步看到 AI 采取的流程操作:首先在 Google 上搜索用戶提出的查詢,看看是否可以通過直接搜索 Google 找到答案。
代理評估搜索結果,并有另一個想法,可能類似于“這些結果沒有回答用戶的查詢,但它是一個有用的起點”。它可能會從搜索結果中挑選關鍵字,并在下一次搜索中使用這些關鍵字,這將是它的下一步操作。
最終,AI 找到有關 Asycd 的 AI 活動的正確信息,并利用這些信息制定對初始查詢的最終響應。
4、替代方案
有幾種替代提示框架旨在協(xié)調人類和人工智能的決策,類似于 ReAct:
- 思維鏈 (CoT) 提示:此框架鼓勵 LLM 生成逐步推理軌跡或“思維鏈”以得出最終答案。它有助于使模型的推理過程更加透明和可解釋,使其與類似人類的推理保持一致。
- 自一致性提示:這種方法提示 LLM 生成多個可能的解決方案,然后交叉檢查它們的一致性,模仿人類如何復查其工作。它可以提高 LLM 輸出的可靠性和連貫性。
- 遞歸獎勵建模 (RRM):RRM 訓練 LLM 以遞歸方式建模任務的獎勵函數(shù),使模型能夠以更符合人類的方式推理任務的目標和約束。
- 辯論:該框架促使 LLM 就給定主題產生多種觀點或論點,類似于人類辯論。它可以幫助提出不同的觀點和考慮,促進更全面的決策。
- 迭代放大 (IA):IA 涉及通過讓 LLM 批評和改進自己的響應來迭代地完善其輸出,類似于人類通過自我反思和迭代來完善思維的方式。
- 合作 AI:這種方法涉及促使多個 LLM 協(xié)作和共享知識,模仿人類經常合作解決復雜問題的方式。
所有這些技術本質上都是代理性的,僅在提示配置以及 AI 響應的結構上有所不同。
5、結束語
研究 ReAct 非常有價值,它使我們能夠探索各種創(chuàng)新方法來提高聊天機器人和人工智能工具的有效性。我們希望你發(fā)現(xiàn)這里分享的見解既有信息量又有啟發(fā)性!
原文鏈接:ReAct提示框架 - BimAnt