企業(yè)網(wǎng)站seo搜索引擎關(guān)鍵詞優(yōu)化技巧
資料來自李宏毅老師《生成式 AI》課程,如有侵權(quán)請通知下線
Introduction to Generative AI 2024 Springhttps://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php
摘要
這一系列的作業(yè)是為 2024 年春季的《生成式 AI》課程設(shè)計的,共包含十個作業(yè)。每個作業(yè)都對應(yīng)一個具體的主題,例如真假難辨的世界、AI 應(yīng)用開發(fā)、AI催眠大師、LLM 微調(diào)等。
承接上一講:
《生成式 AI》課程 第4講:訓(xùn)練不了人工智慧?你可以訓(xùn)練你自己 (中)_生成式人工智能訓(xùn)練-CSDN博客文章瀏覽閱讀771次,點贊27次,收藏26次。這一系列的作業(yè)是為 2024 年春季的《生成式 AI》課程設(shè)計的,共包含十個作業(yè)。每個作業(yè)都對應(yīng)一個具體的主題,例如真假難辨的世界、AI 應(yīng)用開發(fā)、AI催眠大師、LLM 微調(diào)等。承接上一講:《生成式 AI》課程 第3講:訓(xùn)練不了人工智慧嗎?你可以訓(xùn)練你自己-CSDN博客作業(yè)代碼 ( 后續(xù)增加)強化語言模型的方法 - 拆解任務(wù)復(fù)雜任務(wù)可拆解為多個步驟,如先寫大綱再生成摘要,以提升模型處理任務(wù)的能力。_生成式人工智能訓(xùn)練https://blog.csdn.net/chenchihwen/article/details/143829219?spm=1001.2014.3001.5501
主要內(nèi)容總結(jié)
- 模型合作
- 任務(wù)分配:不同能力和成本的語言模型 A、B、C 等,根據(jù)任務(wù)選擇合適模型執(zhí)行,展示平臺服務(wù)可能涉及多個模型(如論文 “FrugalGPT” 相關(guān)研究)。
- 模型討論
- 模型彼此討論可提升效果,如 “Multi - Agent Debate” 等研究,不同任務(wù)有不同合適的討論方式,如 “Exchange - of - Thought” 涉及 Debate、Memory、Report、Relay 等方式,且討論可視范圍不同(Fully Visible、Central Visible、Neighbor Visible、Peers Visible)。
- 討論停止條件:未達成共識則繼續(xù),達成共識則得出結(jié)論;討論有不同級別要求,從完全達成共識到允許一定分歧(如論文 “https://arxiv.org/abs/2305.19118” 所述)。同時存在為反對而反對的情況及相應(yīng)處理方式(如論文 “https://arxiv.org/abs/2305.14325” 所述)。
- 引入不同角色
- 團隊需要不同角色,不同模型有不同專長,可設(shè)定如 “project manager” 等角色。例如 Code llama 相關(guān)研究,不同角色如 Programmer、User、Project manager 等分工協(xié)作,根據(jù)貢獻度打分優(yōu)化團隊(目前學(xué)術(shù)論文多在簡單任務(wù)上測試)。
- 未來語言模型可專業(yè)分工,不同團隊專注打造專業(yè)領(lǐng)域語言模型,如開發(fā)游戲、編寫程序等任務(wù)中不同角色的協(xié)作(如 MetaGPT、ChatDev 等相關(guān)研究及項目實踐),還可形成由 AI 組成的社群(如相關(guān)社交場景模擬研究及展示)。
重點投影片
延伸閱讀
mproving Factuality and Reasoning in Language Models through Multiagent Debatehttps://arxiv.org/pdf/2305.14325文章摘要如下
不訓(xùn)練模型強化語言模型的方法總結(jié)
一、模型合作
(一)任務(wù)分配
不同能力和成本的語言模型(如模型 A、B、C 等)可根據(jù)任務(wù)選擇合適的模型執(zhí)行。展示平臺上為用戶服務(wù)的不一定是同一個模型,相關(guān)研究如 “FrugalGPT”(https://arxiv.org/abs/2305.05176)。
(二)模型討論
- 提升效果:模型彼此討論能強化語言模型,如 “Multi - Agent Debate” 等研究。不同任務(wù)有不同合適的討論方式,如 “Exchange - of - Thought” 包含 Debate、Memory、Report、Relay 等,且討論可視范圍不同(Fully Visible、Central Visible、Neighbor Visible、Peers Visible)。
- 停止條件
- 未達成共識則繼續(xù)討論,達成共識則得出結(jié)論。
- 討論有不同級別要求,從完全達成共識(Level 0)到允許一定分歧(Level 1),默認(rèn)(Level 2)是為找到正確答案不一定要完全同意彼此觀點,還有要求雙方必須在每個辯論點上都不同意(Level 3)。
- 為反對而反對情況及處理:存在為反對而反對的情況,可根據(jù)其他模型的解決方案給出更新回應(yīng),如短提示(Short)基于其他答案給出新回應(yīng),長提示(Long)將其他答案作為額外建議給出新回應(yīng)(相關(guān)研究https://arxiv.org/abs/2305.14325)。
二、引入不同角色
- 團隊需要不同角色,不同模型有專長差異,可設(shè)定如 “project manager” 等角色。例如 Code llama 相關(guān)研究中,不同角色如 Programmer、User、Project manager 等分工協(xié)作,根據(jù)貢獻度打分優(yōu)化團隊(目前學(xué)術(shù)論文多在簡單任務(wù)上測試)。
- 未來語言模型可專業(yè)分工,不同團隊專注打造專業(yè)領(lǐng)域語言模型,如 MetaGPT、ChatDev 等在開發(fā)游戲(如開發(fā)五子棋、編寫 Flappy Bird 游戲)、編寫程序等任務(wù)中不同角色協(xié)作(相關(guān)研究https://arxiv.org/abs/2308.00352、https://arxiv.org/abs/2310.02170),還可形成由 AI 組成的社群(相關(guān)研究及展示https://arxiv.org/abs/2304.03442、https://youtu.be/G44Lkj7XDsA?si=cMbKG3tqPbIgnnBq)
通過跨模型通信來增強大型語言模型(LLM)的能力https://arxiv.org/pdf/2312.01823
“Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication”
由復(fù)旦大學(xué)、新加坡國立大學(xué)和上海人工智能實驗室的研究人員撰寫,提出了一種名為 Exchange-of-Thought(EoT)的框架,通過跨模型通信來增強大型語言模型(LLM)的能力。
- 研究背景
- LLMs 在復(fù)雜推理任務(wù)中存在局限性,盡管通過 Chain-of-Thought(CoT)等技術(shù)取得進展,但推理仍受限于模型自身理解,缺乏外部視角123。
- 現(xiàn)有方法如 CoT 和自校正方法在推理過程中依賴模型自身,難以克服固有局限,且獲取高質(zhì)量外部見解存在挑戰(zhàn)436。
- 研究方法
- 提出 EoT 框架:通過跨模型通信整合外部見解,包含四個通信范式(Memory、Report、Relay、Debate),并設(shè)計信心評估機制以減少錯誤推理影響578。
- 通信范式:Memory 范式下模型記錄并共享信息,通信成本高但信息流動快;Report 范式指定中心節(jié)點收集和分發(fā)信息;Relay 范式中模型按順序傳遞信息;Debate 范式采用樹形結(jié)構(gòu),葉節(jié)點交換信息,父節(jié)點聚合信息91011。
- 終止條件:包括一致輸出終止(當(dāng)模型當(dāng)前輪輸出與上一輪相同時停止通信)和多數(shù)共識終止(當(dāng)多數(shù)模型達成一致時停止通信)121314。
- 信心評估:根據(jù)模型回答的變化計算信心水平,幫助接收方驗證信息可靠性151617。
- 實驗結(jié)果
- 在數(shù)學(xué)推理、常識推理和符號推理任務(wù)中,EoT 顯著優(yōu)于基線方法,如在數(shù)學(xué)推理任務(wù)中,EoT 的四個通信范式比 CoT 和 ComplexCoT 有顯著改進181920。
- 多數(shù)共識終止在 AQuA 數(shù)據(jù)集上比一致輸出終止表現(xiàn)更好;信心評估使模型在通信中能更早考慮其他模型的信心,平均提高準(zhǔn)確率 2.92%;多數(shù)樣本在三輪內(nèi)達成終止條件,EoT 計算成本低于 CoT-SC (5) 且性能更優(yōu),還適用于不同 LLMs,模型多樣性可提升 EoT 性能212223。
- 研究結(jié)論
- EoT 通過跨模型通信豐富模型的外部見解,四個通信范式在不同任務(wù)中有各自優(yōu)勢,信心評估機制有效減少錯誤推理影響24。
- EoT 在多個推理任務(wù)中表現(xiàn)出色,具有成本效益,適用于多種模型,模型多樣性可進一步增強其性能24。
- 未來展望
- 開源模型有望通過協(xié)作交換見解提升性能,但當(dāng)前受通信和分析能力及計算資源需求限制。處理長文本能力的提升將有助于增加參與通信的模型數(shù)量,模型通信在降低計算資源下實現(xiàn)有效性能,符合 AI 可持續(xù)發(fā)展目標(biāo),未來將推動 AI 系統(tǒng)向更先進、協(xié)作方向發(fā)展252627。
內(nèi)容如下
大型語言模型 (LLM) 最近通過 Chain-of-Thought 技術(shù)在復(fù)雜推理任務(wù)方面取得了重大進展。盡管取得了這些進步,但他們的推理往往受到內(nèi)在理解的制約,缺乏外部洞察力。為了解決這個問題,我們提出了思想交流 (EoT),這是一種新穎的框架,可以在解決問題時實現(xiàn)跨模型通信。EoT 從網(wǎng)絡(luò)拓?fù)渲屑橙§`感,集成了四種獨特的通信范式:內(nèi)存、報告、中繼和辯論。本文深入探討了與每種范式相關(guān)的通信動態(tài)和數(shù)量。為了抵消錯誤推理鏈的風(fēng)險,我們在這些通信中實施了強大的置信度評估機制。我們在各種復(fù)雜推理任務(wù)中的實驗表明,EoT 明顯超過了既定的基線,強調(diào)了外部洞察在提高 LLM 績效方面的價值。此外,我們表明 EoT 以具有成本效益的方式實現(xiàn)了這些卓越的結(jié)果,這標(biāo)志著高效和協(xié)作解決 AI 問題的有希望的進步。
“兩個腦袋總比一個好?!?–英國諺語
1 引言
GPT4 等大型語言模型 (LLM)(OpenAI,2023 年)正在通過利用龐大的訓(xùn)練語料庫和巨大的計算資源(Bai et al., 2022a;Ouyang et al., 2022;Chowdhery 等人,2022 年;Zhang et al., 2022;Touvron等人,2023a,除其他外)。盡管 LLM 在廣泛的 NLP 任務(wù)中取得了模范性能(Wei et al., 2022a;Chung et al., 2022),但他們一直在努力在
推理任務(wù),而這種限制不能僅僅通過增加模型的大小來克服(Rae et al., 2022;bench authors, 2023)。
圖 1:CoT、自我校正和 EoT 的比較。CoT 和 Self-Correction 都依賴于模型的先天能力來生成和優(yōu)化輸出,缺乏外部洞察力。EoT 通過將其他模型的思想作為外部見解來增強模型的推理能力。
為了克服這個缺點,Wei et al. (2022b) 提出了思維鏈 (CoT) 提示,它指導(dǎo)模型在得出最終答案之前生成一系列中間推理步驟。同時,一系列自我糾正方法(Welleck et al., 2023;Ganguli et al., 2023)的回答,旨在通過利用模型對先前輸出的反饋來迭代提高答案的質(zhì)量(Madaan et al., 2023;Shinn et al., 2023)。
然而,CoT 和自我糾正完全基于模型在推理過程中對問題的理解和觀點。最近的研究(Huang等人,2023 年;Valmeekam等人,2023 年;Stechly et al., 2023)表明,在沒有外部反饋的情況下,LLM 很難修改他們的回答。這可以歸因于該模型完全依賴內(nèi)部表示來生成響應(yīng),這使得很難克服能力的固有限制(Yin et al., 2023)。
圖 2:三個推理數(shù)據(jù)集的試點實驗。包含正確答案的錯誤樣本的數(shù)量明顯高于不包含正確答案的錯誤樣本。
盡管外部見解的重要性無可否認(rèn) (Yao et al., 2023),但獲得高質(zhì)量的外部見解仍然是一個挑戰(zhàn)。Wang et al. (2023c) 的研究表明,CoT 生成的單一推理鏈限制了模型的推理性能。通過提高溫度對不同的推理鏈進行采樣,并通過多數(shù)投票選擇答案,可以進一步提高模型的推理性能。但是,當(dāng)面臨困難的問題時,該模型通常會產(chǎn)生更多數(shù)量的錯誤回答。在圖 2 中,我們對來自三個推理數(shù)據(jù)集的錯誤樣本中的正確和錯誤答案的分析表明,在大多數(shù)情況下,模型可以推斷出正確答案。
在人類社會中,真理,即使由少數(shù)人持有,也可以通過清晰和有說服力的溝通獲得廣泛的接受和認(rèn)可(Le Bon,1897)。他人的正確推理可以作為高質(zhì)量的外部見解,豐富和提升我們的集體理解。因此,我們提出了思想交流 (EoT),這是一種在解決問題過程中促進跨模型交流的新型框架。此計劃使模型能夠?qū)⑺说耐评碜鳛橥獠恳娊饧{入其中。
圖 1 將 EoT 與 CoT 和自我校正方法進行了對比,突出了 EoT 在整合外部視角方面的獨特方法。受網(wǎng)絡(luò)拓?fù)鋵W(xué)原理(Bisht 和 Singh,2015 年)和代理通信(Parsons 和 McBurney,2003 年)的啟發(fā),我們提出了四種通信范式:記憶、報告、中繼和辯論。這些范式旨在促進模型之間的思想交流和推理鏈,從而豐富問題
具有多種見解的解決過程。此外,我們深入研究了每種通信范式的復(fù)雜性,分析了信息流的動態(tài)和通信量。意識到正確和錯誤的推理鏈都會在通信中傳播,我們引入了置信度評估機制,該機制采用答案變化分析來評估模型的置信度。它旨在減輕錯誤推理的影響,從而確保解決問題過程的完整性和可靠性。
各種復(fù)雜推理任務(wù)的實驗表明,EoT 的性能明顯優(yōu)于既定的強基線,強調(diào)了外部洞察力在增強 LLM 能力方面的關(guān)鍵作用。我們將我們的貢獻總結(jié)如下:
?我們引入了思想交流 (EoT),這是一個開創(chuàng)性的跨模型通信框架,在解決問題時結(jié)合了來自其他 LLM 的外部見解。
?我們提出并檢查了四種通信范式以及一種置信度評估機制,該機制通過答案的可變性評估模型確定性,減輕錯誤推理的影響。
?各種復(fù)雜推理任務(wù)的實驗結(jié)果強調(diào)了 EoT 的有效性和成本效益,突出了在解決問題中結(jié)合外部見解和溝通的重要性。
2 相關(guān)工作
2.1 LLM 中的思維鏈提示
Wei et al. (2022b) 強調(diào),當(dāng)受到具有中間推理步驟的演示的提示時,LLM 可以表現(xiàn)出增強的推理能力。該技術(shù)可以有效提高 LLM 在復(fù)雜推理任務(wù)上的性能(Wei et al., 2022a;Kojima et al., 2022)。已經(jīng)提出了一系列增強 CoT 的策略,以進一步提高 LLM 的性能。其中一種方法是程序輔助語言模型(Gao et al., 2022;Chen et al., 2022),旨在通過程序合成將推理和計算解耦。此外,復(fù)雜的任務(wù)也可以通過模塊化方法轉(zhuǎn)化為可委派的子任務(wù)(Khot et al., 2023)。選擇合適的演示可以
還可以提高 CoT 的性能(Li et al., 2023a;Li 和 Qiu,2023a)。其中值得注意的是,AutoCoT (Zhang et al., 2023b) 使用自動化方式來構(gòu)建和采樣各種演示。主動提示 (Diao et al., 2023) 根據(jù)模型在輸出中的不確定性選擇最有用的樣本進行標(biāo)記。最近,Li 和 Qiu (2023b) 采用了一種將高置信度的思想存儲為外部記憶的策略,并檢索這些見解以幫助推理過程。
2.2 推理路徑的集合
LLM 能夠使用溫度調(diào)整和提示抽樣等技術(shù)探索多種推理路徑(Chu et al., 2023)。Wang et al. (2023c) 認(rèn)為,對于復(fù)雜的問題,可能有幾種正確的路徑來解決一個問題,這導(dǎo)致了自洽的提出。這種方法用多個推理路徑的采樣并選擇最一致的答案來取代貪婪解碼策略,從而顯著提高了性能。除此之外,Fu et al. (2023b) 發(fā)現(xiàn),推理復(fù)雜度較高的提示可以在多步推理任務(wù)中取得更好的表現(xiàn),從而提出了基于復(fù)雜性的提示。雖然其他方法,例如重新排名(Cobbe et al., 2021;Thoppilan et al., 2022)也被應(yīng)用于選擇合適的推理路徑,它們通常依賴于啟發(fā)式或訓(xùn)練有素的較小模型。最近,Li et al. (2023b) 對不同的演示進行了抽樣,并使用分步驗證來過濾掉錯誤的答案。然而,獲得步驟級標(biāo)簽可能具有挑戰(zhàn)性,并且使用較小的模型進行判斷很難處理復(fù)雜的推理過程。相比之下,我們的方法充分利用了 LLM 的溝通和決策能力來得出最終答案,而無需額外的訓(xùn)練和注釋數(shù)據(jù)。
2.3 推理路徑細(xì)化
盡管 CoT(Wei et al., 2022b)有效地提高了 LLM 在復(fù)雜推理任務(wù)中的表現(xiàn),但它們在推理過程中仍然容易受到錯誤的影響,從而導(dǎo)致錯誤的答案(Bai et al., 2022b;Lyu et al., 2023)。為了緩解這個問題,Shinn 等人(2023 年)和 Madaan 等人(2023 年)利用模型自己的反饋和過去的錯誤來改進推理過程。Yao et al. (2023) 探討了推理之間的協(xié)同作用
鏈和行動計劃。對于數(shù)值問題,Zheng et al. (2023) 通過使用先前生成的答案作為提示,逐漸引導(dǎo)模型找到正確答案。在外部知識的幫助下,Wang et al. (2023a) 引入了知識鏈提示,它使用證據(jù)三元組來遏制不真實和不忠實答案的產(chǎn)生??紤]到模型交互,多智能體辯論(Du et al., 2023;Liang et al., 2023)的引入是為了提高生成內(nèi)容的事實準(zhǔn)確性并減少謬誤和幻覺。EoT 與這些工作不同,因為我們通過跨模型通信將其他模型的推理過程整合為外部洞察,從而優(yōu)先增強單個模型生成的當(dāng)前推理過程。
6 總結(jié)
我們介紹了 Exchange-of-Thought (EoT),這是一個新穎的框架,它通過跨模型通信為模型提供了外部見解。我們開發(fā)了四種通信范式,并對通信量和信息傳播速度進行了全面分析。為了防止錯誤推理過程的中斷,我們設(shè)計了一個置信度評估機制。數(shù)學(xué)、常識和符號推理任務(wù)的實驗表明,EoT 超越了一系列強大的基線,同時也提供了成本優(yōu)勢。進一步分析表明,EoT 對各種模型具有適應(yīng)性,更多樣化的模型的參與可以進一步增強 EoT 的性能。