外外貿(mào)網(wǎng)站推廣方案hao123網(wǎng)址導(dǎo)航
25年2月來自 U of Chicago、Princeton U 和 U of Oxford 的論文“ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization”。
最近的研究利用大語言模型多智體系統(tǒng)來解決復(fù)雜問題,同時(shí)試圖減少構(gòu)建它們所需的手動(dòng)工作量,從而推動(dòng)自動(dòng)智體工作流優(yōu)化方法的發(fā)展。然而,現(xiàn)有方法在依賴離散優(yōu)化技術(shù)時(shí),由于表征限制、缺乏適應(yīng)性和可擴(kuò)展性差,仍然缺乏靈活性。本文用 ScoreFlow 解決這些挑戰(zhàn),這是一個(gè)簡單但高性能的框架,它利用連續(xù)空間中高效的基于梯度優(yōu)化。ScoreFlow 結(jié)合 Score-DPO,一個(gè)直接偏好優(yōu)化(DPO)方法的一種變型,它考慮定量反饋。在涵蓋問答、編碼和數(shù)學(xué)推理的六個(gè)基準(zhǔn)測試中,ScoreFlow 比現(xiàn)有基線提高 8.2%。此外,它使較小的模型能夠以較低的推理成本勝過較大的模型。
大語言模型 (LLM) 已證明其在解決自然語言任務(wù)方面表現(xiàn)出色 [25, 33, 1, 2, 41, 42]。此外,LLM 的多智體系統(tǒng)(工作流)中,多個(gè)智體協(xié)調(diào)并交換信息以完成任務(wù),這使得基于 LLM 的智體能夠協(xié)作并解決廣泛領(lǐng)域的復(fù)雜任務(wù),例如數(shù)學(xué)問題解決 [47, 38]、問答 [24] 和編碼任務(wù) [12, 28]。
然而,這些手動(dòng)設(shè)計(jì)的智體工作流需要付出巨大努力,并且處理不同領(lǐng)域任務(wù)的能力有限。因此,該領(lǐng)域的新興重點(diǎn)是通過開發(fā)自動(dòng)化的工作流生成和優(yōu)化方法來解決靜態(tài)工作流的局限性。這些優(yōu)化可以針對各個(gè)方面,包括快速細(xì)化、超參調(diào)整和工作流結(jié)構(gòu)設(shè)計(jì) [17, 49, 44, 14, 46, 7, 19, 21, 32, 45]。
自動(dòng)優(yōu)化方法可能受到預(yù)定義工作流結(jié)構(gòu)固有限制和工作流空間表征的剛性限制 [17, 49, 44, 21]。DyLAN [21] 深思熟慮地強(qiáng)調(diào) LLM 辯論中的通信結(jié)構(gòu),但忽略其他潛在的通信結(jié)構(gòu)。GPTSwarm [49] 利用基于圖的結(jié)構(gòu)并采用強(qiáng)化微調(diào)進(jìn)行優(yōu)化。然而,圖結(jié)構(gòu)中缺乏對條件狀態(tài)的考慮,對搜索空間施加限制。
為了提高表示能力,AFlow [46] 和 ADAS [14] 使用代碼作為工作流的表示,從而促進(jìn)穩(wěn)健而靈活的工作流搜索。然而,ADAS 面臨著搜索過程效率低下和工作流存儲(chǔ)粗糙的挑戰(zhàn),這導(dǎo)致無關(guān)數(shù)據(jù)的積累和復(fù)雜性增加,最終降低其有效性。為了解決這些問題,AFlow 采用蒙特卡洛樹搜索(MCTS)的變型作為優(yōu)化方法來提高效率。然而,工作流結(jié)構(gòu)收斂速度過快,再加上離散優(yōu)化方法,限制搜索空間的探索,常常導(dǎo)致結(jié)果不理想。此外,它們都針對整個(gè)任務(wù)集優(yōu)化單一工作流,這限制包含各種問題較大數(shù)據(jù)集的適應(yīng)性和可擴(kuò)展性 [45, 32]。
智體工作流優(yōu)化
針對提示和超參的自動(dòng)優(yōu)化。強(qiáng)調(diào)提示優(yōu)化 [11, 44, 40, 17] 或超參優(yōu)化 [29] 的自動(dòng)優(yōu)化方法可以提高性能;但是,它們對工作流結(jié)構(gòu)施加限制,并且通常需要手動(dòng)修改以適應(yīng)新任務(wù),從而限制它們的適應(yīng)性和可擴(kuò)展性。
工作流結(jié)構(gòu)的自動(dòng)優(yōu)化。工作流優(yōu)化方法 [48, 49, 14, 46, 7, 19, 21, 32, 45] 專注于改進(jìn)工作流的結(jié)構(gòu),使其更強(qiáng)大,可以處理各種任務(wù)。但是,工作流表征的不靈活性和局限性(例如圖結(jié)構(gòu)中條件狀態(tài)的丟失)可能會(huì)限制搜索空間,從而妨礙適應(yīng)多樣化和復(fù)雜工作流的能力。
從語言模型的偏好中學(xué)習(xí)
PPO。近端策略優(yōu)化 (PPO) [30] 分兩個(gè)階段處理偏好反饋。首先,在偏好數(shù)據(jù)集 D_R 上訓(xùn)練獎(jiǎng)勵(lì)模型 R_φ,其中每個(gè)條目 (x, y_w, y_l) 由提示 x、首選響應(yīng) y_w 和拒絕響應(yīng) y_l 組成。通過最小化以下?lián)p失函數(shù)來優(yōu)化獎(jiǎng)勵(lì)模型,該函數(shù)的靈感來自 Bradley-Terry (BT) 模型 [5],用于對排名(pair-ranking)。
接下來,通過最大化分配給其生成響應(yīng)的獎(jiǎng)勵(lì)來完善策略模型 π_θ,同時(shí)保持軟 KL 散度約束以防止退化。
DPO。直接偏好優(yōu)化 (DPO) [27] 使用偏好數(shù)據(jù)促進(jìn)直接策略優(yōu)化,無需顯式獎(jiǎng)勵(lì)模型或主動(dòng)策略采樣。這種方法提高優(yōu)化過程的效率和穩(wěn)定性。從上述策略模型目標(biāo)函數(shù)的閉式解中,隱式獎(jiǎng)勵(lì)可以表示為 R_φ(x, y) = β log π_θ^? (y | x)/π_ref (y | x) + βZ(x),其中 π_θ^? 是最優(yōu)策略,Z(x) 是分區(qū)函數(shù)。然后可以使用上述獎(jiǎng)勵(lì)目標(biāo)直接優(yōu)化策略模型,從而導(dǎo)致 DPO 損失。
ScoreFlow 是一種自動(dòng)化且經(jīng)濟(jì)高效的多智體工作流生成框架,它采用優(yōu)化方法來實(shí)現(xiàn)高性能、可擴(kuò)展性和適應(yīng)性。其流程如下:
ScoreFlow 的推理過程概述,如圖所示。給定數(shù)學(xué)任務(wù) A 和 B,以及可選擇的智體類型(程序員、可自定義操作員、集成操作員和審閱人),將為每個(gè)任務(wù)生成一個(gè)基于 Python 的工作流,其中工作流 A 和 B 的智體集分別包含一個(gè)和五個(gè)狀態(tài)。然后將每個(gè)任務(wù)輸入到其各自的工作流中以產(chǎn)生執(zhí)行結(jié)果。
現(xiàn)在將 LLM 多智體工作流優(yōu)化問題和一些符號(hào)形式化如下。
給定一個(gè)輸入任務(wù) q,格式化為提示,希望確定解決此任務(wù)的最佳工作流 G(q),其中 G 是工作流生成器。工作流函數(shù) W_f 定義為某個(gè)任務(wù) q 和智體集 V ,(q,V)的集成到執(zhí)行結(jié)果 W_f (q,V) 的映射,通常是該任務(wù)的解決方案。智體集 V 由一組智體組成,每個(gè)智體都以其系統(tǒng)提示、溫度設(shè)置和其他相關(guān)參數(shù)為特征。然后,將工作流定義為智體集和工作流函數(shù)的組合:(V,W_f)。定義工作流搜索空間為:W = {(V,W_f)| V ? V,(V,W_f)滿足條件 C},其中 V 表示整個(gè)智體空間。
條件 C 對搜索空間施加約束,使得 W_f 對于智體集 V 是可執(zhí)行的。給定這些符號(hào),優(yōu)化目標(biāo)是確定最佳的工作流生成器:
其中 D 表示任務(wù)數(shù)據(jù)集,S 是針對任務(wù) q 執(zhí)行工作流 G(q) 所生成結(jié)果的第三方評估器,例如人工提供的分?jǐn)?shù)、平均勝率或其他相關(guān)指標(biāo)。
使用代碼作為工作流函數(shù) W_f [14, 46] 的表示可以解釋線性序列、循環(huán)、條件邏輯,并提供超出圖或網(wǎng)絡(luò)結(jié)構(gòu)的靈活性。此外,按照 Aflow [46],將 V 中的智體表征為操作員。操作員是預(yù)定義的、可重復(fù)使用的智體節(jié)點(diǎn)組合,代表常見操作,例如程序員、審閱員、校對員、問答操作員、集成操作員、測試操作員和可定制操作員等。通過允許生成器 G 自定義操作員內(nèi)的系統(tǒng)提示,實(shí)現(xiàn)提示的優(yōu)化,擴(kuò)展智體空間 V,豐富搜索空間 W。
為了使工作流適應(yīng)輸入任務(wù) q,即根據(jù)輸入問題調(diào)整所選的操作員和生成工作流的結(jié)構(gòu)復(fù)雜性,需要從 q 中提取語義信息。具體來說,用一個(gè)開源的預(yù)訓(xùn)練大語言模型作為生成器 G 的基礎(chǔ)模型。生成器的輸入包括任務(wù) q 和生成指南的組合,包括格式要求和可用操作員的介紹,所有這些都被格式化為一個(gè)指導(dǎo)提示。
直接使用 DPO 對收集的偏好數(shù)據(jù)進(jìn)行生成器微調(diào),會(huì)導(dǎo)致收斂速度慢并且無法達(dá)到最佳性能。這些問題是由于評估分?jǐn)?shù)中的錯(cuò)誤和方差造成的。本文提出一種廣泛適用的優(yōu)化方法 Score-DPO,這是 DPO 的改進(jìn)版,旨在解決這些挑戰(zhàn)。本文實(shí)驗(yàn)證明 Score-DPO 在優(yōu)化 LLM 工作流生成器方面的優(yōu)勢,表明它適用于類似的設(shè)置。
增強(qiáng)的采樣分布。在設(shè)置中應(yīng)用 DPO 時(shí)觀察的收斂速度慢和性能不佳,可以歸因于收集的偏好數(shù)據(jù)不準(zhǔn)確,這是由評估分?jǐn)?shù)中不可避免的方差和誤差造成的。為了解決這個(gè)問題,建議增加樣本對 (w, l) 的權(quán)重,使分?jǐn)?shù)差異 s_w ? s_l 更大。具體來說,引入一個(gè)函數(shù) d(x, y) : [0, 1]2 → [0, 1],該函數(shù)關(guān)于 x ? y 嚴(yán)格單調(diào)遞增。然后,根據(jù) P^?(w, l) ∝ d(s_w, s_l)P(w, l) 增加得分差異較大的數(shù)據(jù)對采樣概率,通過增加其可能性來提高權(quán)重,其中 P(w, l) 表示偏好數(shù)據(jù)集 D_pre 上的均勻隨機(jī)采樣分布。此調(diào)整可確保在采樣過程中優(yōu)先考慮得分差異較大的對,從而提高優(yōu)化過程的有效性。
將評估分?jǐn)?shù)納入排名目標(biāo)。Bradley-Terry (BT) [5] 排名目標(biāo) σ(r_w ?r_l) 有一些替代公式,比 DPO [23, 4, 26] 更有效,其中 r_w := β log(π_θ(y_w|x)/π_ref (y_w|x)) 和 r_l := β log(π_θ(yl|x)/π_ref (yl|x))。在設(shè)置中,結(jié)合評估分?jǐn)?shù)來指導(dǎo)隱性獎(jiǎng)勵(lì)。具體來說,將基于分?jǐn)?shù)的 BT 排名目標(biāo)定義為 σ(r_w? ? r_l?),其中 r_w? := f(s_w)r_w,r_l^? := (1 ? f(s_l))r_l,f(x) : [0, 1] → [0, 1] 是嚴(yán)格單調(diào)遞增函數(shù)。從經(jīng)驗(yàn)上講,這種方法可確保,具有更確定性評估分?jǐn)?shù)的數(shù)據(jù)點(diǎn),對損失函數(shù)的影響更大。最后,將 Score-DPO 的損失函數(shù)定義為
雖然 DPO 很難有效地學(xué)習(xí)偏好排名 [6],但以下定理將證明這種分?jǐn)?shù)-指導(dǎo)方法將每個(gè)樣本對優(yōu)化目標(biāo)的影響與其評估分?jǐn)?shù)的大小相一致。
為了使分析形式化,引入符號(hào)來量化每個(gè)特定樣本對優(yōu)化目標(biāo)的影響。
定義 1(每個(gè)樣本的影響)。對于給定的樣本 z,z 對目標(biāo)函數(shù)的影響(稱為每個(gè)樣本的影響)定義為:
每個(gè)樣本的影響 I(z) 是樣本 z 貢獻(xiàn)的梯度,表示 z 對優(yōu)化目標(biāo)的定量影響。當(dāng) I(z) > 0 時(shí),優(yōu)化過程會(huì)增加 z 的對數(shù),使其更有可能被優(yōu)先考慮。當(dāng) I(z) < 0 時(shí),它會(huì)降低 z 的對數(shù),使其不太可能被優(yōu)先考慮。以下定理 2 展示分?jǐn)?shù)指導(dǎo)對 I(z) 的影響。
定理 2。假設(shè)函數(shù) d(x, y) : [0, 1]^2 → [0, 1] 關(guān)于 x ? y 嚴(yán)格單調(diào)遞增,函數(shù) f(x) : [0,1] → [0,1] 關(guān)于 x 嚴(yán)格單調(diào)遞增。樣本 z 的每個(gè)樣本影響由以下公式給出:
當(dāng) ?(1 ? f(s_z))?1 ≤ r_z ≤ f^?1(s_z) 成立時(shí),該影響隨得分 s_z 嚴(yán)格單調(diào)遞增。
因此,Score-DPO 可以將得分信息納入自采樣偏好優(yōu)化中,使優(yōu)化過程能夠考慮定量信息,而不是僅使用赤裸裸偏好對信息,并且可以減少得分不準(zhǔn)確造成的誤差和方差。請注意,定理 2 中所述的條件不是限制性的,因?yàn)?|r_z | ≤ 1 為其有效性提供充分條件。此外,實(shí)驗(yàn)結(jié)果表明,在收斂之前的優(yōu)化過程中,|r_z| ≤ 1 成立的概率約為 91.1%。
最后總結(jié)的算法如下:
數(shù)據(jù)集。專注于六個(gè)公共數(shù)據(jù)集,涵蓋一系列任務(wù),包括數(shù)學(xué)問題、問答問題和編碼問題。具體來說,利用 HumanEval [8] 和 MBPP [3] 的完整數(shù)據(jù)集。按照 Aflow [46] 的方法,對于 GSM8K [9],在測試集中使用 1,319 個(gè)數(shù)據(jù)點(diǎn)。對于 MATH 數(shù)據(jù)集,為了強(qiáng)調(diào)高級(jí)和具有挑戰(zhàn)性的問題,從以下問題類型中選擇難度級(jí)別為 5 的問題:組合和概率、數(shù)論、初等代數(shù)和初等微積分,就像 Hong [12] 所做的那樣。對于 DROP [10] 和 HotpotQA [43],遵循 Hu [14]、Shinn [31] 和 Zhang [46] 概述的方法,從每個(gè)數(shù)據(jù)集中隨機(jī)選擇 1,000 個(gè)樣本。使用 1:4 的比例將數(shù)據(jù)分成驗(yàn)證集和測試集。
基線。手動(dòng)設(shè)計(jì)的靜態(tài)工作流基線包括:直接 LLM 調(diào)用、思維鏈 [36]、自洽性 CoT(對集成生成 5 個(gè)響應(yīng))[34]、MedPrompt(3 個(gè)響應(yīng)和 5 張票)[24]、多人辯論 [35] 和自我優(yōu)化(2 輪)[22]。還與代碼表示自動(dòng)化工作流優(yōu)化方法進(jìn)行比較:ADAS [14] 和 Aflow [46],其中使用 GPT-4o-mini 作為它們的優(yōu)化模型。將 Aflow 的迭代輪數(shù)設(shè)置為 20,如 Zhang [46] 所述。
模型。默認(rèn)情況下,用 Llama-3.1-8B-Instruct 作為生成器的基礎(chǔ)模型(使用 vLLM [18] 進(jìn)行推理),并使用 GPT-4o-mini 作為執(zhí)行器(通過 API 進(jìn)行推理,溫度為 0)。在消融研究中,用 Qwen2.5-7B-Instruct [39] 作為生成器,并使用 GPT-4o 和 DeepSeek 系列模型 [20] 作為執(zhí)行器。所有實(shí)驗(yàn)均使用 2 個(gè) A6000 GPU 和 LoRA [13]。
指標(biāo)和評估分?jǐn)?shù)。在最終結(jié)果中報(bào)告解決率(評估 3 次并取平均值)。用 GPT-4o-mini 作為 MATH、DROP 和 HotpotQA 的評判模型,以避免格式不一致問題。在優(yōu)化過程的每次迭代中(總共 3 次迭代),為每個(gè)問題生成 k = 8 個(gè)工作流并獲得它們的評估分?jǐn)?shù),其中不使用判斷模型來降低成本和計(jì)算開銷。具體來說,用 F1 分?jǐn)?shù)作為 DROP 和 HotpotQA 的評估指標(biāo),并解決剩余數(shù)據(jù)集的速率(評估 3 次并取平均值)。為了應(yīng)用 Score-DPO,將 f (x) = x 和 d(x, y) = (x ? y)^3 設(shè)置為默認(rèn)選擇。