朝陽區(qū)規(guī)劃網(wǎng)站汽車網(wǎng)站建設(shè)方案
目錄
一、來源:
論文鏈接:https://arxiv.org/pdf/2501.06252
代碼鏈接:SakanaAI/self-adaptive-llms
論文發(fā)布時(shí)間:2025年1月14日
二、論文概述:
圖1?Transformer2 概述?
圖2 訓(xùn)練及推理方法概述
圖3 基于提示的自適應(yīng)
圖4?奇異值微調(diào)(SVF)學(xué)習(xí)曲線?
圖5 視覺語言模型(VLM)領(lǐng)域的結(jié)果
三、總結(jié)
一、來源:
論文鏈接:https://arxiv.org/pdf/2501.06252
代碼鏈接:SakanaAI/self-adaptive-llms
論文發(fā)布時(shí)間:2025年1月14日
二、論文概述:
Transformer2 的發(fā)布在性能提升、成本降低等方面展現(xiàn)出優(yōu)勢,有可能像 Transformer 當(dāng)初一樣帶來新一輪技術(shù)革命,推動大模型技術(shù)進(jìn)一步發(fā)展。
作者表示,這項(xiàng)研究為人們提供了一個(gè)未來 AI 模型不再靜態(tài)的初步展望。這些系統(tǒng)將在測試時(shí)動態(tài)地調(diào)整其計(jì)算能力,以適應(yīng)它們所遇到任務(wù)的復(fù)雜性,體現(xiàn)出能夠持續(xù)變化和終生學(xué)習(xí)的”活“的智能。
Transformer2 主要具備以下三大亮點(diǎn):
- 奇異值微調(diào)(SVF)
- 使用 SVF 和 RL 進(jìn)行訓(xùn)練
- 自適應(yīng)策略
接下來我們從論文中尋找他的技術(shù)細(xì)節(jié),對Transformer2進(jìn)行初步的探究。
正如圖 1 所示,在訓(xùn)練時(shí),Transformer2會精心調(diào)整權(quán)重矩陣的奇異值以獲得‘專家’向量,這些向量在后續(xù)的推理過程中發(fā)揮著關(guān)鍵作用。在推理的第一階段,模型依據(jù)任務(wù)特性調(diào)用合適的專家向量,為生成準(zhǔn)確答案奠定基礎(chǔ),第二階段則完成最終的答案生成。?
圖1?Transformer2 概述?
從圖 2 中我們能深入了解其構(gòu)建過程。在訓(xùn)練環(huán)節(jié)(左圖),SVF 與 RL 協(xié)同工作,學(xué)習(xí)得到具有針對性的專家向量。而在推理階段(右圖),Transformer2 提供了三種靈活的方法來應(yīng)對不同的任務(wù)需求,如基于提示的方法通過巧妙構(gòu)建提示來篩選專家向量,基于任務(wù)分類器的方法利用專門訓(xùn)練的分類器提高任務(wù)識別能力,基于混合的方法則通過創(chuàng)新的線性插值和 CEM 搜索實(shí)現(xiàn)更精準(zhǔn)的自適應(yīng)組合。
圖2 訓(xùn)練及推理方法概述
Transformer2共有三種自適應(yīng)策略,分別是
-
基于提示的適應(yīng):通過提示詞,對任務(wù)進(jìn)行分類并選擇預(yù)訓(xùn)練的 z 向量。
-
基于分類器的適應(yīng):使用 SVF 訓(xùn)練的任務(wù)分類器,在推理中識別任務(wù)并選擇合適的 z 向量。
-
少樣本適應(yīng):通過加權(quán)插值組合多個(gè)預(yù)訓(xùn)練的 z 向量。根據(jù)少樣本評估集上的性能調(diào)整權(quán)重。
其中從圖 3 中可以清晰地看到,Transformer2 利用一種特殊的自適應(yīng)提示,其核心目的是將接收到的任務(wù)提示分類到預(yù)定義的類別之中。這就好比為不同的任務(wù)提示找到了它們各自對應(yīng)的 “收納箱”,讓模型能夠更高效地處理這些信息。
舉例來說,當(dāng)用戶輸入一個(gè)關(guān)于數(shù)學(xué)計(jì)算的任務(wù)提示時(shí),自適應(yīng)提示會迅速將其歸類到數(shù)學(xué)相關(guān)的預(yù)定義類別中,然后模型就能精準(zhǔn)地調(diào)用擅長數(shù)學(xué)任務(wù)的 “專家” 向量,給出準(zhǔn)確的計(jì)算結(jié)果或解決方案。
圖3 基于提示的自適應(yīng)
在探究 Transformer2 中奇異值微調(diào)(SVF)的效果時(shí),圖 4?為我們呈現(xiàn)了關(guān)鍵信息。從圖中可以看到,那些虛線代表著 LLAMA3 - 8B INSTRUCT 在每個(gè)任務(wù)測試集上的性能表現(xiàn)。而 SVF 的強(qiáng)大之處在于,它通過有效的微調(diào),成功地超越了基礎(chǔ)性能。
為了更全面地展示 SVF 的學(xué)習(xí)能力,作者不僅展示了最終用于評估的最佳驗(yàn)證分?jǐn)?shù)對應(yīng)的檢查點(diǎn)(用醒目的紅點(diǎn)標(biāo)記),還給出了完整的訓(xùn)練曲線,沒有采用提前停止的策略。這意味著我們能清晰地看到 SVF 在整個(gè)訓(xùn)練過程中的學(xué)習(xí)進(jìn)展。
圖4?奇異值微調(diào)(SVF)學(xué)習(xí)曲線?
同時(shí),作者使用 SVF 對 LLAMA3 - LLAVA - NEXT - 8B 進(jìn)行微調(diào),使基礎(chǔ)模型的性能提升超過 39%(見圖 5)。為確保公平比較,在附錄 4.3 中針對不同架構(gòu)和優(yōu)化目標(biāo),對模型和 LoRA 基線進(jìn)行了廣泛的消融實(shí)驗(yàn)。由于其關(guān)鍵的參數(shù)化方式,訓(xùn)練 SVF 所需資源大幅減少,其訓(xùn)練參數(shù)不到作者LoRA 實(shí)現(xiàn)的 10%。?
(讀論文看到這里我想到了剛發(fā)布的deepseekv3,其不僅在性能上霸榜,更是在訓(xùn)練效率上遙遙領(lǐng)先,值得大家關(guān)注!)
圖5 視覺語言模型(VLM)領(lǐng)域的結(jié)果
當(dāng)然,既然比其他模型多出了自適應(yīng)功能,那么就需要相應(yīng)的計(jì)算,作者解釋:"表 1 報(bào)告了 Transformer2 的提示自適應(yīng)策略所需的推理時(shí)間,其中分別列出了第一遍和第二遍解決整個(gè)問題集所花費(fèi)的時(shí)間。請注意,第二遍推理時(shí)間是解決問題所花費(fèi)的時(shí)間,第一遍推理時(shí)間是自適應(yīng)所花費(fèi)的時(shí)間,第一遍與第二遍推理時(shí)間的比率在括號內(nèi)。雖然額外的一遍推理可能看似使總體運(yùn)行時(shí)間翻倍,但重要的是要注意,推理時(shí)間主要取決于生成的令牌數(shù)量。在我們的設(shè)定中,它是O(n),其中是輸入的長度。ARC-challenge 的成本比率較大,因?yàn)樗鼈兪菃雾?xiàng)選擇題,因此第二遍的成本也是O(n)?。在一般情況下,我們認(rèn)為假設(shè)這個(gè)比率更接近 MATH 和 Humaneval 的比率是合理的。"
三、總結(jié):
在本文中,作者介紹了 Transformer2,為實(shí)現(xiàn)自適應(yīng)大語言模型(LLMs)提供了一個(gè)全新藍(lán)圖。在此框架內(nèi),首先提出了奇異值微調(diào)(SVF)方法,與先前的微調(diào)方法相比,它性能更優(yōu),同時(shí)成本更低、組合性更強(qiáng),還能對過擬合進(jìn)行正則化處理 —— 這些都是實(shí)現(xiàn)可擴(kuò)展自適應(yīng)的關(guān)鍵特性。以一組 SVF 專家向量作為構(gòu)建模塊,我們開發(fā)了三種有效的自適應(yīng)策略,每種策略都有獨(dú)特優(yōu)勢,并且隨著對測試時(shí)條件了解的增多,能帶來持續(xù)的性能提升。
盡管 Transformer2 取得了令人矚目的成果,但未來仍有諸多令人期待的研究方向。其局限性之一在于,SVF 專家向量的能力與基礎(chǔ)模型的潛在組件緊密相關(guān)。為解決這一問題,模型融合提供了一個(gè)頗具前景的方向,它能將專門化的模型合并為一個(gè)能力更強(qiáng)的單一模型。此外,雖然我們基于交叉熵方法(CEM)的自適應(yīng)策略能有效平衡性能與效率,但擴(kuò)展到大量特定領(lǐng)域可能會導(dǎo)致一次性計(jì)算成本增加。不過,性能提升和自適應(yīng)能力增強(qiáng)帶來的好處抵消了這種權(quán)衡。模型融合和高效自適應(yīng)技術(shù)的進(jìn)步催生了在公開排行榜上名列前茅的模型,使其成為 Transformer2 基礎(chǔ)模型的有力候選,為自適應(yīng)大語言模型開辟了新的可能性。