建個網(wǎng)站的電話廣東seo網(wǎng)絡培訓
25年2月來自上海交大、SII 和 GAIR 的論文“LIMO: Less is More for Reasoning”。
一個挑戰(zhàn)是在大語言模型(LLM)中的復雜推理。雖然傳統(tǒng)觀點認為復雜的推理任務需要大量的訓練數(shù)據(jù)(通常超過 100,000 個示例),但本文展示只需很少的示例就可以有效地引發(fā)復雜的數(shù)學推理能力。這個不僅挑戰(zhàn)對海量數(shù)據(jù)要求的假設,也挑戰(zhàn)監(jiān)督微調(SFT)主要造成記憶而不是泛化的普遍看法。通過全面的實驗,提出的模型 LIMO 在數(shù)學推理方面表現(xiàn)出前所未有的性能和效率。僅使用 817 個精選的訓練樣本,LIMO 在極具挑戰(zhàn)性的 AIME 基準上實現(xiàn) 57.1% 的準確率,在 MATH 上實現(xiàn) 94.8% 的準確率,將以前基于 SFT 的強大模型在 AIME 上的性能從 6.5% 提高到 57.1%,在 MATH 上的性能從 59.2% 提高到 94.8%,同時僅使用以前方法所需訓練數(shù)據(jù)的 1%。LIMO 表現(xiàn)出分布外(OOD)例外泛化能力,在 10 個不同的基準測試中實現(xiàn) 40.5% 的絕對提升,優(yōu)于使用 100 倍以上數(shù)據(jù)訓練的模型,直接挑戰(zhàn) SFT 本質上導致記憶而不是泛化的流行觀念。
綜合這些結果,本文提出少即是多推理假說(LIMO 假說):在預訓練期間已全面編碼域知識的基礎模型中,復雜的推理能力可以通過最少但精確協(xié)調的認知過程演示顯現(xiàn)出來。該假設認為,復雜推理的引出閾值,本質上不受目標推理任務復雜性的限制,而是由兩個關鍵因素從根本上決定的:(1)預訓練期間模型編碼知識基礎的完整性,以及(2)后訓練示例的有效性,它們作為“認知模板”,向模型展示如何有效利用現(xiàn)有知識庫來解決復雜的推理任務。
如圖所示:LIMO 使用更少的樣本實現(xiàn)比 NuminaMath 顯著的改進,同時在各種數(shù)學和多學科基準測試中表現(xiàn)出色。
長期以來,復雜推理一直被認為是大語言模型 (LLM) 中最難培養(yǎng)的能力之一。盡管最近的研究表明,LLM 可以通過相對較少的指令數(shù)據(jù)有效地與用戶偏好保持一致(Zhou,2024a),但人們普遍認為,教師模型進行推理(尤其是在數(shù)學和編程方面)需要更多的訓練示例(Paster,2023;Yue,2024)。這種傳統(tǒng)觀點源于推理任務固有的復雜性,它需要多步驟的邏輯推理、域知識應用和結構化的解決方案路徑。由此產(chǎn)生的范式通常涉及對數(shù)萬或數(shù)十萬個示例進行訓練(Yu,2024;Li,2024b),基于兩個基本假設:首先,掌握如此復雜的認知過程需要大量監(jiān)督演示;其次,監(jiān)督微調主要造成記憶而不是真正的泛化(Zhang,2024;Xu,2024;Chu,2025)。
雖然這種方法已取得成功,但它帶來了巨大的計算成本和數(shù)據(jù)收集負擔。更重要的是,這種數(shù)據(jù)密集型范式可能不再是必要的。最近的進展從根本上改變 LLM 獲取、組織和利用推理知識的方式,表明有可能采用一種更有效的方法。特別是兩個關鍵發(fā)展從根本上為重新構想 LLM 中的推理方法創(chuàng)造了條件:
- 知識基礎革命:現(xiàn)代基礎模型現(xiàn)在在預訓練期間納入前所未有的大量數(shù)學內容(Qwen,2025;Yang,2024;Wang,2024)。例如:Llama 2 在所有域的總訓練數(shù)據(jù)為 1.8T 個 token(Touvron,2023 年),而 Llama 3 僅在數(shù)學推理中就使用 3.7T 個 token(Grattafiori,2024 年)。這表明當代 LLM 可能已經(jīng)在其參數(shù)空間中擁有豐富的數(shù)學知識,將挑戰(zhàn)從知識獲取轉變?yōu)橹R引出。
- 推理-時間計算規(guī)?;锩?#xff1a;規(guī)模化更長推理鏈技術的出現(xiàn)表明,有效的推理在論斷過程中需要大量的計算空間。最近的研究(OpenAI,2024;Qin,2024;Huang,2024)表明,允許模型生成規(guī)模化推理鏈,可顯著提高其推理能力。本質上,推理-時間計算提供了至關重要的認知工作空間,模型可以在其中系統(tǒng)地解開和應用其預先訓練的知識。
LLM 中數(shù)學推理的演變。大規(guī)模訓練數(shù)據(jù)一直是 LLM 推理能力發(fā)展的驅動力。在預訓練階段,相關語料庫可以增強 LLM 的推理能力(Wang,2024;Azerbayev,2024;Paster,2023;Shao,2024)。這些精選語料庫可以由多種來源組成,例如教科書、科學論文和數(shù)學代碼,它們捕捉用于解決問題的各種人類認知模式。在后訓練階段,一系列研究專注于策劃大規(guī)模指令數(shù)據(jù)以教授 LLM 推理(Yue,2023、2024;Li,2024a)。這包括規(guī)模化問題及其相應解決方案的數(shù)量。規(guī)?;椒ê苡星熬?#xff0c;并且已經(jīng)取得顯著的性能提升。然而,通過這種方法獲得的推理能力,因依賴于固定模式的記憶而不是實現(xiàn)真正的泛化而受到批評(Mirzadeh,2024;Zhang,2024)。例如,Mirzadeh(2024)發(fā)現(xiàn),LLM 在回答同一問題的不同實例時表現(xiàn)出明顯的差異,并且當僅改變問題中的數(shù)值時,其性能會下降。這引發(fā)人們對 SFT 方法泛化能力的懷疑(Chu,2025),以及 LLM 是否可以成為真正的推理者而不是單純的知識檢索者(Kambhampati,2024)。
測試-時間規(guī)?;烷L鏈推理。最近的研究不再關注規(guī)?;P蛥?shù)和訓練數(shù)據(jù)(Kaplan,2020),而是轉向探索測試-時間規(guī)?;?#xff08;OpenAI,2024;Snell,2024),即增加 token 數(shù)量以提高性能。這可以通過使用并行采樣(Brown,2024;Wang,2022;Li,2022)或符號樹搜索(Hao,2023;Chen,2024;Yao,2023)等方法增強 LLM 來實現(xiàn),以增強推理能力。此外,OpenAI(2024);Guo(2025) 探索使用強化學習訓練 LLM 以生成長 CoT,這通常包括自我反思、驗證和回溯——人類在解決復雜問題時常用的過程。這種方法不僅創(chuàng)新 LLM 的訓練范式,而且還提供一種新形式的訓練數(shù)據(jù)來增強其推理能力。這種長 CoT 在引出 LLM 固有的推理能力方面表現(xiàn)出高質量的特征。
語言模型中的數(shù)據(jù)效率。Zhou (2024a) 證明,僅需 1,000 個策劃的提示和響應,模型就可以學會遵循特定的格式并很好地推廣到未見過的任務。研究結果強調在對齊過程中質量重于數(shù)量的重要性。然而,考慮到此類任務的潛在高計算復雜性,這一教訓是否可以應用于推理任務仍不確定(Merrill & Sabharwal,2024;Xiang,2025)。雖然一些關于推理的研究強調在整理訓練數(shù)據(jù)時質量的重要性(Zhou,2024b),但此類數(shù)據(jù)的數(shù)量與 LIMA 相比仍然大得多。
下面介紹LIMO的工作。
現(xiàn)象再思考:“少即是多”和強化學習規(guī)?;?/h2>
LIMO 的出現(xiàn),代表在大語言模型中概念化和激活復雜推理能力的范式轉變。首先,將 LIMO 與 LIMA 進行對比,了解“少即是多”原則如何從一般對齊擴展到復雜推理;其次,將 LIMO 與強化學習 (RL) 規(guī)模化方法進行比較,以突出開發(fā)推理能力的不同哲學觀點。通過這些分析,旨在更深入地了解語言模型中復雜認知能力的出現(xiàn)方式以及有效激活的條件。
LIMO 與 LIMA
LLM 中“少即是多”現(xiàn)象的出現(xiàn),代表對如何用最少的數(shù)據(jù)引出復雜能力的理解發(fā)生了根本性轉變。雖然 LIMA(Zhou,2024a)首先在一般對齊的背景下展示了這種現(xiàn)象,但將這一原則擴展到復雜的數(shù)學推理提出了獨特的挑戰(zhàn)和要求。
知識基礎革命。過去兩年見證語言模型獲取和組織數(shù)學知識的方式轉變。雖然 LIMA 可以依靠一般文本語料庫進行對齊,但 LIMO 的成功建立在通過專門的預訓練嵌入現(xiàn)代基礎模型的豐富數(shù)學內容之上(Wang,2024)。這種專門的知識基礎是有效激活推理能力的先決條件。
計算能力革命。LIMA 和 LIMO 之間的一個關鍵區(qū)別在于它們的計算要求。雖然 LIMA 的對齊任務可以通過固定長度生成和單次處理來完成,但 LIMO 的推理任務需要大量的計算空間來進行多步審議。推理-時間規(guī)?;夹g的出現(xiàn)(OpenAI,2024;Qin,2024)提供了必要的“認知工作空間”,模型可以在其中系統(tǒng)地解開并應用其預訓練的知識。
協(xié)同合流。LIMO 的發(fā)現(xiàn)時間,反映了這兩場革命的必要合流。 LIMA 和 LIMO 之間兩年的差距,不僅代表更好的預訓練模型所需時間,還代表等待推理-時間計算突破的必要時間。這種合流促成一種稱為“推理抽出閾值”的現(xiàn)象:當模型同時擁有豐富的域知識和足夠的計算空間時,可以通過最少但精確的演示激活復雜的推理能力。
對未來研究的啟示。這種比較分析表明,“少即是多”不僅僅是一種使用更少數(shù)據(jù)的提倡,而且是支配模型能力有效抽出的一條基本原則。 LIMO 的成功表明,當滿足基本先決條件(知識基礎和計算框架)時,復雜的能力可以以顯著的數(shù)據(jù)效率抽出。這一見解表明一個新的研究方向:系統(tǒng)地識別不同能力的先決條件和最佳激活條件。未來的工作應該探索其他高級能力(例如,規(guī)劃、創(chuàng)造性解決問題)在建立相應的知識和計算基礎后是否能達到類似的效率。因此,“少即是多”原則既是理解能力出現(xiàn)的理論框架,也是在各個領域追求數(shù)據(jù)高效能力發(fā)展的實用指南。
如下表比較復雜推理 LIMO 和通用對齊 LIMA:
LIMO 與 RL 規(guī)模化
在大語言模型中開發(fā)推理能力兩種不同方法的出現(xiàn)——RL 規(guī)?;?LIMO——代表了理解和增強模型智能的根本分歧。RL 規(guī)?;?o1(OpenAI,2024)、DeepSeek-R1(Guo,2025)等為例,從工程優(yōu)化的角度應對挑戰(zhàn)。它假設推理能力需要通過大規(guī)模強化學習進行廣泛的模型訓練。雖然這種方法有效,但它本質上將 RL 視為一種廣泛的搜索機制,通過大量計算資源發(fā)現(xiàn)有效的推理模式。相比之下,LIMO 引入一個更基礎的視角:推理能力已經(jīng)潛伏在預訓練模型中,嵌入在預訓練階段。關鍵挑戰(zhàn)從“訓練”轉向“抽出”——找到能夠引出這些天生能力的精確認知模板。
從這個角度來看,像 DeepSeek-R1 這樣的 RL 規(guī)模化方法可以看作是這一原則的具體實現(xiàn),使用強化學習作為尋找此類軌跡的機制。雖然這兩種方法最終都尋求高質量的推理解決方案,但 LIMO 通過明確的軌跡設計提供一條更有原則、更直接的路徑,而 RL 規(guī)?;瘎t通過廣泛的計算探索發(fā)現(xiàn)這些軌跡。這種重新構建表明,包括 RL、專家設計或混合方法在內的各種方法,都可以在 LIMO 的框架內被理解和評估為發(fā)現(xiàn)最佳推理軌跡的不同策略。
如下表比較 LIMO 和 RL 規(guī)模化:
LIMO 數(shù)據(jù)集
LIMO 假設
將“少即是多”推理 (LIMO) 假設形式化如下:在基礎模型中,域知識在預訓練期間已被全面編碼,復雜的推理能力可以在最少但精確編排的認知過程演示中出現(xiàn)。這一假設基于兩個基本前提:(I)在模型參數(shù)空間中,先決條件知識的潛在存在(II)推理鏈的質量,這些推理鏈將復雜問題精確分解為詳細的邏輯步驟,使認知過程明確且可追溯。為了驗證這一假設,本文提出一種系統(tǒng)的方法來構建一個高質量、最小的數(shù)據(jù)集,可以有效地抽出模型固有的推理能力。
問題定義
本文專注于具有可驗證答案的推理任務。給定推理問題空間中的問題 q,目標是生成答案 a 和推理鏈 r。將推理鏈 r 定義為一系列中間步驟 {s_1, s_2, …, s_n},其中每個步驟 s_i 代表一個邏輯推理,它彌補問題和最終答案之間的差距。
正式地,可以將推理過程表示為函數(shù) f: Q→R×A。因此,生成數(shù)據(jù)集 D 的質量,由兩個基本但多方面的組成部分決定:(1) 問題 q 的質量,其中包括問題解決方法的多樣性、挑戰(zhàn)模型能力的適當難度級別、以及涵蓋的知識領域廣度等因素;(2) 解決方案的質量 (r, a),其中包括教學價值、邏輯連貫性和方法嚴謹性等方面。問題的設計應鼓勵復雜的推理模式和知識整合,而解決方案應展示清晰的邏輯進展并作為有效的學習示例。
高質量數(shù)據(jù)管理
數(shù)據(jù)管理過程側重于構建高質量數(shù)據(jù)集 D = {(q_i, r_i, a_i)},并且數(shù)據(jù)量 N 故意保持較小以驗證 LIMO 假設。
問題選擇。假設高質量問題 q 應該自然地引發(fā)??擴展的推理過程。選擇標準包括以下內容:
? 難度級別。優(yōu)先考慮那些能夠促進復雜推理鏈、多樣化思維過程和知識整合的具有挑戰(zhàn)性問題,使 LLM 能夠有效地利用預訓練的知識進行高質量推理。
? 泛化性。與模型的訓練分布偏差更大的問題,可以更好地挑戰(zhàn)其固定的思維模式,鼓勵探索新的推理方法,從而擴大其推理搜索空間。
? 知識多樣性。所選問題應涵蓋各種數(shù)學領域和概念,要求模型在解決問題時整合和連接遠端的知識。
為了有效地實施這些標準,首先從各種既定數(shù)據(jù)集中收集一個全面的候選問題池:NuminaMath-CoT,包含從高中到高級競賽水平的標注問題;AIME 歷史考試問題,以其極具挑戰(zhàn)性和綜合性的問題而聞名,涵蓋多個數(shù)學領域;MATH(Hendrycks,2021),涵蓋來自著名競賽的各種競爭性數(shù)學問題;以及其他幾個數(shù)學問題來源。
從這個豐富的初始集合中,采用系統(tǒng)的多階段過濾過程。從數(shù)千萬個問題的初始池開始,首先使用 Qwen2.5-Math-7B-Instruct(Yang,2024)應用基線難度過濾器,消除該模型可以在幾次嘗試中正確解決的問題。這個過程有助于建立初步的難度閾值。隨后,使用最先進的推理模型,包括 R1、DeepSeek-R1-Distill-Qwen-32B(Guo,2025)和 Huang(2024)的模型,對剩余的問題進行更嚴格的評估,僅保留即使是這些最強大的模型在多次采樣迭代后成功率也低于某個閾值的問題。最后,為保持語料庫的多樣性,采用戰(zhàn)略采樣技術,在數(shù)學領域和復雜度級別之間平衡表示,同時避免概念冗余。這一細致的選擇過程,最終從數(shù)千萬個候選問題的初始池中產(chǎn)生817 個挑選的問題,所選問題共同滿足嚴格的質量標準,同時涵蓋豐富的數(shù)學推理挑戰(zhàn)。
推理鏈構建。除了高質量的問題之外,解決方案的質量在大語言模型的訓練階段也起著關鍵作用。為了挑選高質量的解決方案,采用全面的選擇策略。首先收集問題的官方解決方案(如果可用),并輔以人類專家和 AI 專家編寫的解決方案。此外,利用最先進的推理模型,包括 DeepSeek R1、DeepSeek-R1-Distill-Qwen-32B(Guo,2025)和 Qwen2.5-32b-Instruct,來生成不同的解決方案。此外,按照 O1-Journey-Part2(Huang,2024)中提出的方法,利用基于 Qwen2.5-32b-Instruct 的自我蒸餾技術來創(chuàng)建其他模型變型,然后使用這些變型生成補充問題響應。然后根據(jù)答案的正確性篩選這些響應,以建立有效解決方案的基線集合。隨后,通過協(xié)作檢查對這些篩選的解決方案進行全面分析。通過仔細觀察和系統(tǒng)審查,確定區(qū)分高質量推理鏈的幾個關鍵特征:
? 最佳結構組織:解決方案表現(xiàn)出清晰且組織良好的結構格式,步驟分解具有自適應粒度。特別是,它在關鍵的推理節(jié)點分配更多token和詳細闡述,同時保持簡單步驟的簡潔表達。這種自適應步驟粒度方法,可確保復雜的轉換得到適當?shù)年P注,同時避免在較簡單的推理中出現(xiàn)不必要的冗長。
? 有效的認知支架:高質量的解決方案,通過精心構建的解釋逐步建立理解,從而提供戰(zhàn)略教育支持。這包括漸進的概念介紹、在關鍵點清晰表達關鍵見解以及深思熟慮地彌合概念差距,使復雜的推理過程更易于理解和學習。
? 嚴格的驗證:高質量的解決方案,在整個推理過程中包含極其頻繁的驗證步驟。這包括驗證中間結果、交叉檢查假設以及確認每個推論的邏輯一致性,從而確保最終答案的可靠性。
基于這些確定的特征,開發(fā)一種結合基于規(guī)則的過濾和 LLM 輔助策劃的混合方法,以針對上述每個問題選擇高質量的解決方案。這個系統(tǒng)化的過程,確保每個選定的解決方案都符合既定的質量標準,同時保持整個數(shù)據(jù)集的一致性。通過專注于一組最小策劃的推理鏈,體現(xiàn)“少即是多”的核心原則:高質量的演示,而不是純粹的數(shù)據(jù)量,是解鎖復雜推理能力的關鍵。生成的數(shù)據(jù)集 D 由精心策劃的三元組 (q, r, a) 組成,其中每個推理鏈 r 都滿足質量標準。在限制數(shù)據(jù)集大小 |D| 的同時保持這些嚴格的標準,旨在證明高質量的演示,而不是大量的訓練數(shù)據(jù),對于解鎖復雜的推理能力至關重要。
方法論
基于“少即是多”原則,一個模型如果在預訓練中積累大量的推理知識,并且在測試-時能夠執(zhí)行長鏈推理,那么它就可以發(fā)展出強大的推理能力。在僅對幾百個 SFT 數(shù)據(jù)實例進行訓練后,該模型就會學會將元推理任務整合成一個有凝聚力的推理鏈。
訓練協(xié)議
在 LIMO 數(shù)據(jù)集上使用監(jiān)督微調對 Qwen2.5-32B-Instruct 進行微調。訓練過程采用全參數(shù)微調,使用 DeepSpeed ZeRO-3 優(yōu)化(Rajbhandari,2020)和 FlashAttention- 2(Dao,2023),序列長度限制為 16,384 個 tokens。
評估框架
域內評估。為了全面評估模型在各種推理能力方面的表現(xiàn),建立了一個涵蓋傳統(tǒng)和新型基準的多樣化評估框架。我們的主要評估套件包括幾個成熟的數(shù)學競賽和基準:美國數(shù)學邀請賽 (AIME24)、MATH500 (Hendrycks,2021) 和美國數(shù)學競賽 (AMC23)。
分布外(OOD)評估。為了嚴格評估模型在分布外任務上的表現(xiàn),選擇與訓練數(shù)據(jù)在各個方面不同的一些基準。這些基準可以分為三個不同的類別:
? 多樣化的數(shù)學競賽:進一步選擇 OlympiadBench(He,2024),它代表數(shù)學挑戰(zhàn)的獨特分布,用于測試模型的 OOD 性能。
? 新的多語言基準:為了最大限度地減少數(shù)據(jù)污染,用最新的考試問題構建幾個基準:2024 年中國高中數(shù)學聯(lián)賽競賽 CHMath、2024 年中國高考 GAOKAO、中國研究生入學考試 KAOYAN,以及新開發(fā)的用于初等數(shù)學推理 GradeSchool。值得注意的是,這些基準中的所有問題都是用中文編寫的,而訓練數(shù)據(jù)不包含中文問題。這引入一個額外的 OOD 維度,不僅評估模型在問題分布中泛化的能力,還評估其在面對未見過語言時的跨語言推理能力。
? 多學科基準:為了評估數(shù)學(訓練領域)以外更廣泛的泛化能力,結合 Miverva(Lewkowycz,2022)(其中包括本科水平的 STEM 問題)和 GPQA(Rein,2023)。這些基準評估跨多個學科和認知水平的推理能力,深入了解模型將數(shù)學推理技能轉移到更廣泛環(huán)境的能力。
性能指標。用 pass@1 指標評估整個基準套件的性能。所有評估均在零樣本思維鏈 (CoT) 設置下進行,以更好地評估模型的推理能力。對于包括 MATH500、OlympiadBench、Gaokao、Kaoyan、GradeSchool、MinervaMath 和 GPQA 在內的基準,采用一種簡單的方法,使用貪婪解碼和一個單樣本來評估正確性。但是,對于每個包含少于 50 個問題的較小基準(特別是 AIME24、AMC23 和 CHMATH),實施更全面的評估協(xié)議,生成 16 個樣本,溫度設置為 0.7,并計算無偏 pass@1 指標,如 Chen (2021) 中所述。對于答案是結構良好的數(shù)值問題,直接應用基于規(guī)則的評估來檢查數(shù)學等價性。對于更復雜的答案格式(例如表達式、方程式或結構化解決方案),利用基于 LLM 的評估器,已經(jīng)驗證它的高可靠性。在所有評估過程中,將最大輸出長度保持在 32,768 個 tokens,以最大限度地減少輸出截斷的可能性,確保評估能夠捕獲完整的問題解決嘗試。此外,在評估 LIMO 時,觀察到推理-時間規(guī)?;紶枙е氯唛L輸出末尾出現(xiàn)重復模式。在這種情況下,從模型的響應中提取最可能的最終答案進行評估,以確保準確評估其解決問題的能力。