買CAD設(shè)計(jì)圖做的網(wǎng)站怎么投稿各大媒體網(wǎng)站
Mammoth: Building math generalist models through hybrid instruction tuning
https://arxiv.org/pdf/2309.05653
MAmmoTH:通過(guò)混合指令調(diào)優(yōu)構(gòu)建數(shù)學(xué)通才模型
摘要
我們介紹了MAmmoTH,一系列特別為通用數(shù)學(xué)問(wèn)題解決而設(shè)計(jì)的開(kāi)源大型語(yǔ)言模型(LLMs)。MAmmoTH模型是在我們精心策劃的指令調(diào)優(yōu)數(shù)據(jù)集MathInstruct上訓(xùn)練的。MathInstruct是由13個(gè)數(shù)學(xué)數(shù)據(jù)集組成的,其中包含中間推理過(guò)程,我們新策劃了其中的六個(gè)。它展示了思維鏈(CoT)和程序思維(PoT)推理的獨(dú)特混合,并且確保了在數(shù)學(xué)領(lǐng)域廣泛的多樣性覆蓋。CoT和PoT的混合不僅釋放了工具使用的潛力,還允許對(duì)不同的數(shù)學(xué)問(wèn)題采取不同的思維過(guò)程。結(jié)果,MAmmoTH系列在所有規(guī)模上的九個(gè)數(shù)學(xué)推理數(shù)據(jù)集上顯著優(yōu)于現(xiàn)有的開(kāi)源模型,平均準(zhǔn)確率提高了16%到32%。值得注意的是,我們的MAmmoTH-7B模型在MATH(一個(gè)競(jìng)賽級(jí)數(shù)據(jù)集)上達(dá)到了33%,超過(guò)了最好的開(kāi)源7B模型(WizardMath)23%,而MAmmoTH-34B模型在MATH上達(dá)到了44%的準(zhǔn)確率,甚至超過(guò)了GPT-4的思維鏈結(jié)果。我們的工作強(qiáng)調(diào)了在開(kāi)發(fā)更優(yōu)秀的數(shù)學(xué)通才模型時(shí),多樣化問(wèn)題覆蓋和使用混合推理的重要性。
1 引言
本研究聚焦于數(shù)學(xué)推理,這是現(xiàn)代大型語(yǔ)言模型(LLMs)的一個(gè)關(guān)鍵能力(OpenAI, 2023; Anil等人,2023)。盡管該領(lǐng)域近期取得了進(jìn)步,但在閉源和開(kāi)源LLMs之間存在明顯差距——像GPT-4(OpenAI, 2023)、PaLM-2(Anil等人,2023)和Claude 2(Bai等人,2022)這樣的閉源模型在GSM8K(Cobbe等人,2021)和MATH(Hendrycks等人,2021b)等流行的數(shù)學(xué)推理基準(zhǔn)測(cè)試中占據(jù)主導(dǎo)地位,而像Llama(Touvron等人,2023a;b)、Falcon(Penedo等人,2023)、OPT(Zhang等人,2022)這樣的開(kāi)源模型在所有基準(zhǔn)測(cè)試中都遠(yuǎn)遠(yuǎn)落后。
目前彌合這一差距的努力主要有兩個(gè)方向:(1)持續(xù)預(yù)訓(xùn)練,如Galactica(Taylor等人,2022)和MINERVA(Lewkowycz等人,2022),這些模型繼續(xù)在超過(guò)1000億個(gè)token的與數(shù)學(xué)相關(guān)的網(wǎng)絡(luò)數(shù)據(jù)上訓(xùn)練LLM。這種方法提高了模型的一般科學(xué)推理能力,但計(jì)算成本高昂。(2)特定數(shù)據(jù)集的微調(diào),如拒絕采樣微調(diào)(RFT)(Yuan等人,2023)和WizardMath(Luo等人,2023),這些方法使用特定于某些數(shù)據(jù)集的監(jiān)督數(shù)據(jù)對(duì)LLM進(jìn)行微調(diào)。盡管這些方法提高了領(lǐng)域內(nèi)的性能,但它們無(wú)法推廣到超出其微調(diào)數(shù)據(jù)的更廣泛的數(shù)學(xué)推理任務(wù)。例如,RFT和WizardMath都可以將GSM8K(Cobbe等人,2021)的準(zhǔn)確率提高30%以上,這是它們的微調(diào)數(shù)據(jù)集之一,但卻可能將MMLU-Math(Hendrycks等人,2021a)或AQuA(Ling等人,2017)等領(lǐng)域外數(shù)據(jù)集的準(zhǔn)確率降低高達(dá)10%。
在本文中,我們旨在提出一種輕量級(jí)但具有普適性的數(shù)學(xué)指令調(diào)優(yōu)方法,以增強(qiáng)LLMs的一般(即不限于微調(diào)任務(wù))數(shù)學(xué)推理能力?,F(xiàn)有方法(Luo等人,2023; Yuan等人,2023; Taylor等人,2022)主要關(guān)注通過(guò)逐步自然語(yǔ)言描述解決數(shù)學(xué)問(wèn)題的“思維鏈”(Chain-of-Thought, CoT)方法(Wei等人,2022b; Nye等人,2022)。這種方法在涵蓋大多數(shù)數(shù)學(xué)科目方面表現(xiàn)出其普適性,但在計(jì)算精度以及復(fù)雜的數(shù)學(xué)或算法推理過(guò)程(例如,求解二次方程的根和計(jì)算矩陣的特征值)方面存在挑戰(zhàn)。
與此相反,像“程序思維”(Program-of-Thought, PoT)方法(Chen等人,2022)和PAL(Madaan等人,2022; Gao等人,2023)這樣的代碼格式提示利用外部工具(即Python解釋器)大大簡(jiǎn)化了數(shù)學(xué)問(wèn)題解決過(guò)程。這種方法主張將計(jì)算過(guò)程卸載到外部Python解釋器中,以解決復(fù)雜的數(shù)學(xué)和算法推理過(guò)程(例如,使用sympy求解二次方程或使用numpy計(jì)算矩陣的特征值)。然而,PoT在處理更抽象的推理場(chǎng)景時(shí)存在不足,如常識(shí)推理、形式邏輯和抽象代數(shù),特別是在沒(méi)有內(nèi)置API的情況下。
為了結(jié)合CoT和PoT方法的優(yōu)勢(shì),我們引入了一個(gè)新的數(shù)學(xué)混合指令調(diào)優(yōu)數(shù)據(jù)集MathInstruct,它具有兩個(gè)主要特點(diǎn):(1)廣泛覆蓋不同的數(shù)學(xué)領(lǐng)域和復(fù)雜性級(jí)別;(2)混合CoT和PoT的推理方式。MathInstruct基于七個(gè)現(xiàn)有的數(shù)學(xué)推理數(shù)據(jù)集和六個(gè)新策劃的數(shù)據(jù)集(見(jiàn)表1)。我們使用MathInstruct對(duì)不同規(guī)模的Llama(Touvron等人,2023a;b; Roziere等人,2023)模型進(jìn)行微調(diào),從7B到70B不等。由此產(chǎn)生的MAmmoTH模型(圖1)展示了作為數(shù)學(xué)通才的前所未有的潛力。
我們?cè)谝幌盗袛?shù)據(jù)集上評(píng)估了MAmmoTH,包括領(lǐng)域內(nèi)(IND)測(cè)試集——GSM8K(Cobbe等人,2021)、MATH(Hendrycks等人,2021b)、AQuA-RAT(Ling等人,2017)、NumGLUE(Mishra等人,2022b)——和領(lǐng)域外(OOD)測(cè)試集——SVAMP(Patel等人,2021)、SAT(Zhong等人,2023)、MMLU-Math(Hendrycks等人,2021a)、Mathematics(Davies等人,2021)和SimulEq(Koncel-Kedziorski等人,2016)。與現(xiàn)有方法相比,我們的模型更好地泛化到OOD數(shù)據(jù)集,并顯著提高了開(kāi)源LLMs在數(shù)學(xué)推理中的性能。值得注意的是,在流行的競(jìng)賽級(jí)MATH數(shù)據(jù)集(Hendrycks等人,2021b)上,我們的7B模型可以比WizardMath(開(kāi)源MATH最先進(jìn)技術(shù))(Luo等人,2023)高出3.5倍(35.2%對(duì)10.7%),我們34B的MAmmoTH-Coder(在Code Llama(Rozier等人,2023)上微調(diào))甚至可以超過(guò)使用CoT的GPT-4的結(jié)果。
我們從兩個(gè)角度突出了我們的貢獻(xiàn):(1)從數(shù)據(jù)工程的角度,我們展示了MathInstruct,這是一個(gè)高質(zhì)量的數(shù)學(xué)指令調(diào)優(yōu)數(shù)據(jù)集,結(jié)合了各種數(shù)學(xué)問(wèn)題和混合推理方式。(2)從建模的角度,我們通過(guò)訓(xùn)練和評(píng)估超過(guò)50種不同的模型和基線,從7B到70B不等,調(diào)查了不同數(shù)據(jù)來(lái)源和輸入輸出格式的影響。我們的模型,包括MAmmoTH和MAmmoTH-Coder,在準(zhǔn)確性上取得了顯著提升,超過(guò)了現(xiàn)有的開(kāi)源模型。
這篇論文的主題是“GPT Can Solve Mathematical Problems Without a Calculator”,作者們來(lái)自清華大學(xué)和TAL AI Lab。論文的核心觀點(diǎn)是挑戰(zhàn)了以往對(duì)大型語(yǔ)言模型(LLMs)在執(zhí)行復(fù)雜數(shù)學(xué)運(yùn)算能力上的限制認(rèn)知。作者們展示了通過(guò)充分的訓(xùn)練數(shù)據(jù),一個(gè)具有20億參數(shù)的語(yǔ)言模型能夠以接近100%的準(zhǔn)確率執(zhí)行多位數(shù)的算術(shù)運(yùn)算,而且不需要數(shù)據(jù)泄露,顯著超過(guò)了GPT-4(其多位數(shù)乘法的準(zhǔn)確率僅為4.3%)。
論文的主要貢獻(xiàn)包括:
-
提出了MathGLM模型,這是一個(gè)針對(duì)復(fù)雜數(shù)學(xué)運(yùn)算進(jìn)行了細(xì)致設(shè)計(jì)的模型,與現(xiàn)有的領(lǐng)先LLMs(如GPT-4)相比,展現(xiàn)出了優(yōu)越的性能(如圖1所示)。
-
通過(guò)分步策略構(gòu)建了一個(gè)算術(shù)數(shù)據(jù)集,作為MathGLM預(yù)訓(xùn)練的基礎(chǔ)。該數(shù)據(jù)集覆蓋了從簡(jiǎn)單的單步運(yùn)算到復(fù)雜的多步運(yùn)算。
-
采用了課程學(xué)習(xí)的概念,通過(guò)逐步增加算術(shù)表達(dá)式的復(fù)雜性,增強(qiáng)了MathGLM處理超過(guò)8位數(shù)的乘法以及包含小數(shù)和分?jǐn)?shù)運(yùn)算的能力。
-
在數(shù)學(xué)文字問(wèn)題上,通過(guò)細(xì)化Ape210K數(shù)據(jù)集,將直接計(jì)算答案的方式改為分步計(jì)算,顯著提高了MathGLM在解答數(shù)學(xué)文字問(wèn)題時(shí)的準(zhǔn)確率。
-
在包含5000個(gè)樣本的中文數(shù)學(xué)問(wèn)題測(cè)試集上,經(jīng)過(guò)GLM-10B微調(diào)的MathGLM展現(xiàn)出了與GPT-4相似的性能。
-
論文還包括了對(duì)MathGLM在不同運(yùn)算類型(如加法、減法、乘法和除法)上性能的詳細(xì)實(shí)驗(yàn)和分析,證明了其在處理復(fù)雜數(shù)學(xué)任務(wù)方面的有效性。
-
論文的代碼和數(shù)據(jù)已經(jīng)公開(kāi)在GitHub上,供有興趣的研究者進(jìn)一步探索和使用。
論文的結(jié)構(gòu)還包括了相關(guān)工作的綜述、方法介紹、實(shí)驗(yàn)設(shè)計(jì)、結(jié)果分析和結(jié)論。作者們通過(guò)這項(xiàng)工作,揭示了LLMs在數(shù)學(xué)推理任務(wù)上的巨大潛力,并挑戰(zhàn)了關(guān)于它們?cè)趫?zhí)行復(fù)雜數(shù)學(xué)運(yùn)算上能力有限的傳統(tǒng)觀點(diǎn)。