蕪湖企業(yè)網(wǎng)站建設(shè)網(wǎng)站策劃是什么
大語(yǔ)言模型的關(guān)鍵技術(shù):
? ? ? ?經(jīng)過(guò)漫長(zhǎng)的發(fā)展,LLM 進(jìn)化到了當(dāng)前的狀態(tài)——通用且有能力的學(xué)習(xí)者。在這個(gè)過(guò)程中,人們提出了許多重要的技術(shù),大大提升了 LLM 的能力。在此,我們簡(jiǎn)要列舉了幾種重要的技術(shù),這些技術(shù)(可能)是導(dǎo)致 LLM 成功的關(guān)鍵。
1.擴(kuò)展
? ? ? ?Transformer 語(yǔ)言模型存在明顯的擴(kuò)展效應(yīng):更大的模型/數(shù)據(jù)規(guī)模和更多的訓(xùn)練計(jì)算通常會(huì)導(dǎo)致模型能力的提升。作為兩個(gè)代表性的模型,GPT-3 和 PaLM 通過(guò)增加模型規(guī)模分別達(dá)到了 1750 億 和 5400 億。
? ? ? ?此外,由于計(jì)算預(yù)算通常是有限的,可以利用擴(kuò) 展法則來(lái)更高效地分配計(jì)算資源。例如,Chinchilla(具有更多的訓(xùn)練 token)通過(guò)在相同的計(jì)算預(yù)算下增加數(shù)據(jù)規(guī)模,優(yōu)于其對(duì)應(yīng)的模型 Gopher(具有更大的模型規(guī)模。然而,
? ? ? ? 需要注意的是,數(shù)據(jù)擴(kuò)展應(yīng)該經(jīng)過(guò)謹(jǐn)慎的清理過(guò)程,因?yàn)轭A(yù) 訓(xùn)練數(shù)據(jù)的質(zhì)量在模型能力中起著關(guān)鍵作用。
2.訓(xùn)練
? ? ? ? 由于巨大的模型規(guī)模,成功訓(xùn)練一種能力強(qiáng)的 LLM 是非常具有挑戰(zhàn)性的。分布式訓(xùn)練算法是學(xué)習(xí) LLM 網(wǎng)絡(luò)參數(shù)所必需的,其中通常聯(lián)合使用各種并行策略。為了支持分布式訓(xùn)練,已經(jīng)發(fā)布了一些優(yōu)化框架來(lái)促進(jìn)并行算法的 實(shí)現(xiàn)和部署,例如 DeepSpeed 和 Megatron-LM。
? ? ? ?此外,優(yōu)化技巧對(duì)于訓(xùn)練穩(wěn)定性和模型性能也很重要,例如 重新開(kāi)始以克服訓(xùn)練損失激增和混合精度訓(xùn)練。最近,GPT-4?提出開(kāi)發(fā)特殊的基礎(chǔ)結(jié)構(gòu)和優(yōu)化方法,用更小的模型來(lái)可靠地預(yù)測(cè)大模型性能。
3.能力引導(dǎo)
? ? ? ?在大規(guī)模語(yǔ)料庫(kù)上預(yù)訓(xùn)練之后,LLM具備了作為通用任務(wù)求解器的潛在能力。然而,當(dāng) LLM 執(zhí)行一些特定任務(wù)時(shí),這些能力可能不會(huì)顯式地展示出來(lái)。作為技術(shù)手段,設(shè)計(jì)合適的任務(wù)指令或具體的 ICL 策略可以激發(fā)這些能力。例如,通過(guò)包含中間推理步驟,CoT提示已被證明對(duì)解決復(fù)雜的推理任務(wù)有效。
? ? ? ? 此外,我們還可以使用自然語(yǔ)言表達(dá)的任務(wù)描述對(duì)LLM 進(jìn)行指令微調(diào),以提高LLM 在未見(jiàn)任務(wù)上的泛化能力。然而,這些技術(shù)主要對(duì)應(yīng)于LLM 的涌現(xiàn)能力,可能對(duì)小語(yǔ)言模型的效果不同。
4.對(duì)齊微調(diào)
? ? ? ?由于LLM 被訓(xùn)練用來(lái)捕捉預(yù)訓(xùn)練語(yǔ)料庫(kù)的數(shù)據(jù)特征(包括高質(zhì)量和低質(zhì)量的數(shù)據(jù)),它們可能會(huì)為人類生成有毒、偏見(jiàn)甚至有害的內(nèi)容。因此,有必要使 LLM 與人類價(jià)值觀保持一致,例如有用性、誠(chéng)實(shí)性和無(wú)害性。為此,?InstructGPT設(shè)計(jì)了一種有效的微調(diào)方法,使 LLM 能夠按照期望的指令進(jìn)行操作,其中利用了基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù)。它將人類納入訓(xùn)練循環(huán)中,采用精心設(shè)計(jì)的標(biāo)注策略。ChatGPT 實(shí)際上采用類似于 InstructGPT 的技術(shù),在產(chǎn)生高質(zhì)量、無(wú)害的回答(例如拒絕回答侮辱性問(wèn)題)方面表現(xiàn)出很強(qiáng)的對(duì)齊能力。
5.工具操作
? ? ? ?從本質(zhì)上講,LLM是基于海量純文本語(yǔ)料庫(kù)進(jìn)行文本生成訓(xùn)練的,因此在那些不適合以文本形式表達(dá)的任務(wù)上表現(xiàn)不佳(例如數(shù)字計(jì)算)。此外,它們的能力也受限于預(yù)訓(xùn)練數(shù)據(jù),例如無(wú)法獲取最新信息。
? ? ? ?為了解決這些問(wèn)題,最近提出了一種技術(shù),即利用外部工具來(lái)彌補(bǔ) LLM 的不足。例如,LLM 可以利用計(jì)算器進(jìn)行準(zhǔn)確計(jì)算, 利用搜索引擎檢索未知信息。最近,ChatGPT已經(jīng)實(shí)現(xiàn) 了使用外部插件(現(xiàn)有或新創(chuàng)建的應(yīng)用程序)的機(jī)制,這類似于 LLM 的“眼睛和耳朵”。這種機(jī)制可以廣泛擴(kuò)展 LLM 的 能力范圍。
? ? ? ?此外,許多其他因素(例如硬件升級(jí))也對(duì) LLM的成功做出了貢獻(xiàn)。但是,我們主要討論在開(kāi)發(fā) LLM 方面的主要技術(shù)方法和關(guān)鍵發(fā)現(xiàn)。