國務(wù)院建設(shè)部網(wǎng)站seo數(shù)據(jù)是什么意思
2023年2月25日,Meta使用2048張A100 GPU,花費21天訓(xùn)練的Transformer大模型LLaMA開源了。
1.4T tokenstakes approximately 21 days
以下是覺得論文中重要的一些要點
1)相對較小的模型也可以獲得不錯的性能
研究者發(fā)現(xiàn)在給定計算能力限制的情況下,最好的性能并不是來源于更大的模型,而是來源于相對較小模型在更多的數(shù)據(jù)上進行訓(xùn)練。LLaMA就采用了這種策略,LLaMA模型,模型參數(shù)從7B到65B不等,13B版本性能優(yōu)于GPT-3(175B),65B版本獲得相比目前最好模型差不多的性能。目前大家公認(rèn)的大模型openai的GPT3系列,參數(shù)量大約175B。LLaMA相比GPT-3,在獲得接近性能的前提下,將參數(shù)量降低了一個數(shù)量級,模型可在當(dāng)前單卡GPU上部署。
2)不一定要專業(yè)語料,精細(xì)處理的開源語料也可以
LLaMA使用CommonCrawl、C4、Wikipedia、Books等語料,并且引入了Github、XrXiv、StackExchange等開源專業(yè)語料,模型也具備了不錯的寫代碼、處理數(shù)據(jù)公式和推理的能力。
?3)各種穩(wěn)定模型訓(xùn)練的優(yōu)化技術(shù)必不可少
LLaMA基于Transformer模型架構(gòu),并且應(yīng)用了各種優(yōu)化技術(shù)以加速和穩(wěn)定模型的訓(xùn)練過程。
參考GPT3的訓(xùn)練經(jīng)驗,使用RMSNorm標(biāo)準(zhǔn)化每個transformer block輸入,標(biāo)準(zhǔn)化輸入能提高訓(xùn)練的穩(wěn)定性。
參考PaLM經(jīng)驗,使用SwiGLU激活函數(shù)替代ReLU激活函數(shù)。
參考GPTNeo,使用RoPE位置編碼替代原來的絕對位置編碼。
同時LLaMA引入causal multi-head attention以減少計算和存儲開銷,重寫了transformer的backward以減少冗余計算,同時考慮GPU的計算和通信的重疊加速訓(xùn)練。
LLaMA使用AdamW優(yōu)化器,并采用warmup技巧。其實我覺得AdaMax可能會更好些,AdaMax在Speech上相比AdamW更穩(wěn)定,當(dāng)然Speech數(shù)據(jù)和文本數(shù)據(jù)還是有較大差別的。
4)LLaMA的模型的結(jié)果還是可以的
LLaMA在多個指標(biāo)上同樣獲得了不錯的性能,獲得和GPT3差不多的性能。
類似于GPT-3,LLaMA也能沒經(jīng)過調(diào)優(yōu)直接應(yīng)用到下游任務(wù),具體為zero-shot task和few-shot task。
zero-shot不給參考例子,在給定q時直接讓模型生成回答a。few-shot則類似于給出參考例子,給出1、5或64個qa對作為參考,然后在給定同類型的q讓模型生成回答a。以下是一個one-shot的例子。
?在zero-shot和few-shot類任務(wù)中LLaMA獲得不錯的性能,并不比更大的模型差(分?jǐn)?shù)越高越好)。
?
同當(dāng)前大模型GPT-3,Gopher、Chinchilla、PaLM相比,LLaMA在多個指標(biāo)上獲得明顯的性能提升,并且LLaMA在數(shù)學(xué)推理任務(wù)上獲得更好的性能,數(shù)學(xué)推理據(jù)說在chatGPT上栽了跟頭。
雖然LLaMA在保證回答正確、沒有偏見和對人類有用上花費了很多優(yōu)化,但正如論文所說,由于預(yù)訓(xùn)練語料中的一些偏見,模型可能會產(chǎn)生一些匪夷所思的答案。模型要真正服務(wù)人類,可能還是需要使用RLHF,使用人類反饋指導(dǎo)模型對問題回答的選擇。
---
[1] LLaMA. llama/MODEL_CARD.md at main · facebookresearch/llama · GitHub
[2] LLaMA: Open and Efficient Foundation Language Models. https://scontent-xsp1-1.xx.fbcdn.net/v/t39.8562-6/333078981_693988129081760_4712707815225756708_n.pdf?_nc_cat=108&ccb=1-7&_nc_sid=ad8a9d&_nc_ohc=ov6yTHfLfNQAX_ixTyd&_nc_ht=scontent-xsp1-1.xx&oh=00_AfDnH5IYrqTcFoOpLmrskeR_kQUe4To1BWUk-ZLv5unymg&oe=6401C9E2
[3] Illustrating Reinforcement Learning from Human Feedback (RLHF). Illustrating Reinforcement Learning from Human Feedback (RLHF)