當(dāng)前位置：首頁 > news >正文

國務(wù)院建設(shè)部網(wǎng)站seo數(shù)據(jù)是什么意思

news 2025/7/8 19:37:50

國務(wù)院建設(shè)部網(wǎng)站,seo數(shù)據(jù)是什么意思,外墻設(shè)計裝修效果圖軟件,水果電子商務(wù)網(wǎng)站建設(shè)規(guī)劃書2023年2月25日，Meta使用2048張A100 GPU，花費21天訓(xùn)練的Transformer大模型LLaMA開源了。 1.4T tokenstakes approximately 21 days 以下是覺得論文中重要的一些要點 1）相對較小的模型也可以獲得不錯的性能研究者發(fā)現(xiàn)在給定計算能力限制的情…

2023年2月25日，Meta使用2048張A100 GPU，花費21天訓(xùn)練的Transformer大模型LLaMA開源了。

1.4T tokenstakes approximately 21 days

以下是覺得論文中重要的一些要點

1）相對較小的模型也可以獲得不錯的性能

研究者發(fā)現(xiàn)在給定計算能力限制的情況下，最好的性能并不是來源于更大的模型，而是來源于相對較小模型在更多的數(shù)據(jù)上進行訓(xùn)練。LLaMA就采用了這種策略，LLaMA模型，模型參數(shù)從7B到65B不等，13B版本性能優(yōu)于GPT-3(175B)，65B版本獲得相比目前最好模型差不多的性能。目前大家公認(rèn)的大模型openai的GPT3系列，參數(shù)量大約175B。LLaMA相比GPT-3，在獲得接近性能的前提下，將參數(shù)量降低了一個數(shù)量級，模型可在當(dāng)前單卡GPU上部署。

2）不一定要專業(yè)語料，精細(xì)處理的開源語料也可以

LLaMA使用CommonCrawl、C4、Wikipedia、Books等語料，并且引入了Github、XrXiv、StackExchange等開源專業(yè)語料，模型也具備了不錯的寫代碼、處理數(shù)據(jù)公式和推理的能力。

?3）各種穩(wěn)定模型訓(xùn)練的優(yōu)化技術(shù)必不可少

LLaMA基于Transformer模型架構(gòu)，并且應(yīng)用了各種優(yōu)化技術(shù)以加速和穩(wěn)定模型的訓(xùn)練過程。

參考GPT3的訓(xùn)練經(jīng)驗，使用RMSNorm標(biāo)準(zhǔn)化每個transformer block輸入，標(biāo)準(zhǔn)化輸入能提高訓(xùn)練的穩(wěn)定性。

參考PaLM經(jīng)驗，使用SwiGLU激活函數(shù)替代ReLU激活函數(shù)。

參考GPTNeo，使用RoPE位置編碼替代原來的絕對位置編碼。

同時LLaMA引入causal multi-head attention以減少計算和存儲開銷，重寫了transformer的backward以減少冗余計算，同時考慮GPU的計算和通信的重疊加速訓(xùn)練。

LLaMA使用AdamW優(yōu)化器，并采用warmup技巧。其實我覺得AdaMax可能會更好些，AdaMax在Speech上相比AdamW更穩(wěn)定，當(dāng)然Speech數(shù)據(jù)和文本數(shù)據(jù)還是有較大差別的。

4）LLaMA的模型的結(jié)果還是可以的

LLaMA在多個指標(biāo)上同樣獲得了不錯的性能，獲得和GPT3差不多的性能。

類似于GPT-3，LLaMA也能沒經(jīng)過調(diào)優(yōu)直接應(yīng)用到下游任務(wù)，具體為zero-shot task和few-shot task。

zero-shot不給參考例子，在給定q時直接讓模型生成回答a。few-shot則類似于給出參考例子，給出1、5或64個qa對作為參考，然后在給定同類型的q讓模型生成回答a。以下是一個one-shot的例子。

?在zero-shot和few-shot類任務(wù)中LLaMA獲得不錯的性能，并不比更大的模型差(分?jǐn)?shù)越高越好)。

同當(dāng)前大模型GPT-3，Gopher、Chinchilla、PaLM相比，LLaMA在多個指標(biāo)上獲得明顯的性能提升，并且LLaMA在數(shù)學(xué)推理任務(wù)上獲得更好的性能，數(shù)學(xué)推理據(jù)說在chatGPT上栽了跟頭。

雖然LLaMA在保證回答正確、沒有偏見和對人類有用上花費了很多優(yōu)化，但正如論文所說，由于預(yù)訓(xùn)練語料中的一些偏見，模型可能會產(chǎn)生一些匪夷所思的答案。模型要真正服務(wù)人類，可能還是需要使用RLHF，使用人類反饋指導(dǎo)模型對問題回答的選擇。

---

[1] LLaMA. llama/MODEL_CARD.md at main · facebookresearch/llama · GitHub

[2] LLaMA: Open and Efficient Foundation Language Models. https://scontent-xsp1-1.xx.fbcdn.net/v/t39.8562-6/333078981_693988129081760_4712707815225756708_n.pdf?_nc_cat=108&ccb=1-7&_nc_sid=ad8a9d&_nc_ohc=ov6yTHfLfNQAX_ixTyd&_nc_ht=scontent-xsp1-1.xx&oh=00_AfDnH5IYrqTcFoOpLmrskeR_kQUe4To1BWUk-ZLv5unymg&oe=6401C9E2

[3] Illustrating Reinforcement Learning from Human Feedback (RLHF). Illustrating Reinforcement Learning from Human Feedback (RLHF)

查看全文

http://www.risenshineclean.com/news/23000.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

國務(wù)院建設(shè)部網(wǎng)站seo數(shù)據(jù)是什么意思

相關(guān)文章：