香港空間的網(wǎng)站會關(guān)嗎網(wǎng)站接廣告平臺
【NLP高頻面題 - LLM架構(gòu)篇】大模型使用SwiGLU相對于ReLU有什么好處?
重要性:★★★ 💯
NLP Github 項目:
-
NLP 項目實踐:fasterai/nlp-project-practice
介紹:該倉庫圍繞著 NLP 任務(wù)模型的設(shè)計、訓(xùn)練、優(yōu)化、部署和應(yīng)用,分享大模型算法工程師的日常工作和實戰(zhàn)經(jīng)驗
-
AI 藏經(jīng)閣:https://gitee.com/fasterai/ai-e-book
介紹:該倉庫主要分享了數(shù)百本 AI 領(lǐng)域電子書
-
AI 算法面經(jīng):fasterai/nlp-interview-handbook#面經(jīng)
介紹:該倉庫一網(wǎng)打盡互聯(lián)網(wǎng)大廠NLP算法面經(jīng),算法求職必備神器
-
NLP 劍指Offer:https://gitee.com/fasterai/nlp-interview-handbook
介紹:該倉庫匯總了 NLP 算法工程師高頻面題
使用的SwiGLU替換ReLU最重要的原因是SwiGLU可以更好的捕獲序列的特征。
① 使用ReLU的FFN的計算公式:
② 使用SwiGLU的FFN的計算公式:
更直觀的看下ReLU和SwiGLU的可視化對比:
Swish 激活函數(shù)在參數(shù) β 不同取值下的形狀:
SwiGLU在計算中引入了門控機制,門控機制可以使用更軟性的權(quán)重篩選有用的信息,并且梯度更平滑。這么做有以下幾個主要好處:
- 動態(tài)門控機制:SwiGLU繼承了GLU的門控特性,通過使用sigmoid函數(shù)作為門控器,可以對輸入信號進行篩選和選擇性放大。這種門控機制允許模型自適應(yīng)地選擇哪些信息是重要的,從而有助于提高模型對數(shù)據(jù)的表示能力。
- 增加非線性和復(fù)雜度:SwiGLU通過引入Swish激活函數(shù),為神經(jīng)網(wǎng)絡(luò)增添了更多的非線性,使得模型能夠捕捉和學(xué)習(xí)數(shù)據(jù)中更為復(fù)雜的特征和模式。
- 提高信息流動的效率:SwiGLU的門控機制使得模型能夠更有效地管理和調(diào)整信息的流動,減少無關(guān)信息的干擾,提高了信息處理的效率。
- 避免“dying ReLU”問題:ReLU的一個主要問題是“dying ReLU”,即某些神經(jīng)元在訓(xùn)練過程中可能永遠不會被激活,導(dǎo)致這些神經(jīng)元對網(wǎng)絡(luò)的貢獻為零。SwiGLU通過其動態(tài)門控機制,減少了這種問題的發(fā)生。
- 提高模型精度:在某些任務(wù)中,SwiGLU可以顯著提高模型的精度,尤其是在自然語言處理任務(wù)中,如GLUE和SuperGLUE,SwiGLU的使用可以帶來超過4%的精度提升。
拔高(舉一反三):深刻理解門控機制,并且知曉門控機制在LSTM、IA3中都有應(yīng)用。
門機制:控制水閘的門就能阻止或者釋放水流。類似的,門機制的作用是控制數(shù)據(jù)的流動。
如上圖所示,門的開合程度由 0.0 ~1.0 的實數(shù)表示,通過這個數(shù)值控制流出的水量,sigmoid 函數(shù)用于求門的開合程度(sigmoid 函數(shù)的輸出范圍在 0.0 ~ 1.0)。
① LSTM 中門控機制的應(yīng)用:
② PEFT的IA3方法中門控機制的應(yīng)用:
IA3的思想:抑制和放大內(nèi)部激活,通過可學(xué)習(xí)的向量對激活值進行抑制或放大。具體來說,會對K、V、FFN三部分的值進行調(diào)整,訓(xùn)練過程中同樣凍結(jié)原始模型的權(quán)重,只更新可學(xué)習(xí)的部分向量部分。訓(xùn)練完成后,與Lora類似,也可以將學(xué)習(xí)部分的參數(shù)與原始權(quán)重合并,沒有額外推理開銷。
NLP 大模型高頻面題匯總
NLP基礎(chǔ)篇
-
【NLP 面試寶典 之 模型分類】 必須要會的高頻面題
-
【NLP 面試寶典 之 神經(jīng)網(wǎng)絡(luò)】 必須要會的高頻面題
-
【NLP 面試寶典 之 主動學(xué)習(xí)】 必須要會的高頻面題
-
【NLP 面試寶典 之 超參數(shù)優(yōu)化】 必須要會的高頻面題
-
【NLP 面試寶典 之 正則化】 必須要會的高頻面題
-
【NLP 面試寶典 之 過擬合】 必須要會的高頻面題
-
【NLP 面試寶典 之 Dropout】 必須要會的高頻面題
-
【NLP 面試寶典 之 EarlyStopping】 必須要會的高頻面題
-
【NLP 面試寶典 之 標(biāo)簽平滑】 必須要會的高頻面題
-
【NLP 面試寶典 之 Warm up 】 必須要會的高頻面題
-
【NLP 面試寶典 之 置信學(xué)習(xí)】 必須要會的高頻面題
-
【NLP 面試寶典 之 偽標(biāo)簽】 必須要會的高頻面題
-
【NLP 面試寶典 之 類別不均衡問題】 必須要會的高頻面題
-
【NLP 面試寶典 之 交叉驗證】 必須要會的高頻面題
-
【NLP 面試寶典 之 詞嵌入】 必須要會的高頻面題
-
【NLP 面試寶典 之 One-Hot】 必須要會的高頻面題
-
…