中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

哪些網(wǎng)站是phpwind做的運(yùn)營網(wǎng)站

哪些網(wǎng)站是phpwind做的,運(yùn)營網(wǎng)站,網(wǎng)頁設(shè)計(jì)師的要求,哈爾濱網(wǎng)站制作建設(shè)本文轉(zhuǎn)載自:在 LLM 架構(gòu)中應(yīng)用多專家模型 2024年 3月 14日 By Kyle Kranen and Vinh Nguyen https://developer.nvidia.cn/zh-cn/blog/applying-mixture-of-experts-in-llm-architectures/ 文章目錄 一、概述二、LLM 架構(gòu)領(lǐng)域的專家齊聚一堂1、模型容量2、MoE 在降低…

本文轉(zhuǎn)載自:在 LLM 架構(gòu)中應(yīng)用多專家模型 2024年 3月 14日 By Kyle Kranen and Vinh Nguyen
https://developer.nvidia.cn/zh-cn/blog/applying-mixture-of-experts-in-llm-architectures/


文章目錄

    • 一、概述
    • 二、LLM 架構(gòu)領(lǐng)域的專家齊聚一堂
      • 1、模型容量
      • 2、MoE 在降低成本的同時訓(xùn)練更大的模型
      • 3、 MoE 可降低延遲
    • 三、MoE 架構(gòu)的工作原理是什么?
    • 四、試驗(yàn) Mixtral 模型
    • 五、實(shí)驗(yàn)結(jié)果
      • 1、負(fù)載均衡
      • 2、領(lǐng)域?qū)<胰蝿?wù)分配
      • 3、專家推薦的最佳令牌
      • 4、按令牌劃分的首選專家
    • 六、總結(jié)


一、概述


img

多專家模型 (MoE) 大型語言模型 (LLM) 架構(gòu)最近出現(xiàn)了,無論是在 GPT-4 等專有 LLM 中,還是在開源版本的社區(qū)模型中,如 Mistral Mixtral 8x7B。
Mixtral 模型的強(qiáng)勁相對性能引起了極大的興趣,并引發(fā)了許多關(guān)于 MoE 及其在 LLM 架構(gòu)中使用的問題。

那么,什么是 MoE,為什么它很重要?

多專家模型是神經(jīng)網(wǎng)絡(luò)的架構(gòu)模式,它將層或運(yùn)算 (例如線性層、MLP 或注意力投影) 的計(jì)算拆分為多個“專家”子網(wǎng)絡(luò)。
這些子網(wǎng)絡(luò)各自獨(dú)立執(zhí)行自己的計(jì)算,并組合其結(jié)果以創(chuàng)建 MoE 層的最終輸出。
MoE 架構(gòu)可以是密集的,這意味著每個專家都用于每個輸入,也可以是稀疏的,這意味著每個輸入都使用一個專家子集。

本文主要探討MoE在LLM架構(gòu)中的應(yīng)用。

如需了解MoE在其他領(lǐng)域的應(yīng)用,請參閱使用稀疏的專家混合模型擴(kuò)展視覺、適用于多語言ASR流式傳輸?shù)膶<壹壔旌限D(zhuǎn)換器以及FEDformer:用于長期序列預(yù)測的頻率增強(qiáng)型分解轉(zhuǎn)換器。


二、LLM 架構(gòu)領(lǐng)域的專家齊聚一堂

本節(jié)提供一些背景信息,并重點(diǎn)介紹在 LLM 架構(gòu)中使用 MoE 的優(yōu)勢。


1、模型容量

模型容量可以定義為模型能夠理解或表達(dá)的復(fù)雜程度。
通常情況下,(經(jīng)過充分訓(xùn)練的) 具有更多參數(shù)的模型過去證明具有更大的容量。

如何將 MoE 分解為容量?
參數(shù)較多的模型通常具有更大的容量,而 MoE 模型可以通過將模型的各個層替換為 MoE 層 (其中專家子網(wǎng)絡(luò)的大小與原始層相同),從而有效地增加相對于基礎(chǔ)模型的容量。

研究人員已經(jīng)對MoE模型的準(zhǔn)確性進(jìn)行了調(diào)查,該模型使用與全密集模型相似數(shù)量的標(biāo)記進(jìn)行訓(xùn)練(MoE大小:E+P參數(shù)與全密集大小相比:EP參數(shù))。
盡管這仍然是一個活躍的研究領(lǐng)域,但全密集模型的表現(xiàn)普遍優(yōu)于MoE模型。
有關(guān)更多詳細(xì)信息,請參閱 適用于路由語言模型的統(tǒng)一擴(kuò)展定律。

這就提出了一個問題,為什么不直接使用密集模型?
這里的答案在于稀疏 MoE,具體來說,稀疏 MoE 在每個使用的參數(shù)上都更高效。

請考慮 Mixtral 8x7B 是一個使用 8 位專家 MoE 的模型,其中每個令牌僅使用 2 位專家。
在這種情況下,在模型中單個令牌的任何給定前向傳遞中,批量中任何給定令牌使用的參數(shù)數(shù)量都要低得多 (共使用 460 億個參數(shù),其中使用 120 億個參數(shù))。
與使用所有 8 位專家或類似大小的全密集模型相比,這需要的計(jì)算量更少。
給定在訓(xùn)練中將令牌分批在一起,則使用大多數(shù) (如果不是所有) 專家。
這意味著在此模式中,與相同大小的密集模型相比,稀疏 MoE 使用的計(jì)算量較少,且內(nèi)存容量相同。

在一個 GPU 小時數(shù)備受追逐、時間和成本高昂的世界里,大規(guī)模訓(xùn)練全密集模型顯得尤為昂貴。
據(jù)報道,Meta 訓(xùn)練的 Lama 2 模型集(全密集)耗費(fèi)了 330 萬 NVIDIA A100 預(yù)訓(xùn)練的 GPU 小時數(shù)。
具體來說,在 1024 個 GPU 上以全容量運(yùn)行 330 萬個 GPU 小時,不包括任何停機(jī)時間,大約需要 134 天。
這還不包括任何實(shí)驗(yàn)、超參數(shù)掃描或訓(xùn)練中斷。


2、MoE 在降低成本的同時訓(xùn)練更大的模型

MoE 模型通過提高每個權(quán)重的觸發(fā)器效率來降低成本,這意味著在具有固定時間或計(jì)算成本限制的機(jī)制下,可以處理更多令牌,并可以進(jìn)一步訓(xùn)練模型。
鑒于具有更多參數(shù)的模型需要更多樣本才能完全收,這基本上意味著我們可以在固定預(yù)算下訓(xùn)練比密集模型更好的 MoE 模型。


3、 MoE 可降低延遲

在大量提示和批量(其中計(jì)算是瓶頸)的情況下,MoE 架構(gòu)可用于降低第一個令牌的服務(wù)延遲。
隨著用例(例如 檢索增強(qiáng)生成 (RAG) 和自主智能體可能需要多次調(diào)用模型,從而增加單次調(diào)用延遲。


三、MoE 架構(gòu)的工作原理是什么?

MoE 模型有兩個關(guān)鍵組件。
首先,構(gòu)成混合模型的“專家”子網(wǎng)絡(luò),用于密集和稀疏 MoE.其次,稀疏模型使用路由算法來確定哪些專家會處理哪些標(biāo)記。
在密集和稀疏 MoE 的某些公式中,MoE 可能包含一個加權(quán)機(jī)制,用于執(zhí)行專家輸出的加權(quán)平均值。
在本文中,我們將重點(diǎn)介紹稀疏案例。

在許多已發(fā)表的論文中,MoE 技術(shù)應(yīng)用于 Transformer 模塊內(nèi)的多層感知器 (MLP).在這種情況下,Transformer 模塊內(nèi)的 MLP 通常被一組專家 MLP 子網(wǎng)絡(luò)取代,這些子網(wǎng)絡(luò)會結(jié)合其結(jié)果,使用平均值或求和生成 MLP MoE 輸出。

研究還表明,MoE 的概念可以推廣到 Transformer 架構(gòu)的其他部分。
最近的論文 SwitchHead: 利用混合專家注意力加速 Transformer 建議 MoE 也可應(yīng)用于投影層,這些層將輸入轉(zhuǎn)換為 Q、K 和 V 矩陣,以供注意力運(yùn)算使用。
其他論文則建議將條件執(zhí)行 MoE 概念應(yīng)用于注意力頭本身。

在特定輸入的情況下,路由網(wǎng)絡(luò)(或算法)用于確定哪些專家被激活。
路由算法可以是簡單的(在張量平均值中統(tǒng)一選擇或合并),也可以是復(fù)雜的,如在采用專家選擇路由的多專家組合中所述。

在決定給定路由算法對問題的適用性的許多因素中,我們經(jīng)常討論兩個核心因素:特定路由機(jī)制下的模型準(zhǔn)確性和特定機(jī)制下的負(fù)載均衡。
選擇正確的路由算法可以在準(zhǔn)確性和觸發(fā)器效率之間進(jìn)行權(quán)衡。
完美的負(fù)載均衡路由算法可能會降低每個令牌的準(zhǔn)確性,而最準(zhǔn)確的路由算法可能會在專家之間分配不均的令牌。

許多提議的路由算法旨在最大化模型準(zhǔn)確性,同時最小化任何給定專家提出的瓶頸。
雖然 Mixtral 8x7B 使用 Top-K 算法來路由令牌,但諸如 采用專家選擇路由的多專家組合 引入概念,以確保專家不會被過度引導(dǎo)。
這可以防止瓶頸的形成。


四、試驗(yàn) Mixtral 模型

在實(shí)踐中,每位專家都會學(xué)習(xí)什么?他們專注于低級語言結(jié)構(gòu) (例如標(biāo)點(diǎn)符號、動詞、形容詞等),還是精通高級概念和領(lǐng)域 (例如編碼、數(shù)學(xué)、生物學(xué)和法律)?

為了進(jìn)行實(shí)驗(yàn),我們使用了Mixtral 8x7B 模型,該模型包含32個順序Transformer塊,每個塊中的MLP層被替換為稀疏MoE塊,每個MoE塊包含8個專家,每個令牌只激活其中兩個專家。
其他層,包括自注意力層和歸一化層,由所有令牌共享。

值得注意的是,當(dāng)讀取 8x7B 的名稱時,可以想象專家是 8 個獨(dú)立的完整網(wǎng)絡(luò),每個網(wǎng)絡(luò)都有 70 億個參數(shù),每個令牌都由這 8 個完整網(wǎng)絡(luò)中的一個完全端到端處理 (圖 1)。
這種設(shè)計(jì)將生成一個 8x7B=56B 的模型。


Diagram showing a possible interpretation of the Mixtral 8x7B model with eight separate full networks.

圖 1.Mixtral 8x7B 模型的可能解釋

雖然這無疑是合理的設(shè)計(jì),但并不是 Mixtral 8x7B 中使用的設(shè)計(jì)。
圖 2 描述了實(shí)際設(shè)計(jì),每個令牌都處理了 70 億個參數(shù)。
請注意,令牌及其副本 (由第二專家在每層處理) 總共僅處理 129 億個參數(shù),而不是 2x7B=14B.由于共享層的原因,整個網(wǎng)絡(luò)僅處理 470 億個參數(shù),而不是 8x7B=56B 參數(shù)。


Mixtral 8x7B actual architecture, where the attention layers are shared, and MLP layers comprise eight experts each.

圖 2.簡化的 Mixtral 8x7B 模型架構(gòu)


因此,每個通過網(wǎng)絡(luò)的令牌都必須通過類似格點(diǎn)的結(jié)構(gòu),外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳可能的網(wǎng)絡(luò)實(shí)例化。

如果我們將每個實(shí)例化都視為“全棧專家”(處理端到端令牌的專家),是否有可能了解它們提供的專業(yè)知識?遺憾的是,由于 28%=32%是一個非常大的數(shù)字 (+2+10%=46%),它比用于訓(xùn)練 LLM 的所有數(shù)據(jù) (大多數(shù) LLM 的數(shù)據(jù)為+3T 到 10T 令牌) 大幾個數(shù)量級,因此同一實(shí)例化很少會處理任何兩個令牌。
因此,我們將研究每個層專家專門研究的是什么,而不是每個完整的專家組合。


五、實(shí)驗(yàn)結(jié)果

我們使用大規(guī)模的多任務(wù)語言理解(MMLU)基準(zhǔn)測試來評估模型的性能。
該基準(zhǔn)測試包括涉及57個主題的多項(xiàng)選擇題,涵蓋了廣泛的領(lǐng)域,如抽象代數(shù)、世界信仰、專業(yè)法、解剖學(xué)、天文學(xué)和商業(yè)道德等。
我們記錄了第1層、第16層和第32層8位專家中每個專家的令牌專家作業(yè)。

在解析數(shù)據(jù)后,有幾項(xiàng)觀察值得注意。


1、負(fù)載均衡

得益于負(fù)載均衡,專家可以獲得均衡的負(fù)載,但最忙碌的專家仍可獲得比最忙碌的專家多 40 – 60%的令牌。


Token distribution over experts show equalized distribution yet still some imbalances.

圖 3.所有 MMLU 主題的專家加載分布


2、領(lǐng)域?qū)<胰蝿?wù)分配

某些領(lǐng)域比其他領(lǐng)域更能激活某些專家。

在第 32 層中,其中一個示例是抽象代數(shù),它比其他示例更多使用專家 3 和專家 8、


Token distribution over expert in layer 32 showing experts 4 and 8 receiving most tokens.

圖 4.在第 32 層中,抽象代數(shù)的令牌分布情況

另一方面,專業(yè)法領(lǐng)域主要激活專家 4,而相對來說使專家 3 和專家 8 靜音。


Token distribution over expert in layer 32 for professional law showing expert four receiving most tokens.

圖 5.在專業(yè)定律的第 32 層中,令牌在專家上的分布

另一個引人入勝的例子是世界性的教會,專家 7 收到的令牌比專家 8 少 5 倍多。


Token distribution over expert in layer 32 for world religions showing expert eight receiving far more tokens than expert seven.

圖 6.針對世界性教會,在第 32 層中,令牌在專家上的分布

這些實(shí)驗(yàn)結(jié)果表明,專家的負(fù)載分布傾向于在不同的主題范圍內(nèi)保持一致。
但是,當(dāng)所有樣本都完全屬于某個主題時,可能會出現(xiàn)很大的分布不平衡。


3、專家推薦的最佳令牌

圖 7 中的“cloud”(云) 一詞顯示了每位專家最頻繁處理的令牌。


Word cloud showing most common tokens processed by experts.

圖 7.專家處理的最常見令牌


4、按令牌劃分的首選專家

每個令牌是否都有首選專家?每個令牌似乎都有一組首選專家,如下示例所示。

令牌“:”和所有“:”令牌的專家分配在第 1 層由專家 1 和 7 處理,在第 32 層由專家 3 和 8 處理 (圖 8)。
圖 9、10 和 11 顯示了各種令牌的專家分配。


Bar graphs showing expert assignment for token “:”

圖 8.令牌“:”的專家分配


Bar graphs showing expert assignment for token “.”

圖 9.令牌“?!钡膶<曳峙?/strong>


Bar graphs showing expert assignment for token “what”

圖 10.專家分配令牌“what”


Bar graphs showing expert assignment for token “who”

圖 11.令牌“Who”的專家分配


六、總結(jié)

MoE 模型為模型預(yù)訓(xùn)練吞吐量提供了明顯的優(yōu)勢,支持在與密集模型相同的計(jì)算量上訓(xùn)練更具表現(xiàn)力的稀疏 MoE 模型。
這將在相同的計(jì)算預(yù)算下生成更具競爭力的模型。
MoE 模型可以針對整個網(wǎng)絡(luò)或現(xiàn)有網(wǎng)絡(luò)中的特定層。
通常,應(yīng)用帶有路由的稀疏 MoE 以確保僅使用部分專家。

我們的實(shí)驗(yàn)探索了令牌的分配方式以及專家之間的相對負(fù)載平衡。
這些實(shí)驗(yàn)表明,盡管采用了負(fù)載平衡算法,但仍然存在很大的分布不平衡,這可能會影響推理效率低下,因?yàn)橐恍<姨崆巴瓿晒ぷ?#xff0c;而另一些則過載。
這是一個值得關(guān)注的積極研究領(lǐng)域。

您可以嘗試 Mixtral 8x7B 指令模型 以及其他 AI 基礎(chǔ)模型,這些模型可以在 NVIDIA NGC 目錄中找到。


2024-05-28(二)

http://www.risenshineclean.com/news/22302.html

相關(guān)文章:

  • wordpress建站后發(fā)布seo外包 靠譜
  • 87網(wǎng)站建設(shè)工作室徐州seo顧問
  • 給百度做網(wǎng)站的公司bt磁力天堂torrentkitty
  • 網(wǎng)站開發(fā)提案百度關(guān)鍵詞優(yōu)化有效果嗎
  • 企業(yè)名錄搜索軟件 2022seo推廣軟件怎樣
  • 網(wǎng)站建設(shè)管理視頻超級seo外鏈
  • 南昌網(wǎng)站優(yōu)化公司天津百度seo代理
  • 完善酒店網(wǎng)站建設(shè)性價比高seo排名優(yōu)化的
  • 深圳做網(wǎng)站知名排行發(fā)廣告平臺有哪些免費(fèi)
  • 上海英文網(wǎng)站制作seo怎么發(fā)外鏈的
  • 網(wǎng)站建設(shè)服務(wù)器都有哪些百度網(wǎng)址
  • 懷化網(wǎng)站建設(shè)企業(yè)網(wǎng)絡(luò)軟文推廣案例
  • 蘭州網(wǎng)站做的好點(diǎn)的公司網(wǎng)站制作廠家有哪些
  • 電子商務(wù)網(wǎng)站開發(fā)形式有友情鏈接出售網(wǎng)
  • 建設(shè)企業(yè)網(wǎng)站需要哪些東西推廣渠道怎么寫
  • wordpress ip更換域名給你一個網(wǎng)站seo如何做
  • 電子商城開發(fā)網(wǎng)站建設(shè)百度一下主頁官網(wǎng)
  • 電子商務(wù)平臺知識產(chǎn)權(quán)保護(hù)管理seo引擎搜索網(wǎng)站關(guān)鍵詞
  • 做寵物網(wǎng)站賺錢嗎陜西seo主管
  • 企業(yè)網(wǎng)站建設(shè)網(wǎng)站優(yōu)化百度官方認(rèn)證
  • 網(wǎng)易那個網(wǎng)站可以做字幕外貿(mào)網(wǎng)站建設(shè)設(shè)計(jì)方案
  • 制作一個app合肥百度搜索排名優(yōu)化
  • 網(wǎng)站優(yōu)化解決方案第一設(shè)計(jì)
  • 雄安網(wǎng)站建設(shè)多少錢優(yōu)化快速排名公司
  • 公司網(wǎng)站怎么做才能有官網(wǎng)二字新公司如何做推廣
  • 微課做動畫的網(wǎng)站鄭州seo培訓(xùn)
  • 建立個人網(wǎng)站的方法nba最新交易新聞
  • 鄉(xiāng)鎮(zhèn)中心小學(xué)校園網(wǎng)站建設(shè)指南四川聚順成網(wǎng)絡(luò)科技有限公司
  • 重?c網(wǎng)站開發(fā)電腦優(yōu)化是什么意思
  • 合肥室內(nèi)裝修設(shè)計(jì)培訓(xùn)seo排名優(yōu)化北京