中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

門戶網(wǎng)站內(nèi)容公眾號推廣費用一般多少

門戶網(wǎng)站內(nèi)容,公眾號推廣費用一般多少,蘇州市城鄉(xiāng)建設(shè)局網(wǎng)站,邢臺貼吧123文章目錄 Megatron-LM數(shù)據(jù)并行模型并行張量并行流水線并行 3D并行 Megatron-LM Megatron是當前大模型訓(xùn)練時經(jīng)常使用的一種分布式并行框架,它通過采用DP,TP,PP等來加速模型的訓(xùn)練,反正就是一個字,好。 大模型在訓(xùn)練的時候,顯存占…

文章目錄

  • Megatron-LM
    • 數(shù)據(jù)并行
    • 模型并行
      • 張量并行
      • 流水線并行
    • 3D并行


Megatron-LM

Megatron是當前大模型訓(xùn)練時經(jīng)常使用的一種分布式并行框架,它通過采用DP,TP,PP等來加速模型的訓(xùn)練,反正就是一個字,好。
大模型在訓(xùn)練的時候,顯存占用是非常大的,比如一個175B的模型,假設(shè)模型參數(shù)用FP32表示,即4Byte,那逛模型參數(shù)就要700G,梯度700G,Adam兩個動量1400G,很明顯,裝都裝不下,所以采用這些并行技術(shù)使得它可以在有限的資源下進行訓(xùn)練。

補充:Adam優(yōu)化器:
主要是用來動態(tài)調(diào)整學(xué)習(xí)率和梯度更新的方向,每一次更新的時候需要保存其一階矩和二階矩,其中一階矩是梯度的平均值,二階矩是梯度的平方,主要用來動態(tài)調(diào)整學(xué)習(xí)率。一階矩和二階矩分別表示為m和v,其相對SGD訓(xùn)練更加穩(wěn)定。每一次更新的時候,都需要依賴上一次的計算出的一階矩和二階矩,也就是每一個參數(shù)都對對應(yīng)一個一階矩和二階矩。

數(shù)據(jù)并行

假設(shè)有N張卡,每一張卡都保存一個模型的副本,現(xiàn)在可以將一個batch的數(shù)據(jù)分割為多個mini-batch,然后分發(fā)給每一個模型副本,進行前向傳播,并計算損失和梯度,然后通過All-Reduce操作進行通信和廣播,對每一個GPU計算的梯度進行規(guī)約(同步加平均),然后將梯度分發(fā)給每一個GPU,每張卡獨立更新,單獨更新模型參數(shù),此時由于更新的梯度相同,模型的初始參數(shù)相同,經(jīng)過更新后,每一個GPU上模型的參數(shù)也相同。
但是這種數(shù)據(jù)并行有哪些限制呢?
第一個是可以使用的GPU數(shù)量受限于batch的大小,假設(shè)batch是64,那你最多也只能用64張卡了。
另一個就是GPU利用率可能拉不滿,如果batch的數(shù)量固定式512,你GPU太多,分發(fā)給每一個GPU的數(shù)據(jù)量太小,那GPU 更新塊,但是通信頻率也就增加了,可能會限制訓(xùn)練速度。
在這里插入圖片描述

所有 GPU 必須一起等到梯度計算完成,才能開始 all-reduce,否則會造成阻塞卡頓。 數(shù)據(jù)并行最適合模型較小、計算量大、batch size 較大時使用。模型較大或 GPU 太多時要考慮混合并行或 ZeRO 分布式技術(shù)。 All-Reduce 是一種通信操作,由 NCCL / MPI / Gloo 等通信庫負責(zé)實現(xiàn)。它不是庫,而是庫提供的功能

模型并行

梯度累積:
主要是用來模仿大batch進行更新的操作,因為大batch更新往往更見穩(wěn)定,但是受限于顯存,所以可以用梯度累積的方式,當累積到固定數(shù)量的batch之后再進行優(yōu)化器更新,它通過將多個小 batch 的梯度累加,然后在累積到設(shè)定的步數(shù)后進行一次更新,從而 模擬了大 batch 的梯度平均效果。

激活檢查點:
主要是用來緩解激活值對顯存的占用壓力,因為按照反向傳播公式,每一個參數(shù)更新時,都需要前一層的激活值,這樣的話,每一次更新的時候就需要存儲每一個節(jié)點的激活值,對顯存的占用太高,所以就采用梯度檢查點的方式,每隔一定的步數(shù)保存激活值,兩個激活值之間的沒有保存的激活值,通過前向傳播再算出來,這也就是用時間換空間了,總的來說,現(xiàn)在所占用的空間復(fù)雜度降為 Q ( N ) Q(\sqrt{N}) Q(N ?),相當于在更新的時候再做了一次前向傳播。
這也是為什么模型在模型在訓(xùn)練的時候,不考慮激活值占用顯存的問題,因為它可以通過技術(shù)原因繞過去。
在這里插入圖片描述

張量并行

如果一個GPU裝不下一整個模型,那么就可以對模型進行拆分,相當于橫著或者豎著來一刀,一般來說,對于大矩陣的乘積計算,我們可以將其分成多個小矩陣的乘積和加和,根據(jù)拆分方式的不同可以分為行并行和列并行,一般來說,列并行更好一些,因為在計算激活值的時候不需要先進行通信。通信的原因還是GELU是非線性函數(shù),需要根據(jù)全局的信息進行計算。
在這里插入圖片描述
行并行:
在這里插入圖片描述
列并行:
在這里插入圖片描述
在這里插入圖片描述

流水線并行

流水線并行通過將模型按網(wǎng)絡(luò)層劃分為多組,每一組在一個GPU上。
目前主流的流水線并行方法包括Gpipe和PipeDream,降低空泡率。Megatron用的時Visual pipeline.1F1B,一前向一反向。
實際上流水線并行和張量并行是正交的,可以同時存在。

3D并行

在這里插入圖片描述
3D并行就是混合數(shù)據(jù)并行DP,張量并行TP和流水線并行PP。四路張量,四路流水線,2路數(shù)據(jù)

http://www.risenshineclean.com/news/36714.html

相關(guān)文章:

  • 華為云建站和阿里云建站區(qū)別搜外滴滴友鏈
  • 云虛擬主機怎么做網(wǎng)站太原模板建站定制網(wǎng)站
  • 淄博著名網(wǎng)站開發(fā)方法年度關(guān)鍵詞
  • 揭陽做網(wǎng)站哪個好搜索引擎優(yōu)化是指什么
  • 如何做網(wǎng)站編輯 沒技術(shù)媒體吧軟文平臺
  • php網(wǎng)站開發(fā)員工資邵陽做網(wǎng)站的公司
  • 網(wǎng)站建設(shè)教程app今日新聞事件
  • 沒有網(wǎng)站怎么做淘寶客seo優(yōu)化技術(shù)培訓(xùn)
  • 大冶建設(shè)局網(wǎng)站優(yōu)化設(shè)計六年級上冊語文答案
  • 怎么不花錢做網(wǎng)站專業(yè)營銷推廣團隊
  • 杭州亞運會閉幕式安卓手機優(yōu)化大師官方下載
  • 鼎湖網(wǎng)站建設(shè)啥都能看的瀏覽器
  • 杭州微網(wǎng)站開發(fā)先做后付費的代運營
  • 中視頻自媒體平臺注冊seo中心
  • 廈門外貿(mào)商城網(wǎng)站建設(shè)seo運營做什么
  • 網(wǎng)站地圖怎么做XML網(wǎng)站網(wǎng)上推廣
  • 網(wǎng)站開發(fā)建設(shè)方案書嵌入式培訓(xùn)
  • jsp網(wǎng)站開發(fā)教學(xué)上海培訓(xùn)機構(gòu)有哪些
  • 通遼網(wǎng)站建設(shè)公司百度移動點擊排名軟件
  • 做網(wǎng)站的工資高嗎?谷歌商店paypal下載官網(wǎng)
  • 線切割加工東莞網(wǎng)站建設(shè)技術(shù)支持百度業(yè)務(wù)范圍
  • 書簽制作手工搜索引擎優(yōu)化工作
  • 網(wǎng)站怎么做站內(nèi)美化代運營公司哪家好一些
  • 凡科網(wǎng)之前做的網(wǎng)站在哪看寧波seo整站優(yōu)化
  • 網(wǎng)站建設(shè)unohacha傳播易廣告投放平臺
  • 企業(yè)網(wǎng)站建設(shè)設(shè)計需要什么網(wǎng)站seo公司哪家好
  • 做視頻網(wǎng)站如何賺錢企業(yè)網(wǎng)站設(shè)計思路
  • 普斯泰網(wǎng)站建設(shè)百度搜索指數(shù)和資訊指數(shù)
  • 網(wǎng)站描述標簽怎么寫技術(shù)培訓(xùn)學(xué)校機構(gòu)
  • 網(wǎng)站建設(shè)要程序員嗎直接下載app