wordpress加速樂沈陽網(wǎng)絡(luò)seo公司
計(jì)算資源消耗
計(jì)算資源的消耗分成:
- 模型參數(shù)本身的存儲(chǔ)。
- 模型參數(shù)的梯度以及梯度momentum的存儲(chǔ)。
- token的傳播過程
例如以llama3-7b為例:
- 模型參數(shù)存儲(chǔ): 模型參數(shù)量 * fp32
- 例如llama3-70b為例,7 * 10^9 * 4
- 模型參數(shù)的梯度以及momentum存儲(chǔ):模型參數(shù)量 * fp32 ; 模型參數(shù)量 * fp32
- activition : 一個(gè)batch的token數(shù)量* embed維度 * 傳播層數(shù) * fp32