中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

做網站電話銷售上海哪家seo好

做網站電話銷售,上海哪家seo好,把做的網站放到互聯(lián)網上,網站搭建流程近年來,大型語言模型(LLMs)的能力有了飛躍式的發(fā)展,使其在越來越多的應用場景中更加友好和適用。然而,隨著LLMs的智能和復雜度的增加,其參數數量,即權重和激活值的數量也在增加,這意…

近年來,大型語言模型(LLMs)的能力有了飛躍式的發(fā)展,使其在越來越多的應用場景中更加友好和適用。然而,隨著LLMs的智能和復雜度的增加,其參數數量,即權重和激活值的數量也在增加,這意味著模型的學習和處理數據的能力在不斷提升。例如,GPT-3.5擁有約1750億個參數,而當前最先進的GPT-4則擁有超過1萬億個參數。

然而,模型越大,所需的內存也越多。這意味著只能在具有高規(guī)格硬件和足夠數量的GPU的設備上運行這些模型——這限制了模型的部署選項,從而影響了基于LLM的解決方案的普及和應用。幸運的是,機器學習研究人員正在開發(fā)越來越多的解決方案來應對模型規(guī)模不斷增長的挑戰(zhàn),其中最突出的解決方案之一就是量化技術。

在本篇中,我們將探討量化的概念,包括其工作原理、重要性和優(yōu)勢,以及量化語言模型的不同技術。

1. 什么是量化以及為什么它很重要?

量化是一種模型壓縮技術,它將大型語言模型(LLM)中的權重激活值從高精度的數據表示轉換為低精度的數據表示,也就是說,從可以容納更多信息的數據類型轉換為容納較少信息的數據類型。一個典型的例子是將數據從32位浮點數(FP32)轉換為8位或4位整數(INT8或INT4)。

理解量化的一個很好的類比是圖像壓縮。壓縮圖像涉及通過移除一些信息(即數據位)來減小其大小。雖然減小圖像的大小通常會降低其質量(在可接受的范圍內),但這也意味著在給定設備上可以保存更多的圖像,同時傳輸或顯示給用戶所需的時間和帶寬也會減少。同樣,量化LLM增加了其可移植性和可部署方式的數量——盡管以可接受的細節(jié)或精度為代價。

量化在機器學習中是一個重要過程,因為減少模型每個權重所需的位數會顯著減少其總體大小。因此,量化產生的LLM占用更少的內存、需要更少的存儲空間、更節(jié)能,并且能夠更快地進行推理。所有這些優(yōu)點使得LLM可以在更廣泛的設備上運行,包括單個GPU,而不是依賴昂貴的多GPU硬件,甚至在某些情況下可以在CPU上運行。

2. 量化是如何工作的?

從本質上講,量化過程涉及將存儲在高精度值中的權重映射到低精度數據類型。雖然在某些情況下這相對簡單,例如將64位或32位浮點數映射到16位浮點數,因為它們共享表示方案,但在其他情況下則更加復雜。例如,將32位浮點值量化為4位整數就比較復雜,因為INT4只能表示16個不同的值,而FP32的范圍非常廣。

為了實現量化,我們需要找到將FP32權重值范圍[最小值, 最大值]映射到INT4空間的最佳方式:一種實現此目的的方法稱為仿射量化方案,其公式如下:

x_q = round(x/S + Z)

其中:
x_q – 對應于FP32值x的量化INT4值
S – FP32縮放因子,是一個正的float32值
Z – 零點:對應于FP32空間中的0的INT4值
round – 指將結果值四舍五入到最接近的整數

然而,要找到FP32值范圍的==[最小值, 最大值]==,我們必須首先使用一個較小的校準數據集對模型進行校準??梢酝ㄟ^多種方式確定[最小值, 最大值],常見的解決方案是將其設置為觀察到的最小和最大值。隨后,所有超出此范圍的值將被“截斷”——即分別映射到最小值和最大值。

話雖如此,這種方法及類似方法的問題在于,離群值(即異常值)可能對縮放產生不成比例的影響:低精度數據類型的完整范圍沒有得到有效利用——這降低了量化模型的準確性。解決此問題的方法是塊內量化,將權重按其值分為64或128的組。例如,每個塊分別進行量化,以減輕離群值的影響并提高精度。

需要考慮的一點是,雖然LLM的權重和激活值將被量化以減少其大小,但在推理時會被反量化,因此在前向傳播和后向傳播期間可以使用高精度數據類型進行必要的計算。這意味著每個塊的縮放因子也必須存儲。因此,在量化過程中使用的塊數越多,精度越高,但必須保存的縮放因子數量也越多。

3. 兩種類型的大型語言模型量化:PTQ 和 QAT

雖然有多種量化技術,但總的來說,LLM 量化分為兩類:

訓練后量化(PTQ)

訓練后量化指的是在大型語言模型已經訓練完成后進行量化的技術。PTQ 比 QAT 更容易實現,因為它需要的訓練數據更少且速度更快。然而,由于權重值精度的喪失,它也可能導致模型準確性的降低。

量化感知訓練(QAT)

量化感知訓練指的是在數據上進行微調時考慮量化的方法。與 PTQ 技術相比,QAT 在訓練階段集成了權重轉換過程,即校準、范圍估計、截斷、舍入等。這通常會導致更優(yōu)的模型性能,但計算需求更高。

4. 量化大型語言模型的優(yōu)缺點

優(yōu)點

模型更小:通過減少權重的大小,量化生成的模型更小。這使得它們可以在各種情況下部署,例如在硬件性能較低的設備上,并降低存儲成本。

擴展性增強:量化模型的內存占用較小,這也使得它們的擴展性更強。由于量化模型對硬件的要求較低,組織可以更靈活地增加IT基礎設施以適應它們的使用。

推理速度更快:權重使用的位寬較低,以及由此產生的較低內存帶寬需求,使計算更加高效。

缺點

準確性降低:毫無疑問,量化的最大缺點是輸出的準確性可能降低。將模型的權重轉換為低精度可能會降低其性能——而且量化技術越“激進”,即轉換數據類型的位寬越低,例如4位、3位等,準確性降低的風險就越大。

5. 不同的LLM量化技術

現在我們已經討論了量化是什么以及它的好處,讓我們來看看不同的量化方法及其工作原理。

QLoRA

Low-Rank Adaptation(LoRA)是一種參數高效微調 Parameter-Efficient Fine-Tuning(PEFT)技術,通過凍結基礎LLM的權重并微調一小部分額外的權重(稱為適配器 adapters),減少進一步訓練基礎LLM的內存需求。Quantized Low-Rank Adaptation(QLoRA)更進一步,將基礎LLM中的原始權重量化為4位:減少LLM的內存需求,使其在單個GPU上運行成為可能。

QLoRA通過兩個關鍵機制進行量化:4位NormalFloat(NF4)數據類型和雙重量化。

NF4:一種用于機器學習的4位數據類型,將每個權重歸一化為-1到1之間的值,與傳統(tǒng)的4位浮點數相比,可以更準確地表示低精度權重值。然而,雖然NF4用于存儲量化權重,QLoRA在前向和后向傳播過程中使用另一種數據類型,即brainfloat16(BFloat16),這也是專為機器學習設計的。

雙重量化(DQ):一種為了額外節(jié)省內存而對量化常量進行再次量化的過程。QLoRA將權重以64為一組進行量化,雖然這便于精確的4位量化,但還必須考慮每個組的縮放因子——這增加了所需的內存。DQ通過對每個組的縮放因子進行第二輪量化來解決這個問題。32位縮放因子被編譯成256的塊并量化為8位。因此,先前每個組的32位縮放因子為每個權重增加了0.5位,而DQ將其降至僅0.127位。盡管看似微不足道,但在例如65B LLM中,結合起來可以節(jié)省3 GB的內存。

PRILoRA

Pruned and Rank-Increasing Low-Rank Adaptation(PRILoRA)是一種最近由研究人員提出的微調技術,旨在通過引入兩個額外的機制來提高LoRA的效率:ranks的線性分布和基于重要性的A權重剪枝。

回到low-rank分解的概念,LoRA通過結合兩個矩陣來實現微調:W,包含整個模型的權重,和AB,表示通過訓練額外權重(即適配器)對模型所做的所有更改。AB矩陣可以分解成兩個更小的low-rank矩陣A和B,因此稱為low-rank分解。然而,在LoRA中,low-rank r在所有LLM層中是相同的,而PRILoRA則線性增加每層的rank。例如,開發(fā)PRILoRA的研究人員從r = 4開始,并在最終層增加到r = 12——在所有層中產生了平均rank為8。

其次,PRILoRA在微調過程中每40步對A矩陣進行剪枝,消除最低的,即最不重要的權重。通過使用重要性矩陣來確定最低權重,該矩陣存儲了每層的權重臨時幅度和與輸入相關的統(tǒng)計數據。以這種方式剪枝A矩陣減少了需要處理的權重數量,從而減少了微調LLM所需的時間和微調模型的內存需求。

盡管仍在研究中,PRILoRA在研究人員進行的基準測試中顯示出了非常令人鼓舞的結果。這包括在8個評估數據集中有6個優(yōu)于全量微調方法,同時在所有數據集中都取得了比LoRA更好的結果。

GPTQ

GPTQ(通用預訓練Transformer量化 General Pre-Trained Transformer Quantization)是一種量化技術,旨在減少模型的大小,使其能夠在單個GPU上運行。GPTQ通過一種逐層量化的方法工作:這種方法一次量化模型的一層,目的是發(fā)現最小化輸出誤差(即原始全精度層和量化層輸出之間的均方誤差(MSE))的量化權重。

首先,所有模型的權重被轉換成一個矩陣,通過一種稱為懶惰批更新 lazy batch updating的過程一次處理128列的批次。此過程包括批量量化權重,計算MSE,并將權重更新為減少MSE的值。在處理校準批次后,矩陣中的所有剩余權重根據初始批次的MSE進行更新——然后所有單獨的層重新組合以生成量化模型。

GPTQ采用混合INT4/FP16量化方法,其中4位整數用于量化權重,激活值保持在更高精度的float16數據類型中。隨后,在推理過程中,模型的權重實時反量化,以便計算在float16中進行。

GGML/GGUF

GGML

GGML(據說是以其創(chuàng)建者命名為Georgi Gerganov Machine Learning,或GPT-Generated Model Language)是一個基于C語言的機器學習庫,旨在對Llama模型進行量化,使其能夠在CPU上運行。更具體地說,該庫允許你將量化后的模型保存為GGML二進制格式,從而可以在更廣泛的硬件上執(zhí)行。

GGML通過稱為k-quant系統(tǒng)的過程來量化模型,該系統(tǒng)根據所選的量化方法使用不同位寬的值表示。首先,模型的權重被分成32個一組,每個組都有一個基于最大權重值(即最高梯度幅度)的縮放因子。

根據選擇的量化方法,最重要的權重會被量化為高精度數據類型,而其余的權重則被分配為低精度類型。例如,q2_k量化方法將最大的權重轉換為4位整數,其余權重轉換為2位整數。或者,q5_0和q8_0量化方法分別將所有權重轉換為5位和8位整數表示。你可以通過查看此代碼庫中的模型卡來查看GGML的全量化方法范圍。

GGUF

GGUF(GPT-Generated Unified Format)是GGML的后繼者,旨在解決其局限性——最顯著的是使非Llama模型的量化成為可能。GGUF也是可擴展的:允許集成新功能,同時保持與舊LLM的兼容性。

然而,要運行GGML或GGUF模型,你需要使用一個名為llama.cpp的C/C++庫——該庫也是由GGML的創(chuàng)建者Georgi Gerganov開發(fā)的。llama.cpp能夠讀取以.GGML或.GGUF格式保存的模型,并使其能夠在CPU設備上運行,而不是需要GPU。

AWQ

傳統(tǒng)上,模型的權重量化時不考慮它們在推理過程中處理的數據。與之相反,激活感知權重量化 Activation-Aware Weight Quantization(AWQ)考慮了模型的激活,即輸入數據中最顯著的特征及其在推理過程中如何分布。通過根據輸入的特定特性調整模型權重的精度,可以最大限度地減少量化引起的準確性損失。

AWQ的第一階段是使用一個校準數據子集來收集模型的激活統(tǒng)計數據,即在推理過程中被激活的權重。這些被稱為顯著權重,通常占總權重的不到1%。為了提高準確性,顯著權重在量化過程中會被跳過,保持為FP16數據類型。與此同時,其余的權重被量化為INT3或INT4,以減少LLM其余部分的內存需求。

6. 小結

量化是LLM領域的重要組成部分。通過壓縮語言模型的大小,像QLoRA和GPTQ這樣的量化技術有助于提高LLM的采用率。擺脫了全精度模型巨大內存需求的限制,組織、AI研究人員和個人都有更多的機會去嘗試快速增長的各種LLM。

http://www.risenshineclean.com/news/21569.html

相關文章:

  • 網站做快照深圳百度推廣seo公司
  • 網站上傳后后臺進不去外鏈下載
  • 宜昌便宜做網站新聞最新消息
  • 用java編程做網站windows優(yōu)化大師的優(yōu)點
  • 免費做網站公司哪家好百度公司官網入口
  • 寶雞做網站的公司網站平臺都有哪些
  • 垂直類b2c網站北京網優(yōu)化seo優(yōu)化公司
  • 網站 域名綁定google中文搜索引擎
  • 東莞網站排名優(yōu)化seoapp軟件推廣怎么做
  • 新鄉(xiāng)專業(yè)網站建設公司地推團隊如何收費
  • wordpress禁止評論優(yōu)化品牌seo關鍵詞
  • 如今做哪些網站致富百度站長工具官網
  • 騰訊云服務器可以做傳奇網站嗎我想在百度上做廣告怎么做
  • 滄浪企業(yè)建設網站價格營銷軟文范例大全100
  • 建設銀行網站怎么短信轉賬關鍵詞權重如何打造
  • 營銷型網站建設極速建站seo推廣軟件排行榜前十名
  • 戶縣規(guī)劃建設和住房保障局網站沙坪壩區(qū)優(yōu)化關鍵詞軟件
  • wordpress還是hexo青島seo關鍵詞優(yōu)化公司
  • 建設一個網站app全過程seo權威入門教程
  • 自己做的網站涉黃網站怎么推廣
  • 成交型網站倡導公司西安百度網站快速排名
  • 成都網站建設是什么百度店面定位怎么申請
  • 阿里媽媽新建網站怎么做百度客服投訴中心
  • 嘉峪關市建設局建管科網站外鏈價格
  • 查看網站有沒有備案全國疫情防控最新數據
  • 手機上做整蠱網站全網推廣軟件
  • 農產品網站開發(fā) 文獻綜述seo外包公司興田德潤官方地址
  • 網站制作技巧百度競價怎么做開戶需要多少錢
  • 找做網站的朋友抖音流量推廣神器軟件
  • 中山商城型網站建設廣州網站優(yōu)化方式