中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

網(wǎng)站圖片如何優(yōu)化權(quán)威解讀當(dāng)前經(jīng)濟(jì)熱點(diǎn)問(wèn)題

網(wǎng)站圖片如何優(yōu)化,權(quán)威解讀當(dāng)前經(jīng)濟(jì)熱點(diǎn)問(wèn)題,醫(yī)院網(wǎng)站建設(shè)原理,b2b網(wǎng)站建設(shè)大型語(yǔ)言模型(LLMs)演化樹(shù) Large Language Models flyfish 下面的圖來(lái)自論文地址 Transformer 模型(如 BERT 和 GPT-3)已經(jīng)給自然語(yǔ)言處理(NLP)領(lǐng)域帶來(lái)了革命性的變化。這得益于它們具備并行化能力&…

大型語(yǔ)言模型(LLMs)演化樹(shù) Large Language Models

flyfish
下面的圖來(lái)自論文地址

Transformer 模型(如 BERT 和 GPT-3)已經(jīng)給自然語(yǔ)言處理(NLP)領(lǐng)域帶來(lái)了革命性的變化。這得益于它們具備并行化能力(能夠同時(shí)對(duì)輸入數(shù)據(jù)的多個(gè)部分進(jìn)行計(jì)算)、處理長(zhǎng)距離依賴關(guān)系的能力(可以考慮并理解序列中相隔較遠(yuǎn)元素之間的關(guān)系),以及它們的可擴(kuò)展性,使得大型語(yǔ)言模型(LLMs)能夠有效地在大量數(shù)據(jù)和信息上進(jìn)行訓(xùn)練并對(duì)其加以處理。

Transformer 是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),由 Vaswani 等人在 2017 年一篇題為《Attention is All You Need》的論文中提出。Transformer 架構(gòu)的一個(gè)關(guān)鍵特性是它使用了自注意力機(jī)制,該機(jī)制使大型語(yǔ)言模型能夠聚焦于輸入數(shù)據(jù)的相關(guān)部分,同時(shí)忽略不必要的信息,從而提升上下文相關(guān)的準(zhǔn)確回復(fù)以及文本生成的質(zhì)量。盡管大型語(yǔ)言模型領(lǐng)域發(fā)展迅速,新的架構(gòu)不斷涌現(xiàn)(如接納加權(quán)鍵值架構(gòu)),但了解編碼器、解碼器以及編解碼器模型的架構(gòu)設(shè)計(jì)和分類情況仍是很有必要的。大型語(yǔ)言模型的架構(gòu)及其預(yù)訓(xùn)練目標(biāo)可能存在顯著差異,而它們的配置能夠決定一個(gè)模型在哪些方面表現(xiàn)出色(例如,在文本生成任務(wù)、語(yǔ)言理解任務(wù)以及理解上下文方面)以及在哪些方面存在局限。

以下是一張更新后的大型語(yǔ)言模型(LLMs)演化樹(shù),它分為三個(gè)家族分支(僅編碼器模型、編解碼器模型以及僅解碼器模型)。這張演化樹(shù)勾勒出了語(yǔ)言模型的發(fā)展脈絡(luò)以及龐大的大型語(yǔ)言模型版圖,并且依據(jù)模型和數(shù)據(jù)的許可信息突出強(qiáng)調(diào)了大型語(yǔ)言模型的使用限制。該演化樹(shù)基于《在實(shí)踐中駕馭大型語(yǔ)言模型的力量:關(guān)于 ChatGPT 及其他的綜述》
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

基于 Transformer 的模型以非灰色進(jìn)行顯示:僅解碼器模型位于藍(lán)色分支,僅編碼器模型位于粉色分支,編解碼器模型位于綠色分支。模型在時(shí)間線上的縱向位置代表了它們的發(fā)布日期。開(kāi)源模型以實(shí)心方塊表示,閉源模型則以空心方塊表示。右下角的堆疊柱狀圖展示了來(lái)自不同公司和機(jī)構(gòu)的模型數(shù)量。
在這里插入圖片描述
理解這三種類型的模型(編碼器模型、解碼器模型以及編解碼器模型)之間的差異,對(duì)于為任務(wù)選擇合適的模型、針對(duì)特定應(yīng)用對(duì)模型進(jìn)行微調(diào)、管理計(jì)算資源以及指導(dǎo)人工智能研發(fā)工作而言都至關(guān)重要。值得一提的是,盡管這些分類有助于理解不同類型的模型,但許多先進(jìn)的大型語(yǔ)言模型往往會(huì)對(duì)組件進(jìn)行修改,所以這并非嚴(yán)格意義上的分類,而更像是一種便于理解基礎(chǔ)知識(shí)的概念性分類方式。

僅編碼器模型 Encoder - Only Models

一種經(jīng)過(guò)優(yōu)化的架構(gòu),旨在理解輸入文本中字詞的語(yǔ)境,但本身并不生成新文本。
僅編碼器模型以詞元(單詞、子詞、字符或字節(jié))作為輸入,通過(guò)編碼器對(duì)其進(jìn)行處理,為每個(gè)詞元生成一個(gè)數(shù)值表示(也稱為特征向量或張量),以此來(lái)捕捉含義及雙向的語(yǔ)境信息。這種表示可用于下游任務(wù),無(wú)需進(jìn)一步生成文本。
適用于多種任務(wù),包括序列分類、實(shí)體識(shí)別以及抽取等。在需要深入理解語(yǔ)境的任務(wù)(如情感分析)方面表現(xiàn)尤為出色。在訓(xùn)練期間能夠?qū)崿F(xiàn)高效的并行處理。
自身缺乏生成連貫文本的能力。這一局限可能使得它們不太適用于涉及文本生成的任務(wù)。
示例
BERT、ELECTRA、RoBERTa

編解碼器模型 Encoder - Decoder Models

一種既能理解輸入文本中字詞的語(yǔ)境,又能生成新文本的架構(gòu)。
編解碼器模型由兩部分組成:編碼器將詞元作為輸入,將其轉(zhuǎn)換為數(shù)值表示,然后解碼器利用這些表示來(lái)生成輸出序列。這類模型尤其適用于序列到序列的任務(wù)。
對(duì)于那些既需要編碼又需要解碼的任務(wù)(如機(jī)器翻譯和文本摘要),通常是性能最佳的模型。不過(guò),這些模型在訓(xùn)練和微調(diào)時(shí)可能會(huì)消耗大量計(jì)算資源,且耗時(shí)較長(zhǎng)。
由于采用兩部分的設(shè)計(jì),與僅編碼器模型或僅解碼器模型相比,編解碼器模型的訓(xùn)練速度可能較慢,且會(huì)占用更多計(jì)算資源。
示例
FLAN UL2、FLAN T5

僅解碼器模型 Decoder -Only Models

一種經(jīng)過(guò)優(yōu)化、可基于輸入生成新文本的架構(gòu)。
僅解碼器模型同樣以詞元作為輸入,并將其轉(zhuǎn)換為數(shù)值表示。然而,與編碼器不同的是,解碼器使用掩碼自注意力機(jī)制,專注于生成連貫的文本序列。它們通常是自回歸模型(基于模型自身先前的輸出進(jìn)行預(yù)測(cè))。
解碼器在文本生成任務(wù)(如故事創(chuàng)作和對(duì)話生成)方面表現(xiàn)出色。一些最受歡迎且被廣泛使用的語(yǔ)言模型(例如,GPT - 4)就是僅解碼器模型。
僅解碼器模型的訓(xùn)練速度較慢,因?yàn)槊總€(gè)詞元的預(yù)測(cè)都依賴于先前的詞元,這使得訓(xùn)練期間無(wú)法進(jìn)行并行處理。此外,在不需要生成新文本而需深入理解輸入序列語(yǔ)境的任務(wù)方面,它們可能不太擅長(zhǎng)。
示例
Bard、GPT - 4、Jurassic - 2、LLaMA、BLOOM、YaLM、Chinchilla、MT - NLG、PALM 2

http://www.risenshineclean.com/news/50180.html

相關(guān)文章:

  • 怎么做垂直門(mén)戶網(wǎng)站百度廣告位價(jià)格
  • 玉林做網(wǎng)站優(yōu)化推廣天津百度推廣網(wǎng)絡(luò)科技公司
  • 找貨源的網(wǎng)上平臺(tái)有哪些合肥seo代理商
  • 湘潭sem優(yōu)化價(jià)格陽(yáng)東網(wǎng)站seo
  • html動(dòng)態(tài)網(wǎng)站怎么做如何做個(gè)人網(wǎng)站
  • 設(shè)計(jì)網(wǎng)站排名上海網(wǎng)絡(luò)推廣外包公司
  • 成都蜀美網(wǎng)站建設(shè)網(wǎng)頁(yè)制作代碼
  • wordpress 按別名寧波企業(yè)seo服務(wù)
  • 個(gè)人有限公司注冊(cè)流程商品關(guān)鍵詞怎么優(yōu)化
  • 有哪些可以做威客的網(wǎng)站月入百萬(wàn)的游戲代理
  • 網(wǎng)盤(pán)怎么做電影網(wǎng)站seo是什么職務(wù)
  • 網(wǎng)站登錄密碼保存在哪里設(shè)置免費(fèi)可用的網(wǎng)站源碼
  • 注銷網(wǎng)站和取消接入windows優(yōu)化大師是病毒嗎
  • 網(wǎng)站建設(shè)發(fā)展現(xiàn)狀網(wǎng)站seo課程
  • 怎么做亞馬遜網(wǎng)站廣州seo技術(shù)優(yōu)化網(wǎng)站seo
  • 網(wǎng)站技術(shù)介紹聊城網(wǎng)站推廣公司
  • 汕頭網(wǎng)站建設(shè)優(yōu)化西安網(wǎng)絡(luò)推廣運(yùn)營(yíng)公司
  • wordpress 徹底加速落實(shí)好疫情防控優(yōu)化措施
  • 定制服裝定做廠家seo百度seo排名優(yōu)化軟件
  • 泊頭網(wǎng)站建設(shè)企業(yè)網(wǎng)站定制
  • 武漢做網(wǎng)站的浙江企業(yè)seo推廣
  • wordpress前端登錄問(wèn)題大金seo
  • 免費(fèi)模板素材網(wǎng)站有哪些萬(wàn)網(wǎng)阿里云域名查詢
  • 專業(yè)做傳奇網(wǎng)站解析搜云seo
  • 電子商務(wù)網(wǎng)站建設(shè)方案案例做一個(gè)網(wǎng)站的步驟
  • wordpress logo替換網(wǎng)絡(luò)優(yōu)化工程師吃香嗎
  • 做網(wǎng)站英文編輯有前途嗎成人大專
  • 西藏城鄉(xiāng)住房建設(shè)廳網(wǎng)站百度賬號(hào)快速注冊(cè)入口
  • python可以做網(wǎng)站網(wǎng)絡(luò)營(yíng)銷研究背景及意義
  • 免費(fèi)做網(wǎng)站的公司app下載免費(fèi)安裝