中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

做設(shè)計需要素材的常用網(wǎng)站有哪些營銷助手下載app下載

做設(shè)計需要素材的常用網(wǎng)站有哪些,營銷助手下載app下載,重慶建設(shè)工程信息網(wǎng)官網(wǎng)平臺,網(wǎng)站怎么做域名實名認證嗎1. 前言 大家好,我是何睿智。我現(xiàn)在在做大語言模型相關(guān)工作,我用業(yè)余時間寫一個專欄,給大家講講如何從零開始實現(xiàn)大語言模型。 從零開始實現(xiàn)大語言模型是了解其原理及領(lǐng)域大語言模型實現(xiàn)路徑的最好方法,沒有之一。已有研究證明&…

1. 前言

大家好,我是何睿智。我現(xiàn)在在做大語言模型相關(guān)工作,我用業(yè)余時間寫一個專欄,給大家講講如何從零開始實現(xiàn)大語言模型。

從零開始實現(xiàn)大語言模型是了解其原理及領(lǐng)域大語言模型實現(xiàn)路徑的最好方法,沒有之一。已有研究證明,為特定任務(wù)定制或使用領(lǐng)域數(shù)據(jù)訓(xùn)練的大語言模型能在領(lǐng)域相關(guān)的評價指標上超過ChatGPT這樣的通用大語言模型。

本專欄將從零開始講解大語言模型理論原理step-by-step,提供一整套工業(yè)級文本數(shù)據(jù)處理,大語言模型構(gòu)建、預(yù)訓(xùn)練、監(jiān)督微調(diào)及指令微調(diào),并行計算與分布式訓(xùn)練代碼,并且從零開始解釋實現(xiàn)代碼line-by-line。

2. 大語言模型的模型結(jié)構(gòu)

2017年,文章Attention is all you need提出了一種用于機器翻譯的sequence-to-sequence架構(gòu)模型Transformer。Transformer包含一個編碼器(encoder)和一個解碼器(decoder),編碼器提取輸入文本中的上下文信息,將其轉(zhuǎn)變成多個向量,并傳遞給解碼器。解碼器接收編碼器生成的向量,生成輸出序列。

2018年,文章BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding使用 [MASK] 單詞預(yù)測任務(wù)和句子前后順序預(yù)測任務(wù)預(yù)訓(xùn)練Transformer模型的編碼器,預(yù)訓(xùn)練后的模型被稱為BERT(Bidirectional Encoder Representations from Transformers)。BERT模型的編碼器架構(gòu)及訓(xùn)練策略,使其非常擅長情感預(yù)測、文檔分類等文本分類任務(wù)。

句子前后順序預(yù)測任務(wù),最初是預(yù)測兩句話是否在原始預(yù)訓(xùn)練語料中相鄰,后續(xù)改進為原始預(yù)訓(xùn)練語料中的兩個相鄰句子是否被交換順序。

同年,OpenAI的文章Improving Language Understanding by Generative Pre-Training通過生成式預(yù)訓(xùn)練任務(wù)(根據(jù)一段話的前文預(yù)測后文)訓(xùn)練Transformer模型的解碼器,預(yù)訓(xùn)練后的模型被稱為GPT(Generative Pretrained Transformers)。GPT模型的解碼器架構(gòu)及訓(xùn)練策略,使其非常擅長機器翻譯、文本摘要、編寫計算機代碼等文本生成任務(wù)。

圖一

Transformer、BERT及上述GPT模型網(wǎng)絡(luò)結(jié)構(gòu)核心是自注意力機制(self-attention)。自注意力機制可以讓模型判斷輸入文本序列中不同token之間的相關(guān)性,使模型能夠捕獲輸入文本數(shù)據(jù)中長距離依賴關(guān)系及上下文關(guān)系,因而比傳統(tǒng)基于RNN等結(jié)構(gòu)的模型具備更強的自然語言理解能力,生成的內(nèi)容更加連貫且與上下文相關(guān)性更強。

token是指對文本分割處理后得到的最小單位,也是模型處理文本時的基本單元。訓(xùn)練數(shù)據(jù)處理時常提到的tokenization,即把自然語言文本處理成連續(xù)的token。Token可以是一個單詞,一個字符,一個詞組等等,取決于對訓(xùn)練數(shù)據(jù)做tokenization時采用的方法。

相比較于上面OpenAI的文章介紹的GPT-1模型,GPT-3模型結(jié)構(gòu)沒有做任何調(diào)整。GPT-3可以視為GPT-1模型的拓展,其模型層數(shù)更多,Embedding向量維度更高,參數(shù)量更大,并且使用了更大的預(yù)訓(xùn)練數(shù)據(jù)集。ChatGPT是通過OpenAI的InstructGPT論文中的方法在一個大的指令數(shù)據(jù)集(instruction dataset)上微調(diào)GPT-3而產(chǎn)生的。Meta的LLaMA等絕大部分大語言模型結(jié)構(gòu)與GPT基本相同或僅僅做了非常微小的修改。

與Transformer模型相比,大語言模型GPT的結(jié)構(gòu)非常簡單,本質(zhì)上它只是Transformer模型的解碼器。但是GPT-3比原始Transformer模型解碼器要大的多,原始Transformer模型解碼器僅包含6個Transformer Block,但是GPT-3包含96個Transformer Block,共1750億參數(shù)。GPT生成文本時每次僅預(yù)測下一個token,因此它也被視為一種自回歸模型(autoregressive model)。

圖二

盡管GPT只相當于Transformer模型的解碼器,而不是像Transformer那樣明確被用于解決機器翻譯任務(wù)的sequence-to-sequence模型,且訓(xùn)練模型的下一個token預(yù)測任務(wù)也不是專門針對機器翻譯的任務(wù),但是它也能夠執(zhí)行機器翻譯任務(wù),且大語言模型機器翻譯效果比一般機器翻譯模型都相對好。

大語言模型這種能夠執(zhí)行沒有被明確訓(xùn)練的能力被稱為“涌現(xiàn)(emerging property)”。涌現(xiàn)是一種沒有使用相同任務(wù)明確訓(xùn)練,而是模型在學習了大量各種各樣語言的語料之后自然而然出現(xiàn)的能力。大語言模型中的這種涌現(xiàn)現(xiàn)象證明了其具備非常強大的能力,部分專家學者認為其具備一定的通用人工智能雛形,截止目前大家已經(jīng)發(fā)現(xiàn)并認可了大語言模型的廣闊應(yīng)用前景。

3. 大語言模型的訓(xùn)練方法

如下圖所示,大語言模型的訓(xùn)練方法通常包含預(yù)訓(xùn)練(pretraining)和微調(diào)(finetuning)。

預(yù)訓(xùn)練是指使用大量無標簽的、多樣化的文本數(shù)據(jù)(raw text),通過下一個token預(yù)測任務(wù)(next token prediction task)訓(xùn)練模型,使模型能夠了解自然語言文本中的語法及知識。預(yù)訓(xùn)練后的模型被稱為基礎(chǔ)模型(base model or foundational model),如GPT-3(ChatGPT對應(yīng)的基礎(chǔ)模型)?;A(chǔ)模型一般具有比較強的文本補全(text completion)及小樣本學習(few-shot learning)能力。

文本補全是指模型能夠根據(jù)用戶輸入的上文,完成相應(yīng)的下文。小樣本學習是指不用大量訓(xùn)練數(shù)據(jù)訓(xùn)練或微調(diào)模型,而是提供幾個具體任務(wù)的示例,模型也能夠輸出比較不錯的結(jié)果。

可以使用針對特定任務(wù)或具體領(lǐng)域的小數(shù)據(jù)集微調(diào)模型參數(shù),使基礎(chǔ)模型具備如ChatGPT這樣的對話能力。最流行的兩類微調(diào)大語言模型的方法為指令微調(diào)(instruction-finetuning)和監(jiān)督微調(diào)(finetuning for classification tasks)。指令微調(diào)是指使用如下所示的帶標簽的(指令-答案)數(shù)據(jù)集繼續(xù)訓(xùn)練基礎(chǔ)模型,監(jiān)督微調(diào)是指使用(文本-類別標簽)這樣的帶標簽數(shù)據(jù)集繼續(xù)訓(xùn)練基礎(chǔ)模型。

{"instruction": "請把下面的中文翻譯成英文:\n我愛你。","answer": "I love you."
}

圖三

“raw"的意思為"原始的”,是指用于預(yù)訓(xùn)練模型的數(shù)據(jù)不包含任何使用監(jiān)督學習方法訓(xùn)練傳統(tǒng)機器學習模型或深度學習模型時用到的標簽信息。預(yù)訓(xùn)練大語言模型的方法被稱為自監(jiān)督學習(self-supervised learning),預(yù)訓(xùn)練模型的標簽數(shù)據(jù)使用一定的規(guī)則從輸入文本中自動生成。

使用raw text訓(xùn)練模型并不意味著不對用于預(yù)訓(xùn)練的文本數(shù)據(jù)做任何處理。如在預(yù)訓(xùn)練之前,通常會使用一系列文本預(yù)處理方法對文本數(shù)據(jù)進行過濾。已有研究表明,預(yù)訓(xùn)練大語言模型的文本質(zhì)量越高,則模型能力越強。

4. 大語言模型的訓(xùn)練數(shù)據(jù)

預(yù)訓(xùn)練GPT-3的數(shù)據(jù)來自5個不同的數(shù)據(jù)集,共包含3000億tokens。其中CommonCrawl (filtered)是采用一定規(guī)則從CommonCrawl數(shù)據(jù)集過濾得到的一個質(zhì)量相對高的子集,WebText2是Reddit網(wǎng)站上獲得3個及以上點贊的帖子中的外部鏈接所包含的網(wǎng)頁文本(外部鏈接指向其他網(wǎng)頁,WebText2收集了這些鏈接指向網(wǎng)頁的文本內(nèi)容),Books1可能來自古騰堡計劃(Project Gutenberg,古騰堡計劃是一個數(shù)字化圖書館,致力于向公眾提供免費的電子書),Books2可能來自Libgen(Libgen是一個知名的免費圖書共享平臺,用戶可以通過該平臺獲取各種電子書、學術(shù)論文和期刊等資源),Wikipedia數(shù)據(jù)集由英文維基百科組成。

數(shù)據(jù)集名稱描述token數(shù)量在訓(xùn)練數(shù)據(jù)集中的比例
CommonCrawl (filtered)Web crawl data410 billion60%
WebText2Web crawl data19 billion22%
Books1Internet-based book corpus12 billion8%
Books2Internet-based book corpus55 billion8%
WikipediaHigh-quality text3 billion3%

GPT-3之后的大語言模型進一步拓展了訓(xùn)練模型的數(shù)據(jù)集,如Meta的LLaMA還使用了Arxiv網(wǎng)站中的論文數(shù)據(jù)集(92GB)及StackExchange網(wǎng)站中與代碼相關(guān)的問答數(shù)據(jù)集(78GB)。國內(nèi)的大語言模型也針對性地增加了訓(xùn)練集中的中文訓(xùn)練數(shù)據(jù)占比。

GPT-3論文作者沒有公開他們用到的訓(xùn)練數(shù)據(jù)集,但是有個類似的開源數(shù)據(jù)集The Pile,該數(shù)據(jù)集的信息可以點擊鏈接查看詳情:https://pile.eleuther.ai/。

訓(xùn)練GPT-3時并沒有使用上表提到的5個數(shù)據(jù)集中的全部數(shù)據(jù),而是從每個數(shù)據(jù)集中抽取了一部分數(shù)據(jù),共同組成了訓(xùn)練模型的包含3000億tokens的訓(xùn)練數(shù)據(jù)集。抽取數(shù)據(jù)的原則是:質(zhì)量越高的數(shù)據(jù)集采樣比例越高,質(zhì)量越低的數(shù)據(jù)集采樣比例越低。如CommonCrawl數(shù)據(jù)集共包含4100億tokens,但是只從中抽取了1800億tokens,WebText2雖然只包含190億tokens,但是從中共抽取了660億tokens,相當于將WebText2數(shù)據(jù)集重復(fù)了3.47遍。

5. 大語言模型的實現(xiàn)流程

從零開始實現(xiàn)大語言的流程共三階段:構(gòu)建大語言模型、預(yù)訓(xùn)練大語言模型、微調(diào)大語言模型。

圖四

大語言模型構(gòu)建部分將詳細介紹文本數(shù)據(jù)處理方法,構(gòu)建訓(xùn)練大語言模型的DatasetDataLoader;從零開始一步步解釋并實現(xiàn)簡單自注意力機制(simplified self-attention)、縮放點積注意力機制(scaled dot-product attention)、因果注意力機制(causal attention)、多頭注意力機制(multi-head attention);并最終構(gòu)建出OpenAI的GPT系列大語言模型GPTModel

預(yù)訓(xùn)練部分將介紹并行計算與分布式機器學習方法原理,實現(xiàn)使用無標簽文本數(shù)據(jù)訓(xùn)練大語言模型的方法,以及介紹大語言模型效果評估的基本方法。使用GPT-3同量級數(shù)據(jù)集預(yù)訓(xùn)練大語言模型的計算代價非常大,如果換算成相應(yīng)云計算資源價值,預(yù)訓(xùn)練GPT-3大約需耗費460萬美元。因此,該部分同時會介紹使用構(gòu)建好的大語言模型加載開源大語言模型(如GPT-2)權(quán)重的方法。

雖然訓(xùn)練GPT-3的計算資源換算成相應(yīng)云計算資源價值約460萬美元,但如果已經(jīng)具備一個足夠大的GPU計算集群,訓(xùn)練GPT-3消耗的電費遠遠不需要460萬美元。

第三階段分別使用監(jiān)督微調(diào)及指令微調(diào)方法,微調(diào)基礎(chǔ)模型參數(shù),使大語言模型具備文本分類及回答問題能力。

6. 結(jié)束語

從零開始實現(xiàn)大語言模型系列專欄旨在詳細解釋大語言模型的理論原理,并提供一套工業(yè)級實踐代碼。本文從一個高的視角概述了大語言模型的模型結(jié)構(gòu)、訓(xùn)練方法及訓(xùn)練數(shù)據(jù),并且介紹了從零開始實現(xiàn)大語言模型的流程。

大語言模型具備強大的自然語言理解及生成能力,短短一年時間,自然語言處理領(lǐng)域已經(jīng)翻天覆地。實踐證明,在大量無標簽的自然語言文本上使用簡單的生成式預(yù)訓(xùn)練任務(wù)能夠產(chǎn)生強大到不可思議的模型,在大量無標簽視頻數(shù)據(jù)上使用生成式預(yù)訓(xùn)練任務(wù)是否也能夠產(chǎn)生非常驚艷的模型呢?

2024年2月16日,OpenAI發(fā)布了首個視頻生成模型Sora,能生成長達1分鐘流暢且連貫的高清視頻??磥?#xff0c;大模型要一統(tǒng)天下了!

http://www.risenshineclean.com/news/23041.html

相關(guān)文章:

  • 設(shè)計網(wǎng)站公司地址深圳全網(wǎng)營銷系統(tǒng)
  • 合肥市門窗工程在哪個網(wǎng)站接活做百度seo點擊工具
  • 如何建立免費網(wǎng)站的步驟太原建站seo
  • 哪里有做網(wǎng)站服務(wù)商seo研究學院
  • WordPress與其它谷歌sem和seo區(qū)別
  • 網(wǎng)站建設(shè)和網(wǎng)袷宣傳參考網(wǎng)是合法網(wǎng)站嗎?
  • 內(nèi)容展示類網(wǎng)站seo中文意思是
  • 北京軟件開發(fā)公司排紹興seo
  • 外貿(mào)soho 網(wǎng)站建設(shè)熱狗網(wǎng)站排名優(yōu)化外包
  • 學做軟件的網(wǎng)站谷歌瀏覽器免費入口
  • 企業(yè)做網(wǎng)站需要花多少錢搜索引擎seo關(guān)鍵詞優(yōu)化效果
  • 怎么做網(wǎng)站生意線上宣傳渠道有哪些
  • 商丘網(wǎng)站制作軟件西安seo外包優(yōu)化
  • 豐臺網(wǎng)站制作營銷網(wǎng)站定制
  • 如何找人幫我做網(wǎng)站推廣網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)軟件
  • 公司做網(wǎng)站合肥網(wǎng)站制作推廣
  • 期刊網(wǎng)站建設(shè)湘潭網(wǎng)頁設(shè)計
  • 什么網(wǎng)站做ppt模板百度電話號碼查詢平臺
  • 盧灣企業(yè)微信網(wǎng)站制作seo實戰(zhàn)密碼在線閱讀
  • 手機網(wǎng)站設(shè)計案濟南百度快照推廣公司
  • 基礎(chǔ)建設(shè)龍頭股seo做的比較牛的公司
  • 網(wǎng)站效果圖怎么做seo查詢愛站
  • 怎么申請免費企業(yè)郵箱賬號上海優(yōu)化公司有哪些
  • 服務(wù)專業(yè)建設(shè)武漢官網(wǎng)優(yōu)化公司
  • 做網(wǎng)站費用多少錢域名解析ip地址
  • 小熊源碼網(wǎng)新網(wǎng)站百度seo如何做
  • 建設(shè)招標網(wǎng)網(wǎng)站網(wǎng)站關(guān)鍵詞優(yōu)化網(wǎng)站推廣
  • 自己做網(wǎng)站 搜索功能開發(fā)杭州網(wǎng)站seo優(yōu)化
  • 滄州手機建站哪家好濟南seo外包服務(wù)
  • dw做網(wǎng)站怎么設(shè)置頁面音樂網(wǎng)站大全軟件下載