中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

義烏商城集團(tuán)的網(wǎng)站建設(shè)站長之家ip地址查詢

義烏商城集團(tuán)的網(wǎng)站建設(shè),站長之家ip地址查詢,專做女鞋批發(fā)的網(wǎng)站,網(wǎng)站圖片上的分享怎么做GPT GPT系列即基于Transformer Decoder實(shí)現(xiàn)的預(yù)訓(xùn)練語言模型,在各類復(fù)雜的NLP任務(wù)中都取得了不錯(cuò)的效果,如文章生成、代碼生成、機(jī)器翻譯,Q&A等。 對(duì)于一個(gè)新的任務(wù),GPT僅僅需要非常少的數(shù)據(jù)便可以理解該任務(wù),并…

GPT

GPT系列即基于Transformer Decoder實(shí)現(xiàn)的預(yù)訓(xùn)練語言模型,在各類復(fù)雜的NLP任務(wù)中都取得了不錯(cuò)的效果,如文章生成、代碼生成、機(jī)器翻譯,Q&A等。

對(duì)于一個(gè)新的任務(wù),GPT僅僅需要非常少的數(shù)據(jù)便可以理解該任務(wù),并達(dá)到或超過其他工作的效果。

GTP系列的模型結(jié)構(gòu)秉承了不斷堆疊transformer的思想,通過不斷的提升訓(xùn)練語料的規(guī)模的質(zhì)量,提升網(wǎng)絡(luò)的參數(shù)數(shù)量,因此GPT模型的訓(xùn)練需要超大的訓(xùn)練預(yù)料,超多的參數(shù)和計(jì)算資源。

在這里插入圖片描述

GPT-1:無監(jiān)督學(xué)習(xí)

Improving Language Understanding by Generative Pre-Training
github:https://gluebenchmark.com/leaderboard

在GPT-1之前(和ELMo同一年),傳統(tǒng)的NLP模型往往使用大量的數(shù)據(jù)對(duì)有監(jiān)督的模型進(jìn)行任務(wù)相關(guān)的模型訓(xùn)練,但是這種有監(jiān)督學(xué)習(xí)的任務(wù)存在兩個(gè)缺點(diǎn)

  1. 需要大量的標(biāo)注數(shù)據(jù),高質(zhì)量的標(biāo)注數(shù)據(jù)往往很難獲得,因?yàn)樵诤芏嗳蝿?wù)中,圖像的標(biāo)簽并不是唯一的或者實(shí)例標(biāo)簽并不存在明確的邊界;
  2. 根據(jù)一個(gè)任務(wù)訓(xùn)練的模型很難泛化到其它任務(wù)中,這個(gè)模型只能叫做“領(lǐng)域?qū)<摇倍皇钦嬲睦斫饬薔LP;

根據(jù)一個(gè)任務(wù)訓(xùn)練的模型很難泛化到其它任務(wù)中,這個(gè)模型只能叫做“領(lǐng)域?qū)<摇倍皇钦嬲睦斫饬薔LP

GPT-1的思想是先通過在無標(biāo)簽的數(shù)據(jù)上學(xué)習(xí)一個(gè)生成式的語言模型,然后再根據(jù)特定熱任務(wù)進(jìn)行微調(diào),處理的有監(jiān)督任務(wù)包括:

  • 分類(Classification):判斷輸入文本類別
  • 推理 (Entailment):判斷兩個(gè)句子之間的關(guān)系(包含、矛盾、中立)
  • 相似度(Semantic Similarity):判斷句子語義是否相關(guān)
  • 問答和常理推理(Question answering and commonsense reasoning):類似多選題,一個(gè)文章,多個(gè)答案,預(yù)測每個(gè)答案的正確概率
    - 自然語言推理

無監(jiān)督預(yù)訓(xùn)練

GPT-1的無監(jiān)督預(yù)訓(xùn)練是基于語言模型進(jìn)行訓(xùn)練的,給定一個(gè)無標(biāo)簽的序列 ,語言模型的優(yōu)化目標(biāo)是最大化下面的似然值
在這里插入圖片描述
其中 K 是滑動(dòng)窗口的大小,P 是條件概率, θ\thetaθ 是模型的參數(shù)。這些參數(shù)使用SGD進(jìn)行優(yōu)化。(Transformer Decoder訓(xùn)練方式,當(dāng)前詞只能依據(jù)前面的詞推斷,對(duì)后面的詞是不知道的)

如上圖所示,GPT-1使用了12個(gè)Transformer塊作為Decoder,每個(gè)Transformer塊是一個(gè)多頭自注意力機(jī)制,通過全連接得到輸出的概率分布。

Decoder流程公式如下:
在這里插入圖片描述
U=(Uk,...,U1)U=(U_k,...,U_1)U=(Uk?,...,U1?)是當(dāng)前時(shí)間片的上下文token,n是層數(shù),WeW_eWe?是詞嵌入矩陣,WpW_pWp?是位置嵌入矩陣

有監(jiān)督微調(diào)

經(jīng)過無監(jiān)督的預(yù)訓(xùn)練模型后,將模型直接應(yīng)用到有監(jiān)督的任務(wù)中。
在這里插入圖片描述

有標(biāo)簽數(shù)據(jù)集C,每個(gè)實(shí)例有m個(gè)輸入token:{X1,...,XmX^1,...,X^mX1,...,Xm},標(biāo)簽y。將token輸入進(jìn)模型,得到最終的特征向量 hlmh_l^mhlm?,最后通過一個(gè)全連接層得到預(yù)測結(jié)果。
在這里插入圖片描述
WyW_yWy?為全連接層的參數(shù)。損失函數(shù)為:
在這里插入圖片描述
作者將無監(jiān)督訓(xùn)練和有監(jiān)督微調(diào)的損失結(jié)合在一起,通過 λ\lambdaλ 對(duì)損失分配權(quán)重,λ\lambdaλ 一般為0.5
在這里插入圖片描述
當(dāng)進(jìn)行有監(jiān)督微調(diào)的時(shí)候,只訓(xùn)練輸出層的WyW_yWy?和分隔符(delimiter)的嵌入值

對(duì)不同任務(wù)的輸入進(jìn)行變換

在這里插入圖片描述

  • 分類任務(wù):將起始和終止token加入到原始序列兩端,輸入transformer中得到特征向量,最后經(jīng)過一個(gè)全連接得到預(yù)測的概率分布;
  • 自然語言推理:將前提(premise)和假設(shè)(hypothesis)通過分隔符(Delimiter)隔開,兩端加上起始和終止token。再依次通過transformer和全連接得到預(yù)測結(jié)果;
  • 語義相似度:輸入的兩個(gè)句子,正向和反向各拼接一次,然后分別輸入給transformer,得到的特征向量拼接后再送給全連接得到預(yù)測結(jié)果
  • 問答和常識(shí)推理:將 n 個(gè)選項(xiàng)的問題抽象化為 n 個(gè)二分類問題,即每個(gè)選項(xiàng)分別和內(nèi)容進(jìn)行拼接,然后各送入transformer和全連接中,最后選擇置信度最高的作為預(yù)測結(jié)果。

實(shí)驗(yàn)

GPT-1 使用了BooksGorpus數(shù)據(jù)集,包含了 7,000本沒有發(fā)布的書籍,該數(shù)據(jù)集擁有更長的上下文依賴關(guān)系,使得模型能學(xué)得更長期的依賴關(guān)系,并且這些書籍因?yàn)闆]有發(fā)布,所以很難在下游數(shù)據(jù)集上見到,更能驗(yàn)證模型的泛化能力

無監(jiān)督訓(xùn)練

  • 使用字節(jié)對(duì)編碼(byte pair encoding,BPE),共有40,000個(gè)字節(jié)對(duì)
  • 詞編碼的長度為768
  • 位置編碼也需要學(xué)習(xí)
  • 12層的transformer,每個(gè)transformer塊有12個(gè)頭
  • 位置編碼的長度是 3,072
  • Attention,殘差,Dropout等機(jī)制用來進(jìn)行正則化,drop的比例為:0.1
  • 激活函數(shù)為GLEU
  • 訓(xùn)練的batchsize為64,學(xué)習(xí)率為2.5e-4,序列長度為512,序列epoch為100
  • 模型參數(shù)數(shù)量為1.17億

有監(jiān)督微調(diào)

  • 無監(jiān)督部分的模型也會(huì)用來微調(diào)
  • 訓(xùn)練的epoch為3,學(xué)習(xí)率為6.25e-5,這表明模型在無監(jiān)督部分學(xué)到了大量有用的特征

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
GPT-1在未經(jīng)微調(diào)的任務(wù)上雖然也有一定效果,但是其泛化能力遠(yuǎn)遠(yuǎn)低于經(jīng)過微調(diào)的有監(jiān)督任務(wù),說明了GPT-1只是一個(gè)簡單的領(lǐng)域?qū)<?#xff0c;而非通用的語言學(xué)家。

GPT-2:多任務(wù)學(xué)習(xí)

Language Models are Unsupervised Multitask Learners

隨著模型層數(shù)的疊加,參數(shù)量隨之增加,這時(shí)候?qū)δP瓦M(jìn)行微調(diào)也需要消耗大量資源。GPT-2的目標(biāo)旨在訓(xùn)練一個(gè)泛化能力更強(qiáng)的詞向量模型,它并沒有對(duì)GPT-1的網(wǎng)絡(luò)進(jìn)行過多的結(jié)構(gòu)的創(chuàng)新與設(shè)計(jì),只是使用了更多的網(wǎng)絡(luò)參數(shù)和更大的數(shù)據(jù)集

核心思想

GPT-2的學(xué)習(xí)目標(biāo)是使用無監(jiān)督的預(yù)訓(xùn)練模型做有監(jiān)督的任務(wù)。因?yàn)槲谋緮?shù)據(jù)的時(shí)序性,一個(gè)輸出序列可以表示為一系列條件概率的乘積
在這里插入圖片描述
上式也可以表示為p(sn?k,...sn∣s1,s2,...,sn?k?1)p(s_{n-k},...s_n|s_1,s_2,...,s_{n-k-1})p(sn?k?,...sn?s1?,s2?,...,sn?k?1?),實(shí)際意義是根據(jù)已知的上下文 input={s1,s2,...,sn?k?1}input = \{ s_1,s_2,...,s_{n-k-1} \}input={s1?,s2?,...,sn?k?1?}預(yù)測未知的下文 output={sn?k,...,sk}output = \{ s_{n-k},...,s_k\}output={sn?k?,...,sk?},因此語言模型可以表示為 p(output∣input,task)p(output|input,task)p(outputinput,task)的形式,在decaNLP中,他們提出的MQAN模型可以將機(jī)器翻譯,自然語言推理,語義分析,關(guān)系提取等10類任務(wù)統(tǒng)一建模為一個(gè)分類任務(wù),而無需再為每一個(gè)子任務(wù)單獨(dú)設(shè)計(jì)一個(gè)模型。

基于上面的思想,作者認(rèn)為,當(dāng)一個(gè)語言模型的容量足夠大時(shí),它就足以覆蓋所有的有監(jiān)督任務(wù),也就是說所有的有監(jiān)督學(xué)習(xí)都是無監(jiān)督語言模型的一個(gè)子集。例如當(dāng)模型訓(xùn)練完“Micheal Jordan is the best basketball player in the history”語料的語言模型之后,便也學(xué)會(huì)了(question:“who is the best basketball player in the history ?”,answer:“Micheal Jordan”)的Q&A任務(wù)。

綜上,GPT-2的核心思想概括為:任何有監(jiān)督任務(wù)都是語言模型的一個(gè)子集,當(dāng)模型的容量非常大且數(shù)據(jù)量足夠豐富時(shí),僅僅靠訓(xùn)練語言模型的學(xué)習(xí)便可以完成其他有監(jiān)督學(xué)習(xí)的任務(wù)。

數(shù)據(jù)集

GPT-2的文章取自于Reddit上高贊的文章,命名為WebText。數(shù)據(jù)集共有約800萬篇文章,累計(jì)體積約40G。為了避免和測試集的沖突,WebText移除了涉及Wikipedia的文章。

實(shí)驗(yàn)

  • 同樣使用了使用字節(jié)對(duì)編碼構(gòu)建字典,字典的大小為 50,257
  • 滑動(dòng)窗口的大小為 1,024
  • batchsize的大小為 512
  • Layer Normalization移動(dòng)到了每一塊的輸入部分,在每個(gè)self-attention之后額外添加了一個(gè)Layer Normalization;
  • 將殘差層的初始化值用 1/N1/\sqrt{N}1/N?進(jìn)行縮放,其中 N 是殘差層的個(gè)數(shù)

GPT-2訓(xùn)練了4組不同的層數(shù)和詞向量的長度的模型,具體值見表2。通過這4個(gè)模型的實(shí)驗(yàn)結(jié)果我們可以看出隨著模型的增大,模型的效果是不斷提升的。

在這里插入圖片描述
性能

  • 在8個(gè)語言模型任務(wù)中,僅僅通過zero-shot學(xué)習(xí),GPT-2就有7個(gè)超過了state-of-the-art的方法;
  • 在“Children’s Book Test”數(shù)據(jù)集上的命名實(shí)體識(shí)別任務(wù)中,GPT-2超過了state-of-the-art的方法約7%;
  • “LAMBADA”是測試模型捕捉長期依賴的能力的數(shù)據(jù)集,GPT-2將困惑度從99.8降到了8.6;
  • 在閱讀理解數(shù)據(jù)中,GPT-2超過了4個(gè)baseline模型中的三個(gè);
  • 在法譯英任務(wù)中,GPT-2在zero-shot學(xué)習(xí)的基礎(chǔ)上,超過了大多數(shù)的無監(jiān)督方法,但是比有監(jiān)督的state-of-the-art模型要差;
  • GPT-2在文本總結(jié)的表現(xiàn)不理想,但是它的效果也和有監(jiān)督的模型非常接近。
    在這里插入圖片描述
    在這里插入圖片描述

GPT-2的最大貢獻(xiàn)是驗(yàn)證了通過海量數(shù)據(jù)和大量參數(shù)訓(xùn)練出來的詞向量模型有遷移到其它類別任務(wù)中而不需要額外的訓(xùn)練。但是很多實(shí)驗(yàn)也表明,GPT-2的無監(jiān)督學(xué)習(xí)的能力還有很大的提升空間,甚至在有些任務(wù)上的表現(xiàn)不比隨機(jī)的好。盡管在有些zero-shot的任務(wù)上的表現(xiàn)不錯(cuò),但是仍不清楚GPT-2的這種策略究竟能做成什么樣子。GPT-2表明隨著模型容量和數(shù)據(jù)量的增大,其潛能還有進(jìn)一步開發(fā)的空間,基于這個(gè)思想,誕生了下面要介紹的GPT-3。

GPT-3:海量參數(shù)

Language Models are Few-Shot Learners

GPT-3僅僅需要zero-shot、one-shot或者few-shot,GPT-3就可以在下游任務(wù)表現(xiàn)的非常好。除了幾個(gè)常見的NLP任務(wù),GPT-3還在很多非常困難的任務(wù)上也有驚艷的表現(xiàn),例如撰寫人類難以判別的文章,甚至編寫SQL查詢語句,React或者JavaScript代碼等。而這些強(qiáng)大能力的能力則依賴于GPT-3瘋狂的 1,750億的參數(shù)量, 45TB的訓(xùn)練數(shù)據(jù)以及高達(dá) 1,200萬美元的訓(xùn)練費(fèi)用

In-context learning

In-context learning是這篇論文中介紹的一個(gè)重要概念,要理解in-context learning,需要先理解meta-learning(元學(xué)習(xí))。對(duì)于一個(gè)少樣本的任務(wù)來說,模型的初始化值非常重要,從一個(gè)好的初始化值作為起點(diǎn),模型能夠盡快收斂,使得到的結(jié)果非??斓谋平肿顑?yōu)解。元學(xué)習(xí)的核心思想在于通過少量的數(shù)據(jù)尋找一個(gè)合適的初始化范圍,使得模型能夠在有限的數(shù)據(jù)集上快速擬合,并獲得不錯(cuò)的效果。

輸入需求+(案例)+問題,模型的Attention機(jī)制在Prompt中找上下文信息,給出答案
在這里插入圖片描述
在few-shot learning中,提供若干個(gè)(10 - 100個(gè))示例和任務(wù)描述供模型學(xué)習(xí)。one-shot laerning是提供1個(gè)示例和任務(wù)描述。zero-shot則是不提供示例,只是在測試時(shí)提供任務(wù)相關(guān)的具體描述。作者對(duì)這3種學(xué)習(xí)方式分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,三個(gè)學(xué)習(xí)方式的效果都會(huì)隨著模型容量的上升而上升,且few shot > one shot > zero show。
在這里插入圖片描述
在這里插入圖片描述
從理論上講GPT-3也是支持fine-tuning的,但是fine-tuning需要利用海量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練才能獲得比較好的效果,但是這樣也會(huì)造成對(duì)其它未訓(xùn)練過的任務(wù)上表現(xiàn)差,所以GPT-3并沒有嘗試fine-tuning。

實(shí)驗(yàn)

GPT-3共訓(xùn)練了5個(gè)不同的語料,分別是低質(zhì)量的Common Crawl,高質(zhì)量的WebText2,Books1,Books2和Wikipedia,GPT-3根據(jù)數(shù)據(jù)集的不同的質(zhì)量賦予了不同的權(quán)值,權(quán)值越高的在訓(xùn)練的時(shí)候越容易抽樣到。
在這里插入圖片描述
模型結(jié)構(gòu)
在這里插入圖片描述
使用了alternating dense和locally banded sparse attention。

僅僅用驚艷很難描述GPT-3的優(yōu)秀表現(xiàn)。首先,在大量的語言模型數(shù)據(jù)集中,GPT-3超過了絕大多數(shù)的zero-shot或者few-shot的state-of-the-art方法。另外GPT-3在很多復(fù)雜的NLP任務(wù)中也超過了fine-tune之后的state-of-the-art方法,例如閉卷問答,模式解析,機(jī)器翻譯等。除了這些傳統(tǒng)的NLP任務(wù),GPT-3在一些其他的領(lǐng)域也取得了非常震驚的效果,例如進(jìn)行數(shù)學(xué)加法,文章生成,編寫代碼等。

總結(jié)

GPT系列從1到3,通通采用的是transformer架構(gòu),可以說模型結(jié)構(gòu)并沒有創(chuàng)新性的設(shè)計(jì)。在微軟的資金支持下,這更像是一場赤裸裸的炫富:1750億的參數(shù),31個(gè)分工明確的作者,超強(qiáng)算力的計(jì)算機(jī)(285,000 個(gè)CPU, 10,000個(gè)GPU),1200萬的訓(xùn)練費(fèi)用,45TB的訓(xùn)練數(shù)據(jù)(維基百科的全部數(shù)據(jù)只相當(dāng)于其中的 0.6%)。這種規(guī)模的模型是一般中小企業(yè)無法承受的,而個(gè)人花費(fèi)巨金配置的單卡機(jī)器也就只能做做微調(diào)或者打打游戲了。甚至在訓(xùn)練GPT-3時(shí)出現(xiàn)了一個(gè)bug,OpenAI自己也沒有資金重新訓(xùn)練了。

讀懂了GPT-3的原理,相信我們就能客觀的看待媒體上對(duì)GPT-3的過分神話了。GPT-3的本質(zhì)還是通過海量的參數(shù)學(xué)習(xí)海量的數(shù)據(jù),然后依賴transformer強(qiáng)大的擬合能力使得模型能夠收斂?;谶@個(gè)原因,GPT-3學(xué)到的模型分布也很難擺脫這個(gè)數(shù)據(jù)集的分布情況。得益于龐大的數(shù)據(jù)集,GPT-3可以完成一些令人感到驚喜的任務(wù),但是GPT-3也不是萬能的,對(duì)于一些明顯不在這個(gè)分布或者和這個(gè)分布有沖突的任務(wù)來說,GPT-3還是無能為力的。例如通過目前的測試來看,GPT-3還有很多缺點(diǎn)的:

  • 對(duì)于一些命題沒有意義的問題,GPT-3不會(huì)判斷命題有效與否,而是擬合一個(gè)沒有意義的答案出來;
  • 由于40TB海量數(shù)據(jù)的存在,很難保證GPT-3生成的文章不包含一些非常敏感的內(nèi)容,例如種族歧視,性別歧視,宗教偏見等;
  • 受限于transformer的建模能力,GPT-3并不能保證生成的一篇長文章或者一本書籍的連貫性,存在下文不停重復(fù)上文的問題。

參考于:https://zhuanlan.zhihu.com/p/350017443

http://www.risenshineclean.com/news/59772.html

相關(guān)文章:

  • 廣州建外貿(mào)網(wǎng)站什么企業(yè)需要網(wǎng)絡(luò)營銷和網(wǎng)絡(luò)推廣
  • 樂云seo網(wǎng)站建設(shè)公司seo搜索引擎優(yōu)化就業(yè)前景
  • 什么網(wǎng)站專做二手名表做關(guān)鍵詞優(yōu)化的公司
  • 佛山精品網(wǎng)站建設(shè)優(yōu)化大師官方正版下載
  • 手機(jī)網(wǎng)站制作費(fèi)用百度指數(shù)數(shù)據(jù)分析平臺(tái)入口
  • 便宜網(wǎng)站建設(shè)模板網(wǎng)站谷歌排名查詢
  • 手機(jī)頁面模板站長工具seo優(yōu)化
  • 家居在線設(shè)計(jì)平臺(tái)seo優(yōu)化報(bào)價(jià)
  • 邯鄲市建設(shè)局網(wǎng)站材料下載入口北京seo方法
  • 南京建設(shè)監(jiān)理協(xié)會(huì)網(wǎng)站企業(yè)網(wǎng)絡(luò)的組網(wǎng)方案
  • 三亞建設(shè)工程信息網(wǎng)站外鏈交換平臺(tái)
  • 蘇州做網(wǎng)站外包的公司有哪些win7優(yōu)化
  • 英文二手汽車網(wǎng)站建設(shè)網(wǎng)絡(luò)項(xiàng)目免費(fèi)的資源網(wǎng)
  • 蘇州個(gè)人制作公司seo sem
  • web網(wǎng)站開發(fā)課程設(shè)計(jì)南昌seo搜索排名
  • 石家莊網(wǎng)站怎么建設(shè)今日頭條搜索引擎
  • wordpress wiki 模版海南seo
  • 設(shè)計(jì)專業(yè)新手網(wǎng)站百度推廣公司
  • 臨汾市建設(shè)局網(wǎng)站app推廣接單
  • 山東天元建設(shè)集團(tuán)破產(chǎn)網(wǎng)站優(yōu)化企業(yè)排名
  • 網(wǎng)站設(shè)計(jì)常用軟件免費(fèi)的h5制作網(wǎng)站模板
  • 廣東東莞最新消息通知seo及網(wǎng)絡(luò)推廣招聘
  • 上海網(wǎng)頁設(shè)計(jì)是什么溫州seo排名優(yōu)化
  • ui設(shè)計(jì)界面效果圖長沙搜索排名優(yōu)化公司
  • 公司網(wǎng)站服務(wù)器租用專業(yè)的網(wǎng)站建設(shè)公司
  • 東莞人才服務(wù)中心官網(wǎng)seo網(wǎng)站診斷文檔案例
  • 網(wǎng)站怎么做 凡科網(wǎng)站策劃書的撰寫流程
  • 自己如何做電影網(wǎng)站今日熱點(diǎn)新聞大事件
  • 門戶網(wǎng)站建設(shè)情況哪家網(wǎng)絡(luò)營銷好
  • 兒童做的小游戲下載網(wǎng)站市場seo是什么意思