重慶江北區(qū)網(wǎng)站建設(shè)公司seo大全
目錄
🍔 BERT, GPT, ELMo之間的不同點(diǎn)
🍔 BERT, GPT, ELMo各自的優(yōu)點(diǎn)和缺點(diǎn)
🍔 小結(jié)
學(xué)習(xí)目標(biāo)
- 理解BERT, GPT, ELMo相互間的不同點(diǎn)
- 理解BERT, GPT, ELMo相互比較下的各自優(yōu)點(diǎn)和缺點(diǎn)
🍔 BERT, GPT, ELMo之間的不同點(diǎn)
-
關(guān)于特征提取器:
- ELMo采用兩部分雙層雙向LSTM進(jìn)行特征提取, 然后再進(jìn)行特征拼接來融合語義信息.
- GPT和BERT采用Transformer進(jìn)行特征提取.
- 很多NLP任務(wù)表明Transformer的特征提取能力強(qiáng)于LSTM, 對于ELMo而言, 采用1層靜態(tài)token embedding + 2層LSTM, 提取特征的能力有限.
-
單/雙向語言模型:
- 三者之中, 只有GPT采用單向語言模型, 而ELMo和BERT都采用雙向語言模型.
- ELMo雖然被認(rèn)為采用了雙向語言模型, 但實(shí)際上是左右兩個(gè)單向語言模型分別提取特征, 然后進(jìn)行特征拼接, 這種融合特征的能力比BERT一體化的融合特征方式弱.
- 三者之中, 只有ELMo沒有采用Transformer. GPT和BERT都源于Transformer架構(gòu), GPT的單向語言模型采用了經(jīng)過修改后的Decoder模塊, Decoder采用了look-ahead mask, 只能看到context before上文信息, 未來的信息都被mask掉了. 而BERT的雙向語言模型采用了Encoder模塊, Encoder只采用了padding mask, 可以同時(shí)看到context before上文信息, 以及context after下文信息.
🍔 BERT, GPT, ELMo各自的優(yōu)點(diǎn)和缺點(diǎn)
ELMo: * 優(yōu)點(diǎn): * 從早期的Word2Vec預(yù)訓(xùn)練模型的最大缺點(diǎn)出發(fā), 進(jìn)行改進(jìn), 這一缺點(diǎn)就是無法解決多義詞的問題. * ELMo根據(jù)上下文動(dòng)態(tài)調(diào)整word embedding, 可以解決多義詞的問題. * 缺點(diǎn): * ELMo使用LSTM提取特征的能力弱于Transformer. * ELMo使用向量拼接的方式融合上下文特征的能力弱于Transformer.
GPT: * 優(yōu)點(diǎn): * GPT使用了Transformer提取特征, 使得模型能力大幅提升. * 缺點(diǎn): * GPT只使用了單向Decoder, 無法融合未來的信息.
BERT: * 優(yōu)點(diǎn): * BERT使用了雙向Transformer提取特征, 使得模型能力大幅提升. * 添加了兩個(gè)預(yù)訓(xùn)練任務(wù), MLM + NSP的多任務(wù)方式進(jìn)行模型預(yù)訓(xùn)練. * 缺點(diǎn): * 模型過于龐大, 參數(shù)量太多, 需要的數(shù)據(jù)和算力要求過高, 訓(xùn)練好的模型應(yīng)用場景要求高. * 更適合用于語言嵌入表達(dá), 語言理解方面的任務(wù), 不適合用于生成式的任務(wù).
🍔 小結(jié)
學(xué)習(xí)了BERT, GPT, ELMo之間的區(qū)別: * 三者所選取的特征提取器不同. * BERT采用的是Transformer架構(gòu)中的Encoder模塊. * GPT采用的是Transformer架構(gòu)中的Decoder模塊. * ELMo采用的雙層雙向LSTM模塊.
- 三者所采用的語言模型單/雙向不同.
- BERT采用的是最徹底的雙向語言模型, 可以同時(shí)關(guān)注context before和context after.
- GPT采用的是單向語言模型, 即Transformer中的Decoder, 由于采用了mask機(jī)制, 所以未來信息context after都不可見.
- ELMo表面上被認(rèn)為是雙向語言模型, 但實(shí)際上是左右兩個(gè)單向LSTM模型分別提取特征, 在進(jìn)行簡單的拼接融合.