網(wǎng)站目錄鏈接怎么做天津百度推廣電話
正文
本文主要談一下關(guān)于 Transformer的并行化。文章比較短,適合大家碎片化閱讀。
Decoder不用多說(shuō),沒(méi)有并行,只能一個(gè)一個(gè)的解碼,很類似于RNN,這個(gè)時(shí)刻的輸入依賴于上一個(gè)時(shí)刻的輸出。
對(duì)于Encoder側(cè):
首先,6個(gè)大的模塊之間是串行的,一個(gè)模塊計(jì)算的結(jié)果做為下一個(gè)模塊的輸入,互相之前有依賴關(guān)系。
從每個(gè)模塊的角度來(lái)說(shuō),注意力層和前饋神經(jīng)層這兩個(gè)子模塊單獨(dú)來(lái)看都是可以并行的,不同單詞之間是沒(méi)有依賴關(guān)系的。
當(dāng)然對(duì)于注意力層在做attention的時(shí)候會(huì)依賴別的時(shí)刻的輸入,不過(guò)這個(gè)只需要在計(jì)算之前就可以提供。
然后注意力層和前饋神經(jīng)層之間是串行,必須先完成注意力層計(jì)算再做前饋神經(jīng)層。
有點(diǎn)繞,不知道有沒(méi)有講清楚。
簡(jiǎn)單講,就是6個(gè)encoder之間是串行,每個(gè)encoder中的兩個(gè)子模塊之間是串行,子模塊自身是可以并行的。
系列總結(jié)
整個(gè)Transformer這一塊基本就是講完了,基本上可以解決之前那個(gè)關(guān)于transformer面試題百分之八十的題目。
至于剩下的題目會(huì)放在之后別的模塊去講,比如 wordpiece model 會(huì)在總結(jié)機(jī)器翻譯知識(shí)點(diǎn)的時(shí)候?qū)懸幌?#xff0c;然后 GPT 會(huì)在總結(jié)詞向量知識(shí)點(diǎn)的時(shí)候?qū)懸幌隆?/p>
寫這個(gè)系列過(guò)程中,很多朋友也有私信我一些問(wèn)題,交流過(guò)程中,對(duì)我自己幫助也很大,能回答的問(wèn)題我都盡力回答了,也感謝大家的關(guān)注。平時(shí)工作挺忙的,盡量輸出干貨,也歡迎大家和我交流問(wèn)題。