當(dāng)前位置：首頁 > news >正文

云南房產(chǎn)網(wǎng)站建設(shè)seo的理解

news 2025/7/13 22:50:16

云南房產(chǎn)網(wǎng)站建設(shè),seo的理解,嘉興建設(shè)中學(xué)網(wǎng)站,網(wǎng)站建設(shè)步驟一、前言本文章作為學(xué)習(xí)2023年《李宏毅機器學(xué)習(xí)課程》的筆記，感謝臺灣大學(xué)李宏毅教授的課程，respect！！！ 讀這篇文章必須先了解self-attention，可參閱我上一篇。二、大綱 Transformer問世原理剖析模型訓(xùn)…

一、前言

本文章作為學(xué)習(xí)2023年《李宏毅機器學(xué)習(xí)課程》的筆記，感謝臺灣大學(xué)李宏毅教授的課程，respect！！！
讀這篇文章必須先了解self-attention，可參閱我上一篇。

二、大綱

Transformer問世
原理剖析
模型訓(xùn)練

三、Transformer問世

2017 年在文章《Attention Is All You Need》被提出的。應(yīng)用于seq2seq模型，當(dāng)時直接轟動。

四、原理剖析

兩部分組成：Encoder 和 Decoder

Encoder 結(jié)構(gòu)
接下來從大到小一層層剝開：

剝一下：
輸入一排向量，輸出一排向量
在這里插入圖片描述
剝兩下：
Encoder 由多個Block組成，串聯(lián)起來

剝?nèi)?#xff1a;
Block裝的是啥？原來是Self-attention！

剝四下：
Self-attention原來加入了residual和Layer Normal，至此剝完了。

說明：
上圖自底向上看，關(guān)鍵點：
1、residual結(jié)構(gòu)，輸入接到輸出送入下一層，殘差結(jié)構(gòu)；
2、Layer Normal，具體如下圖：
在這里插入圖片描述
算出標(biāo)準(zhǔn)差和均值后，套用公式計算即可。

以上就是Encoder的全部了！
論文中是這么畫圖表達(dá)的：
在這里插入圖片描述
注：Positional Encoding是self-attention的位置資訊。

Decoder 結(jié)構(gòu)
有兩種方法生成輸出：Auto Regressive 和 Non Auto Regressive。

Auto Regressive
在這里插入圖片描述
給個START符號，把本次輸出當(dāng)做是下一次的輸入，依序進行下去。

Non Auto Regressive
在這里插入圖片描述
輸入是一排的START符號，一下子梭哈突出一排輸出。

Encoder結(jié)構(gòu)長啥樣？

接下來看下結(jié)構(gòu)長啥樣，先遮住不一樣的部分，其他部分結(jié)構(gòu)基本一致，只不過這里用上了Masked Multi-Head Attention
在這里插入圖片描述

Masked Multi-Head Attention
啥是Masked Multi-Head Attention？Masked有啥含義？
可以直接理解為單向的Multi-Head Attention，而且是從左邊開始：
在這里插入圖片描述
說明：這也很好理解，右邊的字符都還沒輸出出來怎么做運算，因此只能是已經(jīng)吐出來的左邊的內(nèi)容做self-attention，這就是masked的含義。

遮住的部分是啥？（cross attention）

最后這邊遮住的部分到底是啥玩意？
別想太復(fù)雜，就還是self-attention。
corss的意思就是v，k來自Encoder，q來自Decoder，僅此而已。
在這里插入圖片描述

其實也好理解，Decoder是去還原結(jié)果的，那可不得抽下Encoder編碼時候的資訊和上下文語義信息才能還原，缺一不可。
比喻下，前者讓輸出緊扣題意，后者讓其說人話。