當前位置：首頁 > news >正文

做早餐燒菜有什么網站seo綜合查詢是什么

news 2025/7/12 0:29:21

做早餐燒菜有什么網站,seo綜合查詢是什么,淄博網站建設培訓學校,免費注冊qq號一、背景信息： Transformer是一種由谷歌在2017年提出的深度學習模型。主要用于自然語言處理（NLP）任務，特別是序列到序列（Sequence-to-Sequence）的學習問題，如機器翻譯、文本生成等。Transfor…

一、背景信息：

Transformer是一種由谷歌在2017年提出的深度學習模型。

主要用于自然語言處理（NLP）任務，特別是序列到序列（Sequence-to-Sequence）的學習問題，如機器翻譯、文本生成等。Transformer徹底改變了之前基于循環(huán)神經網絡（RNNs）和長短期記憶網絡（LSTMs）的序列建模范式，并且在性能上取得了顯著提升。

二、整體結構：

Transformer 由 Encoder 和 Decoder 兩個部分組成，Encoder 和 Decoder 都包含 6 個 block。

Transformer 的輸入
Transformer 的輸入由 x的 詞向量 和 位置向量 相加得到。
其中Transformer 在位置向量中保存單詞在序列中的相對或絕對位置信息，位置向量由PE(Positional Encoding)表示：

eg：假設n為序列長度，d為表示向量維度，原始輸入為 $X_{ori-input}$ （ $x_{1},x_{2}...x_{n} ]$ ）
則，原始輸入 $X_{ori-input}$ 的詞向量矩陣為 $X_{WE}$ 其維度為(n, d),
原始輸入 $X_{ori-input}$ 的位置向量矩陣 $X_{PE}$ 維度也為(n, d)，
最終 Transformer 的輸入矩陣 $X_{input}$ = $X_{WE}$ + $X_{PE}$ 維度也是(n, d)。

三、 Encoder

Encoder 部分由6個Encoder block 組成。
Encoder block 由Multi-Head Attention結合Add & Norm、Feed Forward結合 Add & Norm 組成。
即由下面兩部分組成：
$X = LayderNorm(X_{input} + MultiHeadAttention(X_{input}))$
$X = L a y d er N or m (X + F ee d F or w or d (X))$

MultiHeadAttention部分
其中MultiHeadAttention為多個Self-Attention進行Concat后linear而成：
$X_{input} \times W_{q}$
$X_{input} \times W_{k}$
$X_{input} \times W_{v}$
$\frac{QK^{T} }{\sqrt{d_{k}} } )V$
其中， $Z_{1}....Z_{8}$ 為X_{input} 經過8個不同Self-Attention得到的結果
$X =MultiHeadAttention(X_{input} ) = Linear(Concat(Z_{1},Z_{2}....Z_{8}))$

FeedForword部分
Feed Forward 層，是一個兩層的全連接層，第一層的激活函數(shù)為 Relu，第二層不使用激活函數(shù)，公式如下。

$FeedForword(X) = max(0, XW_{1} + b_{1})W_{2} + b_{2}$

四、 Decoder

Decoder 由 6個Decoder block 以及最后的一個linear組成。
Decoder block 由一個帶有 Masked的Multi-Head Attention結合Add & Norm和一個Multi-Head Attention結合Add & Norm以及一個Feed Forward結合 Add & Norm 組成。

$X_{output}=X_{ouput-ori }\otimes X_{Mask}$
$X = LayderNorm(X_{output} + MaskMultiHeadAttention(X_{ouput}))$

$X = LayderNorm(X + MultiHeadAttention([X_{as Q}, EC_{as K}, EC_{as V}])$
$X_{result} = Softmax(X)$

帶有 Masked的Multi-Head Attention層
其中帶有 Masked的Multi-Head Attention中 $X_{ouput}$ 為Transformer 標簽對應輸出向量； $X_{ouput-ori}$ 需要先 $\otimes$ $X_{Mask}$ 得到 $X_{ouput}$
$X_{ouput} \times W_{q}$
$X_{ouput} \times W_{k}$
$X_{ouput} \times W_{v}$
$\frac{QK^{T} }{\sqrt{d_{k}} } \otimes X_{Mask} )V$

其中第二個 Multi-Head Attention層
Self-Attention 的 K, V矩陣使用的是根據(jù)Encoder編碼的輸出矩陣C計算得到 K, V； Self-Attention 的 Q矩陣是根據(jù)Decoder block中的Masked Multi-Head Attention層輸出矩陣 Z 計算得到 Q。