當(dāng)前位置：首頁 > news >正文

備案時(shí)暫時(shí)關(guān)閉網(wǎng)站交換鏈接營銷的典型案例

news 2025/7/3 13:35:53

備案時(shí)暫時(shí)關(guān)閉網(wǎng)站,交換鏈接營銷的典型案例,織夢做網(wǎng)站需要錢嗎,維吾爾網(wǎng)站建設(shè)學(xué)術(shù)文章目錄傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)框架存在的問題一. Transformer架構(gòu)綜述1.1 transformer的輸入1.1.1 詞向量1.1.2 位置編碼（Positional Encoding）1.1.3 編碼器與解碼器結(jié)構(gòu)1.1.4 多頭自注意力機(jī)制二.Transformer分步詳解2.1 傳統(tǒng)詞向量存在的問題2.2 詳解編解碼…

文章目錄

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)框架存在的問題
一. Transformer架構(gòu)綜述
- 1.1 transformer的輸入
- - 1.1.1 詞向量
  - 1.1.2 位置編碼（Positional Encoding）
  - 1.1.3 編碼器與解碼器結(jié)構(gòu)
  - 1.1.4 多頭自注意力機(jī)制
二.Transformer分步詳解
- 2.1 傳統(tǒng)詞向量存在的問題
- 2.2 詳解編解碼器中自注意力機(jī)制
- - 2.2.1 縮放點(diǎn)積注意力機(jī)制
  - - 計(jì)算步驟
  - 矩陣形式
  - 2.2.2 softmax函數(shù)
  - 2.2.3 多頭機(jī)制
三.FNN與MoE策略
四.論文參考
- 4.1 邁向終極專家專業(yè)化-Mixture-of-Expert 語言模型
- 4.2 模型越獄-拒絕由LLMs單一方向調(diào)解
- 4.3 LLM MOE策略的演化

文章學(xué)習(xí)b站
Transformer模型詳解，Attention is all you need
【Transformer速通指南】三天掌握自注意力機(jī)制！

Transformer 是模型架構(gòu)，是 LLM 和 MoE 的基礎(chǔ)。其核心是自注意力機(jī)制（Self-Attention），摒棄了傳統(tǒng) RNN 和 CNN 的序列處理方式。作用實(shí)現(xiàn)不同維度領(lǐng)域的數(shù)據(jù)歸一化。
LLM 是基于 Transformer 的大規(guī)模應(yīng)用模型。
MoE 是一種優(yōu)化架構(gòu)的策略，用于擴(kuò)展模型規(guī)模。

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)框架存在的問題

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)框架存在一些局限性，具體如下：

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）：RNN在處理序列數(shù)據(jù)時(shí)，需要按照時(shí)間順序逐步迭代計(jì)算每個(gè)時(shí)間步的結(jié)果。這種串行處理方式限制了模型的并行化能力，導(dǎo)致訓(xùn)練和推理過程相對緩慢。此外，RNN在捕捉長距離依賴關(guān)系時(shí)面臨挑戰(zhàn)，如梯度消失或爆炸問題，這進(jìn)一步限制了其性能。
卷積神經(jīng)網(wǎng)絡(luò)（CNN）：雖然CNN在處理具有局部結(jié)構(gòu)的數(shù)據(jù)（如圖像）方面表現(xiàn)出色，但在處理序列數(shù)據(jù)時(shí)存在一定的局限性。CNN通過滑動(dòng)窗口機(jī)制捕捉局部特征，但難以直接建模長距離依賴關(guān)系，因?yàn)樗鼈儽举|(zhì)上是基于局部感受野的設(shè)計(jì)，缺乏全局視角。盡管可以通過堆疊多層卷積層來部分緩解這一問題，但這通常伴隨著計(jì)算成本的增加和參數(shù)數(shù)量的增長。
Transformer模型：與上述兩種架構(gòu)不同，Transformer通過引入自注意力機(jī)制徹底改變了序列數(shù)據(jù)的處理方式。自注意力機(jī)制允許模型直接訪問輸入序列中的所有位置，并為每個(gè)位置分配不同的權(quán)重，即所謂的“關(guān)注度”。這種方式使得Transformer能夠高效地捕捉長距離依賴關(guān)系，同時(shí)支持高度的并行化計(jì)算，從而顯著提高了訓(xùn)練效率。在Transformer中，每個(gè)詞都通過Q（查詢）、K（鍵）和V（值）向量來計(jì)算與其他詞的相關(guān)性，進(jìn)而確定在整個(gè)上下文中該詞的重要性。

綜上所述，每種傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)架構(gòu)都有其特定的應(yīng)用場景和局限性。RNN擅長處理序列數(shù)據(jù)但受限于其串行特性；CNN在圖像處理領(lǐng)域表現(xiàn)優(yōu)異但對長距離依賴關(guān)系的支持有限；而Transformer則通過創(chuàng)新的自注意力機(jī)制解決了這些問題，提供了更強(qiáng)大的序列建模能力和更高的計(jì)算效率。這些特點(diǎn)使Transformer成為現(xiàn)代自然語言處理和其他涉及序列數(shù)據(jù)領(lǐng)域的首選架構(gòu)之一。

一. Transformer架構(gòu)綜述

在這里插入圖片描述
圖1-1 transformer整體流程圖

圖1-2 transformer模型子結(jié)構(gòu)示意圖

整體分為下方輸入單元、左側(cè)編碼器、右側(cè)解碼器、上側(cè)推演結(jié)果，其中圖1-1描述了transformer大致組件。圖1-2描述了每個(gè)組件中重要的核心處理方法。

Transformer的輸入和輸出是什么？
輸入： Inputs，Outputs(shifted right)
輸出：Output Probabilities

下列以模型處理英譯漢為例解釋transformer模型的整體運(yùn)作過程。

1.1 transformer的輸入

例如Are you OK ？ 待翻譯句子和標(biāo)注數(shù)據(jù) 你好嗎？進(jìn)入模型，經(jīng)模型處理后輸出 你干什么？，如圖1-3所示。
在這里插入圖片描述
圖1-3 數(shù)據(jù)輸入輸出示意圖

1.1.1 詞向量

在 Are you OK ？和 你好嗎？進(jìn)入模型時(shí)，具體會(huì)被模型的第一個(gè)組件詞向量處理，如圖1-4所示。
在這里插入圖片描述
圖1-4 詞向量層示意圖

假設(shè)每個(gè)單詞用4維向量表示，則["Are","you","OK","?"] 四個(gè)詞的句子可以用4 * 4的詞向量矩陣表示，每一行是一個(gè)詞的詞向量，如圖1-5所示。
在這里插入圖片描述
圖1-5 待譯數(shù)據(jù)詞向量

同理，標(biāo)注詞["你","好嗎","?"]也會(huì)被處理成 3* 4的詞向量矩陣，如圖1-6所示。
在這里插入圖片描述
圖1-6 標(biāo)注數(shù)據(jù)詞向量

1.1.2 位置編碼（Positional Encoding）

得到Input Embedding和Output Embedding的詞向量后，transformer會(huì)對其進(jìn)行位置編碼。目的是把位置信息附加到原始的信息上。如圖1-7所示。
在這里插入圖片描述
圖1-7 從詞嵌入到位置編碼示意圖

在沒有位置編碼時(shí)
在這里插入圖片描述
圖1-8 詞向量示意圖

即模型可能當(dāng)成You are OK ?，OK ? you are等進(jìn)行處理。那么這樣子就可能違背本意，如圖1-8所示。

對于初學(xué)者而言，下面的討論可能會(huì)顯得晦澀難懂，不清楚其目的和實(shí)施的理由。這并不意外，因?yàn)檫@部分內(nèi)容旨在提供一個(gè)整體框架或概覽，而不會(huì)深入探討每一個(gè)細(xì)節(jié)?，F(xiàn)階段，您無需過分擔(dān)憂具體的實(shí)現(xiàn)步驟或背后的原理。當(dāng)前的重點(diǎn)在于理解這種方法的大致輪廓以及它試圖達(dá)成的目標(biāo)。具體的操作細(xì)節(jié)、技術(shù)術(shù)語以及每一步驟背后的原因?qū)?huì)在后續(xù)章節(jié)中詳細(xì)展開。

為了幫助您更好地跟隨學(xué)習(xí)進(jìn)度，這里將給出一個(gè)高層次的概念性描述。首先，我們采取一種系統(tǒng)化的方法來解決問題，這種方法依賴于一系列預(yù)先設(shè)定的步驟和規(guī)則。這些步驟被設(shè)計(jì)成能夠引導(dǎo)用戶從問題的起始點(diǎn)順利到達(dá)解決方案。雖然此時(shí)您可能對其中的具體操作流程感到困惑，但隨著逐步深入的學(xué)習(xí)，每一個(gè)環(huán)節(jié)都將得到清晰的解釋和實(shí)例說明。

位置編碼會(huì)用正弦函數(shù)和余弦函數(shù)的計(jì)算實(shí)現(xiàn)

位置編碼的正余弦公式

其中：

pos 表示詞在序列中的位置。
i 表示編碼向量中的維度索引。
d_model 表示模型嵌入維度大小。
對于偶數(shù)維度（即 i 是偶數(shù)），使用正弦函數(shù)：

$PE_{\text{pos}, 2i} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$
對于奇數(shù)維度（即 i 是奇數(shù)），使用余弦函數(shù)：

$PE_{\text{pos}, 2i+1} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$

其中，pos 表示詞語在序列中的位置，i 表示該詞語向量中的第 i 維度。d_model表示總維度數(shù)
例如["Are","you","OK","?"]中， "you"的索引下標(biāo)為1，且前文假設(shè)詞向量有4個(gè)維度（現(xiàn)設(shè)4個(gè)維度分別為維度0，維度1，維度2，維度3）。因此"you"的位置編碼為PE(1，0)，PE(1，1)，PE(1，2)，PE(1，3)，如圖1-9所示。
在這里插入圖片描述
圖1-9 位置編碼示意圖

再次說明，如上你可能看不懂為什么要這么做，后續(xù)在章節(jié)2中介紹自注意力機(jī)制，你會(huì)有所理解

1.1.3 編碼器與解碼器結(jié)構(gòu)

在這里插入圖片描述
圖1-10 輸入序列經(jīng)過位置編碼進(jìn)入編解碼器圖

經(jīng)過位置編碼后，英文的待譯數(shù)據(jù)和中文的標(biāo)注數(shù)據(jù)分別輸入到編碼器和解碼器中，會(huì)經(jīng)過三個(gè)計(jì)算過程。如圖1-11
在這里插入圖片描述
圖1-11 編解碼器整體處理流程圖

① 編碼器會(huì)基于 自注意力機(jī)制（Multi-Head Attention），前饋神經(jīng)網(wǎng)絡(luò)（Feed Forward）對"英文的待譯數(shù)據(jù)"進(jìn)行編碼，如圖1-12所示

圖1-12 編碼器處理流程圖
② 解碼器會(huì)基于帶有掩碼的（Masked）自注意力機(jī)制（Multi-Head Attention）對"中文的標(biāo)注數(shù)據(jù)"進(jìn)行編碼，如圖1-13

圖1-13 解碼器處理流程圖
③ 編碼器-解碼器注意力層：對兩組數(shù)據(jù)一起解碼，得到解碼器最終輸出。如圖1-14 所示。

圖1-14 從編碼器-解碼器注意力層到解碼器最終輸出圖

總體來說編解碼器通過自注意力機(jī)制，和前饋神經(jīng)網(wǎng)絡(luò)將輸入數(shù)據(jù)中的全局信息附加到解碼結(jié)果并最終輸出。如圖1-15所示。
在這里插入圖片描述

1.1.4 多頭自注意力機(jī)制

在這里插入圖片描述
圖1-16 多頭自注意力機(jī)制整體示意圖

其中自注意力機(jī)制（Muti Head Self Attention）會(huì)分別使用多個(gè)自注意力機(jī)制對Q,K,V 三個(gè)線性層（Linear）對輸入數(shù)據(jù)進(jìn)行線性變換并使用縮放點(diǎn)積注意力機(jī)制(Scaled Dot Product Attention)將特征變換后的Q,K,V進(jìn)行結(jié)合，最后使用fc線形層整合多頭結(jié)果。如圖1-17所示。
在這里插入圖片描述
圖1-17 自注意力機(jī)制計(jì)算流程圖

圖1-18 自注意力機(jī)制源碼實(shí)現(xiàn)圖

在章節(jié)2，我們會(huì)詳細(xì)介紹Q,K,V參數(shù)的作用，為什么是這樣搞。

以編碼器中的自注意力機(jī)制層，說明自注意力機(jī)制是如何工作的。首先輸入的數(shù)據(jù)是經(jīng)過位置編碼后的["Are","you","ok","?"]，其黃色表示["Are","you","ok","?"]的詞向量矩陣，分別于Q，K，V進(jìn)行線性變換得到，三組結(jié)果qx，kx，vx。如圖1-19所示。
在這里插入圖片描述
圖1-19 舉例說明自注意力機(jī)制計(jì)算流程圖

接著將三組結(jié)果交給縮放點(diǎn)積注意力機(jī)制整合成最終結(jié)果。

關(guān)于自注意力機(jī)制和縮放點(diǎn)積注意力機(jī)制將在第二章詳細(xì)介紹。

二.Transformer分步詳解

在之前的概述中，您可能對編碼器與解碼器之間的映射關(guān)系感到困惑，不明白為何需要通過Q（查詢）、K（鍵）和V（值）來進(jìn)行信息處理和統(tǒng)一歸一化為啥是softmax函數(shù)處理，以及為何位置編碼采用了正余弦函數(shù)的形式,。接下來，我們將詳細(xì)探討這些問題，以期為您提供清晰的理解。

首先，讓我們明確編碼器和解碼器在序列到序列（Seq2Seq）任務(wù)中的角色。編碼器的任務(wù)是將輸入序列轉(zhuǎn)換為一個(gè)固定長度的內(nèi)部表示形式，通常稱為上下文向量或特征向量。這個(gè)內(nèi)部表示捕捉了輸入序列的關(guān)鍵信息，并將其壓縮成一個(gè)抽象表達(dá)。而解碼器則接收這個(gè)內(nèi)部表示，并逐步生成輸出序列，每一步都可能依賴于前一步的輸出以及從編碼器傳遞過來的上下文信息。這種結(jié)構(gòu)使得模型能夠處理不同長度的輸入和輸出序列，適用于如機(jī)器翻譯、文本摘要等任務(wù)。

接下來，討論Q、K、V的概念及其在自注意力機(jī)制中的應(yīng)用。在Transformer架構(gòu)中，為了有效處理輸入序列中不同位置之間的關(guān)系，每個(gè)輸入都需要經(jīng)過線性變換，從而生成Q、K、V三個(gè)不同的向量。這些向量分別代表查詢、鍵和值，它們的作用在于計(jì)算序列中元素間的相似度并確定權(quán)重，以便實(shí)現(xiàn)對不同位置信息的有效區(qū)分。

最后，我們來解釋為什么位置編碼采用正余弦函數(shù)。由于Transformer模型缺乏像循環(huán)神經(jīng)網(wǎng)絡(luò)（RNNs）那樣的遞歸結(jié)構(gòu)或卷積神經(jīng)網(wǎng)絡(luò)（CNNs）那樣的卷積結(jié)構(gòu)，它無法直接識(shí)別序列中元素的位置信息。因此，位置編碼被引入，其目的是賦予模型關(guān)于序列中各元素相對位置的知識(shí)。位置編碼通常由正弦和余弦函數(shù)生成，確保每個(gè)位置都有獨(dú)特的表示。選擇正余弦函數(shù)的原因在于，這種方法可以保證對于任何給定的位置偏移，都可以通過固定的數(shù)學(xué)運(yùn)算獲得對應(yīng)的編碼，這有助于模型學(xué)習(xí)到位置間的相對距離關(guān)系。此外，正余弦函數(shù)的周期性特性允許模型處理任意長度的序列，而不會(huì)因?yàn)槲恢眠^遠(yuǎn)而導(dǎo)致位置信息丟失或混淆。

綜上所述，通過對編碼器和解碼器的工作原理、QKV在自注意力機(jī)制中的作用以及位置編碼為何采用正余弦函數(shù)的深入解析，希望能幫助您更準(zhǔn)確地理解這些概念背后的邏輯和技術(shù)細(xì)節(jié)。

2.1 傳統(tǒng)詞向量存在的問題

預(yù)訓(xùn)練好的詞向量一旦生成就保持不變，這意味著它們無法根據(jù)不同的語境靈活調(diào)整。例如：

“它無法通過這條河，因?yàn)樗哿?。?在這句話中，“它”指的是某個(gè)行動(dòng)者，比如一個(gè)人或動(dòng)物，表明是由于疲勞導(dǎo)致無法過河。
“它無法通過這條河，因?yàn)樗??！?而在這句話里，“它”指的是河流本身，表示由于河道狹窄而不能通過。

如果詞向量固定不變，那么在處理這兩個(gè)句子時(shí)就會(huì)遇到問題，因?yàn)椤八边@個(gè)詞在兩個(gè)句子中的含義完全不同。第一個(gè)句子中的“它”指的是執(zhí)行動(dòng)作的主體，而在第二個(gè)句子中則是指物體（河流）的一個(gè)屬性（寬度）。這種情況下，固定的詞向量無法準(zhǔn)確捕捉到“它”在不同語境下的具體含義。

因此，雖然預(yù)訓(xùn)練詞向量能夠提供一個(gè)良好的起點(diǎn)，為詞匯賦予基于大規(guī)模文本數(shù)據(jù)學(xué)習(xí)得到的通用意義，但它們并不足以應(yīng)對所有情況。為了更好地理解和區(qū)分詞語在不同上下文中的意義，我們需要采用更先進(jìn)的模型，如ELMo、BERT等，這些模型可以根據(jù)詞語所在的特定環(huán)境動(dòng)態(tài)調(diào)整詞向量，從而更加精準(zhǔn)地反映詞語的實(shí)際用法和意義。這樣，即使是像“它”這樣的代詞，在不同的句子中也能被正確理解。

2.2 詳解編解碼器中自注意力機(jī)制

主要目標(biāo)是使計(jì)算機(jī)能夠在處理文本時(shí)，從上下文語句中識(shí)別并關(guān)注最關(guān)鍵的信息。Transformer模型通過其自注意力機(jī)制實(shí)現(xiàn)了這一目標(biāo)，該機(jī)制允許模型根據(jù)輸入序列的上下文動(dòng)態(tài)地為每個(gè)詞分配相應(yīng)的權(quán)重。這意味著在解析一個(gè)句子或段落時(shí)，Transformer能夠自動(dòng)判斷哪些詞語對于理解整體意義最為重要，并給予這些詞語在上下文詞語中的關(guān)注度。如圖2-1所示。
在這里插入圖片描述
圖2-1 transformer的自注意力詞熱度權(quán)重圖

具體來說，在Transformer架構(gòu)中，每個(gè)詞首先被轉(zhuǎn)化為三個(gè)向量：查詢（Query）、鍵（Key）和值（Value）。通過計(jì)算查詢向量與所有鍵向量之間的相似度得分，模型可以確定當(dāng)前詞與其他詞的相關(guān)性，從而形成一個(gè)注意力分布。這個(gè)分布隨后用于加權(quán)求和所有值向量，生成一個(gè)反映整個(gè)上下文中關(guān)鍵信息的新表示形式。這樣，Transformer不僅能夠捕捉到詞匯間的直接聯(lián)系，還能夠理解更為復(fù)雜的依賴關(guān)系，確保了對文本深層次含義的準(zhǔn)確把握。因此，借助于這種機(jī)制，Transformer可以在各種自然語言處理任務(wù)中更有效地利用信息，提高理解和生成文本的能力。

2.2.1 縮放點(diǎn)積注意力機(jī)制

Q用于“查找”，即尋找與當(dāng)前位置相關(guān)的信息；K存儲(chǔ)序列中每個(gè)位置的信息，供Q進(jìn)行查詢時(shí)使用（每個(gè)詞的Q會(huì)跟整個(gè)序列中每一個(gè)K計(jì)算得分，然后基于得分再分配特征，如圖2-2）；V包含了實(shí)際的信息內(nèi)容，根據(jù)Q和K的相似度（即注意力權(quán)重）進(jìn)行加權(quán)求和。通過這種方式，模型能夠動(dòng)態(tài)地聚焦于輸入序列中最相關(guān)的部分，從而更好地捕捉序列數(shù)據(jù)中的復(fù)雜依賴關(guān)系。
在這里插入圖片描述
圖2-2 與Q，K，V線性變換的關(guān)系圖

假設(shè)我們有一個(gè)輸入序列，其對應(yīng)的查詢向量為 $Q$ ，鍵向量為 $K$ ，值向量為 $V$ 。這些向量通常由線性變換從原始輸入嵌入得到。

計(jì)算步驟

計(jì)算點(diǎn)積：對于每個(gè)查詢 $q_i \in Q$ ，計(jì)算它與所有鍵 $k_j \in K$ 的點(diǎn)積。獲取當(dāng)前詞與每個(gè)詞的相關(guān)程度。

$\text{score}(q_i, k_j) = q_i^T k_j$
縮放分?jǐn)?shù)：由于點(diǎn)積的結(jié)果大小與向量維度 $d_k$ 有關(guān)，為了防止梯度消失或爆炸，我們需要將得分除以 $\sqrt{d_k}$ 進(jìn)行縮放。

$\text{scaled score}(q_i, k_j) = \frac{q_i^T k_j}{\sqrt{d_k}}$
應(yīng)用softmax函數(shù)：對每個(gè)查詢 $q_i$ 對應(yīng)的鍵分?jǐn)?shù)應(yīng)用softmax函數(shù)，以獲得最終的注意力權(quán)重 $\alpha_{ij}$ 。

$\alpha_{ij} = \text{softmax}_j\left(\frac{q_i^T k_j}{\sqrt{d_k}}\right) = \frac{\exp\left(\frac{q_i^T k_j}{\sqrt{d_k}}\right)}{\sum_{k}\exp\left(\frac{q_i^T k}{\sqrt{d_k}}\right)}$
加權(quán)求和：最后，利用注意力權(quán)重對值向量 $V$ 進(jìn)行加權(quán)求和，得到上下文向量 $c_i$ 。

$c_i = \sum_{j} \alpha_{ij} v_j$

矩陣形式

在實(shí)踐中，我們通常會(huì)同時(shí)處理多個(gè)查詢，因此上述操作可以表示為矩陣運(yùn)算的形式：

$\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中， $\in \mathbb{R}^{n \times d_k}$ ， $\in \mathbb{R}^{m \times d_k}$ ， $\in \mathbb{R}^{m \times d_v}$ 分別是查詢、鍵和值的矩陣， $n$ 是查詢的數(shù)量， $m$ 是鍵/值的數(shù)量， $d_k$ 和 $d_v$ 分別是鍵和值的維度。

2.2.2 softmax函數(shù)

Softmax函數(shù)是一種歸一化指數(shù)函數(shù)，它能夠?qū)⒁粋€(gè)K維向量z“壓縮”到另一個(gè)K維實(shí)向量σ(z)，使得每一個(gè)元素的范圍都在(0,1)之間，并且所有元素的和為1。這樣，輸出就可以被解釋為概率分布 1,即百分率占比，可以得出當(dāng)前詞與其余詞的關(guān)系熱度占比。

對于輸入向量 $Z = [z_1,z_2,z_3.....z_k]$ ，Softmax函數(shù)定義如下
$\sigma(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}$

數(shù)值穩(wěn)定性的改進(jìn)
為了避免數(shù)值溢出問題（例如上溢或下溢），通常會(huì)對輸入進(jìn)行平移操作，即從每個(gè) $z_i$ 中減去最大值 $\max(z)$ :
$\sigma(\mathbf{z})_i = \frac{e^{z_i - \max(\mathbf{z})}}{\sum_{j=1}^{K} e^{z_j - \max(\mathbf{z})}}$
示例代碼塊

import numpy as npdef softmax(x):"""Compute softmax values for each sets of scores in x."""e_x = np.exp(x - np.max(x))  # 防止溢出return e_x / e_x.sum()# 測試數(shù)據(jù)
x = np.array([-3, 2, -1, 0])
print(softmax(x))

2.2.3 多頭機(jī)制

在Transformer架構(gòu)中，為了模擬CNN能夠從不同角度提取多種特征的能力，采用了“多頭注意力機(jī)制”（Multi-Head Attention）。這一機(jī)制通過不同的注意力頭（Attention Head）并行地執(zhí)行多個(gè)獨(dú)立的自注意力過程。每個(gè)頭都使用各自的學(xué)習(xí)參數(shù)來處理輸入數(shù)據(jù)的不同子空間，從而允許模型捕捉到輸入序列內(nèi)的各種復(fù)雜依賴關(guān)系。通常情況下，設(shè)置8個(gè)這樣的頭已經(jīng)足夠有效。

在完成多頭注意力計(jì)算后，每個(gè)頭會(huì)輸出一個(gè)特征表示。這些獨(dú)立的特征表示隨后會(huì)被拼接在一起，形成一個(gè)綜合的特征表示。接下來，為了整合這些信息并減少維度，通常會(huì)在拼接后的特征上應(yīng)用一個(gè)全連接層（Fully Connected Layer），這一步驟有時(shí)也被稱為降維處理。這樣做的目的是將多頭注意力機(jī)制得到的高維特征映射回模型需要的較低維度，以便后續(xù)處理或預(yù)測任務(wù)的執(zhí)行。

三.FNN與MoE策略

MoE模型中的每個(gè)專家（Expert）通常采用前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)（ FeadFoward Network 如全連接網(wǎng)絡(luò)或卷積網(wǎng)絡(luò)）。例如，在Transformer模型中，MoE層替換了傳統(tǒng)的前饋?zhàn)訉?#xff0c;每個(gè)專家獨(dú)立處理輸入數(shù)據(jù)的子集，通過并行計(jì)算提升模型容量。門控網(wǎng)絡(luò)（Gating Network）負(fù)責(zé)動(dòng)態(tài)分配輸入到不同專家，其本身也是一個(gè)前饋網(wǎng)絡(luò)，通常包含Softmax或Gating Tree結(jié)構(gòu)，用于生成專家選擇的概率分布。

混合專家模型（Mixture of Experts，MoE）是一種先進(jìn)的機(jī)器學(xué)習(xí)策略，它通過將多個(gè)專門訓(xùn)練的子模型（稱為“專家”）結(jié)合起來，并使用一個(gè)或多個(gè)門控網(wǎng)絡(luò)來控制這些專家輸出的權(quán)重。這種方法旨在提高模型性能和效率，特別是在處理復(fù)雜數(shù)據(jù)模式時(shí)的大模型訓(xùn)練。

在MoE架構(gòu)中，有三個(gè)關(guān)鍵組件：專家、門控網(wǎng)絡(luò)和稀疏激活。每個(gè)專家都是針對特定任務(wù)或數(shù)據(jù)特征而訓(xùn)練的子模型。例如，在圖像分類任務(wù)中，一個(gè)專家可能專門識(shí)別紋理，而另一個(gè)專家可能識(shí)別邊緣或形狀。這種分工有助于整個(gè)模型更高效地處理問題，因?yàn)槊總€(gè)專家只處理它最適合的數(shù)據(jù)類型。

在這里插入圖片描述

圖3-1 Figure 2 | DeepSeekMoE的示意圖

由于論發(fā)表已經(jīng)非常詳盡，因此不再贅述。以下將會(huì)給出論文地址

四.論文參考

4.1 邁向終極專家專業(yè)化-Mixture-of-Expert 語言模型

DeepSeekMoE: Towards Ultimate Expert Specialization in
Mixture-of-Experts Language Models

4.2 模型越獄-拒絕由LLMs單一方向調(diào)解

Refusal in LLMs is mediated by a single direction

4.3 LLM MOE策略的演化

LLM MOE的進(jìn)化之路，從普通簡化 MOE，到 sparse moe，再到 deepseek 使用的 share_expert sparse moe

查看全文

http://www.risenshineclean.com/news/35117.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网