當(dāng)前位置：首頁 > news >正文

福永三合一網(wǎng)站設(shè)計(jì)新聞軟文推廣案例

news 2025/7/5 15:40:36

福永三合一網(wǎng)站設(shè)計(jì),新聞軟文推廣案例,怎么做網(wǎng)站里導(dǎo)出沒有水印的圖,洞口做網(wǎng)站找誰前言如果你對這篇文章可感興趣，可以點(diǎn)擊「【訪客必讀 - 指引頁】一文囊括主頁內(nèi)所有高質(zhì)量博客」，查看完整博客分類與對應(yīng)鏈接。當(dāng)前的大型語言模型訓(xùn)練大致可以分為如下三個(gè)階段： Pre-train：根據(jù)大量可獲得的文本資料&#…

前言

如果你對這篇文章可感興趣，可以點(diǎn)擊「【訪客必讀 - 指引頁】一文囊括主頁內(nèi)所有高質(zhì)量博客」，查看完整博客分類與對應(yīng)鏈接。

當(dāng)前的大型語言模型訓(xùn)練大致可以分為如下三個(gè)階段：

Pre-train：根據(jù)大量可獲得的文本資料，采用自監(jiān)督學(xué)習(xí)-預(yù)測 next token 的方式，訓(xùn)練得到預(yù)訓(xùn)練模型；
Instruction Fine-tuning：根據(jù)大量任務(wù)上的指令標(biāo)記數(shù)據(jù)，采用監(jiān)督學(xué)習(xí)的方式微調(diào)模型，使得模型可以理解人類指令；
RLHF：基于人類的反饋，采用強(qiáng)化學(xué)習(xí)的方式，使模型可以產(chǎn)出符合人類偏好的回答。

GPT Pre-train 系列歷史

GPT-1 (2018)：模型參數(shù)量為 117M，使用了大約 7000 本書的數(shù)據(jù)量；
GPT-2 (2019)：模型參數(shù)量為 1542M（擴(kuò)大了十倍），使用了大約 40GB 的資料；
GPT-3 (2020)：模型參數(shù)量為 175B（再次擴(kuò)大一百倍），使用了大約 580GB 的資料，包含 300B 的 token，類似于哈利波特全集的 30 萬遍。
- 下圖來自 GPT-3 論文，可以看到隨模型參數(shù)量擴(kuò)大，模型性能逐步提高，但仍然沒有發(fā)生質(zhì)變，模型的使用體驗(yàn)也與當(dāng)前的 GPT-4 等其它模型相差甚遠(yuǎn)。
- GPT-1、2、3 系列均采用自監(jiān)督學(xué)習(xí) (Self-Supervised Learning) 訓(xùn)練得到，即使用 predict next token 的方式，將句子中的下一個(gè) token 作為 label 進(jìn)行訓(xùn)練，無需人工標(biāo)注數(shù)據(jù)。

在這里插入圖片描述

Instruction Fine-tuning

通過自監(jiān)督學(xué)習(xí)出來的模型，雖然已展現(xiàn)了一定程度的語言理解能力，但其性能依然有較大的提升空間。

因此在后續(xù)的 GPT 系列中，自監(jiān)督學(xué)習(xí)只是模型訓(xùn)練的第一階段。該階段作為預(yù)訓(xùn)練 (Pre-train)，無需人工標(biāo)注，有大量的可訓(xùn)練數(shù)據(jù)，其訓(xùn)練得到的模型，將作為后續(xù)訓(xùn)練階段的初始參數(shù)。

下述例子來自于開源指令微調(diào)數(shù)據(jù)集，要求模型輸出的內(nèi)容盡可能與 Target 一致：

Input: 對聯(lián)，要求對仗工整：上聯(lián)：桃李爭春齊獻(xiàn)媚
Output:下聯(lián)：鵬鵠比翼各稱雄Input:說話時(shí)面帶慣常的微笑。翻譯成英文：
Output:His face with the usual smile.

在指令微調(diào)的過程中，可以發(fā)現(xiàn)大模型表現(xiàn)出的一些「舉一反三」的能力，即在多種語言上做預(yù)訓(xùn)練后，只要在某一個(gè)語言的某一個(gè)任務(wù)上做微調(diào)，就可以自動(dòng)學(xué)會(huì)其他語言上同樣的任務(wù)。如下圖所示，在 104 種語言上做 Pre-train，English QA 上做 Fine-tune，在 Chinese QA 上做 Testing，也可以取得 78.8% 的 F1 score。

在這里插入圖片描述
先前 Fine-tuning 的思路通常是給定一個(gè)大型預(yù)訓(xùn)練模型，然后在各下游任務(wù)的數(shù)據(jù)集上各自訓(xùn)練，打造一堆專才，且微調(diào)的數(shù)據(jù)集規(guī)模通常不大。

不同于上述打造專才的思路，Instruct GPT 在大范圍的任務(wù)集上進(jìn)行了 Fine-tuning，并且在僅依賴 1.3B 模型參數(shù)量和上萬條標(biāo)注數(shù)據(jù)的情況下打敗了擁有 175B 參數(shù)量的 GPT-3.

在這里插入圖片描述

Self-Instruct

Instruction Fine-tuning 效果非常顯著，其所需的訓(xùn)練數(shù)據(jù)通常無需太多，但要求是高質(zhì)量的標(biāo)注數(shù)據(jù)。由于標(biāo)注數(shù)據(jù)有一定的獲取門檻，因此有人提出對 ChatGPT 進(jìn)行逆向工程，即 Self-Instruct，生成大量標(biāo)注數(shù)據(jù)。

具體流程如下：

先讓 ChatGPT 想大量的任務(wù)（例如撰寫郵件、修改文章、撰寫報(bào)告摘要等）；
再讓 ChatGPT 根據(jù)任務(wù)產(chǎn)生大量可能的輸入；
最后讓 ChatGPT 根據(jù)產(chǎn)生的大量輸入，輸出具體的答案，組成一組標(biāo)注數(shù)據(jù)。

Reinforcement Learning from Human Feedback (RLHF)

RLHF 即根據(jù)人類的反饋（例如判斷某兩個(gè)回答哪個(gè)更好），采用強(qiáng)化學(xué)習(xí)的方式，進(jìn)一步提升模型的性能。

在先前的兩個(gè)訓(xùn)練階段，模型不斷地在判斷 next token 的輸出是否正確，缺乏對整個(gè)文本內(nèi)容全面的考量。在第三階段，RLHF 通過人類反饋的 response 間的優(yōu)劣關(guān)系，站在更全局性的視角，進(jìn)一步地對模型進(jìn)行優(yōu)化。換句話說，前兩個(gè)階段更加關(guān)注 response 輸出的過程，而 RLHF 這個(gè)階段則更關(guān)注最終的結(jié)果，即整個(gè) response 的質(zhì)量。

在 RLHF 的過程中，首先需要訓(xùn)練一個(gè) Reward Model，其輸入為一個(gè) response，輸出為這個(gè) response 的得分，可以根據(jù)人類給出的兩個(gè) response 之間的排序，訓(xùn)練這個(gè)獎(jiǎng)勵(lì)模型。

得到 Reward Model 后，最直接的用法是：讓 LLM 對于特定的輸入，輸出多個(gè)回答，再根據(jù) Reward Model 選擇得分最高的回答。

進(jìn)一步地，也可以使用 Reward Model 繼續(xù)微調(diào) LLM，即對于所有的輸入，讓 LLM 輸出的得分低的 response 出現(xiàn)的概率更低，讓 LLM 輸出的得分高的 response 出現(xiàn)的概率更高。

Proximal Policy Optimization (PPO)

PPO 就是一種在 Reward Model 基礎(chǔ)上，進(jìn)一步優(yōu)化模型參數(shù)的強(qiáng)化學(xué)習(xí)優(yōu)化方法。

在強(qiáng)化學(xué)習(xí)流程中， $t$ 時(shí)刻環(huán)境的狀態(tài)為 $s_t$ ，采取動(dòng)作 $a_t$ 后，得到獎(jiǎng)勵(lì) $r_t$ ，環(huán)境變成 $s_{t+1}$ 。整個(gè)學(xué)習(xí)過程的目的是找到一個(gè)最佳策略，使得其能夠根據(jù)環(huán)境狀態(tài)選擇最佳的動(dòng)作。

上述的 $r_t$ 僅為即時(shí)收益，為在決策過程中考慮未來多步的收益，強(qiáng)化學(xué)習(xí)中引入了狀態(tài)價(jià)值函數(shù) $V_t$ ，其表示從當(dāng)前狀態(tài)開始，未來所有時(shí)刻所能累積的收益，通常表達(dá)為：
$V_t=r_{t}+\gamma \cdot V_{t+1},$

其中 $\gamma$ 作為折扣因子，使決策在短期獎(jiǎng)勵(lì)和長期收益間取得平衡，并且確保無限時(shí)間下累計(jì)的獎(jiǎng)勵(lì)和使有限的，避免累積獎(jiǎng)勵(lì)發(fā)散。

在 LLM 語境下，模型會(huì)在 $t$ 時(shí)刻根據(jù)上文，產(chǎn)出一個(gè) token $o_t$ （對應(yīng)動(dòng)作 $a_t$ ），對應(yīng)即時(shí)獎(jiǎng)勵(lì) $r_{t}$ 和未來總收益 $V_{t}$ ；由于 $r_{t}$ 和 $V_{t}$ 都無法直接獲取，整個(gè) RLHF-PPO 階段一共包含四個(gè)主要模型，分別是：

Actor Model：輸出每個(gè)時(shí)刻的 token，即我們想要繼續(xù)優(yōu)化的 LLM（通常采用指令微調(diào)后的模型初始化）；
Critic Model：根據(jù) $s_t$ 估計(jì)時(shí)刻 $t$ 的總收益 $V_{t}$ ；
Reward Model：即前文根據(jù)人類反饋數(shù)據(jù)訓(xùn)練得到的獎(jiǎng)勵(lì)模型；
Reference Model：參考模型，避免語言模型在 RLHF 階段訓(xùn)歪（同樣通常采用指令微調(diào)后的模型初始化）。

不難發(fā)現(xiàn) Reward Model 和 Reference Model 在 PPO 階段都是參數(shù)凍結(jié)的，因此主要關(guān)鍵在于如何訓(xùn)練 Actor Model 和 Critic Model。

在介紹具體 loss 函數(shù)前，我們首先探究一下如何表示 $r_{t}$ ？由于前文訓(xùn)練得到的 Reward Model 僅能根據(jù)最終的 response 輸出最終的獎(jiǎng)勵(lì) $r_\varphi(q,o_{\leq T})$ （假設(shè)輸入為 $q$ ，輸出共 $T$ 個(gè) token），中間過程的獎(jiǎng)勵(lì) $r_{t}$ 無法通過 Reward Model 直接得到，因此在 deepspeed-chat 的 RLHF 實(shí)踐中，采用 Actor Model 和 Reference Model 輸出的差異（可以理解為動(dòng)作分布的差異）來表示中間過程的獎(jiǎng)勵(lì)（ $\beta$ 為超參數(shù)）：

$r_{t}=\left\{\begin{array}{l} -\beta *\left(\log \frac{P\left(o_t \mid q,o_{<t}\right)}{P_{r e f}\left(o_t \mid q,o_{<t}\right)}\right), \quad t \neq T \\ r_\varphi(q,o_{\leq T})-\beta *\left(\log \frac{P\left(o_t \mid q,o_{<t}\right)}{P_{r e f}\left(o_t \mid q,o_{<t}\right)}\right), \quad t=T \end{array}\right.$

即 $P(o_t\mid q,o_{<t})$ 越大（和參考模型的輸出越相似），即時(shí)獎(jiǎng)勵(lì) $r_{t}$ 越大。需要注意的是，上述僅是 $r_{t}$ 的某一種設(shè)計(jì)。在 PPO 中，我們希望最大化如下目標(biāo)（ $\pi_{\theta}$ 為具體的策略，代表 Actor 模型參數(shù)； $\tau$ 代表一條軌跡，對應(yīng)一個(gè) response）：
$\mathcal{J}\left(\theta\right)=E_{\tau \sim \pi_\theta}[R(\tau)]=\sum_\tau R(\tau) P\left(\tau \mid \pi_\theta\right).$

其相應(yīng)梯度如下：
$\begin{aligned} \nabla \mathcal{J}\left(\theta\right) & =\sum_\tau R(\tau) \nabla P\left(\tau \mid \pi_\theta\right) \\ & =\sum_\tau R(\tau) P\left(\tau \mid \pi_\theta\right) \frac{\nabla P\left(\tau \mid \pi_\theta\right)}{P\left(\tau \mid \pi_\theta\right)} \\ & =\sum_\tau R(\tau) P\left(\tau \mid \pi_\theta\right) \nabla \log \left(P\left(\tau \mid \pi_\theta\right)\right) \\ & =E_{\tau \sim \pi_\theta}\left[R(\tau) \nabla \log \left(P\left(\tau \mid \pi_\theta\right)\right)\right] \end{aligned}$

假設(shè)每條軌跡共有 $T$ 個(gè)節(jié)點(diǎn)，則 $P\left(\tau \mid \pi_\theta\right)=\rho_0\left(s_0\right) \prod_{t=1}^{T} P\left(s_{t+1} \mid s_t, a_t\right) \pi_\theta\left(a_t \mid s_t\right)$ ，代入 $\nabla \mathcal{J}\left(\theta\right)$ 得到：
$\begin{aligned} \nabla \mathcal{J}\left(\theta\right) & =E_{\tau \sim \pi_\theta}\left[R(\tau) \nabla \log \left(P\left(\tau \mid \pi_\theta\right)\right)\right] \\ & =E_{\tau \sim \pi_\theta}\left[R(\tau) \sum_{t=1}^{T} \nabla \log \pi_\theta\left(a_t \mid s_t\right)\right] \end{aligned}$

將 $R(\tau)$ 拆分到每一步中，可以得到：
$\begin{aligned} \nabla \mathcal{J}\left(\theta\right) & =E_{\tau \sim \pi_\theta}\left[\sum_{t=1}^{T} \Psi_t \nabla \log \pi_\theta\left(a_t \mid s_t\right)\right] \end{aligned}$

此處的 $\Psi_t$ 代表了當(dāng)前的價(jià)值度量，其最好能同時(shí)表示「單步即時(shí)獎(jiǎng)勵(lì)」和「未來軌跡的整體收益」，在 PPO 中采用廣義優(yōu)勢估計(jì) (GAE) 中的優(yōu)勢函數(shù) $A_t$ 表示，其定義為：
$A_t=\sum_{l=0}^{\infty}(\gamma \lambda)^l \delta_{t+l},$

其中 $\lambda\in [0,1]$ ， $\delta_t$ 為 TD error，其代表采取行動(dòng) $a_t$ 后實(shí)際價(jià)值與預(yù)估價(jià)值之間的差距，即 $\delta_t=r_t+\gamma\cdot V_{t+1}-V_t$ ，即此處的 $A_t$ 表示未來多步 TD error 的加權(quán)和，其可以表示為如下遞歸形式：
$A_t=\delta_t+\gamma\lambda A_{t+1}.$

由于軌跡結(jié)束時(shí) $A_T=0$ ，因此 $A_t$ 可在軌跡確定后，從后往前遞歸求解。由此我們可以得到下述大模型語境下，PPO 對應(yīng)優(yōu)化目標(biāo)的梯度：
$\nabla \mathcal{J}_{P P O}(\theta)=\mathbb{E}\left[q \sim P(Q), o \sim \pi_{\theta}(O \mid q)\right] \sum_{t=1}^{|o|}A_t \nabla \log \pi_\theta\left(o_t \mid q, o_{<t}\right) .$

在實(shí)際優(yōu)化過程中，為提高樣本利用率， $\pi_{\theta}$ 采樣得到的軌跡 $o$ 會(huì)被重復(fù)使用來優(yōu)化 $\pi_\theta$ ，即采樣軌跡 $o$ 的 $\pi_{\theta_{old}}$ 和要優(yōu)化的 $\pi_{\theta}$ 不一樣（off-policy），因此可以采用 Importance Sampling 的方式修正上述梯度：
$\nabla \mathcal{J}_{P P O}(\theta)=\mathbb{E}\left[q \sim P(Q), o \sim \pi_{\theta_{old}}(O \mid q)\right] \sum_{t=1}^{|o|} \frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}(o_t \mid q, o_{<t})} A_t \nabla \log \pi_\theta\left(o_t \mid q, o_{<t}\right) .$

由于 $\nabla \log f(\theta)=\frac{\nabla f(\theta)}{f(\theta)}$ ，上述梯度對應(yīng)的優(yōu)化目標(biāo)如下：
$\mathcal{J}_{P P O}(\theta)=\mathbb{E}\left[q \sim P(Q), o \sim \pi_{\theta_{old}}(O \mid q)\right] \sum_{t=1}^{|o|} \frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}(o_t \mid q, o_{<t})} A_t.$

為了使整體訓(xùn)練更穩(wěn)定，最終的優(yōu)化目標(biāo)會(huì)對 $\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}(o_t \mid q, o_{<t})}$ 進(jìn)行裁剪，避免該值過大或者過小；并且由于不同軌跡可能長度差異很大，優(yōu)化目標(biāo)會(huì)對軌跡長度進(jìn)行歸一化；最終 PPO 所要最大化的目標(biāo)如下所示：
$\mathcal{J}_{P P O}(\theta)=\mathbb{E}\left[q \sim P(Q), o \sim \pi_{\theta_{o l d}}(O \mid q)\right] \frac{1}{|o|} \sum_{t=1}^{|o|} \min \left[\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}\left(o_t \mid q, o_{<t}\right)} A_t, \operatorname{clip}\left(\frac{\pi_\theta\left(o_t \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}\left(o_t \mid q, o_{<t}\right)}, 1-\varepsilon, 1+\varepsilon\right) A_t\right].$

相對應(yīng)地，Critic 模型的優(yōu)化目標(biāo)可以理解為最小化優(yōu)勢 $A_t$ ，即讓 $V_t$ 對局面的評估更加精準(zhǔn)，具體目標(biāo)可寫作如下形式：
$\arg \min _{V_\phi} \mathbb{E}_t\left[\max\left[(V_t-(A_t+V_t^{old}))^2,(V_t^{clip}-(A_t+V_t^{old}))^2\right]\right],$

其中 $V_t^{clip}=\text{clip}(V_t,V_t^{old}-\epsilon,V_t^{old}+\epsilon)$ .

Direct Preference Optimization (DPO)

在上述 RLHF-PPO 的訓(xùn)練中，存在「顯存占用大」、「超參多」以及「模型訓(xùn)練不穩(wěn)定」等一系列問題，為簡化整體訓(xùn)練過程，DPO 應(yīng)運(yùn)而生，其對 PPO 的改進(jìn)主要為如下兩點(diǎn)（如下圖所示）：

不再訓(xùn)練 Reward Model，而是直接基于人類反饋的數(shù)據(jù)，一步到位訓(xùn)練最終的模型；
簡化原始訓(xùn)練目標(biāo)，不再使用強(qiáng)化學(xué)習(xí)的方法，而是通過類似于監(jiān)督微調(diào)的方式進(jìn)行訓(xùn)練。

在這里插入圖片描述
首先，RLHF 階段整體目標(biāo)如下（ $\pi_{\theta},\pi_{\text{ref}},r_{\phi}$ 分別對應(yīng)上述的 Actor、參考模型以及 Reward Model）：

最大化獎(jiǎng)勵(lì)的同時(shí)，避免訓(xùn)練后得到的 $\pi_{\theta}$ 與參考模型 $\pi_{\text{ref}}$ 差異過大.
$\max _{\pi_\theta} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta(y \mid x)}\left[r_\phi(x, y)\right]-\beta \mathbb{D}_{\mathrm{KL}}\left[\pi_\theta(y \mid x) \| \pi_{\mathrm{ref}}(y \mid x)\right].$

為了繞過 Reward Model，上述式子可以進(jìn)行如下推導(dǎo)：
$\begin{aligned} & \ \ \ \ \max _\pi \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi(y \mid x)} {[r(x, y)]-\beta \mathbb{D}_{\mathrm{KL}}\left[\pi(y \mid x) \| \pi_{\mathrm{ref}}(y \mid x)\right] } \\ & =\max _\pi \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y \mid x)}\left[r(x, y)-\beta \log \frac{\pi(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}\right] \\ & =\min _\pi \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y \mid x)}\left[\log \frac{\pi(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}-\frac{1}{\beta} r(x, y)\right] \\ & =\min _\pi \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y \mid x)}\left[\log \frac{\pi(y\mid x)}{\frac{1}{Z(x)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)}-\log Z(x)\right]. \end{aligned}$

令 $Z(x)=\sum_y \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)$ ，可以將上述式子中 $\log$ 項(xiàng)分母部分轉(zhuǎn)化為一個(gè)概率分布，整體優(yōu)化目標(biāo)可以視作最小化 $\pi(y\mid x)$ 和 $\frac{1}{Z(x)} \pi_{\mathrm{ref}}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right)$ 之間的 KL 散度。由于 $Z (x)$ 與 $\pi$ 無關(guān)，因此上述式子的最優(yōu)解 $\pi^*$ 可以表示為：
$\pi^*(y \mid x)=\frac{1}{Z(x)} \pi_{\text {ref }}(y \mid x) \exp \left(\frac{1}{\beta} r(x, y)\right).$

相對應(yīng)地，獎(jiǎng)勵(lì)模型 $r$ 也可以表示為如下形式：
$r^*(x, y)=\beta \log \frac{\pi^*(y \mid x)}{\pi_{\mathrm{ref}}(y \mid x)}+\beta \log Z(x).$

接下來，只要我們在獎(jiǎng)勵(lì)模型的訓(xùn)練目標(biāo)中代入上式，即可實(shí)現(xiàn)直接對最終策略 $\pi^*$ 的優(yōu)化。在獎(jiǎng)勵(lì)模型的訓(xùn)練中，通常有如下 2 種偏好排序方法：

只對兩個(gè)回答進(jìn)行排序，即對于 prompt $x$ ，回答 $y_1$ 優(yōu)于 $y_2$ ，對應(yīng)的優(yōu)化目標(biāo)采用 Bradley-Terry 模型進(jìn)行建模；
對 $K$ 個(gè)回答進(jìn)行排序，即對于 prompt $x$ ，排序順序?yàn)? $y_1>y_2>...>y_K$ ，對應(yīng)的優(yōu)化目標(biāo)采用 Plackett-Luce 模型進(jìn)行建模。

DPO Objective Under the Bradley-Terry Model

在 BT 模型下，回答 $y_1$ 優(yōu)于 $y_2$ 的概率建模如下：
$p^*\left(y_1 \succ y_2 \mid x\right)=\frac{\exp \left(r^*\left(x, y_1\right)\right)}{\exp \left(r^*\left(x, y_1\right)\right)+\exp \left(r^*\left(x, y_2\right)\right)}.$

代入 $\pi^*$ ，可以將上述式子進(jìn)行如下轉(zhuǎn)換：
$\begin{aligned} p^*\left(y_1 \succ y_2 \mid x\right) & =\frac{\exp \left(\beta \log \frac{\pi^*\left(y_1 \mid x\right)}{\pi_{\text {ref }}\left(y_1 \mid x\right)}+\beta \log Z(x)\right)}{\exp \left(\beta \log \frac{\pi^*\left(y_1 \mid x\right)}{\pi_{\text {ref }}\left(y_1 \mid x\right)}+\beta \log Z(x)\right)+\exp \left(\beta \log \frac{\pi^*\left(y_2 \mid x\right)}{\pi_{\text {ref }}\left(y_2 \mid x\right)}+\beta \log Z(x)\right)} \\ & =\frac{1}{1+\exp \left(\beta \log \frac{\pi^*\left(y_2 \mid x\right)}{\pi_{\text {ref }}\left(y_2 \mid x\right)}-\beta \log \frac{\pi^*\left(y_1 \mid x\right)}{\pi_{\text {ref }}\left(y_1 \mid x\right)}\right)} \\ & =\sigma\left(\beta \log \frac{\pi^*\left(y_1 \mid x\right)}{\pi_{\text {ref }}\left(y_1 \mid x\right)}-\beta \log \frac{\pi^*\left(y_2 \mid x\right)}{\pi_{\text {ref }}\left(y_2 \mid x\right)}\right) . \end{aligned}$

由于我們希望 $y_w$ (更符合人類偏好的回答) 的概率盡可能大于 $y_l$ (未被選中的回答)，因此整體優(yōu)化目標(biāo)可以寫作如下形式：
$\begin{aligned} \mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right)&= -\mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}[\log p(y_w \succ y_l \mid x)]\\ &=- \mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta \log \frac{\pi_\theta\left(y_w \mid x\right)}{\pi_{\mathrm{ref}}\left(y_w \mid x\right)}-\beta \log \frac{\pi_\theta\left(y_l \mid x\right)}{\pi_{\mathrm{ref}}\left(y_l \mid x\right)}\right)\right]. \end{aligned}$

上述優(yōu)化目標(biāo)中不包含 Reward Model，由此可以繞過訓(xùn)練 Reward Model 的環(huán)節(jié)，直接用成對的偏好數(shù)據(jù)，采用類似 SFT 的方式訓(xùn)練對齊模型。

DPO Objective Under the Plackett-Luce Model

類似地，在 PL 模型下，偏好排序 $\tau$ （ $y_1>y_2>...>y_K$ ）的概率建模如下：
$p^*\left(\tau \mid y_1, \ldots, y_K, x\right)=\prod_{k=1}^K \frac{\exp \left(r^*\left(x, y_{\tau(k)}\right)\right)}{\sum_{j=k}^K \exp \left(r^*\left(x, y_{\tau(j)}\right)\right)}.$

代入 $\pi^*$ ，可以得到如下優(yōu)化目標(biāo)（由于 $Z (x)$ 與 $\pi_{\theta}$ 無關(guān)，因此下式中省去了 $Z (x)$ ）：
$\begin{aligned} \mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right)&= -\mathbb{E}_{\tau, y_1, \ldots, y_K, x \sim \mathcal{D}}[\log p(\tau \mid y_1, \ldots, y_K, x)]\\ &=-\mathbb{E}_{\tau, y_1, \ldots, y_K, x \sim \mathcal{D}}\left[\log \prod_{k=1}^K \frac{\exp \left(\beta \log \frac{\pi_\theta\left(y_{\tau(k)} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{\tau(k)} \mid x\right)}\right)}{\sum_{j=k}^K \exp \left(\beta \log \frac{\pi_\theta\left(y_{\tau(j)} \mid x\right)}{\pi_{\mathrm{ref}}\left(y_{\tau(j)} \mid x\right)}\right)}\right]. \end{aligned}$

Group Relative Policy Optimization (GRPO)

GRPO 是在 PPO 上的進(jìn)一步變化，其省略了 PPO 過程中對 Critic Model (Value Model) 的建模，并且不再對中間過程的 reward 進(jìn)行建模，而是直接優(yōu)化整個(gè)回答的 reward，其 Policy Model 最大化的目標(biāo)函數(shù)如下：
$\begin{aligned} \mathcal{J}_{G R P O}(\theta) & =\mathbb{E}\left[q \sim P(Q),\left\{o_i\right\}_{i=1}^G \sim \pi_{\theta_{o l d}}(O \mid q)\right] \\ & \frac{1}{G} \sum_{i=1}^G \frac{1}{\left|o_i\right|} \sum_{t=1}^{\left|o_i\right|}\left\{\min \left[\frac{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_{\theta_{o l d}}\left(o_{i, t} \mid q, o_{i,<t}\right)} \hat{A}_{i, t}, \operatorname{clip}\left(\frac{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_{\theta_{o l d}}\left(o_{i, t} \mid q, o_{i,<t}\right)}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_{i, t}\right]-\beta \mathbb{D}_{K L}\left[\pi_\theta| | \pi_{r e f}\right]\right\}. \end{aligned}$

不同于 PPO 的優(yōu)化目標(biāo)，GRPO 一次性采樣一組輸出 ${o_i\}_{i=1}^G$ ，其對應(yīng)的整體 reward 為 $\boldsymbol{r}=\{r_i\}_{i=1}^G$ （由 Reward Model 得到），隨后 $\hat{A}_{i,t}$ 被定義為 $o_i$ 所對應(yīng)的標(biāo)準(zhǔn)化后的 reward，即：
$\hat{A}_{i,t}=\hat{r}_i=\frac{r_i-\text{mean}(\boldsymbol{r})}{\text{std}(\boldsymbol{r})}.$

在復(fù)雜數(shù)學(xué)任務(wù)場景下，每個(gè) reasoning step 也有其對應(yīng)的 reward，即：
$\mathbf{R}=\left\{\left\{r_1^{\text {index }(1)}, \cdots, r_1^{\operatorname{index}\left(K_1\right)}\right\}, \cdots,\left\{r_G^{\operatorname{index}(1)}, \cdots, r_G^{\operatorname{index}\left(K_G\right)}\right\}\right\},$

其中 $\text{index}(j)$ 為第 $j$ 步推理結(jié)束時(shí)的 token index，此時(shí)的 $\hat{A}_{i,t}$ 可以進(jìn)行如下定義：
$\hat{A}_{i, t}=\sum_{\text {index }(j) \geq t} \hat{r}_i^{\text {index }(j)}, \hat{r}_i^{\text {index }(j)}=\frac{r_i^{\text {index }(j)}-\operatorname{mean}(\mathbf{R})}{\operatorname{std}(\mathbf{R})}.$

另外由于上述 reward 定義中不再包含與 $\pi_{ref}$ 的 KL 散度約束，因此直接將 $\mathbb{D}_{K L}\left[\pi_\theta| | \pi_{r e f}\right]$ 顯式建模在了 $\mathcal{J}_{G R P O}(\theta)$ 之中，其具體式子如下：
$\mathbb{D}_{K L}\left[\pi_\theta| | \pi_{r e f}\right]=\frac{\pi_{r e f}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}-\log \frac{\pi_{r e f}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_\theta\left(o_{i, t} \mid q, o_{i,<t}\right)}-1,$

上述式子為對 $\mathbb{D}_{K L}\left[\pi_\theta| | \pi_{r e f}\right]$ 的無偏估計(jì)，即期望相同。整體優(yōu)化算法的偽代碼如下所示：

在這里插入圖片描述

GRPO 與 PPO 的方法對比圖如下，可以看到 GRPO 中不再需要訓(xùn)練 Value Model：

在這里插入圖片描述

Other Discussion

除了 RLHF，也可以使用 RLAIF，即讓 LLM 自己來判斷哪個(gè)回答更好，根據(jù) LLM 判斷的結(jié)果再來微調(diào)具體的模型，判斷回答好的 LLM 既可以使用類似 GPT-4 等已有模型，甚至也可以使用正在訓(xùn)練的這個(gè)模型。

此外，RLHF 仍然面臨一個(gè)困難，即 “好” 這件事并沒有一個(gè)固定的標(biāo)準(zhǔn)，例如對于一個(gè)不太安全的問題，一個(gè)回答更考慮 Safety，而另一個(gè)回答與問題關(guān)系更密切，此時(shí)應(yīng)該選擇哪一個(gè)答案呢？另外，許多回答，即使人類來判斷，也難以辨別哪個(gè)更好，此時(shí) RLHF 又該如何繼續(xù)提升呢？

參考資料

Hung-yi Lee: 生成式 AI 導(dǎo)論 2024 - 第 6 講
Hung-yi Lee: 生成式 AI 導(dǎo)論 2024 - 第 7 講
Hung-yi Lee: 生成式 AI 導(dǎo)論 2024 - 第 8 講
arXiv20 GPT3 - Language Models are Few-Shot Learners
arXiv22 Instruct GPT - Training language models to follow instructions with human feedback
arXiv22 Self-Instruct: Aligning Language Models with Self-Generated Instructions
arXiv23 DPO: Direct Preference Optimization: Your Language Model is Secretly a Reward Model
arXiv24 Self-Rewarding Language Models
arXiv24 GRPO: DeepSeekMath - Pushing the Limits of Mathematical Reasoning in Open Language Models
知乎 - PPO 原理與源碼解讀 / RL-PPO理論知識(shí) / DPO 數(shù)學(xué)原理 / 如何理解 PPO 和 GRPO

查看全文

http://www.risenshineclean.com/news/40585.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

福永三合一網(wǎng)站設(shè)計(jì)新聞軟文推廣案例

前言

GPT Pre-train 系列歷史

Instruction Fine-tuning

Self-Instruct

Reinforcement Learning from Human Feedback (RLHF)

Proximal Policy Optimization (PPO)

Direct Preference Optimization (DPO)

DPO Objective Under the Bradley-Terry Model

DPO Objective Under the Plackett-Luce Model

Group Relative Policy Optimization (GRPO)

Other Discussion

參考資料

相關(guān)文章：