當(dāng)前位置：首頁 > news >正文

網(wǎng)站設(shè)計培訓(xùn)seo信息優(yōu)化

news 2025/7/15 2:11:53

網(wǎng)站設(shè)計培訓(xùn),seo信息優(yōu)化,網(wǎng)頁廣告屏蔽,沈陽鴻晟服裝有限公司的案例Contents IntroductionMethodExperimentsReferences Introduction CoT 推理可以有效提升 LLM 推理能力，但 few-shot prompting 無法發(fā)揮 CoT 的全部潛力，訓(xùn)練能夠生成中間推理步驟 (i.e., rationale) 的 LLM 又需要大量人工標注 rationale，為…

Introduction
Method
Experiments
References

Introduction

CoT 推理可以有效提升 LLM 推理能力，但 few-shot prompting 無法發(fā)揮 CoT 的全部潛力，訓(xùn)練能夠生成中間推理步驟 (i.e., rationale) 的 LLM 又需要大量人工標注 rationale，為此作者提出 STaR (Self-Taught Reasoner)，可以僅利用少量含有 rationale 的標注數(shù)據(jù)和大量不含 rationale 的標注數(shù)據(jù)，迭代式地生成大量含有 rationale 的數(shù)據(jù)集并基于此訓(xùn)練能夠生成 rationale 的 LLM，有效提升 LLM 的復(fù)雜推理能力

Method

在這里插入圖片描述

Rationale Generation Bootstrapping (STaR Without Rationalization). 給定預(yù)訓(xùn)練 LLM $M$ 和 small prompt set $\mathcal{P}=\{(x_{i}^{p},r_{i}^{p},y_{i}^{p})\}_{i=1}^{P}$ (e.g. $P = 10$ )，其中 $x$ 為問題， $r$ 為中間推理步驟， $y$ 為問題回答，可以利用 few-shot prompting 為一個更大的數(shù)據(jù)集 $\mathcal D=\{(x_i,y_i)\}_{i=1}^D$ 生成中間推理步驟 $\hat r_i$ 和答案 $\hat y_i$ ，這樣就得到了含有中間推理步驟的大規(guī)模數(shù)據(jù)集。此外，作者只保留其中 $\hat y_i=y_i$ 的樣本，因為這些樣本對應(yīng)的中間推理步驟質(zhì)量總體來說會更高一些，由此得到 filtered dataset，在此數(shù)據(jù)集上微調(diào) $M$ 得到可以直接生成中間推理步驟的 LLM. 上述步驟為 1 個循環(huán)，STaR 會重復(fù)上述循環(huán)多次，每次都用上一輪循環(huán)中得到的最新的生成中間推理步驟的 LLM $M_{n-1}$ 為 $\mathcal D$ 生成中間推理步驟得到 filtered dataset，然后在該數(shù)據(jù)集上基于預(yù)訓(xùn)練 LLM $M$ 重新訓(xùn)練得到新的生成中間推理步驟的 LLM $M_n$ ；上述優(yōu)化過程可以被近似看作 policy gradient，其中 $J (M, X, Y)$ 為 total expected reward across the dataset
Rationalization. 上述步驟還有一個缺點，就是如果 $\mathcal D$ 中某些難樣本始終無法生成正確答案，那么這些樣本將永遠無法加入 filtered dataset，無法被有效學(xué)習(xí)；為此，作者給生成錯誤答案的樣本 prompt 中加入提示正確答案的 hint 來引導(dǎo)模型生成中間推理步驟和最終答案
STaR.