當(dāng)前位置：首頁(yè) > news >正文

wordpress slides book南寧哪里有seo推廣廠(chǎng)家

news 2025/7/5 14:27:10

wordpress slides book,南寧哪里有seo推廣廠(chǎng)家,512mbvps運(yùn)行wordpress,wordpress側(cè)邊欄插件目錄一、簡(jiǎn)介一句話(huà)簡(jiǎn)介作者、引用數(shù)、時(shí)間論文地址開(kāi)源代碼地址二、摘要三、引言四、整體架構(gòu)（用一個(gè)例子來(lái)闡明）場(chǎng)景例子：核心點(diǎn)： 五、方法 （架構(gòu)各部分詳解）5.1 模型1. RAG-Sequence Model2. RAG-Toke…

一、簡(jiǎn)介
- 一句話(huà)簡(jiǎn)介
- 作者、引用數(shù)、時(shí)間
- 論文地址
- 開(kāi)源代碼地址
二、摘要
三、引言
四、整體架構(gòu)（用一個(gè)例子來(lái)闡明）
- - 場(chǎng)景例子：
  - 核心點(diǎn)：
五、方法（架構(gòu)各部分詳解）
- 5.1 模型
- - 1. RAG-Sequence Model
  - 2. RAG-Token Model
  - RAG-Sequence 模型
  - RAG-Token 模型
  - 總結(jié)
- 5.2 檢索器：DPR
- - 總結(jié)：
- 5.3 生成器：BART
- 5.4 訓(xùn)練
- 5.5 解碼（推理）
- - - RAG-Token
    - RAG-Sequence
  - 兩種模型通俗易懂的例子解釋：
  - 徹底解碼和快速解碼的區(qū)別
  - - 1. 徹底解碼（Thorough Decoding）：
    - 2. 快速解碼（Fast Decoding）：
    - 總結(jié)：
六、實(shí)驗(yàn)
- 實(shí)驗(yàn)說(shuō)明
- 6.1 開(kāi)放領(lǐng)域問(wèn)答（Open-domain Question Answering, QA）
- - 四個(gè)開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集的簡(jiǎn)要介紹：
- 6.2 抽象問(wèn)題問(wèn)答（Abstractive Question Answering）
- 6.3 生成危險(xiǎn)邊緣（Jeopardy）風(fēng)格的問(wèn)題
- 6.4 事實(shí)校驗(yàn)（Fact Verification）
七、結(jié)果
- 7.1 表1的解讀-開(kāi)放領(lǐng)域問(wèn)答任務(wù)
- - 總結(jié)：
- 7.2 表2的解讀-生成和分類(lèi)任務(wù)
- - 術(shù)語(yǔ)和符號(hào)解釋：
  - 測(cè)試任務(wù)種類(lèi)：
  - 總的對(duì)比：
  - 生成 Jeopardy 問(wèn)題的任務(wù)對(duì)比
  - 事實(shí)校驗(yàn)任務(wù)對(duì)比（FEVER）
  - 總結(jié)：
- 7.3 表3的解讀-生成任務(wù)回答的準(zhǔn)確性和具體性
- - 表格結(jié)構(gòu)：
  - 任務(wù)解釋：
  - 總結(jié)：
- 7.4 圖2的解讀
- - 總結(jié)
- 7.5 表4的解讀-Jeopardy 問(wèn)題生成任務(wù)的事實(shí)性和具體性
- 7.6 表5的解讀-生成內(nèi)容的多樣性
- 7.7 表6的解讀-消融實(shí)驗(yàn)評(píng)估檢索機(jī)制的有效性
- - 為什么對(duì)于FEVER任務(wù)，BM25表現(xiàn)更好？
- 7.8 圖3的解讀-檢索更多文檔的效果
- - 檢索召回率（Answer Recall）
- 7.9 索引熱交換（Index hot-swapping）-輕松更新知識(shí)庫(kù)
- - 背景
  - 測(cè)試方法
  - 結(jié)論
八、相關(guān)工作-前人的工作和本文的創(chuàng)新點(diǎn)
- 單任務(wù)檢索
- NLP的通用架構(gòu)
- 學(xué)習(xí)式檢索
- 基于記憶的架構(gòu)
- 檢索與編輯方法
九、討論
- 本文的貢獻(xiàn)
- 未來(lái)研究方向
- 廣泛應(yīng)用的潛力
十、更廣泛的影響
- 積極影響
- 潛在風(fēng)險(xiǎn)

一、簡(jiǎn)介

一句話(huà)簡(jiǎn)介

該論文是RAG的開(kāi)山之作，提出了一種新的模型架構(gòu)，將檢索和生成結(jié)合在一起，以解決預(yù)訓(xùn)練模型在知識(shí)密集型自然語(yǔ)言處理任務(wù)中的局限性。

作者、引用數(shù)、時(shí)間

該文出自 Facebook AI Research 團(tuán)隊(duì)，Patrick Lewis、Ethan Perez等人，提交于arXiv，且已被NeurIPS 2020接收，第一版發(fā)布于2020年5月22日，被引用數(shù)：3600多次。

論文地址

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

開(kāi)源代碼地址

RAG 實(shí)驗(yàn)的代碼已經(jīng)開(kāi)源，作為 HuggingFace Transformers Library（Wolf 等人，2019）的一部分，可在此鏈接查看：
https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag

demo地址
https://huggingface.co/rag/

二、摘要

摘要討論了 RAG（Retrieval-Augmented Generation） 模型的背景、動(dòng)機(jī)和研究貢獻(xiàn)：

背景：大型語(yǔ)言模型（如 GPT、BERT）通過(guò)大量數(shù)據(jù)預(yù)訓(xùn)練，能夠存儲(chǔ)豐富的知識(shí)，并在微調(diào)后表現(xiàn)出色。然而，這些模型在處理需要外部知識(shí)的復(fù)雜任務(wù)時(shí)存在一定局限性，尤其是在訪(fǎng)問(wèn)和操作知識(shí)時(shí)。它們的知識(shí)更新也非常困難。
RAG 模型的提出：為了解決這一問(wèn)題，RAG 模型結(jié)合了兩種不同的記憶系統(tǒng)：
- 參數(shù)化記憶：模型內(nèi)置的預(yù)訓(xùn)練語(yǔ)言模型，它已經(jīng)通過(guò)大量數(shù)據(jù)學(xué)習(xí)了通用的語(yǔ)言知識(shí)。
- 非參數(shù)化記憶：通過(guò)檢索外部知識(shí)庫(kù)（如維基百科）實(shí)時(shí)獲取的信息，幫助模型生成答案。這樣可以擴(kuò)展模型的知識(shí)范圍，增強(qiáng)生成效果。
兩種 RAG 模型對(duì)比：
- 一種是在整個(gè)生成過(guò)程中使用相同的檢索文檔。
- 另一種是在生成每個(gè)詞時(shí)，可以從不同的文檔中獲取信息，進(jìn)一步提升生成的靈活性。
實(shí)驗(yàn)結(jié)果：通過(guò)對(duì)多個(gè)知識(shí)密集型任務(wù)進(jìn)行微調(diào)，實(shí)驗(yàn)結(jié)果表明 RAG 模型在多個(gè)開(kāi)放領(lǐng)域的問(wèn)答任務(wù)中表現(xiàn)優(yōu)異，并且在語(yǔ)言生成任務(wù)中，生成的回答比傳統(tǒng)模型更準(zhǔn)確、更豐富。

RAG 模型的創(chuàng)新在于它通過(guò)結(jié)合內(nèi)置的語(yǔ)言知識(shí)和外部實(shí)時(shí)檢索知識(shí)，提升了模型的生成能力和知識(shí)靈活性，尤其適合處理復(fù)雜和開(kāi)放性的問(wèn)題。

三、引言

引言主要介紹了 RAG（Retrieval-Augmented Generation） 模型的背景、現(xiàn)有問(wèn)題和模型設(shè)計(jì)和優(yōu)勢(shì)，特別是它如何結(jié)合預(yù)訓(xùn)練語(yǔ)言模型和實(shí)時(shí)文檔檢索來(lái)提升復(fù)雜任務(wù)中的性能。

背景和問(wèn)題：預(yù)訓(xùn)練的語(yǔ)言模型（如 BERT 和 GPT）盡管在自然語(yǔ)言處理任務(wù)上取得了很大進(jìn)展，但它們?cè)谔幚碇R(shí)更新、解釋生成內(nèi)容等方面存在局限。生成不真實(shí)的答案（稱(chēng)為“幻覺(jué)”）是它們的一個(gè)常見(jiàn)問(wèn)題。
RAG 模型的提出：為了解決這些問(wèn)題，RAG 模型結(jié)合了預(yù)訓(xùn)練的語(yǔ)言模型和外部的非參數(shù)化知識(shí)源（如維基百科）進(jìn)行知識(shí)檢索。RAG 模型在生成答案時(shí)，能夠不僅依賴(lài)模型自身的知識(shí)，還能通過(guò)實(shí)時(shí)檢索相關(guān)文檔來(lái)生成更加準(zhǔn)確和豐富的答案。
創(chuàng)新點(diǎn)：與之前的模型相比，RAG 的創(chuàng)新點(diǎn)在于它能夠同時(shí)使用預(yù)訓(xùn)練的參數(shù)化記憶（模型內(nèi)部的知識(shí)）和非參數(shù)化記憶（外部檢索到的文檔），使得模型的知識(shí)庫(kù)更加靈活、易于擴(kuò)展，并能夠生成多樣且精確的答案。
實(shí)驗(yàn)結(jié)果：實(shí)驗(yàn)表明，RAG 在多個(gè)知識(shí)密集型任務(wù)中的表現(xiàn)優(yōu)于傳統(tǒng)模型，特別是在開(kāi)放領(lǐng)域問(wèn)答和事實(shí)校驗(yàn)任務(wù)中，RAG 展現(xiàn)了生成更準(zhǔn)確、更詳細(xì)回答的能力。

四、整體架構(gòu)（用一個(gè)例子來(lái)闡明）

在這里插入圖片描述

這張圖展示了 RAG（Retrieval-Augmented Generation） 的整體架構(gòu)，為了幫助理解這個(gè)架構(gòu)，下面用一個(gè)通俗易懂的例子來(lái)解釋。

場(chǎng)景例子：

你想向智能助手提問(wèn)：“誰(shuí)是《神曲》的作者？”（這是你輸入的問(wèn)題）。

查詢(xún)編碼器（Query Encoder）：
- 你的問(wèn)題先經(jīng)過(guò)查詢(xún)編碼器，模型將這個(gè)問(wèn)題轉(zhuǎn)化為一個(gè)向量表示，即圖中的 $q (x)$ ?？梢园阉胂蟪蓪⒆匀徽Z(yǔ)言問(wèn)題轉(zhuǎn)換為計(jì)算機(jī)能夠理解的數(shù)字形式。
檢索器（Retriever）：
- 接下來(lái)，檢索器使用這個(gè)向量去搜索一個(gè)文檔數(shù)據(jù)庫(kù)，這個(gè)過(guò)程通過(guò)一種稱(chēng)為最大內(nèi)積搜索（MIPS）的技術(shù)來(lái)實(shí)現(xiàn)。這個(gè)步驟的目的是找到最相關(guān)的文檔，這些文檔中可能包含關(guān)于《神曲》的答案。
- 假設(shè)從數(shù)據(jù)庫(kù)中找到了 4 個(gè)相關(guān)的文檔 $z_1, z_2, z_3, z_4$ ，每個(gè)文檔都包含與問(wèn)題相關(guān)的內(nèi)容。
生成器（Generator）：
- 對(duì)于每個(gè)找到的文檔，模型使用生成器（在圖中表示為 $p_\theta$ ）生成一個(gè)可能的回答。這是通過(guò)“參數(shù)化記憶”完成的，即生成模型根據(jù)文檔和問(wèn)題生成一個(gè)文本回答。
- 比如，對(duì)于文檔 $z_1$ ，生成器可能會(huì)生成：“《神曲》是但丁寫(xiě)的”，而對(duì)于文檔 $z_2$ ，生成器可能會(huì)產(chǎn)生類(lèi)似的回答。
邊緣化（Marginalization）：
- 因?yàn)闄z索器找到了多個(gè)文檔，模型會(huì)對(duì)所有文檔的生成結(jié)果進(jìn)行綜合處理，即邊緣化。這個(gè)過(guò)程可以通過(guò)對(duì)所有文檔生成的結(jié)果進(jìn)行加權(quán)求和來(lái)實(shí)現(xiàn)。簡(jiǎn)單來(lái)說(shuō)，模型會(huì)將所有文檔的回答綜合起來(lái)，最終給出一個(gè)最優(yōu)的預(yù)測(cè)（即“但丁是《神曲》的作者”）。
最終輸出：
- 最終，智能助手輸出的回答可能是：“《神曲》是由但丁創(chuàng)作的”，這是結(jié)合了多個(gè)文檔中的信息來(lái)生成的。

核心點(diǎn)：

參數(shù)化記憶（Parametric Memory）：模型通過(guò)預(yù)訓(xùn)練的權(quán)重來(lái)生成回答，這種權(quán)重是通過(guò)大量數(shù)據(jù)學(xué)習(xí)到的，這些權(quán)重參數(shù)已經(jīng)存儲(chǔ)了模型學(xué)到的大量事實(shí)知識(shí)。
非參數(shù)化記憶（Non-Parametric Memory）：模型依賴(lài)外部文檔庫(kù)（非參數(shù)化的存儲(chǔ)方式）來(lái)輔助生成更準(zhǔn)確的回答，而不是完全依賴(lài)模型內(nèi)部的權(quán)重。

五、方法（架構(gòu)各部分詳解）

注意：如果看不懂復(fù)雜的數(shù)學(xué)公式部分，可直接跳過(guò)，后面就有通俗易懂的例子解釋

5.1 模型

下面為數(shù)學(xué)公式部分，看不懂可跳過(guò)

RAG 有兩種不同模型：RAG-Sequence Model 和 RAG-Token Model。它們主要區(qū)別在于如何處理檢索到的文檔和如何在生成答案時(shí)進(jìn)行邊緣化處理。

1. RAG-Sequence Model

過(guò)程：在 RAG-Sequence 模型中，檢索到的文檔作為一個(gè)潛在變量，整個(gè)序列的生成過(guò)程使用相同的文檔。也就是說(shuō)，對(duì)于給定的查詢(xún) (x)，檢索器會(huì)找到前 (k) 個(gè)相關(guān)的文檔，然后生成器使用同一個(gè)文檔來(lái)生成整個(gè)輸出序列。
邊緣化：在生成完成后，模型對(duì)所有文檔的輸出進(jìn)行邊緣化處理。具體的公式是：

$p_{\text{RAG-Sequence}}(y|x) \approx \sum_{z \in \text{top-k}(p(\cdot|x))} p_\eta(z|x) p_\theta(y|x, z)$

其中， $p_\eta(z|x)$ 是檢索到的文檔 (z) 給定查詢(xún) (x) 的概率， $p_\theta(y|x, z)$ 是生成器基于文檔 (z) 生成整個(gè)序列 (y) 的概率。

2. RAG-Token Model

過(guò)程：在 RAG-Token 模型中，針對(duì)每一個(gè)生成的目標(biāo) token，模型可以從不同的文檔中選擇內(nèi)容。與 RAG-Sequence 不同的是，生成器不使用同一個(gè)文檔生成整個(gè)輸出序列，而是在生成每個(gè) token 時(shí)可以選擇一個(gè)不同的文檔進(jìn)行生成。
邊緣化：每個(gè) token 的生成也會(huì)進(jìn)行邊緣化處理，這意味著在每次生成新 token 時(shí)，都根據(jù)每個(gè)文檔生成一個(gè)分布，并結(jié)合這些分布生成下一個(gè) token。具體公式如下：

$p_{\text{RAG-Token}}(y|x) \approx \prod_{i=1}^{N} \sum_{z \in \text{top-k}(p(\cdot|x))} p_\eta(z|x) p_\theta(y_i|x, z, y_{1:i-1})$

這里， $p_\theta(y_i|x, z, y_{1:i-1})$ 是生成器基于文檔 (z) 和前 (i-1) 個(gè) token (y_{1:i-1}) 生成當(dāng)前 token (y_i) 的概率。

下面為通俗易懂的例子解釋

RAG-Sequence 模型

想象你問(wèn)了一個(gè)問(wèn)題，智能助手從一個(gè)圖書(shū)館里找了幾本相關(guān)的書(shū)。助手從中選了一本書(shū)，然后根據(jù)這本書(shū)的內(nèi)容生成整個(gè)回答。這個(gè)過(guò)程中，它一直在參考同一本書(shū)，直到回答結(jié)束。之后，它會(huì)比較多個(gè)回答，選出最好的那個(gè)。RAG-Sequence 模型就像這個(gè)助手，它在生成答案時(shí)始終依賴(lài)于同一本書(shū)（一個(gè)文檔），然后通過(guò)多個(gè)文檔生成的回答進(jìn)行對(duì)比，給出最終答案。

RAG-Token 模型

另一種情況是，智能助手不只用一本書(shū)，而是每次它要生成一個(gè)詞時(shí)，都會(huì)從不同的書(shū)中挑選出一個(gè)詞來(lái)組合答案。比如，它可能用第一本書(shū)生成第一個(gè)詞，然后用第二本書(shū)生成下一個(gè)詞。最后，它把每次從不同書(shū)中挑選的詞組合起來(lái)，得到一個(gè)完整的答案。RAG-Token 模型就像這個(gè)助手，它在生成每個(gè)詞的時(shí)候可以參考不同的書(shū)（文檔），所以每個(gè)詞都有可能來(lái)源于不同的地方。

總結(jié)

RAG-Sequence 模型：在生成整個(gè)答案時(shí)，助手只從一本書(shū)中獲取信息。
RAG-Token 模型：在生成每個(gè)詞時(shí)，助手可以從不同的書(shū)中獲取信息。

這使得 RAG-Token 模型更加靈活，能夠從多個(gè)文檔中提取信息，適合那些需要從多個(gè)來(lái)源獲取答案的復(fù)雜問(wèn)題。

5.2 檢索器：DPR

下面為數(shù)學(xué)公式部分，看不懂可跳過(guò)

檢索組件 $p_\eta(z|x)$ 基于 DPR，它采用雙編碼器架構(gòu)：
$p_\eta(z|x) \propto \exp \left( \textvxwlu0yf4(z)^\top \text{q}(x) \right)$
其中， $\textvxwlu0yf4(z)$ 是通過(guò) BERT-base 文檔編碼器生成的文檔 $z$ 的密集表示， $\text{q}(x)$ 是通過(guò) 查詢(xún)編碼器生成的查詢(xún) $x$ 的表示。兩個(gè)編碼器都基于 BERT 模型。計(jì)算前 K 個(gè)文檔的相關(guān)性得分 $p_\eta(z|x)$ 是一個(gè) 最大內(nèi)積搜索（MIPS） 問(wèn)題，該問(wèn)題可以通過(guò)子線(xiàn)性時(shí)間近似求解。

文中使用預(yù)訓(xùn)練的 DPR 雙編碼器來(lái)初始化檢索器，并建立文檔索引。這個(gè)檢索器被訓(xùn)練用于檢索包含 TriviaQA 和 Natural Questions 數(shù)據(jù)集問(wèn)題答案的文檔。文中將文檔索引稱(chēng)為非參數(shù)化記憶。

雙編碼器架構(gòu)：
- DPR 使用兩個(gè)編碼器：一個(gè)用于查詢(xún) $q (x)$ ，一個(gè)用于文檔 $d (z)$ 。查詢(xún)和文檔的表示都是通過(guò)各自獨(dú)立的 BERT-base 模型生成的。
- 查詢(xún)表示： $q (x)$ 是查詢(xún) $x$ 通過(guò)查詢(xún)編碼器生成的密集向量表示。
- 文檔表示： $d (z)$ 是文檔 $z$ 通過(guò)文檔編碼器生成的密集向量表示。
相似度計(jì)算：
- 文檔 $z$ 和查詢(xún) $x$ 的相似度通過(guò)它們的向量點(diǎn)積來(lái)計(jì)算：
  $p_\eta(z|x) \propto \exp \left( \textvxwlu0yf4(z)^\top \text{q}(x) \right)$
  這個(gè)公式表示的是在給定查詢(xún) $x$ 的情況下，檢索到文檔 $z$ 的概率。
MIPS（最大內(nèi)積搜索）：
- MIPS 是一種高效的算法，用于快速?gòu)拇罅课臋n中找到與查詢(xún)最相關(guān)的前 K 個(gè)文檔。這個(gè)問(wèn)題通過(guò)內(nèi)積最大化來(lái)解決，從而加速檢索過(guò)程，且其時(shí)間復(fù)雜度為子線(xiàn)性。
非參數(shù)化記憶：
- 文檔索引被稱(chēng)為 非參數(shù)化記憶，因?yàn)檫@些外部知識(shí)（如維基百科）并沒(méi)有內(nèi)嵌在模型的參數(shù)中，而是通過(guò)動(dòng)態(tài)檢索獲取。因此，模型可以從外部數(shù)據(jù)源中靈活地訪(fǎng)問(wèn)相關(guān)知識(shí)，而不依賴(lài)模型內(nèi)的固定知識(shí)。

總結(jié)：

DPR 檢索器 通過(guò)雙編碼器架構(gòu)將查詢(xún)和文檔分別編碼為向量，利用內(nèi)積計(jì)算它們的相似度，并通過(guò) MIPS 算法高效檢索出與查詢(xún)相關(guān)的文檔。這個(gè)過(guò)程允許模型動(dòng)態(tài)地訪(fǎng)問(wèn)外部知識(shí)庫(kù)，并利用這些知識(shí)生成高質(zhì)量的答案。

下面為通俗易懂的解釋

DPR（Dense Passage Retrieval，稠密段落檢索）是幫助RAG模型進(jìn)行信息檢索的?？梢园阉胂蟪梢粋€(gè)非常高效的文檔搜索系統(tǒng)。

雙編碼器架構(gòu)：
DPR使用了兩個(gè)獨(dú)立的“編碼器”來(lái)分別處理文檔和查詢(xún)問(wèn)題?？梢岳斫鉃橛袃蓚€(gè)機(jī)器，一個(gè)負(fù)責(zé)將所有可能的答案（文檔）編碼成一種緊湊的形式（稠密向量），另一個(gè)負(fù)責(zé)將問(wèn)題編碼成類(lèi)似的緊湊形式。
匹配文檔和問(wèn)題：
搜索的核心思想是比較問(wèn)題和文檔的“緊湊形式”，看它們之間有多“接近”。接近度越高，說(shuō)明這個(gè)文檔可能越適合回答你的問(wèn)題?？梢园堰@個(gè)過(guò)程想象成查找最匹配的鑰匙和鎖，只有最相似的才能成功匹配。
預(yù)訓(xùn)練：
這里的編碼器已經(jīng)通過(guò)海量數(shù)據(jù)進(jìn)行過(guò)預(yù)訓(xùn)練（相當(dāng)于已經(jīng)看過(guò)很多問(wèn)題和答案），所以它知道如何高效地將問(wèn)題和答案進(jìn)行匹配。
高效檢索：
由于要處理的文檔量非常大，DPR使用了一種叫“最大內(nèi)積搜索”的方法來(lái)加速這個(gè)匹配過(guò)程。就像在一大堆鑰匙里快速找到幾把最可能打開(kāi)鎖的鑰匙。
非參數(shù)記憶：
最后，文檔被存儲(chǔ)在一個(gè)叫做“非參數(shù)記憶”的地方。這個(gè)名字聽(tīng)起來(lái)復(fù)雜，但本質(zhì)上只是一個(gè)巨大的文檔庫(kù)，系統(tǒng)在需要時(shí)可以隨時(shí)去里面尋找最相關(guān)的答案。

DPR 就像是一個(gè)已經(jīng)學(xué)會(huì)如何快速找到最佳答案的智能搜索引擎。

5.3 生成器：BART

BART 是一個(gè)用于生成文本的強(qiáng)大工具，它可以從輸入的信息中生成連貫的回答。

BART 是一個(gè) seq2seq（sequence-to-sequence） 模型，預(yù)訓(xùn)練時(shí)使用了一個(gè)帶有“去噪”目標(biāo)的任務(wù)，這意味著它能很好地從混亂或不完整的信息中恢復(fù)完整的答案。
在這個(gè) RAG 模型中，BART 被用來(lái)生成每個(gè)問(wèn)題的答案。具體來(lái)說(shuō)，它結(jié)合了從文檔檢索中獲取到的內(nèi)容 ( z ) 以及用戶(hù)的輸入 ( x )，然后生成答案。
BART-large 是一種特別大的版本，包含了 4億個(gè)參數(shù)，這使得它能夠處理非常復(fù)雜的語(yǔ)言生成任務(wù)。
文中還提到，BART 的生成部分被稱(chēng)為 “參數(shù)化記憶”，因?yàn)樯善饕蕾?lài)的知識(shí)是存儲(chǔ)在 BART 模型的參數(shù)中的，這些參數(shù)通過(guò)預(yù)訓(xùn)練學(xué)到了豐富的語(yǔ)言知識(shí)。

換句話(huà)說(shuō)，BART 是 RAG 模型中的生成模塊，負(fù)責(zé)從檢索到的文檔中提取信息并生成最終的答案。

5.4 訓(xùn)練

訓(xùn)練過(guò)程的核心思想是聯(lián)合訓(xùn)練，同時(shí)優(yōu)化文檔檢索模塊（Retriever）和生成模塊（Generator）。具體解釋如下：

無(wú)監(jiān)督選擇文檔：在訓(xùn)練過(guò)程中，模型不會(huì)明確告訴哪個(gè)文檔最適合當(dāng)前的查詢(xún)，而是通過(guò)訓(xùn)練模型來(lái)自行學(xué)習(xí)從文檔庫(kù)中找到相關(guān)的文檔。
給定輸入輸出對(duì)：訓(xùn)練集由一組輸入/輸出對(duì)組成。例如，輸入可以是一個(gè)問(wèn)題，輸出可以是答案。模型通過(guò)這些已知的輸入和輸出對(duì)來(lái)進(jìn)行微調(diào)。
損失函數(shù)：模型使用一種叫做“負(fù)對(duì)數(shù)似然”的損失函數(shù)。這意味著它在訓(xùn)練時(shí)，會(huì)嘗試最小化生成答案的“錯(cuò)誤程度”，即最大化模型生成正確答案的概率。
優(yōu)化器：使用 Adam 優(yōu)化器，這是一種在深度學(xué)習(xí)中常用的技術(shù)，可以幫助模型更高效地學(xué)習(xí)和調(diào)整參數(shù)。
更新組件：在這個(gè)訓(xùn)練過(guò)程中，文中提到模型并不需要頻繁更新所有部分。尤其是 BERT 文檔編碼器（BERT_d），它很難頻繁更新（因?yàn)榇鷥r(jià)高）。相反，文檔編碼器保持不變，只微調(diào)查詢(xún)編碼器 BERT_q 和 BART 生成器。

簡(jiǎn)而言之，模型通過(guò)調(diào)整它找到的文檔和生成的答案，來(lái)提升自己對(duì)問(wèn)題的理解和回答能力，而不需要頻繁更新所有模塊。

5.5 解碼（推理）

下面為數(shù)學(xué)公式部分，看不懂可跳過(guò)

在測(cè)試時(shí)，RAG-Sequence 和 RAG-Token 需要通過(guò)不同方式來(lái)近似求解 $\text{arg max}_y p(y|x)$ 。

RAG-Token

RAG-Token 模型 可以被視為一個(gè)標(biāo)準(zhǔn)的自回歸序列到序列（seq2seq）生成器，其轉(zhuǎn)移概率為：
$p'_\theta(y_i | x, y_{1:i-1}) = \sum_{z \in \text{top-K}(p(\cdot | x))} p_\eta(z|x) p_\theta(y_i | x, z, y_{1:i-1})$
解碼時(shí)，可以將 $p'_\theta(y_i | x, y_{1:i-1})$ 插入標(biāo)準(zhǔn)的束搜索解碼器中。

RAG-Sequence

對(duì)于 RAG-Sequence，由于 $p (y ∣ x)$ 的似然并沒(méi)有分解為傳統(tǒng)的逐 token 似然，無(wú)法通過(guò)單一的束搜索來(lái)解碼。我們需要對(duì)每個(gè)文檔 $z$ 運(yùn)行束搜索，對(duì)每個(gè)假設(shè) $y$ 進(jìn)行打分，使用 $p_\theta(y_i | x, z, y_{1:i-1})$ 。這會(huì)產(chǎn)生一組假設(shè) $Y$ ，其中某些假設(shè)可能不會(huì)在所有文檔的束搜索中出現(xiàn)。為估計(jì)假設(shè) $y$ 的概率，我們會(huì)對(duì)每個(gè)沒(méi)有生成 $y$ 的文檔 $z$ 運(yùn)行額外的前向傳播，將生成器概率與 $p_\eta(z|x)$ 相乘，之后對(duì)所有束的邊緣化概率求和。我們將這種解碼過(guò)程稱(chēng)為“徹底解碼（Thorough Decoding）”。

對(duì)于較長(zhǎng)的輸出序列，集合 $Y$ 會(huì)變得很大，因此需要多次前向傳播。為更高效的解碼，可以進(jìn)一步近似處理，假設(shè) $p_\theta(y | x, z_i) \approx 0$ ，如果 $y$ 在束搜索時(shí)沒(méi)有從 $z_i$ 中生成。通過(guò)這種方式，一旦候選集 $Y$ 生成，就無(wú)需為 $y$ 運(yùn)行額外的前向傳播。我們稱(chēng)這種解碼過(guò)程為“快速解碼（Fast Decoding）”。

下面為通俗易懂的例子解釋

兩種模型通俗易懂的例子解釋：

想象你在玩一個(gè)問(wèn)答游戲。你輸入了一個(gè)問(wèn)題，模型要根據(jù)從多個(gè)書(shū)籍中找到的內(nèi)容來(lái)生成一個(gè)答案。

RAG-Token 模型 就像是一個(gè)助手，每次生成一個(gè)字或單詞時(shí)，它會(huì)參考多本書(shū)，找到最適合的一本書(shū)來(lái)決定下一個(gè)字或者單詞。這就像是在每一步重新選擇最合適的參考資料。
RAG-Sequence 模型 更像是這樣：它首先選擇了一本最有可能包含答案的書(shū)，然后將所有注意力集中在這本書(shū)上來(lái)生成整個(gè)答案。這需要逐步檢查每一個(gè)句子，因此更耗時(shí)，但可以確保生成的答案上下文一致。

在解碼過(guò)程中，RAG-Token 模型 更靈活，因?yàn)樗梢詮牟煌臅?shū)中獲取信息；而 RAG-Sequence 模型 則在生成每個(gè)答案時(shí)使用單一文檔，通過(guò)更加詳細(xì)的解碼過(guò)程來(lái)生成答案。

兩種解碼方式的區(qū)別

徹底解碼和快速解碼的區(qū)別

徹底解碼（Thorough Decoding） 和 快速解碼（Fast Decoding） 的區(qū)別可以通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。想象你在做一個(gè)選擇題考試，而你的目標(biāo)是找到最正確的答案。你有兩種策略可以選擇：徹底檢查每一個(gè)選項(xiàng)（對(duì)應(yīng)徹底解碼）和 快速縮小選項(xiàng)范圍（對(duì)應(yīng)快速解碼）。

1. 徹底解碼（Thorough Decoding）：

假設(shè)你有 10 本參考書(shū)，你需要檢查每一本書(shū)中的內(nèi)容來(lái)回答問(wèn)題。每次你得到了一個(gè)潛在的答案時(shí)，你會(huì)去每一本書(shū)中查找是否有相關(guān)內(nèi)容，然后再根據(jù)所有書(shū)籍中的信息給出最終答案。這個(gè)過(guò)程就像是“徹底解碼”：它需要你從所有文檔中一一驗(yàn)證每一個(gè)潛在的答案，再將這些信息結(jié)合起來(lái)，最后得出最準(zhǔn)確的答案。

在模型中，徹底解碼 的過(guò)程如下：你生成了一個(gè)候選答案 ( y )，接著你對(duì)每一個(gè)檢索到的文檔 ( z ) 進(jìn)行前向傳播，計(jì)算 $p_\theta(y|x, z)$ 的值。然后你對(duì)這些概率進(jìn)行加權(quán)求和，得出最終的答案。這種方法比較慢，因?yàn)樾枰啻吻跋騻鞑?#xff0c;但可以保證信息的完整性。

2. 快速解碼（Fast Decoding）：

而快速解碼 就像是你一開(kāi)始檢查了部分選項(xiàng)，然后認(rèn)為某些參考書(shū)不可能提供答案，直接忽略它們。你只會(huì)查看那些最可能有用的參考書(shū)，而不再去查閱所有書(shū)籍。這樣雖然不是 100% 確定，但可以更快地縮小范圍，得到一個(gè)合理的答案。

在模型中，快速解碼 的過(guò)程是：如果某個(gè)候選答案 ( y ) 沒(méi)有在某個(gè)文檔 ( z ) 中生成，你可以近似認(rèn)為 $p_\theta(y | x, z_i) \approx 0$ 。這樣一來(lái)，你就不需要對(duì)每個(gè)文檔都做前向傳播，節(jié)省了時(shí)間。這種方法更高效，適合生成長(zhǎng)答案時(shí)使用，但相對(duì)于徹底解碼，它可能會(huì)略微降低答案的準(zhǔn)確性。

總結(jié)：

徹底解碼：像是你每次遇到問(wèn)題時(shí)，都認(rèn)真檢查每一個(gè)可能的文檔或者書(shū)籍，確保答案無(wú)誤。這種方法較慢但更精確。
快速解碼：你根據(jù)一部分信息快速做出決定，只檢查最可能的來(lái)源，而跳過(guò)那些不太相關(guān)的文檔。這種方法更快，但有時(shí)可能略微犧牲準(zhǔn)確性。

六、實(shí)驗(yàn)

實(shí)驗(yàn)說(shuō)明

數(shù)據(jù)來(lái)源：所有實(shí)驗(yàn)都使用了 維基百科 作為模型的知識(shí)來(lái)源。具體來(lái)說(shuō)，使用了 2018年12月 的維基百科快照，這些數(shù)據(jù)被分割成了較小的“文檔塊”，每塊包含 100 個(gè)單詞。這樣總共形成了大約 2100萬(wàn)份文檔。
檢索過(guò)程：實(shí)驗(yàn)中使用了 MIPS（最大內(nèi)積搜索）技術(shù)來(lái)進(jìn)行快速的文檔檢索，并且使用了 FAISS 作為實(shí)現(xiàn)工具，這是一個(gè)常用的高效相似性搜索庫(kù)。同時(shí)使用了一種叫做“分層可導(dǎo)航小世界網(wǎng)絡(luò)”的算法來(lái)加速文檔的查找。
訓(xùn)練與測(cè)試：在訓(xùn)練過(guò)程中，每次查詢(xún)時(shí)，模型會(huì)從文檔庫(kù)中檢索出最相關(guān)的前 k 個(gè)文檔（k 的取值為 5、10 等），然后模型基于這些文檔進(jìn)行答案生成。在測(cè)試時(shí)，同樣也使用這些檢索到的文檔來(lái)生成答案。

6.1 開(kāi)放領(lǐng)域問(wèn)答（Open-domain Question Answering, QA）

開(kāi)放領(lǐng)域問(wèn)答是指系統(tǒng)需要回答范圍廣泛的問(wèn)題，并且不能依賴(lài)于特定領(lǐng)域的知識(shí)。在這里，RAG 模型通過(guò)結(jié)合檢索的外部知識(shí)和生成能力來(lái)回答這些問(wèn)題。

訓(xùn)練方法：通過(guò)最小化答案生成的錯(cuò)誤率來(lái)訓(xùn)練模型，即使用了一種叫做“負(fù)對(duì)數(shù)似然”的技術(shù)。這種方法幫助模型提高生成正確答案的概率。
對(duì)比實(shí)驗(yàn)：將 RAG 模型與兩類(lèi)方法進(jìn)行了比較：
1. 抽取式 QA：這類(lèi)方法直接從檢索到的文檔中提取出答案片段。
2. 閉卷 QA：這類(lèi)方法生成答案時(shí)不依賴(lài)外部文檔，只依賴(lài)模型內(nèi)部學(xué)習(xí)到的知識(shí)。
數(shù)據(jù)集：研究使用了四個(gè)開(kāi)放領(lǐng)域的問(wèn)答數(shù)據(jù)集（NQ、TQA、WQ、CT），這些數(shù)據(jù)集為研究提供了不同類(lèi)型的問(wèn)題和測(cè)試平臺(tái)。

四個(gè)開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集的簡(jiǎn)要介紹：

NQ (Natural Questions)：
- Natural Questions 是由谷歌推出的一個(gè)大規(guī)模開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集。它包含了從 Google 搜索中獲取的真實(shí)問(wèn)題，并且每個(gè)問(wèn)題都對(duì)應(yīng)了一個(gè)來(lái)自 Wikipedia 的長(zhǎng)文檔。任務(wù)要求模型找到文檔中的片段并生成正確的答案。這個(gè)數(shù)據(jù)集特別適合訓(xùn)練模型處理復(fù)雜問(wèn)題和長(zhǎng)文檔中的答案定位。
TQA (TriviaQA)：
- TriviaQA 是一個(gè)包含了真實(shí)問(wèn)答比賽（trivia）中的問(wèn)題的數(shù)據(jù)集。這些問(wèn)題通常較為復(fù)雜，并且答案可能出現(xiàn)在多個(gè)文檔或網(wǎng)頁(yè)中。TriviaQA 提供了多種格式的答案，包括提取式答案和文檔片段，因此模型不僅要定位正確答案，還需要理解上下文。
WQ (WebQuestions)：
- WebQuestions 是一個(gè)基于實(shí)際用戶(hù)通過(guò) Google 搜索提出的問(wèn)題數(shù)據(jù)集。問(wèn)題的答案通?？梢栽?Freebase 知識(shí)圖譜中找到。這個(gè)數(shù)據(jù)集挑戰(zhàn)模型從結(jié)構(gòu)化知識(shí)中找到答案，適合于基于知識(shí)圖譜的問(wèn)答系統(tǒng)。
CT (CuratedTrec)：
- CuratedTrec 是從 TREC（Text REtrieval Conference）的問(wèn)答任務(wù)中挑選的一個(gè)數(shù)據(jù)集。它包含了一組精心挑選的問(wèn)題和文檔，主要用來(lái)評(píng)估模型在從非結(jié)構(gòu)化文檔中提取答案時(shí)的表現(xiàn)。

這些數(shù)據(jù)集共同為開(kāi)放領(lǐng)域問(wèn)答提供了多樣性挑戰(zhàn)，測(cè)試模型在各種情況下生成正確答案的能力。

6.2 抽象問(wèn)題問(wèn)答（Abstractive Question Answering）

MSMARCO 數(shù)據(jù)集：這是一個(gè)用來(lái)測(cè)試生成模型能力的任務(wù)。它提供了一些問(wèn)題和多個(gè)高質(zhì)量的參考段落，幫助模型生成答案。實(shí)驗(yàn)中，研究者并不使用這些參考段落，而僅依賴(lài)模型的生成能力，這使得任務(wù)更加困難。
抽象問(wèn)答 vs. 抽取問(wèn)答：抽象問(wèn)答是指模型生成完整的句子答案，而不僅僅是從文檔中抽取現(xiàn)有的句子。這使得回答更自然、更流暢，但也更加依賴(lài)模型的語(yǔ)言生成能力。
挑戰(zhàn)：一些問(wèn)題（例如“加利福尼亞火山鎮(zhèn)的天氣如何？”）很難只依靠普通文檔生成匹配的答案，因?yàn)檫@些問(wèn)題可能需要訪(fǎng)問(wèn)最新的或者具體的數(shù)據(jù)庫(kù)來(lái)獲取答案。因此，如果模型不能使用預(yù)定義的段落或參考資料，表現(xiàn)會(huì)下降。
參數(shù)化知識(shí)的使用：RAG 模型可以通過(guò)其預(yù)訓(xùn)練中學(xué)到的知識(shí)來(lái)回答一些問(wèn)題，這被稱(chēng)為“參數(shù)化知識(shí)”。這意味著即使沒(méi)有具體的文檔，模型也可以依賴(lài)預(yù)先學(xué)習(xí)的知識(shí)生成合理的答案。

6.3 生成危險(xiǎn)邊緣（Jeopardy）風(fēng)格的問(wèn)題

使用 RAG 模型 生成 Jeopardy 風(fēng)格的問(wèn)題，并與 BART 模型 進(jìn)行對(duì)比。Jeopardy 問(wèn)題與傳統(tǒng)的開(kāi)放領(lǐng)域問(wèn)答任務(wù)不同，因?yàn)樗蠡谝阎拇鸢干删_的問(wèn)題，而不是直接從文檔中提取答案。

數(shù)據(jù)集：實(shí)驗(yàn)使用了 SearchQA 數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試，包含大量的訓(xùn)練、驗(yàn)證和測(cè)試樣本。
評(píng)估方法：研究人員使用了 Q-BLEU-1 作為評(píng)估指標(biāo)，這個(gè)指標(biāo)在匹配實(shí)體時(shí)更為有效。除此之外，還通過(guò)人工評(píng)估模型生成問(wèn)題的準(zhǔn)確性（是否符合事實(shí)）和具體性（問(wèn)題與答案是否密切相關(guān)）。
模型對(duì)比：RAG 模型和 BART 模型都被用來(lái)生成 Jeopardy 風(fēng)格的問(wèn)題，評(píng)估人員會(huì)比較兩個(gè)模型生成的問(wèn)題，看看哪個(gè)問(wèn)題更好。

這一實(shí)驗(yàn)用于測(cè)試 RAG 模型的生成能力，尤其是在生成復(fù)雜問(wèn)題時(shí)的表現(xiàn)。

6.4 事實(shí)校驗(yàn)（Fact Verification）

該任務(wù)要求模型從維基百科中檢索證據(jù)，以判斷給定聲明是否正確。

FEVER 任務(wù)：FEVER 是一個(gè)經(jīng)典的事實(shí)校驗(yàn)任務(wù)，要求模型基于外部證據(jù)（如維基百科）來(lái)驗(yàn)證聲明的真假或確定是否缺少信息。這是一個(gè)復(fù)雜的推理問(wèn)題，因?yàn)槟Ｐ托枰粌H找到相關(guān)信息，還要做出合理的推斷。
RAG 模型的應(yīng)用：研究人員使用 RAG 模型進(jìn)行分類(lèi)，而不是生成答案。模型在這項(xiàng)任務(wù)中的作用是找到與聲明相關(guān)的證據(jù)，然后根據(jù)這些證據(jù)判斷聲明的正確性。這與問(wèn)答任務(wù)不同，因?yàn)樗鼜?qiáng)調(diào)推理和分類(lèi)，而不是文本生成。
與其他方法的不同：與其他方法不同，研究人員并未使用額外的監(jiān)督信號(hào)來(lái)告訴模型哪些證據(jù)是最好的。這使得 RAG 模型在沒(méi)有明確指導(dǎo)的情況下，也能夠處理更廣泛的任務(wù)。這種方法更接近實(shí)際應(yīng)用場(chǎng)景，因?yàn)樵诂F(xiàn)實(shí)世界中，可能沒(méi)有足夠的監(jiān)督信號(hào)來(lái)幫助模型識(shí)別最相關(guān)的證據(jù)。

通過(guò)這個(gè)任務(wù)，作者展示了 RAG 模型在處理復(fù)雜的事實(shí)校驗(yàn)問(wèn)題時(shí)的能力，尤其是在不依賴(lài)外部監(jiān)督信號(hào)的情況下。

七、結(jié)果

7.1 表1的解讀-開(kāi)放領(lǐng)域問(wèn)答任務(wù)

表1展示了三種模型（Closed Book 模型、 Open Book 模型 和 RAG 模型）在四個(gè)開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集上的測(cè)試結(jié)果。

在這里插入圖片描述

Closed Book 模型：
- T5-11B：該模型的設(shè)計(jì)是通過(guò)預(yù)訓(xùn)練獲得參數(shù)化內(nèi)部知識(shí)，而不依賴(lài)于外部文檔進(jìn)行檢索。
- T5-11B + SSM：是 T5-11B 模型的增強(qiáng)版本，通過(guò)結(jié)合特殊的預(yù)訓(xùn)練任務(wù)（如 salient span masking），提升了在某些任務(wù)上的表現(xiàn)。
Open Book 模型：
- REALM：通過(guò)結(jié)合外部文檔檢索，由于其使用了外部知識(shí)，它在回答復(fù)雜問(wèn)題時(shí)更有優(yōu)勢(shì)。
- DPR：通過(guò) Dense Passage Retrieval 檢索外部文檔，在 TQA 數(shù)據(jù)集上表現(xiàn)最佳，在 NQ、WQ 和 CT 數(shù)據(jù)集上的表現(xiàn)也有提升。
RAG 模型：
- RAG-Token：使用外部文檔的檢索增強(qiáng)生成。
- RAG-Sequence：同樣使用外部文檔檢索，但在生成答案時(shí)使用整個(gè)文檔。

總結(jié)：

Closed Book 模型的表現(xiàn)依賴(lài)于其內(nèi)置的知識(shí)庫(kù)，因此在較大、復(fù)雜的任務(wù)（如 NQ）上表現(xiàn)略差。
Open Book 模型通過(guò)檢索外部知識(shí)庫(kù)，提升了其在所有數(shù)據(jù)集上的表現(xiàn)，尤其是 DPR 在 TQA 數(shù)據(jù)集上表現(xiàn)優(yōu)異。
RAG 模型結(jié)合了生成和檢索，表現(xiàn)出更為平衡且優(yōu)秀的性能，尤其是 RAG-Sequence 在多個(gè)數(shù)據(jù)集上都達(dá)到了更高的得分。

7.2 表2的解讀-生成和分類(lèi)任務(wù)

表 2 展示了幾種模型在生成和分類(lèi)任務(wù)中的測(cè)試得分，包含：抽象問(wèn)題問(wèn)答、生成危險(xiǎn)邊緣風(fēng)格的問(wèn)題和事實(shí)校驗(yàn)。

在這里插入圖片描述

術(shù)語(yǔ)和符號(hào)解釋：

gold context/evidence：金標(biāo)準(zhǔn)上下文/證據(jù)，這個(gè)術(shù)語(yǔ)指的是經(jīng)過(guò)人工篩選或精心標(biāo)注的，與問(wèn)題或任務(wù)高度相關(guān)的上下文或證據(jù)。這些內(nèi)容通常被認(rèn)為是最可靠的信息來(lái)源，用于模型訓(xùn)練或驗(yàn)證。在大規(guī)模 NLP 任務(wù)中，它被視為最理想的輸入形式。
帶星號(hào)的數(shù)據(jù)：表示使用了金標(biāo)準(zhǔn)上下文/證據(jù)來(lái)訓(xùn)練的模型的得分。
帶下劃線(xiàn)的數(shù)據(jù)：表示未使用金標(biāo)準(zhǔn)上下文/證據(jù)來(lái)訓(xùn)練的最優(yōu)模型的得分。

測(cè)試任務(wù)種類(lèi)：

Jeopardy B-1 和 QB-1：這是關(guān)于問(wèn)答生成任務(wù)的兩個(gè)評(píng)分指標(biāo)，通常用于評(píng)估模型生成的準(zhǔn)確性和多樣性。
MS-MARCO R-L 和 B-1：分別代表 Rouge-L 和 BLEU-1 分?jǐn)?shù)，用于評(píng)估模型在生成任務(wù)中的表現(xiàn)。Rouge-L 衡量生成答案與參考答案之間的重疊率，BLEU-1 衡量生成答案的準(zhǔn)確性。
FEVER3 和 FEVER2：這是事實(shí)驗(yàn)證任務(wù)，Label Accuracy 用于評(píng)估模型的標(biāo)簽準(zhǔn)確率，即模型預(yù)測(cè)的正確性。

總的對(duì)比：

SotA（State of the Art）：
- SotA ：指的是在特定任務(wù)或領(lǐng)域中表現(xiàn)最好的技術(shù)或模型。在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理等領(lǐng)域中，SotA 模型是指當(dāng)前已知的最先進(jìn)的模型，通常在某些基準(zhǔn)測(cè)試（例如，開(kāi)放領(lǐng)域問(wèn)答、文本生成或圖像識(shí)別任務(wù)）上取得了最優(yōu)性能。隨著研究的推進(jìn)，新的模型和方法不斷被提出，SotA 模型也會(huì)不斷更新。
- MS-MARCO、FEVER3 和 FEVER2 任務(wù)中，這是當(dāng)前最優(yōu)的模型，但它使用了金標(biāo)準(zhǔn)的上下文訓(xùn)練，因此帶有更高的先驗(yàn)信息。
BART 模型：
- 在生成任務(wù)（Jeopardy 和 MS-MARCO）中，BART 得分相對(duì)較低
- 在分類(lèi)任務(wù) FEVER3 和 FEVER2 中，BART 的表現(xiàn)也不如最優(yōu)模型。
RAG-Token 和 RAG-Sequence 模型：
- RAG-Tok：在生成任務(wù)中表現(xiàn)優(yōu)于 BART。
- RAG-Seq：在生成任務(wù)中的表現(xiàn)也不錯(cuò)，比 BART 的得分高。
- 分類(lèi)任務(wù)：RAG 模型在 FEVER 任務(wù)中表現(xiàn)優(yōu)異，接近最優(yōu)模型。

生成 Jeopardy 問(wèn)題的任務(wù)對(duì)比

RAG-Token 在生成 Jeopardy 問(wèn)題的任務(wù)中表現(xiàn)優(yōu)于 RAG-Sequence。Jeopardy 問(wèn)題通常包含兩個(gè)信息片段，RAG-Token 可能表現(xiàn)更好，因?yàn)樗軌蚪Y(jié)合多個(gè)文檔中的內(nèi)容來(lái)生成答案。

事實(shí)校驗(yàn)任務(wù)對(duì)比（FEVER）

三分類(lèi)任務(wù) FVR3（真假和無(wú)法判斷）：RAG模型的性能與最先進(jìn)的、專(zhuān)門(mén)為這一任務(wù)設(shè)計(jì)的復(fù)雜流水線(xiàn)模型相比，差距僅為4.3%。這些最先進(jìn)的模型依賴(lài)于復(fù)雜的架構(gòu)和大量的工程開(kāi)發(fā)，并且使用了中間的檢索監(jiān)督（即模型訓(xùn)練過(guò)程中通過(guò)給定的證據(jù)進(jìn)行監(jiān)督）。相比之下，RAG并不依賴(lài)這些復(fù)雜的訓(xùn)練方法，而是直接基于檢索到的文檔來(lái)完成任務(wù)，表現(xiàn)非常接近。
二分類(lèi)任務(wù) FVR2（真或假）：RAG與Thorne和Vlachos的RoBERTa模型進(jìn)行了比較，后者是基于提供的“黃金證據(jù)”句子來(lái)判斷聲明真假。盡管RAG并沒(méi)有被提供黃金證據(jù)句子，而是自己檢索相關(guān)文檔，其性能仍然非常接近RoBERTa模型，差距僅為2.7%。
文檔檢索分析：研究還分析了RAG檢索到的文檔是否與FEVER標(biāo)注的黃金證據(jù)文檔一致。在71%的案例中，RAG檢索到的首個(gè)文檔是黃金證據(jù)文檔的一部分。在90%的案例中，RAG檢索到的前10個(gè)文檔中至少有一個(gè)是黃金證據(jù)文檔。

RAG即便沒(méi)有依賴(lài)外部監(jiān)督信號(hào)，只通過(guò)自行檢索證據(jù)來(lái)做判斷，依然表現(xiàn)出了非常接近于最先進(jìn)模型的水平，這展示了RAG模型在無(wú)需復(fù)雜監(jiān)督的情況下也能夠高效地完成任務(wù)。

總結(jié)：

SotA 模型 使用了金標(biāo)準(zhǔn)上下文訓(xùn)練，因此在生成和分類(lèi)任務(wù)中表現(xiàn)最優(yōu)。
RAG 模型 在不使用金標(biāo)準(zhǔn)上下文訓(xùn)練的情況下表現(xiàn)也非常出色，尤其是在生成任務(wù)中，RAG 的多樣性和準(zhǔn)確性都超過(guò)了 BART。
BART 在這些任務(wù)中的表現(xiàn)相對(duì)較弱，尤其是在更復(fù)雜的生成任務(wù)中。

7.3 表3的解讀-生成任務(wù)回答的準(zhǔn)確性和具體性

表3提供了不同模型在生成任務(wù)中的具體輸出示例，旨在比較它們生成的回答的準(zhǔn)確性和具體性。

在這里插入圖片描述

表格結(jié)構(gòu)：

任務(wù) (Task)：代表輸入問(wèn)題所屬的任務(wù)，如 MS-MARCO 問(wèn)答任務(wù)或 Jeopardy 問(wèn)題生成任務(wù)。
輸入 (Input)：為每個(gè)任務(wù)中模型收到的輸入問(wèn)題。
模型 (Model)：指使用的模型類(lèi)型（BART、RAG-T 或 RAG-S）。
生成 (Generation)：代表模型生成的答案。表中通過(guò)問(wèn)號(hào)（“?”）標(biāo)示事實(shí)錯(cuò)誤的回答，星號(hào)（“*”）標(biāo)示部分正確的回答。

任務(wù)解釋：

MS-MARCO 任務(wù)：
- 輸入問(wèn)題如“定義中耳”和“蘇格蘭使用的貨幣是什么”。
- 對(duì)于問(wèn)題“定義中耳”，BART 模型給出了錯(cuò)誤的回答（“中耳是介于中耳和鼻子之間的部分”），而 RAG-T 和 RAG-S 都生成了更正確且具體的回答。
- 對(duì)于問(wèn)題“蘇格蘭使用的貨幣是什么”，BART 和 RAG 模型都給出了正確的答案。
Jeopardy 問(wèn)題生成任務(wù)：
- 對(duì)于問(wèn)題“Washington”，BART 生成了錯(cuò)誤答案（“這個(gè)州在美國(guó)有最多的縣”），而 RAG-T 和 RAG-S 提供了更準(zhǔn)確的描述。
- 對(duì)于問(wèn)題“神曲”，BART 生成的答案部分正確，而 RAG 模型給出了更精確的答案。

總結(jié)：

BART：在部分問(wèn)題上表現(xiàn)欠佳，生成的回答中有一些事實(shí)錯(cuò)誤或部分正確。
RAG-T 和 RAG-S：RAG 模型 比 BART 更少產(chǎn)生幻覺(jué)（即生成不符合事實(shí)的內(nèi)容），通常能生成更具體和更準(zhǔn)確的答案。

該表清楚地展示了 RAG 模型在處理復(fù)雜生成任務(wù)時(shí)比 BART 模型更具優(yōu)勢(shì)，特別是在生成更加準(zhǔn)確和具體的回答方面。

7.4 圖2的解讀

在這里插入圖片描述

這張圖展示了在生成 “Jeopardy” 風(fēng)格的問(wèn)題時(shí)，RAG-Token 模型對(duì)于特定輸入 “Hemingway” 的后驗(yàn)分布（posterior probability），其中生成了兩個(gè)標(biāo)志性的海明威作品：“A Farewell to Arms” 和 “The Sun Also Rises”。這張圖中列出了5個(gè)被檢索到的文檔（Document 1 到 Document 5），其中：

Document 1 涉及海明威的作品《永別了，武器》（A Farewell to Arms）。
Document 2 討論了海明威的另一本作品《太陽(yáng)照常升起》（The Sun Also Rises）。

圖中的熱圖展示了對(duì)于每個(gè)生成的詞（token），RAG-Token 模型是如何在這些文檔之間分配后驗(yàn)概率的。我們可以看到：

當(dāng)生成 “A Farewell to Arms” 時(shí)，模型的后驗(yàn)分布在 Document 1 上具有較高的概率，這意味著它的生成依賴(lài)于 Document 1 的信息。
同樣，當(dāng)生成 “The Sun Also Rises” 時(shí)，后驗(yàn)概率在 Document 2 上有明顯的集中，說(shuō)明該文檔在生成該標(biāo)題時(shí)起到了重要作用。

總結(jié)

這種后驗(yàn)分布的變化反映了 RAG-Token 模型如何使用多個(gè)檢索到的文檔來(lái)生成更準(zhǔn)確的答案。在開(kāi)始生成每個(gè)詞時(shí)，模型會(huì)根據(jù)不同的文檔調(diào)整其注意力，并從最相關(guān)的文檔中提取信息以生成正確的答案。

7.5 表4的解讀-Jeopardy 問(wèn)題生成任務(wù)的事實(shí)性和具體性

表 4 展示了人類(lèi)評(píng)估 Jeopardy 問(wèn)題生成任務(wù)的結(jié)果，評(píng)估了 BART 和 RAG 在兩個(gè)維度上的表現(xiàn)：事實(shí)性（Factuality） 和 具體性（Specificity）。

在這里插入圖片描述

在事實(shí)性方面，42.7% 的評(píng)估認(rèn)為 RAG 比 BART 更好，而只有 7.1% 認(rèn)為 BART 更好。
在具體性方面，37.4% 的評(píng)估認(rèn)為 RAG 更具體，而 16.8% 認(rèn)為 BART 更好。

這表明在人類(lèi)評(píng)估中，RAG 在這兩項(xiàng)任務(wù)上普遍表現(xiàn)優(yōu)于 BART，尤其是在事實(shí)性方面。

7.6 表5的解讀-生成內(nèi)容的多樣性

表 5 比較了在兩個(gè)生成任務(wù)（MSMARCO 和 Jeopardy 問(wèn)題生成）中，幾個(gè)模型生成內(nèi)容的多樣性

在這里插入圖片描述
根據(jù)最近關(guān)于多樣性解碼的研究，可以通過(guò)計(jì)算不同模型生成的總n元組（n-grams）中獨(dú)特n元組的比例（文中用的是三元組 tri-grams），來(lái)探討生成的多樣性。從表中可以看出，RAG-Sequence生成的內(nèi)容比RAG-Token更具多樣性，且二者生成的內(nèi)容都明顯比BART更具多樣性，而無(wú)需使用任何促進(jìn)多樣性的解碼方法。

7.7 表6的解讀-消融實(shí)驗(yàn)評(píng)估檢索機(jī)制的有效性

表6展示了對(duì)RAG模型在開(kāi)發(fā)集上的消融實(shí)驗(yàn)結(jié)果。

在這里插入圖片描述

消融實(shí)驗(yàn)（Ablation Study）是一種用于評(píng)估模型或系統(tǒng)各個(gè)組件貢獻(xiàn)的實(shí)驗(yàn)方法。通過(guò)逐一去除或凍結(jié)模型中的某些組件或特性，觀察性能的變化，可以幫助研究人員理解哪些組件對(duì)最終的模型性能起到了關(guān)鍵作用。

RAG的一個(gè)關(guān)鍵特性是學(xué)習(xí)如何檢索任務(wù)所需的相關(guān)信息。為評(píng)估檢索機(jī)制的有效性，作者進(jìn)行了消融實(shí)驗(yàn)，凍結(jié)了訓(xùn)練中的檢索器，并做了下面幾種比較：

BM25與RAG的向量稠密檢索器的對(duì)比：BM25是一種基于詞頻的傳統(tǒng)檢索器，用于與RAG模型中的向量稠密檢索器進(jìn)行對(duì)比。在此實(shí)驗(yàn)中，用固定的BM25檢索器替代RAG的檢索器，并在計(jì)算 $p (z ∣ x)$ 時(shí)使用BM25的檢索得分作為logits。表6顯示BM25在某些任務(wù)（如FEVER任務(wù)）表現(xiàn)出色，但在開(kāi)放域問(wèn)答任務(wù)（如NQ和TQA）中，RAG的稠密檢索器表現(xiàn)更好。
凍結(jié)檢索器的影響：在“Frozen”行列中，凍結(jié)了檢索器的參數(shù)，使其在訓(xùn)練過(guò)程中保持不變。結(jié)果顯示，凍結(jié)檢索器的性能顯著下降，說(shuō)明允許檢索器的參數(shù)在訓(xùn)練過(guò)程中更新有助于提高模型的整體性能。
不凍結(jié)檢索器的性能：RAG-Token和RAG-Sequence模型在不凍結(jié)檢索器的情況下表現(xiàn)出色，尤其是在開(kāi)放域問(wèn)答任務(wù)中，它們的精確匹配分?jǐn)?shù)高于其他實(shí)驗(yàn)設(shè)置。

通過(guò)這些消融實(shí)驗(yàn)，可以得出結(jié)論，RAG的稠密檢索器在開(kāi)放域任務(wù)中貢獻(xiàn)了較大的性能提升，且允許檢索器在訓(xùn)練中更新是確保其高效工作的關(guān)鍵，

為什么對(duì)于FEVER任務(wù)，BM25表現(xiàn)更好？

可能的原因是FEVER中的聲明（claims）通常與實(shí)體密切相關(guān)，而基于詞語(yǔ)重疊的檢索方法（如BM25）非常適合處理這種類(lèi)型的任務(wù)。

實(shí)體驅(qū)動(dòng)的聲明：FEVER任務(wù)的目標(biāo)是驗(yàn)證自然語(yǔ)言聲明的真實(shí)性，而這些聲明往往與具體的實(shí)體有關(guān)，比如人物、地點(diǎn)、事件等。例如：“喬治·華盛頓是美國(guó)的第一任總統(tǒng)”就是一個(gè)與“喬治·華盛頓”這個(gè)實(shí)體相關(guān)的聲明。因此，檢索器需要找到包含這些實(shí)體信息的證據(jù)文檔。
詞語(yǔ)重疊檢索：BM25是一種基于詞頻和文檔頻率的檢索算法，強(qiáng)調(diào)查詢(xún)中的關(guān)鍵詞與文檔中詞匯的重疊。由于FEVER的聲明通常包含了非常明確的實(shí)體（如人名、地名等），這些實(shí)體也很可能出現(xiàn)在相關(guān)文檔中，因此基于詞匯匹配的BM25算法能很好地找到包含這些實(shí)體的文檔。
適用場(chǎng)景：相較于其他需要更復(fù)雜語(yǔ)義理解的任務(wù)，FEVER的實(shí)體中心化特點(diǎn)使得像BM25這樣簡(jiǎn)單、直接的詞語(yǔ)匹配方法在這個(gè)任務(wù)中表現(xiàn)優(yōu)越。

總結(jié)來(lái)說(shuō)，BM25的強(qiáng)項(xiàng)在于它能快速、有效地找到與查詢(xún)中實(shí)體詞匯相匹配的文檔，而FEVER任務(wù)的實(shí)體驅(qū)動(dòng)特性使得BM25在這個(gè)特定場(chǎng)景下尤其適合。

7.8 圖3的解讀-檢索更多文檔的效果

圖3展示了RAG模型在訓(xùn)練時(shí)檢索更多的文檔對(duì)在兩個(gè)任務(wù)（NQ和MS-MARCO）上性能表現(xiàn)的影響。

在這里插入圖片描述

左圖： 描繪了在NQ任務(wù)中，隨著檢索文檔數(shù)量（K）的增加，NQ準(zhǔn)確匹配率的變化情況。RAG-Sequence在測(cè)試時(shí)檢索更多文檔會(huì)單調(diào)地提高開(kāi)放域問(wèn)答的結(jié)果，隨著檢索文檔數(shù)量從0增加到5，性能快速提升，但之后增長(zhǎng)放緩。在K接近30時(shí)，準(zhǔn)確率趨于平穩(wěn)，繼續(xù)檢索更多文檔對(duì)性能的提升有限。而RAG-Token的性能在檢索10個(gè)文檔時(shí)達(dá)到峰值。
中圖： 描繪了在NQ任務(wù)中的檢索召回率（Answer Recall @ K）隨著文檔數(shù)量增加的表現(xiàn)。可以看出，RAG模型（RAG-Tok和RAG-Seq）和固定DPR的召回率較高，并隨著K值的增加而逐漸提高，而基于詞匯匹配的BM25系統(tǒng)表現(xiàn)顯著差于其他模型。
右圖： 描繪了在MS-MARCO任務(wù)中，隨著文檔數(shù)量增加，RAG模型在Bleu-1和Rouge-L分?jǐn)?shù)上的表現(xiàn)?？梢钥吹?#xff0c;檢索更多文檔會(huì)提高RAG-Token的Rouge-L分?jǐn)?shù)，但以犧牲Bleu-1分?jǐn)?shù)為代價(jià)，而這一效果對(duì)RAG-Sequence的影響較小。

通過(guò)這三幅圖，RAG模型展示了在NQ任務(wù)中，通過(guò)檢索更多文檔，能有效提升答案召回率。而在MS-MARCO任務(wù)中，Rouge-L分?jǐn)?shù)隨著文檔檢索數(shù)量的增加而改善，但以犧牲Bleu-1分?jǐn)?shù)為代價(jià)。

檢索召回率（Answer Recall）

檢索召回率（Answer Recall） 是信息檢索系統(tǒng)或生成模型中的一個(gè)重要指標(biāo)，用于評(píng)估在給定查詢(xún)時(shí)，系統(tǒng)能否從大量文檔中找到正確答案。具體來(lái)說(shuō)，它衡量的是在模型檢索出的文檔列表中，正確文檔的比例。這個(gè)指標(biāo)的理想值為1，表示所有正確答案都被檢索到了；而0表示沒(méi)有一個(gè)正確的答案被找到。

7.9 索引熱交換（Index hot-swapping）-輕松更新知識(shí)庫(kù)

非參數(shù)記憶模型（如 RAG） 的一個(gè)優(yōu)勢(shì)是：隨著世界變化，它可以在測(cè)試時(shí)輕松更新知識(shí)庫(kù)，而不需要像參數(shù)模型（如 T5 或 BART）那樣通過(guò)重新訓(xùn)練才能更新其行為。

背景

在自然語(yǔ)言處理模型中，知識(shí)的更新是一個(gè)挑戰(zhàn)。參數(shù)模型（如 T5 和 BART）將知識(shí)“嵌入”到模型的參數(shù)中，當(dāng)外界信息變化時(shí)，必須通過(guò)重新訓(xùn)練來(lái)更新它們的知識(shí)。而 非參數(shù)記憶模型（如 RAG）通過(guò)將外部知識(shí)（例如 Wikipedia）存儲(chǔ)在一個(gè)獨(dú)立的索引（index）中，并在生成答案時(shí)根據(jù)需要檢索這些文檔。這樣，當(dāng)世界上的知識(shí)發(fā)生變化時(shí)，只需要更新或替換索引，而不需要重新訓(xùn)練模型。

測(cè)試方法

為了證明這個(gè)優(yōu)勢(shì)，作者創(chuàng)建了兩個(gè)索引，一個(gè)基于 2016 年的 Wikipedia 數(shù)據(jù)集，另一個(gè)基于 2018 年的數(shù)據(jù)集。他們?cè)O(shè)計(jì)了一個(gè)測(cè)試來(lái)詢(xún)問(wèn)世界領(lǐng)導(dǎo)人的問(wèn)題（例如，“誰(shuí)是秘魯總統(tǒng)？”），并使用 RAG 模型分別通過(guò)這兩個(gè)索引來(lái)回答這些問(wèn)題。

2016年索引 對(duì)應(yīng) 2016 年世界領(lǐng)導(dǎo)人的問(wèn)題，模型的回答正確率為 70%。
2018年索引 對(duì)應(yīng) 2018 年世界領(lǐng)導(dǎo)人的問(wèn)題，模型的回答正確率為 68%。

當(dāng)索引與問(wèn)題不匹配時(shí)（比如用 2016 年的數(shù)據(jù)回答 2018 年的問(wèn)題），正確率明顯下降，表明索引的時(shí)間相關(guān)性。

結(jié)論

這一實(shí)驗(yàn)表明，通過(guò)簡(jiǎn)單地更換非參數(shù)記憶（即索引），可以輕松更新模型的世界知識(shí)，而不需要像參數(shù)模型那樣耗時(shí)地重新訓(xùn)練。這種“索引熱交換”（Index hot-swapping）方法為更新知識(shí)庫(kù)提供了一種更為靈活和高效的方案。

八、相關(guān)工作-前人的工作和本文的創(chuàng)新點(diǎn)

單任務(wù)檢索

單任務(wù)檢索是指在特定的NLP任務(wù)中通過(guò)使用信息檢索技術(shù)來(lái)提升模型的表現(xiàn)，這是之前的做法。已經(jīng)用這種技術(shù)做過(guò)的任務(wù)包括開(kāi)放領(lǐng)域問(wèn)答、事實(shí)核查、事實(shí)補(bǔ)全、長(zhǎng)篇問(wèn)答、維基百科文章生成、對(duì)話(huà)、翻譯以及語(yǔ)言建模。

本研究的創(chuàng)新之處在于展示了如何使用一個(gè)單一的檢索架構(gòu)來(lái)提升不同NLP任務(wù)中的表現(xiàn)，而不需要為每個(gè)任務(wù)設(shè)計(jì)專(zhuān)門(mén)的架構(gòu)。這意味著，通過(guò)引入統(tǒng)一的基于檢索的方法，模型可以在多個(gè)任務(wù)中有效地學(xué)習(xí)和使用外部信息，顯著提高整體性能。

NLP的通用架構(gòu)

先前的研究表明，在NLP任務(wù)中，使用通用架構(gòu)（不依賴(lài)檢索）取得了巨大的成功。一個(gè)單一的預(yù)訓(xùn)練語(yǔ)言模型在GLUE基準(zhǔn)測(cè)試的各種分類(lèi)任務(wù)中，通過(guò)微調(diào)后展現(xiàn)了出色的表現(xiàn)。早期的模型，如GPT-2，主要通過(guò)單向生成（從左到右）取得了在多個(gè)任務(wù)上的成功。GPT-2證明了一個(gè)統(tǒng)一的語(yǔ)言模型能夠同時(shí)勝任生成式和判別式任務(wù)。

之后的BART和T5進(jìn)一步改進(jìn)了這些模型，它們利用雙向注意力機(jī)制，能夠在處理文本生成和分類(lèi)任務(wù)時(shí)取得更好的結(jié)果。BART和T5是編碼器-解碼器模型，它們不僅在生成任務(wù)中表現(xiàn)出色，也能夠處理分類(lèi)任務(wù)。

本研究的創(chuàng)新之處在于通過(guò)學(xué)習(xí)一個(gè)檢索模塊來(lái)增強(qiáng)這些通用的生成模型，并實(shí)現(xiàn)一個(gè)統(tǒng)一的架構(gòu)來(lái)擴(kuò)展任務(wù)范圍。

學(xué)習(xí)式檢索

在信息檢索領(lǐng)域中，學(xué)習(xí)如何檢索文檔是一個(gè)重要的研究方向，最近的工作中，越來(lái)越多地結(jié)合了預(yù)訓(xùn)練的神經(jīng)語(yǔ)言模型來(lái)提升檢索性能。有些工作通過(guò)優(yōu)化檢索模塊來(lái)輔助具體的下游任務(wù)，例如使用搜索、強(qiáng)化學(xué)習(xí)或潛變量方法來(lái)解決問(wèn)題回答任務(wù)。這些成功的研究利用了不同的基于檢索的架構(gòu)和優(yōu)化技術(shù)，通常在單一任務(wù)上實(shí)現(xiàn)了出色的表現(xiàn)。

本研究的創(chuàng)新之處在于展示了單一的基于檢索的架構(gòu)可以通過(guò)微調(diào)，在多個(gè)任務(wù)上實(shí)現(xiàn)強(qiáng)大的表現(xiàn)。

基于記憶的架構(gòu)

文本的文檔索引可以被視為神經(jīng)網(wǎng)絡(luò)所關(guān)注的一個(gè)大型外部記憶，類(lèi)似于記憶網(wǎng)絡(luò)。傳統(tǒng)的記憶網(wǎng)絡(luò)關(guān)注的是如何在任務(wù)中使用預(yù)訓(xùn)練的嵌入。本研究的創(chuàng)新之處在于它使用的是原始文本作為記憶，而不是通常的向量嵌入。這帶來(lái)了兩個(gè)關(guān)鍵優(yōu)勢(shì)：

人類(lèi)可讀性：因?yàn)槭褂玫氖窃嘉谋?#xff0c;模型的記憶內(nèi)容是人類(lèi)可以直接閱讀和理解的，這為模型的輸出提供了一定的解釋性。例如，用戶(hù)可以查看模型為什么會(huì)產(chǎn)生某個(gè)答案，這是模型可解釋性的重要一環(huán)。
人類(lèi)可寫(xiě)性：這種架構(gòu)允許我們動(dòng)態(tài)更新模型的知識(shí)庫(kù)，只需要編輯文檔索引即可。這意味著在新的知識(shí)出現(xiàn)時(shí)，無(wú)需重新訓(xùn)練整個(gè)模型，只需更新相關(guān)的文檔就可以實(shí)現(xiàn)對(duì)新信息的學(xué)習(xí)。

這種方法在知識(shí)密集型對(duì)話(huà)系統(tǒng)中表現(xiàn)出色，尤其是當(dāng)生成器需要根據(jù)檢索到的事實(shí)文本生成回答時(shí)。通過(guò)直接使用文本，而不是以往的嵌入或向量表示，模型可以在更復(fù)雜和動(dòng)態(tài)的場(chǎng)景下保持高效的生成和準(zhǔn)確性。

檢索與編輯方法

RAG與檢索與編輯風(fēng)格的方法有一定的相似性，但也有不少區(qū)別：

檢索與編輯方法的基本流程：先根據(jù)輸入檢索一個(gè)與輸入相似的訓(xùn)練對(duì)（即輸入-輸出對(duì)），然后通過(guò)輕微的編輯生成最終的輸出。這種方法已經(jīng)在多個(gè)領(lǐng)域得到了成功應(yīng)用，尤其是在機(jī)器翻譯和語(yǔ)義解析領(lǐng)域。
RAG與傳統(tǒng)檢索與編輯的不同：
- 更少依賴(lài)輕微編輯：傳統(tǒng)方法依賴(lài)的是對(duì)檢索到的項(xiàng)目進(jìn)行小范圍的調(diào)整，而RAG技術(shù)的側(cè)重點(diǎn)在于將多個(gè)檢索到的內(nèi)容進(jìn)行匯總，從中提取出最相關(guān)的信息。
- 學(xué)習(xí)潛在檢索：RAG不僅僅是檢索相似的訓(xùn)練對(duì)，還在檢索階段通過(guò)潛在變量學(xué)習(xí)更有效的文檔檢索。
- 檢索證據(jù)文檔：傳統(tǒng)方法主要檢索的是與輸入相關(guān)的訓(xùn)練對(duì)，而RAG更關(guān)注檢索支持輸入的證據(jù)文檔。
未來(lái)研究方向的展望：盡管RAG技術(shù)與檢索與編輯方法存在差異，但RAG技術(shù)可能適用于這些場(chǎng)景，并為未來(lái)的研究提供了有前途的方向。

總結(jié)來(lái)看，RAG不僅增強(qiáng)了檢索，還整合了生成和編輯的能力，能夠更好地處理復(fù)雜的語(yǔ)言生成任務(wù)。

九、討論

本文的貢獻(xiàn)

混合生成模型：本文提出了同時(shí)利用參數(shù)化記憶和非參數(shù)化記憶的RAG模型。
開(kāi)放領(lǐng)域問(wèn)答中的表現(xiàn)：展示了RAG模型在開(kāi)放領(lǐng)域問(wèn)答中取得了最先進(jìn)的結(jié)果。
用戶(hù)偏好：相比于純參數(shù)化的BART，人們更偏愛(ài)RAG的生成，認(rèn)為RAG生成的內(nèi)容更加真實(shí)和具體。
檢索組件的有效性：對(duì)學(xué)習(xí)到的檢索組件進(jìn)行了詳細(xì)的調(diào)查，驗(yàn)證了它的有效性，并說(shuō)明了如何通過(guò)替換檢索索引來(lái)更新模型，而不需要任何再訓(xùn)練。

未來(lái)研究方向

未來(lái)的研究可以探索是否可以從零開(kāi)始聯(lián)合預(yù)訓(xùn)練參數(shù)化和非參數(shù)化記憶模塊，這樣可以進(jìn)一步提升模型的性能。聯(lián)合預(yù)訓(xùn)練的目標(biāo)可能包括類(lèi)似于BART的去噪任務(wù)或其他合適的目標(biāo)函數(shù)。

廣泛應(yīng)用的潛力

RAG技術(shù)展示了它在各種自然語(yǔ)言處理任務(wù)中的潛力。參數(shù)化和非參數(shù)化記憶的結(jié)合為模型提供了強(qiáng)大的生成能力，并開(kāi)辟了新的研究方向，特別是在處理需要?jiǎng)討B(tài)外部知識(shí)的任務(wù)中具有應(yīng)用前景。

十、更廣泛的影響

討論了RAG模型的社會(huì)影響，既包括它帶來(lái)的好處，也提到了潛在的負(fù)面影響。

積極影響

基于事實(shí)的知識(shí)生成：RAG模型通過(guò)引用維基百科等真實(shí)的知識(shí)源，能夠減少生成中出現(xiàn)的虛假內(nèi)容或“幻覺(jué)”。這使得生成的文本更符合事實(shí)，尤其在處理需要可靠數(shù)據(jù)的場(chǎng)景（如醫(yī)療、科學(xué)領(lǐng)域）時(shí)，能夠提供更高的準(zhǔn)確性和可信度。
控制與可解釋性：由于模型依賴(lài)外部知識(shí)，生成的內(nèi)容可以被追溯至具體的來(lái)源（如維基百科的某一篇文章），這提高了內(nèi)容的可解釋性，使用戶(hù)對(duì)生成的知識(shí)更有信心。
應(yīng)用場(chǎng)景廣泛：RAG模型可以應(yīng)用于多個(gè)領(lǐng)域，如醫(yī)學(xué)問(wèn)題的回答、提升工作效率等，幫助人們?cè)诙鄠€(gè)實(shí)際場(chǎng)景中解決問(wèn)題。

潛在風(fēng)險(xiǎn)

外部知識(shí)的局限性：盡管RAG依賴(lài)于外部知識(shí)，但這些知識(shí)庫(kù)（如維基百科）并不是完全真實(shí)或沒(méi)有偏見(jiàn)的。因此，模型生成的內(nèi)容可能受到知識(shí)庫(kù)的偏見(jiàn)或錯(cuò)誤信息的影響。
濫用風(fēng)險(xiǎn)：和其他高級(jí)語(yǔ)言模型（如GPT-2）類(lèi)似，RAG也可能被用來(lái)生成有害或誤導(dǎo)性?xún)?nèi)容，比如在社交媒體上發(fā)布虛假新聞、冒充他人身份，甚至生成垃圾郵件或網(wǎng)絡(luò)釣魚(yú)內(nèi)容。
自動(dòng)化帶來(lái)的失業(yè)風(fēng)險(xiǎn)：隨著語(yǔ)言模型的進(jìn)一步發(fā)展，它們可能在未來(lái)幾十年內(nèi)自動(dòng)化許多當(dāng)前的工作，這也引發(fā)了潛在的社會(huì)問(wèn)題。

為了應(yīng)對(duì)這些風(fēng)險(xiǎn)，文中建議使用AI系統(tǒng)來(lái)對(duì)抗虛假內(nèi)容和自動(dòng)化的垃圾郵件生成，以減少RAG模型的負(fù)面影響。

查看全文

http://www.risenshineclean.com/news/40452.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

目錄

一、簡(jiǎn)介

一句話(huà)簡(jiǎn)介

作者、引用數(shù)、時(shí)間

論文地址

開(kāi)源代碼地址

二、摘要

三、引言

四、整體架構(gòu)（用一個(gè)例子來(lái)闡明）

場(chǎng)景例子：

核心點(diǎn)：

五、方法 （架構(gòu)各部分詳解）

5.1 模型

1. RAG-Sequence Model

2. RAG-Token Model

RAG-Sequence 模型

RAG-Token 模型

總結(jié)

5.2 檢索器：DPR

總結(jié)：

5.3 生成器：BART

5.4 訓(xùn)練

5.5 解碼（推理）

RAG-Token

RAG-Sequence

兩種模型通俗易懂的例子解釋：

徹底解碼 和 快速解碼 的區(qū)別

1. 徹底解碼（Thorough Decoding）：

2. 快速解碼（Fast Decoding）：

總結(jié)：

六、實(shí)驗(yàn)

實(shí)驗(yàn)說(shuō)明

6.1 開(kāi)放領(lǐng)域問(wèn)答（Open-domain Question Answering, QA）

四個(gè)開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集的簡(jiǎn)要介紹：

6.2 抽象問(wèn)題問(wèn)答（Abstractive Question Answering）

6.3 生成危險(xiǎn)邊緣（Jeopardy） 風(fēng)格的問(wèn)題

6.4 事實(shí)校驗(yàn)（Fact Verification）

七、結(jié)果

7.1 表1的解讀-開(kāi)放領(lǐng)域問(wèn)答任務(wù)

總結(jié)：

7.2 表2的解讀-生成和分類(lèi)任務(wù)

術(shù)語(yǔ)和符號(hào)解釋：

測(cè)試任務(wù)種類(lèi)：

總的對(duì)比：

生成 Jeopardy 問(wèn)題的任務(wù)對(duì)比

事實(shí)校驗(yàn)任務(wù)對(duì)比（FEVER）

總結(jié)：

7.3 表3的解讀-生成任務(wù)回答的準(zhǔn)確性和具體性

表格結(jié)構(gòu)：

任務(wù)解釋：

總結(jié)：

7.4 圖2的解讀

總結(jié)

7.5 表4的解讀-Jeopardy 問(wèn)題生成任務(wù)的事實(shí)性和具體性

7.6 表5的解讀-生成內(nèi)容的多樣性

7.7 表6的解讀-消融實(shí)驗(yàn)評(píng)估檢索機(jī)制的有效性

為什么對(duì)于FEVER任務(wù)，BM25表現(xiàn)更好？

7.8 圖3的解讀-檢索更多文檔的效果

檢索召回率（Answer Recall）

7.9 索引熱交換（Index hot-swapping）-輕松更新知識(shí)庫(kù)

背景

測(cè)試方法

結(jié)論

八、相關(guān)工作-前人的工作和本文的創(chuàng)新點(diǎn)

單任務(wù)檢索

NLP的通用架構(gòu)

學(xué)習(xí)式檢索

基于記憶的架構(gòu)

檢索與編輯方法

九、討論

本文的貢獻(xiàn)

未來(lái)研究方向

廣泛應(yīng)用的潛力

十、更廣泛的影響

積極影響

潛在風(fēng)險(xiǎn)

相關(guān)文章：

一、簡(jiǎn)介

作者、引用數(shù)、時(shí)間

二、摘要

三、引言

五、方法（架構(gòu)各部分詳解）

徹底解碼和快速解碼的區(qū)別

六、實(shí)驗(yàn)

6.3 生成危險(xiǎn)邊緣（Jeopardy）風(fēng)格的問(wèn)題

七、結(jié)果

九、討論

十、更廣泛的影響