wordpress slides book南寧哪里有seo推廣廠(chǎng)家
目錄
- 一、簡(jiǎn)介
- 一句話(huà)簡(jiǎn)介
- 作者、引用數(shù)、時(shí)間
- 論文地址
- 開(kāi)源代碼地址
- 二、摘要
- 三、引言
- 四、整體架構(gòu)(用一個(gè)例子來(lái)闡明)
- 場(chǎng)景例子:
- 核心點(diǎn):
- 五、方法 (架構(gòu)各部分詳解)
- 5.1 模型
- 1. RAG-Sequence Model
- 2. RAG-Token Model
- RAG-Sequence 模型
- RAG-Token 模型
- 總結(jié)
- 5.2 檢索器:DPR
- 總結(jié):
- 5.3 生成器:BART
- 5.4 訓(xùn)練
- 5.5 解碼(推理)
- RAG-Token
- RAG-Sequence
- 兩種模型通俗易懂的例子解釋:
- 徹底解碼 和 快速解碼 的區(qū)別
- 1. 徹底解碼(Thorough Decoding):
- 2. 快速解碼(Fast Decoding):
- 總結(jié):
- 六、實(shí)驗(yàn)
- 實(shí)驗(yàn)說(shuō)明
- 6.1 開(kāi)放領(lǐng)域問(wèn)答(Open-domain Question Answering, QA)
- 四個(gè)開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集的簡(jiǎn)要介紹:
- 6.2 抽象問(wèn)題問(wèn)答(Abstractive Question Answering)
- 6.3 生成危險(xiǎn)邊緣(Jeopardy) 風(fēng)格的問(wèn)題
- 6.4 事實(shí)校驗(yàn)(Fact Verification)
- 七、結(jié)果
- 7.1 表1的解讀-開(kāi)放領(lǐng)域問(wèn)答任務(wù)
- 總結(jié):
- 7.2 表2的解讀-生成和分類(lèi)任務(wù)
- 術(shù)語(yǔ)和符號(hào)解釋:
- 測(cè)試任務(wù)種類(lèi):
- 總的對(duì)比:
- 生成 Jeopardy 問(wèn)題的任務(wù)對(duì)比
- 事實(shí)校驗(yàn)任務(wù)對(duì)比(FEVER)
- 總結(jié):
- 7.3 表3的解讀-生成任務(wù)回答的準(zhǔn)確性和具體性
- 表格結(jié)構(gòu):
- 任務(wù)解釋:
- 總結(jié):
- 7.4 圖2的解讀
- 總結(jié)
- 7.5 表4的解讀-Jeopardy 問(wèn)題生成任務(wù)的事實(shí)性和具體性
- 7.6 表5的解讀-生成內(nèi)容的多樣性
- 7.7 表6的解讀-消融實(shí)驗(yàn)評(píng)估檢索機(jī)制的有效性
- 為什么對(duì)于FEVER任務(wù),BM25表現(xiàn)更好?
- 7.8 圖3的解讀-檢索更多文檔的效果
- 檢索召回率(Answer Recall)
- 7.9 索引熱交換(Index hot-swapping)-輕松更新知識(shí)庫(kù)
- 背景
- 測(cè)試方法
- 結(jié)論
- 八、相關(guān)工作-前人的工作和本文的創(chuàng)新點(diǎn)
- 單任務(wù)檢索
- NLP的通用架構(gòu)
- 學(xué)習(xí)式檢索
- 基于記憶的架構(gòu)
- 檢索與編輯方法
- 九、討論
- 本文的貢獻(xiàn)
- 未來(lái)研究方向
- 廣泛應(yīng)用的潛力
- 十、更廣泛的影響
- 積極影響
- 潛在風(fēng)險(xiǎn)
一、簡(jiǎn)介
一句話(huà)簡(jiǎn)介
該論文是RAG的開(kāi)山之作,提出了一種新的模型架構(gòu),將檢索和生成結(jié)合在一起,以解決預(yù)訓(xùn)練模型在知識(shí)密集型自然語(yǔ)言處理任務(wù)中的局限性。
作者、引用數(shù)、時(shí)間
該文出自 Facebook AI Research 團(tuán)隊(duì),Patrick Lewis、Ethan Perez等人,提交于arXiv,且已被NeurIPS 2020接收,第一版發(fā)布于2020年5月22日,被引用數(shù):3600多次。
論文地址
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
開(kāi)源代碼地址
RAG 實(shí)驗(yàn)的代碼已經(jīng)開(kāi)源,作為 HuggingFace Transformers Library(Wolf 等人,2019)的一部分,可在此鏈接查看:
https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag
demo地址
https://huggingface.co/rag/
二、摘要
摘要討論了 RAG(Retrieval-Augmented Generation) 模型的背景、動(dòng)機(jī)和研究貢獻(xiàn):
-
背景:大型語(yǔ)言模型(如 GPT、BERT)通過(guò)大量數(shù)據(jù)預(yù)訓(xùn)練,能夠存儲(chǔ)豐富的知識(shí),并在微調(diào)后表現(xiàn)出色。然而,這些模型在處理需要外部知識(shí)的復(fù)雜任務(wù)時(shí)存在一定局限性,尤其是在訪(fǎng)問(wèn)和操作知識(shí)時(shí)。它們的知識(shí)更新也非常困難。
-
RAG 模型的提出:為了解決這一問(wèn)題,RAG 模型結(jié)合了兩種不同的記憶系統(tǒng):
- 參數(shù)化記憶:模型內(nèi)置的預(yù)訓(xùn)練語(yǔ)言模型,它已經(jīng)通過(guò)大量數(shù)據(jù)學(xué)習(xí)了通用的語(yǔ)言知識(shí)。
- 非參數(shù)化記憶:通過(guò)檢索外部知識(shí)庫(kù)(如維基百科)實(shí)時(shí)獲取的信息,幫助模型生成答案。這樣可以擴(kuò)展模型的知識(shí)范圍,增強(qiáng)生成效果。
-
兩種 RAG 模型對(duì)比:
- 一種是在整個(gè)生成過(guò)程中使用相同的檢索文檔。
- 另一種是在生成每個(gè)詞時(shí),可以從不同的文檔中獲取信息,進(jìn)一步提升生成的靈活性。
-
實(shí)驗(yàn)結(jié)果:通過(guò)對(duì)多個(gè)知識(shí)密集型任務(wù)進(jìn)行微調(diào),實(shí)驗(yàn)結(jié)果表明 RAG 模型在多個(gè)開(kāi)放領(lǐng)域的問(wèn)答任務(wù)中表現(xiàn)優(yōu)異,并且在語(yǔ)言生成任務(wù)中,生成的回答比傳統(tǒng)模型更準(zhǔn)確、更豐富。
RAG 模型的創(chuàng)新在于它通過(guò)結(jié)合內(nèi)置的語(yǔ)言知識(shí)和外部實(shí)時(shí)檢索知識(shí),提升了模型的生成能力和知識(shí)靈活性,尤其適合處理復(fù)雜和開(kāi)放性的問(wèn)題。
三、引言
引言主要介紹了 RAG(Retrieval-Augmented Generation) 模型的背景、現(xiàn)有問(wèn)題和模型設(shè)計(jì)和優(yōu)勢(shì),特別是它如何結(jié)合預(yù)訓(xùn)練語(yǔ)言模型和實(shí)時(shí)文檔檢索來(lái)提升復(fù)雜任務(wù)中的性能。
-
背景和問(wèn)題:預(yù)訓(xùn)練的語(yǔ)言模型(如 BERT 和 GPT)盡管在自然語(yǔ)言處理任務(wù)上取得了很大進(jìn)展,但它們?cè)谔幚碇R(shí)更新、解釋生成內(nèi)容等方面存在局限。生成不真實(shí)的答案(稱(chēng)為“幻覺(jué)”)是它們的一個(gè)常見(jiàn)問(wèn)題。
-
RAG 模型的提出:為了解決這些問(wèn)題,RAG 模型結(jié)合了預(yù)訓(xùn)練的語(yǔ)言模型和外部的非參數(shù)化知識(shí)源(如維基百科)進(jìn)行知識(shí)檢索。RAG 模型在生成答案時(shí),能夠不僅依賴(lài)模型自身的知識(shí),還能通過(guò)實(shí)時(shí)檢索相關(guān)文檔來(lái)生成更加準(zhǔn)確和豐富的答案。
-
創(chuàng)新點(diǎn):與之前的模型相比,RAG 的創(chuàng)新點(diǎn)在于它能夠同時(shí)使用預(yù)訓(xùn)練的參數(shù)化記憶(模型內(nèi)部的知識(shí))和非參數(shù)化記憶(外部檢索到的文檔),使得模型的知識(shí)庫(kù)更加靈活、易于擴(kuò)展,并能夠生成多樣且精確的答案。
-
實(shí)驗(yàn)結(jié)果:實(shí)驗(yàn)表明,RAG 在多個(gè)知識(shí)密集型任務(wù)中的表現(xiàn)優(yōu)于傳統(tǒng)模型,特別是在開(kāi)放領(lǐng)域問(wèn)答和事實(shí)校驗(yàn)任務(wù)中,RAG 展現(xiàn)了生成更準(zhǔn)確、更詳細(xì)回答的能力。
四、整體架構(gòu)(用一個(gè)例子來(lái)闡明)
這張圖展示了 RAG(Retrieval-Augmented Generation) 的整體架構(gòu),為了幫助理解這個(gè)架構(gòu),下面用一個(gè)通俗易懂的例子來(lái)解釋。
場(chǎng)景例子:
你想向智能助手提問(wèn):“誰(shuí)是《神曲》的作者?”(這是你輸入的問(wèn)題)。
-
查詢(xún)編碼器(Query Encoder):
- 你的問(wèn)題先經(jīng)過(guò)查詢(xún)編碼器,模型將這個(gè)問(wèn)題轉(zhuǎn)化為一個(gè)向量表示,即圖中的 q ( x ) q(x) q(x)??梢园阉胂蟪蓪⒆匀徽Z(yǔ)言問(wèn)題轉(zhuǎn)換為計(jì)算機(jī)能夠理解的數(shù)字形式。
-
檢索器(Retriever):
- 接下來(lái),檢索器使用這個(gè)向量去搜索一個(gè)文檔數(shù)據(jù)庫(kù),這個(gè)過(guò)程通過(guò)一種稱(chēng)為最大內(nèi)積搜索(MIPS)的技術(shù)來(lái)實(shí)現(xiàn)。這個(gè)步驟的目的是找到最相關(guān)的文檔,這些文檔中可能包含關(guān)于《神曲》的答案。
- 假設(shè)從數(shù)據(jù)庫(kù)中找到了 4 個(gè)相關(guān)的文檔 z 1 , z 2 , z 3 , z 4 z_1, z_2, z_3, z_4 z1?,z2?,z3?,z4?,每個(gè)文檔都包含與問(wèn)題相關(guān)的內(nèi)容。
-
生成器(Generator):
- 對(duì)于每個(gè)找到的文檔,模型使用生成器(在圖中表示為 p θ p_\theta pθ?)生成一個(gè)可能的回答。這是通過(guò)“參數(shù)化記憶”完成的,即生成模型根據(jù)文檔和問(wèn)題生成一個(gè)文本回答。
- 比如,對(duì)于文檔 z 1 z_1 z1?,生成器可能會(huì)生成:“《神曲》是但丁寫(xiě)的”,而對(duì)于文檔 z 2 z_2 z2?,生成器可能會(huì)產(chǎn)生類(lèi)似的回答。
-
邊緣化(Marginalization):
- 因?yàn)闄z索器找到了多個(gè)文檔,模型會(huì)對(duì)所有文檔的生成結(jié)果進(jìn)行綜合處理,即邊緣化。這個(gè)過(guò)程可以通過(guò)對(duì)所有文檔生成的結(jié)果進(jìn)行加權(quán)求和來(lái)實(shí)現(xiàn)。簡(jiǎn)單來(lái)說(shuō),模型會(huì)將所有文檔的回答綜合起來(lái),最終給出一個(gè)最優(yōu)的預(yù)測(cè)(即“但丁是《神曲》的作者”)。
-
最終輸出:
- 最終,智能助手輸出的回答可能是:“《神曲》是由但丁創(chuàng)作的”,這是結(jié)合了多個(gè)文檔中的信息來(lái)生成的。
核心點(diǎn):
- 參數(shù)化記憶(Parametric Memory):模型通過(guò)預(yù)訓(xùn)練的權(quán)重來(lái)生成回答,這種權(quán)重是通過(guò)大量數(shù)據(jù)學(xué)習(xí)到的,這些權(quán)重參數(shù)已經(jīng)存儲(chǔ)了模型學(xué)到的大量事實(shí)知識(shí)。
- 非參數(shù)化記憶(Non-Parametric Memory):模型依賴(lài)外部文檔庫(kù)(非參數(shù)化的存儲(chǔ)方式)來(lái)輔助生成更準(zhǔn)確的回答,而不是完全依賴(lài)模型內(nèi)部的權(quán)重。
五、方法 (架構(gòu)各部分詳解)
注意:如果看不懂復(fù)雜的數(shù)學(xué)公式部分,可直接跳過(guò),后面就有通俗易懂的例子解釋
5.1 模型
下面為數(shù)學(xué)公式部分,看不懂可跳過(guò)
RAG 有兩種不同模型:RAG-Sequence Model 和 RAG-Token Model。它們主要區(qū)別在于如何處理檢索到的文檔和如何在生成答案時(shí)進(jìn)行邊緣化處理。
1. RAG-Sequence Model
-
過(guò)程:在 RAG-Sequence 模型中,檢索到的文檔作為一個(gè)潛在變量,整個(gè)序列的生成過(guò)程使用相同的文檔。也就是說(shuō),對(duì)于給定的查詢(xún) (x),檢索器會(huì)找到前 (k) 個(gè)相關(guān)的文檔,然后生成器使用同一個(gè)文檔來(lái)生成整個(gè)輸出序列。
-
邊緣化:在生成完成后,模型對(duì)所有文檔的輸出進(jìn)行邊緣化處理。具體的公式是:
p RAG-Sequence ( y ∣ x ) ≈ ∑ z ∈ top-k ( p ( ? ∣ x ) ) p η ( z ∣ x ) p θ ( y ∣ x , z ) p_{\text{RAG-Sequence}}(y|x) \approx \sum_{z \in \text{top-k}(p(\cdot|x))} p_\eta(z|x) p_\theta(y|x, z) pRAG-Sequence?(y∣x)≈z∈top-k(p(?∣x))∑?pη?(z∣x)pθ?(y∣x,z)
其中, p η ( z ∣ x ) p_\eta(z|x) pη?(z∣x) 是檢索到的文檔 (z) 給定查詢(xún) (x) 的概率, p θ ( y ∣ x , z ) p_\theta(y|x, z) pθ?(y∣x,z) 是生成器基于文檔 (z) 生成整個(gè)序列 (y) 的概率。
2. RAG-Token Model
-
過(guò)程:在 RAG-Token 模型中,針對(duì)每一個(gè)生成的目標(biāo) token,模型可以從不同的文檔中選擇內(nèi)容。與 RAG-Sequence 不同的是,生成器不使用同一個(gè)文檔生成整個(gè)輸出序列,而是在生成每個(gè) token 時(shí)可以選擇一個(gè)不同的文檔進(jìn)行生成。
-
邊緣化:每個(gè) token 的生成也會(huì)進(jìn)行邊緣化處理,這意味著在每次生成新 token 時(shí),都根據(jù)每個(gè)文檔生成一個(gè)分布,并結(jié)合這些分布生成下一個(gè) token。具體公式如下:
p RAG-Token ( y ∣ x ) ≈ ∏ i = 1 N ∑ z ∈ top-k ( p ( ? ∣ x ) ) p η ( z ∣ x ) p θ ( y i ∣ x , z , y 1 : i ? 1 ) p_{\text{RAG-Token}}(y|x) \approx \prod_{i=1}^{N} \sum_{z \in \text{top-k}(p(\cdot|x))} p_\eta(z|x) p_\theta(y_i|x, z, y_{1:i-1}) pRAG-Token?(y∣x)≈i=1∏N?z∈top-k(p(?∣x))∑?pη?(z∣x)pθ?(yi?∣x,z,y1:i?1?)
這里, p θ ( y i ∣ x , z , y 1 : i ? 1 ) p_\theta(y_i|x, z, y_{1:i-1}) pθ?(yi?∣x,z,y1:i?1?) 是生成器基于文檔 (z) 和前 (i-1) 個(gè) token (y_{1:i-1}) 生成當(dāng)前 token (y_i) 的概率。
下面為通俗易懂的例子解釋
RAG-Sequence 模型
想象你問(wèn)了一個(gè)問(wèn)題,智能助手從一個(gè)圖書(shū)館里找了幾本相關(guān)的書(shū)。助手從中選了一本書(shū),然后根據(jù)這本書(shū)的內(nèi)容生成整個(gè)回答。這個(gè)過(guò)程中,它一直在參考同一本書(shū),直到回答結(jié)束。之后,它會(huì)比較多個(gè)回答,選出最好的那個(gè)。RAG-Sequence 模型就像這個(gè)助手,它在生成答案時(shí)始終依賴(lài)于同一本書(shū)(一個(gè)文檔),然后通過(guò)多個(gè)文檔生成的回答進(jìn)行對(duì)比,給出最終答案。
RAG-Token 模型
另一種情況是,智能助手不只用一本書(shū),而是每次它要生成一個(gè)詞時(shí),都會(huì)從不同的書(shū)中挑選出一個(gè)詞來(lái)組合答案。比如,它可能用第一本書(shū)生成第一個(gè)詞,然后用第二本書(shū)生成下一個(gè)詞。最后,它把每次從不同書(shū)中挑選的詞組合起來(lái),得到一個(gè)完整的答案。RAG-Token 模型就像這個(gè)助手,它在生成每個(gè)詞的時(shí)候可以參考不同的書(shū)(文檔),所以每個(gè)詞都有可能來(lái)源于不同的地方。
總結(jié)
- RAG-Sequence 模型:在生成整個(gè)答案時(shí),助手只從一本書(shū)中獲取信息。
- RAG-Token 模型:在生成每個(gè)詞時(shí),助手可以從不同的書(shū)中獲取信息。
這使得 RAG-Token 模型更加靈活,能夠從多個(gè)文檔中提取信息,適合那些需要從多個(gè)來(lái)源獲取答案的復(fù)雜問(wèn)題。
5.2 檢索器:DPR
下面為數(shù)學(xué)公式部分,看不懂可跳過(guò)
檢索組件 p η ( z ∣ x ) p_\eta(z|x) pη?(z∣x) 基于 DPR,它采用雙編碼器架構(gòu):
p η ( z ∣ x ) ∝ exp ? ( d ( z ) ? q ( x ) ) p_\eta(z|x) \propto \exp \left( \textvxwlu0yf4(z)^\top \text{q}(x) \right) pη?(z∣x)∝exp(d(z)?q(x))
其中, d ( z ) \textvxwlu0yf4(z) d(z) 是通過(guò) BERT-base 文檔編碼器生成的文檔 z z z 的密集表示, q ( x ) \text{q}(x) q(x) 是通過(guò) 查詢(xún)編碼器生成的查詢(xún) x x x 的表示。兩個(gè)編碼器都基于 BERT 模型。計(jì)算前 K 個(gè)文檔的相關(guān)性得分 p η ( z ∣ x ) p_\eta(z|x) pη?(z∣x) 是一個(gè) 最大內(nèi)積搜索(MIPS) 問(wèn)題,該問(wèn)題可以通過(guò)子線(xiàn)性時(shí)間近似求解。
文中使用預(yù)訓(xùn)練的 DPR 雙編碼器來(lái)初始化檢索器,并建立文檔索引。這個(gè)檢索器被訓(xùn)練用于檢索包含 TriviaQA 和 Natural Questions 數(shù)據(jù)集問(wèn)題答案的文檔。文中將文檔索引稱(chēng)為非參數(shù)化記憶。
-
雙編碼器架構(gòu):
- DPR 使用兩個(gè)編碼器:一個(gè)用于查詢(xún) q ( x ) q(x) q(x),一個(gè)用于文檔 d ( z ) d(z) d(z)。查詢(xún)和文檔的表示都是通過(guò)各自獨(dú)立的 BERT-base 模型生成的。
- 查詢(xún)表示: q ( x ) q(x) q(x) 是查詢(xún) x x x 通過(guò)查詢(xún)編碼器生成的密集向量表示。
- 文檔表示: d ( z ) d(z) d(z) 是文檔 z z z 通過(guò)文檔編碼器生成的密集向量表示。
-
相似度計(jì)算:
- 文檔 z z z 和查詢(xún) x x x 的相似度通過(guò)它們的向量點(diǎn)積來(lái)計(jì)算:
p η ( z ∣ x ) ∝ exp ? ( d ( z ) ? q ( x ) ) p_\eta(z|x) \propto \exp \left( \textvxwlu0yf4(z)^\top \text{q}(x) \right) pη?(z∣x)∝exp(d(z)?q(x))
這個(gè)公式表示的是在給定查詢(xún) x x x 的情況下,檢索到文檔 z z z 的概率。
- 文檔 z z z 和查詢(xún) x x x 的相似度通過(guò)它們的向量點(diǎn)積來(lái)計(jì)算:
-
MIPS(最大內(nèi)積搜索):
- MIPS 是一種高效的算法,用于快速?gòu)拇罅课臋n中找到與查詢(xún)最相關(guān)的前 K 個(gè)文檔。這個(gè)問(wèn)題通過(guò)內(nèi)積最大化來(lái)解決,從而加速檢索過(guò)程,且其時(shí)間復(fù)雜度為子線(xiàn)性。
-
非參數(shù)化記憶:
- 文檔索引被稱(chēng)為 非參數(shù)化記憶,因?yàn)檫@些外部知識(shí)(如維基百科)并沒(méi)有內(nèi)嵌在模型的參數(shù)中,而是通過(guò)動(dòng)態(tài)檢索獲取。因此,模型可以從外部數(shù)據(jù)源中靈活地訪(fǎng)問(wèn)相關(guān)知識(shí),而不依賴(lài)模型內(nèi)的固定知識(shí)。
總結(jié):
DPR 檢索器 通過(guò)雙編碼器架構(gòu)將查詢(xún)和文檔分別編碼為向量,利用內(nèi)積計(jì)算它們的相似度,并通過(guò) MIPS 算法高效檢索出與查詢(xún)相關(guān)的文檔。這個(gè)過(guò)程允許模型動(dòng)態(tài)地訪(fǎng)問(wèn)外部知識(shí)庫(kù),并利用這些知識(shí)生成高質(zhì)量的答案。
下面為通俗易懂的解釋
DPR(Dense Passage Retrieval,稠密段落檢索)是幫助RAG模型進(jìn)行信息檢索的??梢园阉胂蟪梢粋€(gè)非常高效的文檔搜索系統(tǒng)。
-
雙編碼器架構(gòu):
DPR使用了兩個(gè)獨(dú)立的“編碼器”來(lái)分別處理文檔和查詢(xún)問(wèn)題??梢岳斫鉃橛袃蓚€(gè)機(jī)器,一個(gè)負(fù)責(zé)將所有可能的答案(文檔)編碼成一種緊湊的形式(稠密向量),另一個(gè)負(fù)責(zé)將問(wèn)題編碼成類(lèi)似的緊湊形式。 -
匹配文檔和問(wèn)題:
搜索的核心思想是比較問(wèn)題和文檔的“緊湊形式”,看它們之間有多“接近”。接近度越高,說(shuō)明這個(gè)文檔可能越適合回答你的問(wèn)題??梢园堰@個(gè)過(guò)程想象成查找最匹配的鑰匙和鎖,只有最相似的才能成功匹配。 -
預(yù)訓(xùn)練:
這里的編碼器已經(jīng)通過(guò)海量數(shù)據(jù)進(jìn)行過(guò)預(yù)訓(xùn)練(相當(dāng)于已經(jīng)看過(guò)很多問(wèn)題和答案),所以它知道如何高效地將問(wèn)題和答案進(jìn)行匹配。 -
高效檢索:
由于要處理的文檔量非常大,DPR使用了一種叫“最大內(nèi)積搜索”的方法來(lái)加速這個(gè)匹配過(guò)程。就像在一大堆鑰匙里快速找到幾把最可能打開(kāi)鎖的鑰匙。 -
非參數(shù)記憶:
最后,文檔被存儲(chǔ)在一個(gè)叫做“非參數(shù)記憶”的地方。這個(gè)名字聽(tīng)起來(lái)復(fù)雜,但本質(zhì)上只是一個(gè)巨大的文檔庫(kù),系統(tǒng)在需要時(shí)可以隨時(shí)去里面尋找最相關(guān)的答案。
DPR 就像是一個(gè)已經(jīng)學(xué)會(huì)如何快速找到最佳答案的智能搜索引擎。
5.3 生成器:BART
BART 是一個(gè)用于生成文本的強(qiáng)大工具,它可以從輸入的信息中生成連貫的回答。
- BART 是一個(gè) seq2seq(sequence-to-sequence) 模型,預(yù)訓(xùn)練時(shí)使用了一個(gè)帶有“去噪”目標(biāo)的任務(wù),這意味著它能很好地從混亂或不完整的信息中恢復(fù)完整的答案。
- 在這個(gè) RAG 模型中,BART 被用來(lái)生成每個(gè)問(wèn)題的答案。具體來(lái)說(shuō),它結(jié)合了從文檔檢索中獲取到的內(nèi)容 ( z ) 以及用戶(hù)的輸入 ( x ),然后生成答案。
- BART-large 是一種特別大的版本,包含了 4億個(gè)參數(shù),這使得它能夠處理非常復(fù)雜的語(yǔ)言生成任務(wù)。
- 文中還提到,BART 的生成部分被稱(chēng)為 “參數(shù)化記憶”,因?yàn)樯善饕蕾?lài)的知識(shí)是存儲(chǔ)在 BART 模型的參數(shù)中的,這些參數(shù)通過(guò)預(yù)訓(xùn)練學(xué)到了豐富的語(yǔ)言知識(shí)。
換句話(huà)說(shuō),BART 是 RAG 模型中的生成模塊,負(fù)責(zé)從檢索到的文檔中提取信息并生成最終的答案。
5.4 訓(xùn)練
訓(xùn)練過(guò)程的核心思想是聯(lián)合訓(xùn)練,同時(shí)優(yōu)化文檔檢索模塊(Retriever)和生成模塊(Generator)。具體解釋如下:
-
無(wú)監(jiān)督選擇文檔:在訓(xùn)練過(guò)程中,模型不會(huì)明確告訴哪個(gè)文檔最適合當(dāng)前的查詢(xún),而是通過(guò)訓(xùn)練模型來(lái)自行學(xué)習(xí)從文檔庫(kù)中找到相關(guān)的文檔。
-
給定輸入輸出對(duì):訓(xùn)練集由一組輸入/輸出對(duì)組成。例如,輸入可以是一個(gè)問(wèn)題,輸出可以是答案。模型通過(guò)這些已知的輸入和輸出對(duì)來(lái)進(jìn)行微調(diào)。
-
損失函數(shù):模型使用一種叫做“負(fù)對(duì)數(shù)似然”的損失函數(shù)。這意味著它在訓(xùn)練時(shí),會(huì)嘗試最小化生成答案的“錯(cuò)誤程度”,即最大化模型生成正確答案的概率。
-
優(yōu)化器:使用 Adam 優(yōu)化器,這是一種在深度學(xué)習(xí)中常用的技術(shù),可以幫助模型更高效地學(xué)習(xí)和調(diào)整參數(shù)。
-
更新組件:在這個(gè)訓(xùn)練過(guò)程中,文中提到模型并不需要頻繁更新所有部分。尤其是 BERT 文檔編碼器(BERT_d),它很難頻繁更新(因?yàn)榇鷥r(jià)高)。相反,文檔編碼器保持不變,只微調(diào)查詢(xún)編碼器 BERT_q 和 BART 生成器。
簡(jiǎn)而言之,模型通過(guò)調(diào)整它找到的文檔和生成的答案,來(lái)提升自己對(duì)問(wèn)題的理解和回答能力,而不需要頻繁更新所有模塊。
5.5 解碼(推理)
下面為數(shù)學(xué)公式部分,看不懂可跳過(guò)
在測(cè)試時(shí),RAG-Sequence 和 RAG-Token 需要通過(guò)不同方式來(lái)近似求解 arg?max y p ( y ∣ x ) \text{arg max}_y p(y|x) arg?maxy?p(y∣x)。
RAG-Token
RAG-Token 模型 可以被視為一個(gè)標(biāo)準(zhǔn)的自回歸序列到序列(seq2seq)生成器,其轉(zhuǎn)移概率為:
p θ ′ ( y i ∣ x , y 1 : i ? 1 ) = ∑ z ∈ top-K ( p ( ? ∣ x ) ) p η ( z ∣ x ) p θ ( y i ∣ x , z , y 1 : i ? 1 ) p'_\theta(y_i | x, y_{1:i-1}) = \sum_{z \in \text{top-K}(p(\cdot | x))} p_\eta(z|x) p_\theta(y_i | x, z, y_{1:i-1}) pθ′?(yi?∣x,y1:i?1?)=z∈top-K(p(?∣x))∑?pη?(z∣x)pθ?(yi?∣x,z,y1:i?1?)
解碼時(shí),可以將 p θ ′ ( y i ∣ x , y 1 : i ? 1 ) p'_\theta(y_i | x, y_{1:i-1}) pθ′?(yi?∣x,y1:i?1?) 插入標(biāo)準(zhǔn)的束搜索解碼器中。
RAG-Sequence
對(duì)于 RAG-Sequence,由于 p ( y ∣ x ) p(y|x) p(y∣x) 的似然并沒(méi)有分解為傳統(tǒng)的逐 token 似然,無(wú)法通過(guò)單一的束搜索來(lái)解碼。我們需要對(duì)每個(gè)文檔 z z z 運(yùn)行束搜索,對(duì)每個(gè)假設(shè) y y y 進(jìn)行打分,使用 p θ ( y i ∣ x , z , y 1 : i ? 1 ) p_\theta(y_i | x, z, y_{1:i-1}) pθ?(yi?∣x,z,y1:i?1?)。這會(huì)產(chǎn)生一組假設(shè) Y Y Y,其中某些假設(shè)可能不會(huì)在所有文檔的束搜索中出現(xiàn)。為估計(jì)假設(shè) y y y 的概率,我們會(huì)對(duì)每個(gè)沒(méi)有生成 y y y 的文檔 z z z 運(yùn)行額外的前向傳播,將生成器概率與 p η ( z ∣ x ) p_\eta(z|x) pη?(z∣x) 相乘,之后對(duì)所有束的邊緣化概率求和。我們將這種解碼過(guò)程稱(chēng)為“徹底解碼(Thorough Decoding)”。
對(duì)于較長(zhǎng)的輸出序列,集合 Y Y Y 會(huì)變得很大,因此需要多次前向傳播。為更高效的解碼,可以進(jìn)一步近似處理,假設(shè) p θ ( y ∣ x , z i ) ≈ 0 p_\theta(y | x, z_i) \approx 0 pθ?(y∣x,zi?)≈0,如果 y y y 在束搜索時(shí)沒(méi)有從 z i z_i zi? 中生成。通過(guò)這種方式,一旦候選集 Y Y Y 生成,就無(wú)需為 y y y 運(yùn)行額外的前向傳播。我們稱(chēng)這種解碼過(guò)程為“快速解碼(Fast Decoding)”。
下面為通俗易懂的例子解釋
兩種模型通俗易懂的例子解釋:
想象你在玩一個(gè)問(wèn)答游戲。你輸入了一個(gè)問(wèn)題,模型要根據(jù)從多個(gè)書(shū)籍中找到的內(nèi)容來(lái)生成一個(gè)答案。
-
RAG-Token 模型 就像是一個(gè)助手,每次生成一個(gè)字或單詞時(shí),它會(huì)參考多本書(shū),找到最適合的一本書(shū)來(lái)決定下一個(gè)字或者單詞。這就像是在每一步重新選擇最合適的參考資料。
-
RAG-Sequence 模型 更像是這樣:它首先選擇了一本最有可能包含答案的書(shū),然后將所有注意力集中在這本書(shū)上來(lái)生成整個(gè)答案。這需要逐步檢查每一個(gè)句子,因此更耗時(shí),但可以確保生成的答案上下文一致。
在解碼過(guò)程中,RAG-Token 模型 更靈活,因?yàn)樗梢詮牟煌臅?shū)中獲取信息;而 RAG-Sequence 模型 則在生成每個(gè)答案時(shí)使用單一文檔,通過(guò)更加詳細(xì)的解碼過(guò)程來(lái)生成答案。
兩種解碼方式的區(qū)別
徹底解碼 和 快速解碼 的區(qū)別
徹底解碼(Thorough Decoding) 和 快速解碼(Fast Decoding) 的區(qū)別可以通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。想象你在做一個(gè)選擇題考試,而你的目標(biāo)是找到最正確的答案。你有兩種策略可以選擇:徹底檢查每一個(gè)選項(xiàng)(對(duì)應(yīng)徹底解碼)和 快速縮小選項(xiàng)范圍(對(duì)應(yīng)快速解碼)。
1. 徹底解碼(Thorough Decoding):
假設(shè)你有 10 本參考書(shū),你需要檢查每一本書(shū)中的內(nèi)容來(lái)回答問(wèn)題。每次你得到了一個(gè)潛在的答案時(shí),你會(huì)去每一本書(shū)中查找是否有相關(guān)內(nèi)容,然后再根據(jù)所有書(shū)籍中的信息給出最終答案。這個(gè)過(guò)程就像是“徹底解碼”:它需要你從所有文檔中一一驗(yàn)證每一個(gè)潛在的答案,再將這些信息結(jié)合起來(lái),最后得出最準(zhǔn)確的答案。
在模型中,徹底解碼 的過(guò)程如下:你生成了一個(gè)候選答案 ( y ),接著你對(duì)每一個(gè)檢索到的文檔 ( z ) 進(jìn)行前向傳播,計(jì)算 p θ ( y ∣ x , z ) p_\theta(y|x, z) pθ?(y∣x,z) 的值。然后你對(duì)這些概率進(jìn)行加權(quán)求和,得出最終的答案。這種方法比較慢,因?yàn)樾枰啻吻跋騻鞑?#xff0c;但可以保證信息的完整性。
2. 快速解碼(Fast Decoding):
而快速解碼 就像是你一開(kāi)始檢查了部分選項(xiàng),然后認(rèn)為某些參考書(shū)不可能提供答案,直接忽略它們。你只會(huì)查看那些最可能有用的參考書(shū),而不再去查閱所有書(shū)籍。這樣雖然不是 100% 確定,但可以更快地縮小范圍,得到一個(gè)合理的答案。
在模型中,快速解碼 的過(guò)程是:如果某個(gè)候選答案 ( y ) 沒(méi)有在某個(gè)文檔 ( z ) 中生成,你可以近似認(rèn)為 p θ ( y ∣ x , z i ) ≈ 0 p_\theta(y | x, z_i) \approx 0 pθ?(y∣x,zi?)≈0。這樣一來(lái),你就不需要對(duì)每個(gè)文檔都做前向傳播,節(jié)省了時(shí)間。這種方法更高效,適合生成長(zhǎng)答案時(shí)使用,但相對(duì)于徹底解碼,它可能會(huì)略微降低答案的準(zhǔn)確性。
總結(jié):
- 徹底解碼:像是你每次遇到問(wèn)題時(shí),都認(rèn)真檢查每一個(gè)可能的文檔或者書(shū)籍,確保答案無(wú)誤。這種方法較慢但更精確。
- 快速解碼:你根據(jù)一部分信息快速做出決定,只檢查最可能的來(lái)源,而跳過(guò)那些不太相關(guān)的文檔。這種方法更快,但有時(shí)可能略微犧牲準(zhǔn)確性。
六、實(shí)驗(yàn)
實(shí)驗(yàn)說(shuō)明
-
數(shù)據(jù)來(lái)源:所有實(shí)驗(yàn)都使用了 維基百科 作為模型的知識(shí)來(lái)源。具體來(lái)說(shuō),使用了 2018年12月 的維基百科快照,這些數(shù)據(jù)被分割成了較小的“文檔塊”,每塊包含 100 個(gè)單詞。這樣總共形成了大約 2100萬(wàn)份文檔。
-
檢索過(guò)程:實(shí)驗(yàn)中使用了 MIPS(最大內(nèi)積搜索)技術(shù)來(lái)進(jìn)行快速的文檔檢索,并且使用了 FAISS 作為實(shí)現(xiàn)工具,這是一個(gè)常用的高效相似性搜索庫(kù)。同時(shí)使用了一種叫做“分層可導(dǎo)航小世界網(wǎng)絡(luò)”的算法來(lái)加速文檔的查找。
-
訓(xùn)練與測(cè)試:在訓(xùn)練過(guò)程中,每次查詢(xún)時(shí),模型會(huì)從文檔庫(kù)中檢索出最相關(guān)的前 k 個(gè)文檔(k 的取值為 5、10 等),然后模型基于這些文檔進(jìn)行答案生成。在測(cè)試時(shí),同樣也使用這些檢索到的文檔來(lái)生成答案。
6.1 開(kāi)放領(lǐng)域問(wèn)答(Open-domain Question Answering, QA)
開(kāi)放領(lǐng)域問(wèn)答是指系統(tǒng)需要回答范圍廣泛的問(wèn)題,并且不能依賴(lài)于特定領(lǐng)域的知識(shí)。在這里,RAG 模型通過(guò)結(jié)合檢索的外部知識(shí)和生成能力來(lái)回答這些問(wèn)題。
-
訓(xùn)練方法:通過(guò)最小化答案生成的錯(cuò)誤率來(lái)訓(xùn)練模型,即使用了一種叫做“負(fù)對(duì)數(shù)似然”的技術(shù)。這種方法幫助模型提高生成正確答案的概率。
-
對(duì)比實(shí)驗(yàn):將 RAG 模型與兩類(lèi)方法進(jìn)行了比較:
- 抽取式 QA:這類(lèi)方法直接從檢索到的文檔中提取出答案片段。
- 閉卷 QA:這類(lèi)方法生成答案時(shí)不依賴(lài)外部文檔,只依賴(lài)模型內(nèi)部學(xué)習(xí)到的知識(shí)。
-
數(shù)據(jù)集:研究使用了四個(gè)開(kāi)放領(lǐng)域的問(wèn)答數(shù)據(jù)集(NQ、TQA、WQ、CT),這些數(shù)據(jù)集為研究提供了不同類(lèi)型的問(wèn)題和測(cè)試平臺(tái)。
四個(gè)開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集的簡(jiǎn)要介紹:
-
NQ (Natural Questions):
- Natural Questions 是由谷歌推出的一個(gè)大規(guī)模開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集。它包含了從 Google 搜索中獲取的真實(shí)問(wèn)題,并且每個(gè)問(wèn)題都對(duì)應(yīng)了一個(gè)來(lái)自 Wikipedia 的長(zhǎng)文檔。任務(wù)要求模型找到文檔中的片段并生成正確的答案。這個(gè)數(shù)據(jù)集特別適合訓(xùn)練模型處理復(fù)雜問(wèn)題和長(zhǎng)文檔中的答案定位。
-
TQA (TriviaQA):
- TriviaQA 是一個(gè)包含了真實(shí)問(wèn)答比賽(trivia)中的問(wèn)題的數(shù)據(jù)集。這些問(wèn)題通常較為復(fù)雜,并且答案可能出現(xiàn)在多個(gè)文檔或網(wǎng)頁(yè)中。TriviaQA 提供了多種格式的答案,包括提取式答案和文檔片段,因此模型不僅要定位正確答案,還需要理解上下文。
-
WQ (WebQuestions):
- WebQuestions 是一個(gè)基于實(shí)際用戶(hù)通過(guò) Google 搜索提出的問(wèn)題數(shù)據(jù)集。問(wèn)題的答案通??梢栽?Freebase 知識(shí)圖譜中找到。這個(gè)數(shù)據(jù)集挑戰(zhàn)模型從結(jié)構(gòu)化知識(shí)中找到答案,適合于基于知識(shí)圖譜的問(wèn)答系統(tǒng)。
-
CT (CuratedTrec):
- CuratedTrec 是從 TREC(Text REtrieval Conference)的問(wèn)答任務(wù)中挑選的一個(gè)數(shù)據(jù)集。它包含了一組精心挑選的問(wèn)題和文檔,主要用來(lái)評(píng)估模型在從非結(jié)構(gòu)化文檔中提取答案時(shí)的表現(xiàn)。
這些數(shù)據(jù)集共同為開(kāi)放領(lǐng)域問(wèn)答提供了多樣性挑戰(zhàn),測(cè)試模型在各種情況下生成正確答案的能力。
6.2 抽象問(wèn)題問(wèn)答(Abstractive Question Answering)
-
MSMARCO 數(shù)據(jù)集:這是一個(gè)用來(lái)測(cè)試生成模型能力的任務(wù)。它提供了一些問(wèn)題和多個(gè)高質(zhì)量的參考段落,幫助模型生成答案。實(shí)驗(yàn)中,研究者并不使用這些參考段落,而僅依賴(lài)模型的生成能力,這使得任務(wù)更加困難。
-
抽象問(wèn)答 vs. 抽取問(wèn)答:抽象問(wèn)答是指模型生成完整的句子答案,而不僅僅是從文檔中抽取現(xiàn)有的句子。這使得回答更自然、更流暢,但也更加依賴(lài)模型的語(yǔ)言生成能力。
-
挑戰(zhàn):一些問(wèn)題(例如“加利福尼亞火山鎮(zhèn)的天氣如何?”)很難只依靠普通文檔生成匹配的答案,因?yàn)檫@些問(wèn)題可能需要訪(fǎng)問(wèn)最新的或者具體的數(shù)據(jù)庫(kù)來(lái)獲取答案。因此,如果模型不能使用預(yù)定義的段落或參考資料,表現(xiàn)會(huì)下降。
-
參數(shù)化知識(shí)的使用:RAG 模型可以通過(guò)其預(yù)訓(xùn)練中學(xué)到的知識(shí)來(lái)回答一些問(wèn)題,這被稱(chēng)為“參數(shù)化知識(shí)”。這意味著即使沒(méi)有具體的文檔,模型也可以依賴(lài)預(yù)先學(xué)習(xí)的知識(shí)生成合理的答案。
6.3 生成危險(xiǎn)邊緣(Jeopardy) 風(fēng)格的問(wèn)題
使用 RAG 模型 生成 Jeopardy 風(fēng)格的問(wèn)題,并與 BART 模型 進(jìn)行對(duì)比。Jeopardy 問(wèn)題與傳統(tǒng)的開(kāi)放領(lǐng)域問(wèn)答任務(wù)不同,因?yàn)樗蠡谝阎拇鸢干删_的問(wèn)題,而不是直接從文檔中提取答案。
-
數(shù)據(jù)集:實(shí)驗(yàn)使用了 SearchQA 數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,包含大量的訓(xùn)練、驗(yàn)證和測(cè)試樣本。
-
評(píng)估方法:研究人員使用了 Q-BLEU-1 作為評(píng)估指標(biāo),這個(gè)指標(biāo)在匹配實(shí)體時(shí)更為有效。除此之外,還通過(guò)人工評(píng)估模型生成問(wèn)題的準(zhǔn)確性(是否符合事實(shí))和具體性(問(wèn)題與答案是否密切相關(guān))。
-
模型對(duì)比:RAG 模型和 BART 模型都被用來(lái)生成 Jeopardy 風(fēng)格的問(wèn)題,評(píng)估人員會(huì)比較兩個(gè)模型生成的問(wèn)題,看看哪個(gè)問(wèn)題更好。
這一實(shí)驗(yàn)用于測(cè)試 RAG 模型的生成能力,尤其是在生成復(fù)雜問(wèn)題時(shí)的表現(xiàn)。
6.4 事實(shí)校驗(yàn)(Fact Verification)
該任務(wù)要求模型從維基百科中檢索證據(jù),以判斷給定聲明是否正確。
-
FEVER 任務(wù):FEVER 是一個(gè)經(jīng)典的事實(shí)校驗(yàn)任務(wù),要求模型基于外部證據(jù)(如維基百科)來(lái)驗(yàn)證聲明的真假或確定是否缺少信息。這是一個(gè)復(fù)雜的推理問(wèn)題,因?yàn)槟P托枰粌H找到相關(guān)信息,還要做出合理的推斷。
-
RAG 模型的應(yīng)用:研究人員使用 RAG 模型進(jìn)行分類(lèi),而不是生成答案。模型在這項(xiàng)任務(wù)中的作用是找到與聲明相關(guān)的證據(jù),然后根據(jù)這些證據(jù)判斷聲明的正確性。這與問(wèn)答任務(wù)不同,因?yàn)樗鼜?qiáng)調(diào)推理和分類(lèi),而不是文本生成。
-
與其他方法的不同:與其他方法不同,研究人員并未使用額外的監(jiān)督信號(hào)來(lái)告訴模型哪些證據(jù)是最好的。這使得 RAG 模型在沒(méi)有明確指導(dǎo)的情況下,也能夠處理更廣泛的任務(wù)。這種方法更接近實(shí)際應(yīng)用場(chǎng)景,因?yàn)樵诂F(xiàn)實(shí)世界中,可能沒(méi)有足夠的監(jiān)督信號(hào)來(lái)幫助模型識(shí)別最相關(guān)的證據(jù)。
通過(guò)這個(gè)任務(wù),作者展示了 RAG 模型在處理復(fù)雜的事實(shí)校驗(yàn)問(wèn)題時(shí)的能力,尤其是在不依賴(lài)外部監(jiān)督信號(hào)的情況下。
七、結(jié)果
7.1 表1的解讀-開(kāi)放領(lǐng)域問(wèn)答任務(wù)
表1展示了三種模型(Closed Book 模型、 Open Book 模型 和 RAG 模型)在四個(gè)開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集上的測(cè)試結(jié)果。
-
Closed Book 模型:
- T5-11B:該模型的設(shè)計(jì)是通過(guò)預(yù)訓(xùn)練獲得參數(shù)化內(nèi)部知識(shí),而不依賴(lài)于外部文檔進(jìn)行檢索。
- T5-11B + SSM:是 T5-11B 模型的增強(qiáng)版本,通過(guò)結(jié)合特殊的預(yù)訓(xùn)練任務(wù)(如 salient span masking),提升了在某些任務(wù)上的表現(xiàn)。
-
Open Book 模型:
- REALM:通過(guò)結(jié)合外部文檔檢索,由于其使用了外部知識(shí),它在回答復(fù)雜問(wèn)題時(shí)更有優(yōu)勢(shì)。
- DPR:通過(guò) Dense Passage Retrieval 檢索外部文檔,在 TQA 數(shù)據(jù)集上表現(xiàn)最佳,在 NQ、WQ 和 CT 數(shù)據(jù)集上的表現(xiàn)也有提升。
-
RAG 模型:
- RAG-Token:使用外部文檔的檢索增強(qiáng)生成。
- RAG-Sequence:同樣使用外部文檔檢索,但在生成答案時(shí)使用整個(gè)文檔。
總結(jié):
- Closed Book 模型的表現(xiàn)依賴(lài)于其內(nèi)置的知識(shí)庫(kù),因此在較大、復(fù)雜的任務(wù)(如 NQ)上表現(xiàn)略差。
- Open Book 模型通過(guò)檢索外部知識(shí)庫(kù),提升了其在所有數(shù)據(jù)集上的表現(xiàn),尤其是 DPR 在 TQA 數(shù)據(jù)集上表現(xiàn)優(yōu)異。
- RAG 模型結(jié)合了生成和檢索,表現(xiàn)出更為平衡且優(yōu)秀的性能,尤其是 RAG-Sequence 在多個(gè)數(shù)據(jù)集上都達(dá)到了更高的得分。
7.2 表2的解讀-生成和分類(lèi)任務(wù)
表 2 展示了幾種模型在生成和分類(lèi)任務(wù)中的測(cè)試得分,包含:抽象問(wèn)題問(wèn)答、生成危險(xiǎn)邊緣風(fēng)格的問(wèn)題和事實(shí)校驗(yàn)。
術(shù)語(yǔ)和符號(hào)解釋:
- gold context/evidence:金標(biāo)準(zhǔn)上下文/證據(jù),這個(gè)術(shù)語(yǔ)指的是經(jīng)過(guò)人工篩選或精心標(biāo)注的,與問(wèn)題或任務(wù)高度相關(guān)的上下文或證據(jù)。這些內(nèi)容通常被認(rèn)為是最可靠的信息來(lái)源,用于模型訓(xùn)練或驗(yàn)證。在大規(guī)模 NLP 任務(wù)中,它被視為最理想的輸入形式。
- 帶星號(hào)的數(shù)據(jù):表示使用了金標(biāo)準(zhǔn)上下文/證據(jù)來(lái)訓(xùn)練的模型的得分。
- 帶下劃線(xiàn)的數(shù)據(jù):表示未使用金標(biāo)準(zhǔn)上下文/證據(jù)來(lái)訓(xùn)練的最優(yōu)模型的得分。
測(cè)試任務(wù)種類(lèi):
- Jeopardy B-1 和 QB-1:這是關(guān)于問(wèn)答生成任務(wù)的兩個(gè)評(píng)分指標(biāo),通常用于評(píng)估模型生成的準(zhǔn)確性和多樣性。
- MS-MARCO R-L 和 B-1:分別代表 Rouge-L 和 BLEU-1 分?jǐn)?shù),用于評(píng)估模型在生成任務(wù)中的表現(xiàn)。Rouge-L 衡量生成答案與參考答案之間的重疊率,BLEU-1 衡量生成答案的準(zhǔn)確性。
- FEVER3 和 FEVER2:這是事實(shí)驗(yàn)證任務(wù),Label Accuracy 用于評(píng)估模型的標(biāo)簽準(zhǔn)確率,即模型預(yù)測(cè)的正確性。
總的對(duì)比:
-
SotA(State of the Art):
- SotA :指的是在特定任務(wù)或領(lǐng)域中表現(xiàn)最好的技術(shù)或模型。在機(jī)器學(xué)習(xí)和自然語(yǔ)言處理等領(lǐng)域中,SotA 模型是指當(dāng)前已知的最先進(jìn)的模型,通常在某些基準(zhǔn)測(cè)試(例如,開(kāi)放領(lǐng)域問(wèn)答、文本生成或圖像識(shí)別任務(wù))上取得了最優(yōu)性能。隨著研究的推進(jìn),新的模型和方法不斷被提出,SotA 模型也會(huì)不斷更新。
- MS-MARCO、FEVER3 和 FEVER2 任務(wù)中,這是當(dāng)前最優(yōu)的模型,但它使用了金標(biāo)準(zhǔn)的上下文訓(xùn)練,因此帶有更高的先驗(yàn)信息。
-
BART 模型:
- 在生成任務(wù)(Jeopardy 和 MS-MARCO)中,BART 得分相對(duì)較低
- 在分類(lèi)任務(wù) FEVER3 和 FEVER2 中,BART 的表現(xiàn)也不如最優(yōu)模型。
-
RAG-Token 和 RAG-Sequence 模型:
- RAG-Tok:在生成任務(wù)中表現(xiàn)優(yōu)于 BART。
- RAG-Seq:在生成任務(wù)中的表現(xiàn)也不錯(cuò),比 BART 的得分高。
- 分類(lèi)任務(wù):RAG 模型在 FEVER 任務(wù)中表現(xiàn)優(yōu)異,接近最優(yōu)模型。
生成 Jeopardy 問(wèn)題的任務(wù)對(duì)比
RAG-Token 在生成 Jeopardy 問(wèn)題的任務(wù)中表現(xiàn)優(yōu)于 RAG-Sequence。Jeopardy 問(wèn)題通常包含兩個(gè)信息片段,RAG-Token 可能表現(xiàn)更好,因?yàn)樗軌蚪Y(jié)合多個(gè)文檔中的內(nèi)容來(lái)生成答案。
事實(shí)校驗(yàn)任務(wù)對(duì)比(FEVER)
-
三分類(lèi)任務(wù) FVR3(真假和無(wú)法判斷):RAG模型的性能與最先進(jìn)的、專(zhuān)門(mén)為這一任務(wù)設(shè)計(jì)的復(fù)雜流水線(xiàn)模型相比,差距僅為4.3%。這些最先進(jìn)的模型依賴(lài)于復(fù)雜的架構(gòu)和大量的工程開(kāi)發(fā),并且使用了中間的檢索監(jiān)督(即模型訓(xùn)練過(guò)程中通過(guò)給定的證據(jù)進(jìn)行監(jiān)督)。相比之下,RAG并不依賴(lài)這些復(fù)雜的訓(xùn)練方法,而是直接基于檢索到的文檔來(lái)完成任務(wù),表現(xiàn)非常接近。
-
二分類(lèi)任務(wù) FVR2(真或假):RAG與Thorne和Vlachos的RoBERTa模型進(jìn)行了比較,后者是基于提供的“黃金證據(jù)”句子來(lái)判斷聲明真假。盡管RAG并沒(méi)有被提供黃金證據(jù)句子,而是自己檢索相關(guān)文檔,其性能仍然非常接近RoBERTa模型,差距僅為2.7%。
-
文檔檢索分析:研究還分析了RAG檢索到的文檔是否與FEVER標(biāo)注的黃金證據(jù)文檔一致。在71%的案例中,RAG檢索到的首個(gè)文檔是黃金證據(jù)文檔的一部分。在90%的案例中,RAG檢索到的前10個(gè)文檔中至少有一個(gè)是黃金證據(jù)文檔。
RAG即便沒(méi)有依賴(lài)外部監(jiān)督信號(hào),只通過(guò)自行檢索證據(jù)來(lái)做判斷,依然表現(xiàn)出了非常接近于最先進(jìn)模型的水平,這展示了RAG模型在無(wú)需復(fù)雜監(jiān)督的情況下也能夠高效地完成任務(wù)。
總結(jié):
- SotA 模型 使用了金標(biāo)準(zhǔn)上下文訓(xùn)練,因此在生成和分類(lèi)任務(wù)中表現(xiàn)最優(yōu)。
- RAG 模型 在不使用金標(biāo)準(zhǔn)上下文訓(xùn)練的情況下表現(xiàn)也非常出色,尤其是在生成任務(wù)中,RAG 的多樣性和準(zhǔn)確性都超過(guò)了 BART。
- BART 在這些任務(wù)中的表現(xiàn)相對(duì)較弱,尤其是在更復(fù)雜的生成任務(wù)中。
7.3 表3的解讀-生成任務(wù)回答的準(zhǔn)確性和具體性
表3提供了不同模型在生成任務(wù)中的具體輸出示例,旨在比較它們生成的回答的準(zhǔn)確性和具體性。
表格結(jié)構(gòu):
- 任務(wù) (Task):代表輸入問(wèn)題所屬的任務(wù),如 MS-MARCO 問(wèn)答任務(wù)或 Jeopardy 問(wèn)題生成任務(wù)。
- 輸入 (Input):為每個(gè)任務(wù)中模型收到的輸入問(wèn)題。
- 模型 (Model):指使用的模型類(lèi)型(BART、RAG-T 或 RAG-S)。
- 生成 (Generation):代表模型生成的答案。表中通過(guò)問(wèn)號(hào)(“?”)標(biāo)示事實(shí)錯(cuò)誤的回答,星號(hào)(“*”)標(biāo)示部分正確的回答。
任務(wù)解釋:
-
MS-MARCO 任務(wù):
- 輸入問(wèn)題如“定義中耳”和“蘇格蘭使用的貨幣是什么”。
- 對(duì)于問(wèn)題“定義中耳”,BART 模型給出了錯(cuò)誤的回答(“中耳是介于中耳和鼻子之間的部分”),而 RAG-T 和 RAG-S 都生成了更正確且具體的回答。
- 對(duì)于問(wèn)題“蘇格蘭使用的貨幣是什么”,BART 和 RAG 模型都給出了正確的答案。
-
Jeopardy 問(wèn)題生成任務(wù):
- 對(duì)于問(wèn)題“Washington”,BART 生成了錯(cuò)誤答案(“這個(gè)州在美國(guó)有最多的縣”),而 RAG-T 和 RAG-S 提供了更準(zhǔn)確的描述。
- 對(duì)于問(wèn)題“神曲”,BART 生成的答案部分正確,而 RAG 模型給出了更精確的答案。
總結(jié):
- BART:在部分問(wèn)題上表現(xiàn)欠佳,生成的回答中有一些事實(shí)錯(cuò)誤或部分正確。
- RAG-T 和 RAG-S:RAG 模型 比 BART 更少產(chǎn)生幻覺(jué)(即生成不符合事實(shí)的內(nèi)容),通常能生成更具體和更準(zhǔn)確的答案。
該表清楚地展示了 RAG 模型在處理復(fù)雜生成任務(wù)時(shí)比 BART 模型更具優(yōu)勢(shì),特別是在生成更加準(zhǔn)確和具體的回答方面。
7.4 圖2的解讀
這張圖展示了在生成 “Jeopardy” 風(fēng)格的問(wèn)題時(shí),RAG-Token 模型對(duì)于特定輸入 “Hemingway” 的后驗(yàn)分布(posterior probability),其中生成了兩個(gè)標(biāo)志性的海明威作品:“A Farewell to Arms” 和 “The Sun Also Rises”。這張圖中列出了5個(gè)被檢索到的文檔(Document 1 到 Document 5),其中:
- Document 1 涉及海明威的作品《永別了,武器》(A Farewell to Arms)。
- Document 2 討論了海明威的另一本作品《太陽(yáng)照常升起》(The Sun Also Rises)。
圖中的熱圖展示了對(duì)于每個(gè)生成的詞(token),RAG-Token 模型是如何在這些文檔之間分配后驗(yàn)概率的。我們可以看到:
- 當(dāng)生成 “A Farewell to Arms” 時(shí),模型的后驗(yàn)分布在 Document 1 上具有較高的概率,這意味著它的生成依賴(lài)于 Document 1 的信息。
- 同樣,當(dāng)生成 “The Sun Also Rises” 時(shí),后驗(yàn)概率在 Document 2 上有明顯的集中,說(shuō)明該文檔在生成該標(biāo)題時(shí)起到了重要作用。
總結(jié)
這種后驗(yàn)分布的變化反映了 RAG-Token 模型如何使用多個(gè)檢索到的文檔來(lái)生成更準(zhǔn)確的答案。在開(kāi)始生成每個(gè)詞時(shí),模型會(huì)根據(jù)不同的文檔調(diào)整其注意力,并從最相關(guān)的文檔中提取信息以生成正確的答案。
7.5 表4的解讀-Jeopardy 問(wèn)題生成任務(wù)的事實(shí)性和具體性
表 4 展示了人類(lèi)評(píng)估 Jeopardy 問(wèn)題生成任務(wù)的結(jié)果,評(píng)估了 BART 和 RAG 在兩個(gè)維度上的表現(xiàn):事實(shí)性(Factuality) 和 具體性(Specificity)。
-
在事實(shí)性方面,42.7% 的評(píng)估認(rèn)為 RAG 比 BART 更好,而只有 7.1% 認(rèn)為 BART 更好。
-
在具體性方面,37.4% 的評(píng)估認(rèn)為 RAG 更具體,而 16.8% 認(rèn)為 BART 更好。
這表明在人類(lèi)評(píng)估中,RAG 在這兩項(xiàng)任務(wù)上普遍表現(xiàn)優(yōu)于 BART,尤其是在事實(shí)性方面。
7.6 表5的解讀-生成內(nèi)容的多樣性
表 5 比較了在兩個(gè)生成任務(wù)(MSMARCO 和 Jeopardy 問(wèn)題生成)中,幾個(gè)模型生成內(nèi)容的多樣性
根據(jù)最近關(guān)于多樣性解碼的研究,可以通過(guò)計(jì)算不同模型生成的總n元組(n-grams)中獨(dú)特n元組的比例(文中用的是三元組 tri-grams),來(lái)探討生成的多樣性。從表中可以看出,RAG-Sequence生成的內(nèi)容比RAG-Token更具多樣性,且二者生成的內(nèi)容都明顯比BART更具多樣性,而無(wú)需使用任何促進(jìn)多樣性的解碼方法。
7.7 表6的解讀-消融實(shí)驗(yàn)評(píng)估檢索機(jī)制的有效性
表6展示了對(duì)RAG模型在開(kāi)發(fā)集上的消融實(shí)驗(yàn)結(jié)果。
消融實(shí)驗(yàn)(Ablation Study)是一種用于評(píng)估模型或系統(tǒng)各個(gè)組件貢獻(xiàn)的實(shí)驗(yàn)方法。通過(guò)逐一去除或凍結(jié)模型中的某些組件或特性,觀察性能的變化,可以幫助研究人員理解哪些組件對(duì)最終的模型性能起到了關(guān)鍵作用。
RAG的一個(gè)關(guān)鍵特性是學(xué)習(xí)如何檢索任務(wù)所需的相關(guān)信息。為評(píng)估檢索機(jī)制的有效性,作者進(jìn)行了消融實(shí)驗(yàn),凍結(jié)了訓(xùn)練中的檢索器,并做了下面幾種比較:
-
BM25與RAG的向量稠密檢索器的對(duì)比:BM25是一種基于詞頻的傳統(tǒng)檢索器,用于與RAG模型中的向量稠密檢索器進(jìn)行對(duì)比。在此實(shí)驗(yàn)中,用固定的BM25檢索器替代RAG的檢索器,并在計(jì)算 p ( z ∣ x ) p(z|x) p(z∣x)時(shí)使用BM25的檢索得分作為logits。表6顯示BM25在某些任務(wù)(如FEVER任務(wù))表現(xiàn)出色,但在開(kāi)放域問(wèn)答任務(wù)(如NQ和TQA)中,RAG的稠密檢索器表現(xiàn)更好。
-
凍結(jié)檢索器的影響:在“Frozen”行列中,凍結(jié)了檢索器的參數(shù),使其在訓(xùn)練過(guò)程中保持不變。結(jié)果顯示,凍結(jié)檢索器的性能顯著下降,說(shuō)明允許檢索器的參數(shù)在訓(xùn)練過(guò)程中更新有助于提高模型的整體性能。
-
不凍結(jié)檢索器的性能:RAG-Token和RAG-Sequence模型在不凍結(jié)檢索器的情況下表現(xiàn)出色,尤其是在開(kāi)放域問(wèn)答任務(wù)中,它們的精確匹配分?jǐn)?shù)高于其他實(shí)驗(yàn)設(shè)置。
通過(guò)這些消融實(shí)驗(yàn),可以得出結(jié)論,RAG的稠密檢索器在開(kāi)放域任務(wù)中貢獻(xiàn)了較大的性能提升,且允許檢索器在訓(xùn)練中更新是確保其高效工作的關(guān)鍵,
為什么對(duì)于FEVER任務(wù),BM25表現(xiàn)更好?
可能的原因是FEVER中的聲明(claims)通常與實(shí)體密切相關(guān),而基于詞語(yǔ)重疊的檢索方法(如BM25)非常適合處理這種類(lèi)型的任務(wù)。
-
實(shí)體驅(qū)動(dòng)的聲明:FEVER任務(wù)的目標(biāo)是驗(yàn)證自然語(yǔ)言聲明的真實(shí)性,而這些聲明往往與具體的實(shí)體有關(guān),比如人物、地點(diǎn)、事件等。例如:“喬治·華盛頓是美國(guó)的第一任總統(tǒng)”就是一個(gè)與“喬治·華盛頓”這個(gè)實(shí)體相關(guān)的聲明。因此,檢索器需要找到包含這些實(shí)體信息的證據(jù)文檔。
-
詞語(yǔ)重疊檢索:BM25是一種基于詞頻和文檔頻率的檢索算法,強(qiáng)調(diào)查詢(xún)中的關(guān)鍵詞與文檔中詞匯的重疊。由于FEVER的聲明通常包含了非常明確的實(shí)體(如人名、地名等),這些實(shí)體也很可能出現(xiàn)在相關(guān)文檔中,因此基于詞匯匹配的BM25算法能很好地找到包含這些實(shí)體的文檔。
-
適用場(chǎng)景:相較于其他需要更復(fù)雜語(yǔ)義理解的任務(wù),FEVER的實(shí)體中心化特點(diǎn)使得像BM25這樣簡(jiǎn)單、直接的詞語(yǔ)匹配方法在這個(gè)任務(wù)中表現(xiàn)優(yōu)越。
總結(jié)來(lái)說(shuō),BM25的強(qiáng)項(xiàng)在于它能快速、有效地找到與查詢(xún)中實(shí)體詞匯相匹配的文檔,而FEVER任務(wù)的實(shí)體驅(qū)動(dòng)特性使得BM25在這個(gè)特定場(chǎng)景下尤其適合。
7.8 圖3的解讀-檢索更多文檔的效果
圖3展示了RAG模型在訓(xùn)練時(shí)檢索更多的文檔對(duì)在兩個(gè)任務(wù)(NQ和MS-MARCO)上性能表現(xiàn)的影響。
-
左圖: 描繪了在NQ任務(wù)中,隨著檢索文檔數(shù)量(K)的增加,NQ準(zhǔn)確匹配率的變化情況。RAG-Sequence在測(cè)試時(shí)檢索更多文檔會(huì)單調(diào)地提高開(kāi)放域問(wèn)答的結(jié)果,隨著檢索文檔數(shù)量從0增加到5,性能快速提升,但之后增長(zhǎng)放緩。在K接近30時(shí),準(zhǔn)確率趨于平穩(wěn),繼續(xù)檢索更多文檔對(duì)性能的提升有限。而RAG-Token的性能在檢索10個(gè)文檔時(shí)達(dá)到峰值。
-
中圖: 描繪了在NQ任務(wù)中的檢索召回率(Answer Recall @ K)隨著文檔數(shù)量增加的表現(xiàn)。可以看出,RAG模型(RAG-Tok和RAG-Seq)和固定DPR的召回率較高,并隨著K值的增加而逐漸提高,而基于詞匯匹配的BM25系統(tǒng)表現(xiàn)顯著差于其他模型。
-
右圖: 描繪了在MS-MARCO任務(wù)中,隨著文檔數(shù)量增加,RAG模型在Bleu-1和Rouge-L分?jǐn)?shù)上的表現(xiàn)??梢钥吹?#xff0c;檢索更多文檔會(huì)提高RAG-Token的Rouge-L分?jǐn)?shù),但以犧牲Bleu-1分?jǐn)?shù)為代價(jià),而這一效果對(duì)RAG-Sequence的影響較小。
通過(guò)這三幅圖,RAG模型展示了在NQ任務(wù)中,通過(guò)檢索更多文檔,能有效提升答案召回率。而在MS-MARCO任務(wù)中,Rouge-L分?jǐn)?shù)隨著文檔檢索數(shù)量的增加而改善,但以犧牲Bleu-1分?jǐn)?shù)為代價(jià)。
檢索召回率(Answer Recall)
檢索召回率(Answer Recall) 是信息檢索系統(tǒng)或生成模型中的一個(gè)重要指標(biāo),用于評(píng)估在給定查詢(xún)時(shí),系統(tǒng)能否從大量文檔中找到正確答案。具體來(lái)說(shuō),它衡量的是在模型檢索出的文檔列表中,正確文檔的比例。這個(gè)指標(biāo)的理想值為1,表示所有正確答案都被檢索到了;而0表示沒(méi)有一個(gè)正確的答案被找到。
7.9 索引熱交換(Index hot-swapping)-輕松更新知識(shí)庫(kù)
非參數(shù)記憶模型(如 RAG) 的一個(gè)優(yōu)勢(shì)是:隨著世界變化,它可以在測(cè)試時(shí)輕松更新知識(shí)庫(kù),而不需要像參數(shù)模型(如 T5 或 BART)那樣通過(guò)重新訓(xùn)練才能更新其行為。
背景
在自然語(yǔ)言處理模型中,知識(shí)的更新是一個(gè)挑戰(zhàn)。參數(shù)模型(如 T5 和 BART)將知識(shí)“嵌入”到模型的參數(shù)中,當(dāng)外界信息變化時(shí),必須通過(guò)重新訓(xùn)練來(lái)更新它們的知識(shí)。而 非參數(shù)記憶模型(如 RAG)通過(guò)將外部知識(shí)(例如 Wikipedia)存儲(chǔ)在一個(gè)獨(dú)立的索引(index)中,并在生成答案時(shí)根據(jù)需要檢索這些文檔。這樣,當(dāng)世界上的知識(shí)發(fā)生變化時(shí),只需要更新或替換索引,而不需要重新訓(xùn)練模型。
測(cè)試方法
為了證明這個(gè)優(yōu)勢(shì),作者創(chuàng)建了兩個(gè)索引,一個(gè)基于 2016 年的 Wikipedia 數(shù)據(jù)集,另一個(gè)基于 2018 年的數(shù)據(jù)集。他們?cè)O(shè)計(jì)了一個(gè)測(cè)試來(lái)詢(xún)問(wèn)世界領(lǐng)導(dǎo)人的問(wèn)題(例如,“誰(shuí)是秘魯總統(tǒng)?”),并使用 RAG 模型分別通過(guò)這兩個(gè)索引來(lái)回答這些問(wèn)題。
- 2016年索引 對(duì)應(yīng) 2016 年世界領(lǐng)導(dǎo)人的問(wèn)題,模型的回答正確率為 70%。
- 2018年索引 對(duì)應(yīng) 2018 年世界領(lǐng)導(dǎo)人的問(wèn)題,模型的回答正確率為 68%。
當(dāng)索引與問(wèn)題不匹配時(shí)(比如用 2016 年的數(shù)據(jù)回答 2018 年的問(wèn)題),正確率明顯下降,表明索引的時(shí)間相關(guān)性。
結(jié)論
這一實(shí)驗(yàn)表明,通過(guò)簡(jiǎn)單地更換非參數(shù)記憶(即索引),可以輕松更新模型的世界知識(shí),而不需要像參數(shù)模型那樣耗時(shí)地重新訓(xùn)練。這種“索引熱交換”(Index hot-swapping)方法為更新知識(shí)庫(kù)提供了一種更為靈活和高效的方案。
八、相關(guān)工作-前人的工作和本文的創(chuàng)新點(diǎn)
單任務(wù)檢索
單任務(wù)檢索是指在特定的NLP任務(wù)中通過(guò)使用信息檢索技術(shù)來(lái)提升模型的表現(xiàn),這是之前的做法。已經(jīng)用這種技術(shù)做過(guò)的任務(wù)包括開(kāi)放領(lǐng)域問(wèn)答、事實(shí)核查、事實(shí)補(bǔ)全、長(zhǎng)篇問(wèn)答、維基百科文章生成、對(duì)話(huà)、翻譯以及語(yǔ)言建模。
本研究的創(chuàng)新之處在于展示了如何使用一個(gè)單一的檢索架構(gòu)來(lái)提升不同NLP任務(wù)中的表現(xiàn),而不需要為每個(gè)任務(wù)設(shè)計(jì)專(zhuān)門(mén)的架構(gòu)。這意味著,通過(guò)引入統(tǒng)一的基于檢索的方法,模型可以在多個(gè)任務(wù)中有效地學(xué)習(xí)和使用外部信息,顯著提高整體性能。
NLP的通用架構(gòu)
先前的研究表明,在NLP任務(wù)中,使用通用架構(gòu)(不依賴(lài)檢索)取得了巨大的成功。一個(gè)單一的預(yù)訓(xùn)練語(yǔ)言模型在GLUE基準(zhǔn)測(cè)試的各種分類(lèi)任務(wù)中,通過(guò)微調(diào)后展現(xiàn)了出色的表現(xiàn)。早期的模型,如GPT-2,主要通過(guò)單向生成(從左到右)取得了在多個(gè)任務(wù)上的成功。GPT-2證明了一個(gè)統(tǒng)一的語(yǔ)言模型能夠同時(shí)勝任生成式和判別式任務(wù)。
之后的BART和T5進(jìn)一步改進(jìn)了這些模型,它們利用雙向注意力機(jī)制,能夠在處理文本生成和分類(lèi)任務(wù)時(shí)取得更好的結(jié)果。BART和T5是編碼器-解碼器模型,它們不僅在生成任務(wù)中表現(xiàn)出色,也能夠處理分類(lèi)任務(wù)。
本研究的創(chuàng)新之處在于通過(guò)學(xué)習(xí)一個(gè)檢索模塊來(lái)增強(qiáng)這些通用的生成模型,并實(shí)現(xiàn)一個(gè)統(tǒng)一的架構(gòu)來(lái)擴(kuò)展任務(wù)范圍。
學(xué)習(xí)式檢索
在信息檢索領(lǐng)域中,學(xué)習(xí)如何檢索文檔是一個(gè)重要的研究方向,最近的工作中,越來(lái)越多地結(jié)合了預(yù)訓(xùn)練的神經(jīng)語(yǔ)言模型來(lái)提升檢索性能。有些工作通過(guò)優(yōu)化檢索模塊來(lái)輔助具體的下游任務(wù),例如使用搜索、強(qiáng)化學(xué)習(xí)或潛變量方法來(lái)解決問(wèn)題回答任務(wù)。這些成功的研究利用了不同的基于檢索的架構(gòu)和優(yōu)化技術(shù),通常在單一任務(wù)上實(shí)現(xiàn)了出色的表現(xiàn)。
本研究的創(chuàng)新之處在于展示了單一的基于檢索的架構(gòu)可以通過(guò)微調(diào),在多個(gè)任務(wù)上實(shí)現(xiàn)強(qiáng)大的表現(xiàn)。
基于記憶的架構(gòu)
文本的文檔索引可以被視為神經(jīng)網(wǎng)絡(luò)所關(guān)注的一個(gè)大型外部記憶,類(lèi)似于記憶網(wǎng)絡(luò)。傳統(tǒng)的記憶網(wǎng)絡(luò)關(guān)注的是如何在任務(wù)中使用預(yù)訓(xùn)練的嵌入。本研究的創(chuàng)新之處在于它使用的是原始文本作為記憶,而不是通常的向量嵌入。這帶來(lái)了兩個(gè)關(guān)鍵優(yōu)勢(shì):
-
人類(lèi)可讀性:因?yàn)槭褂玫氖窃嘉谋?#xff0c;模型的記憶內(nèi)容是人類(lèi)可以直接閱讀和理解的,這為模型的輸出提供了一定的解釋性。例如,用戶(hù)可以查看模型為什么會(huì)產(chǎn)生某個(gè)答案,這是模型可解釋性的重要一環(huán)。
-
人類(lèi)可寫(xiě)性:這種架構(gòu)允許我們動(dòng)態(tài)更新模型的知識(shí)庫(kù),只需要編輯文檔索引即可。這意味著在新的知識(shí)出現(xiàn)時(shí),無(wú)需重新訓(xùn)練整個(gè)模型,只需更新相關(guān)的文檔就可以實(shí)現(xiàn)對(duì)新信息的學(xué)習(xí)。
這種方法在知識(shí)密集型對(duì)話(huà)系統(tǒng)中表現(xiàn)出色,尤其是當(dāng)生成器需要根據(jù)檢索到的事實(shí)文本生成回答時(shí)。通過(guò)直接使用文本,而不是以往的嵌入或向量表示,模型可以在更復(fù)雜和動(dòng)態(tài)的場(chǎng)景下保持高效的生成和準(zhǔn)確性。
檢索與編輯方法
RAG與檢索與編輯風(fēng)格的方法有一定的相似性,但也有不少區(qū)別:
-
檢索與編輯方法的基本流程:先根據(jù)輸入檢索一個(gè)與輸入相似的訓(xùn)練對(duì)(即輸入-輸出對(duì)),然后通過(guò)輕微的編輯生成最終的輸出。這種方法已經(jīng)在多個(gè)領(lǐng)域得到了成功應(yīng)用,尤其是在機(jī)器翻譯和語(yǔ)義解析領(lǐng)域。
-
RAG與傳統(tǒng)檢索與編輯的不同:
- 更少依賴(lài)輕微編輯:傳統(tǒng)方法依賴(lài)的是對(duì)檢索到的項(xiàng)目進(jìn)行小范圍的調(diào)整,而RAG技術(shù)的側(cè)重點(diǎn)在于將多個(gè)檢索到的內(nèi)容進(jìn)行匯總,從中提取出最相關(guān)的信息。
- 學(xué)習(xí)潛在檢索:RAG不僅僅是檢索相似的訓(xùn)練對(duì),還在檢索階段通過(guò)潛在變量學(xué)習(xí)更有效的文檔檢索。
- 檢索證據(jù)文檔:傳統(tǒng)方法主要檢索的是與輸入相關(guān)的訓(xùn)練對(duì),而RAG更關(guān)注檢索支持輸入的證據(jù)文檔。
-
未來(lái)研究方向的展望:盡管RAG技術(shù)與檢索與編輯方法存在差異,但RAG技術(shù)可能適用于這些場(chǎng)景,并為未來(lái)的研究提供了有前途的方向。
總結(jié)來(lái)看,RAG不僅增強(qiáng)了檢索,還整合了生成和編輯的能力,能夠更好地處理復(fù)雜的語(yǔ)言生成任務(wù)。
九、討論
本文的貢獻(xiàn)
- 混合生成模型:本文提出了同時(shí)利用參數(shù)化記憶和非參數(shù)化記憶的RAG模型。
- 開(kāi)放領(lǐng)域問(wèn)答中的表現(xiàn):展示了RAG模型在開(kāi)放領(lǐng)域問(wèn)答中取得了最先進(jìn)的結(jié)果。
- 用戶(hù)偏好:相比于純參數(shù)化的BART,人們更偏愛(ài)RAG的生成,認(rèn)為RAG生成的內(nèi)容更加真實(shí)和具體。
- 檢索組件的有效性:對(duì)學(xué)習(xí)到的檢索組件進(jìn)行了詳細(xì)的調(diào)查,驗(yàn)證了它的有效性,并說(shuō)明了如何通過(guò)替換檢索索引來(lái)更新模型,而不需要任何再訓(xùn)練。
未來(lái)研究方向
未來(lái)的研究可以探索是否可以從零開(kāi)始聯(lián)合預(yù)訓(xùn)練參數(shù)化和非參數(shù)化記憶模塊,這樣可以進(jìn)一步提升模型的性能。聯(lián)合預(yù)訓(xùn)練的目標(biāo)可能包括類(lèi)似于BART的去噪任務(wù)或其他合適的目標(biāo)函數(shù)。
廣泛應(yīng)用的潛力
RAG技術(shù)展示了它在各種自然語(yǔ)言處理任務(wù)中的潛力。參數(shù)化和非參數(shù)化記憶的結(jié)合為模型提供了強(qiáng)大的生成能力,并開(kāi)辟了新的研究方向,特別是在處理需要?jiǎng)討B(tài)外部知識(shí)的任務(wù)中具有應(yīng)用前景。
十、更廣泛的影響
討論了RAG模型的社會(huì)影響,既包括它帶來(lái)的好處,也提到了潛在的負(fù)面影響。
積極影響
- 基于事實(shí)的知識(shí)生成:RAG模型通過(guò)引用維基百科等真實(shí)的知識(shí)源,能夠減少生成中出現(xiàn)的虛假內(nèi)容或“幻覺(jué)”。這使得生成的文本更符合事實(shí),尤其在處理需要可靠數(shù)據(jù)的場(chǎng)景(如醫(yī)療、科學(xué)領(lǐng)域)時(shí),能夠提供更高的準(zhǔn)確性和可信度。
- 控制與可解釋性:由于模型依賴(lài)外部知識(shí),生成的內(nèi)容可以被追溯至具體的來(lái)源(如維基百科的某一篇文章),這提高了內(nèi)容的可解釋性,使用戶(hù)對(duì)生成的知識(shí)更有信心。
- 應(yīng)用場(chǎng)景廣泛:RAG模型可以應(yīng)用于多個(gè)領(lǐng)域,如醫(yī)學(xué)問(wèn)題的回答、提升工作效率等,幫助人們?cè)诙鄠€(gè)實(shí)際場(chǎng)景中解決問(wèn)題。
潛在風(fēng)險(xiǎn)
- 外部知識(shí)的局限性:盡管RAG依賴(lài)于外部知識(shí),但這些知識(shí)庫(kù)(如維基百科)并不是完全真實(shí)或沒(méi)有偏見(jiàn)的。因此,模型生成的內(nèi)容可能受到知識(shí)庫(kù)的偏見(jiàn)或錯(cuò)誤信息的影響。
- 濫用風(fēng)險(xiǎn):和其他高級(jí)語(yǔ)言模型(如GPT-2)類(lèi)似,RAG也可能被用來(lái)生成有害或誤導(dǎo)性?xún)?nèi)容,比如在社交媒體上發(fā)布虛假新聞、冒充他人身份,甚至生成垃圾郵件或網(wǎng)絡(luò)釣魚(yú)內(nèi)容。
- 自動(dòng)化帶來(lái)的失業(yè)風(fēng)險(xiǎn):隨著語(yǔ)言模型的進(jìn)一步發(fā)展,它們可能在未來(lái)幾十年內(nèi)自動(dòng)化許多當(dāng)前的工作,這也引發(fā)了潛在的社會(huì)問(wèn)題。
為了應(yīng)對(duì)這些風(fēng)險(xiǎn),文中建議使用AI系統(tǒng)來(lái)對(duì)抗虛假內(nèi)容和自動(dòng)化的垃圾郵件生成,以減少RAG模型的負(fù)面影響。