photoshop做圖網(wǎng)站如何利用互聯(lián)網(wǎng)宣傳與推廣
研究背景
文章介紹了大型語言模型(LLMs)在處理各種復雜查詢時的挑戰(zhàn),特別是在不同復雜性的查詢處理上可能導致不必要的計算開銷或處理不足的問題。為了解決這一問題,文章提出了一種自適應的查詢處理框架,動態(tài)選擇最合適的策略,從而提高整體效率和準確性 。
研究目標
目標是開發(fā)一種自適應框架,該框架能夠根據(jù)查詢的復雜性動態(tài)選擇最適合的檢索增強語言模型策略,從簡單到復雜的策略不等。
相關工作
開放域問答:這類任務通常涉及兩個模塊:檢索器和閱讀器。隨著具有千億參數(shù)的超強推理能力的LLM的出現(xiàn),LLM和檢索器之間的協(xié)同作用已經(jīng)取得了顯著進展。然而,盡管在單跳檢索增強LLM方面取得了進展,但某些查詢的復雜性需要更復雜的策略。
多跳問答:多跳問答(Multi-hop QA)是常規(guī)開放域問答(Open-domain QA)的擴展,需要系統(tǒng)全面收集和將多個文檔的信息作為上下文回答更復雜的查詢。首先將多跳查詢分解為更簡單的單跳查詢,重復訪問LLM和檢索器來解決這些子查詢,并合并它們的答案以形成完整答案。這種查詢的缺點是:每個查詢迭代訪問LLM和檢索器可能效率極低,因為有些查詢可能足夠簡單,可以通過單一檢索步驟甚至僅通過LLM本身來回答。
自適應檢索:為了處理不同復雜性的查詢,自適應檢索策略根據(jù)每個查詢的復雜性動態(tài)決定是否檢索文檔。根據(jù)實體的頻率來確定查詢的復雜性級別,并建議僅當頻率低于一定閾值時才使用檢索模塊。然而,這種方法僅關注于檢索與否的二元決策,可能不足以解決需要多個推理步驟的更復雜的查詢。
方法論
數(shù)據(jù)處理
定義復雜性標簽:首先,需要定義問題的復雜性等級。在Adaptive-RAG中,通常有三個類別:簡單(A)、中等(B)和復雜(C)。簡單問題可以直接由LLM回答,中等復雜度問題需要單步檢索,而復雜問題則需要多步檢索和推理。
自動收集訓練數(shù)據(jù):由于沒有現(xiàn)成的帶有復雜性標簽的查詢數(shù)據(jù)集,Adaptive-RAG通過兩種策略自動構建訓練數(shù)據(jù)集:
- 從不同Retrieval-Augmented LLM策略的預測結果中標注查詢的復雜性。
如果非檢索方法能夠正確生成答案,則對應問題的標簽為簡單(A);
如果單步檢索方法和多步檢索方法都能正確回答,而非檢索方法失敗,則對應問題的標簽為中等(B);
如果只有多步檢索方法能夠正確回答,則對應問題的標簽為復雜(C)。 - 利用基準數(shù)據(jù)集中的固有偏差來標注未標記的查詢。
例如,如果一個查詢在單步數(shù)據(jù)集中未被標記,則自動分配標簽為中等(B);
如果在多步數(shù)據(jù)集中未被標記,則自動分配標簽為復雜(C)。
解決方案
Adaptive Retrieval-Augmented Generation (Adaptive-RAG) 是一種新穎的問答框架,它能夠根據(jù)問題的復雜性動態(tài)選擇最適合的策略來處理Retrieval-Augmented LLM。這三種策略包括:
- 非檢索方法(No Retrieval):這是最簡單的策略,直接使用LLM本身的知識庫來生成答案。這種方法適用于那些模型已經(jīng)知道答案的簡單問題,不需要額外的外部信息。
- 單步檢索方法(Single-step Approach):當問題需要額外的信息時,這種方法會先從外部知識源檢索相關信息,然后將檢索到的文檔作為上下文信息輸入到LLM中,幫助模型生成更準確的答案。這種方法適用于需要一次額外信息檢索的中等復雜度問題。
- 多步檢索方法(Multi-step Approach):對于最復雜的問題,需要從多個文檔中綜合信息并進行多步推理。這種方法通過迭代地訪問檢索器和LLM,逐步構建起解決問題所需的信息鏈。這種方法適用于需要多步邏輯推理的復雜問題。
Adaptive-RAG的核心在于它能夠通過分類器來評估問題的復雜性,然后根據(jù)評估結果選擇最合適的處理策略。分類器是一個較小的語言模型,它被訓練用來預測query的復雜度。通過這種方式,Adaptive-RAG能夠靈活地在不同的Retrieval-Augmented LLM策略之間進行切換,從而在處理各種復雜性的問題時,實現(xiàn)更高的效率和準確性。
實驗
實驗設計
研究中使用的數(shù)據(jù)集包括單跳和多跳問題,涵蓋了從簡單到復雜的查詢。數(shù)據(jù)來源于開放域問答數(shù)據(jù)集,這些數(shù)據(jù)集經(jīng)常用于評估問答系統(tǒng)的性能。
- SQuAD v1.1 (Rajpurkar et al., 2016):通過閱讀文檔撰寫問題的方式創(chuàng)建。
- Natural Questions (Kwiatkowski et al., 2019):基于Google搜索的真實用戶查詢構建。
- TriviaQA (Joshi et al., 2017):由各種小測驗網(wǎng)站提供的瑣碎問題組成。
- MuSiQue (Trivedi et al., 2022a):通過組合多個單跳問題形成涉及2-4個跳轉的查詢。
- HotpotQA (Yang et al., 2018):通過鏈接多個維基百科文章由注釋者創(chuàng)建的問題。
- 2WikiMultiHopQA (Ho et al., 2020):源自維基百科及其相關知識圖譜路徑,需要2跳處理。
評估指標包括有效性和效率兩大類:
- 有效性:使用F1得分、EM(精確匹配)和準確率(Accuracy, Acc)來評估模型預測的答案與真實答案之間的匹配程度。
- 效率:測量回答每個查詢所需的檢索和生成步驟數(shù)以及與單步策略相比的平均響應時間。
實驗結論
實驗結果顯示,Adaptive-RAG在處理復雜查詢時,比傳統(tǒng)的檢索增強方法更有效,尤其是在資源利用效率上。例如,在使用不同大小模型(如GPT-3.5和FLAN-T5系列)進行測試時,Adaptive-RAG在處理多步查詢的場景中,表現(xiàn)出更高的準確率和效率 。
參考資料
- 論文
- 代碼