中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

泰安房產(chǎn)網(wǎng)簽數(shù)據(jù)免費seo教程

泰安房產(chǎn)網(wǎng)簽數(shù)據(jù),免費seo教程,seo網(wǎng)站做推廣公司,青島做網(wǎng)站青島做網(wǎng)站大型語言模型中的幻覺研究綜述:原理、分類、挑戰(zhàn)和未決問題11.15 摘要1 引言2 定義2.1 LLM2.3 大語言模型中的幻覺 3 幻覺的原因3.1 數(shù)據(jù)的幻覺3.1.1 有缺陷的數(shù)據(jù)源3.1.2 較差的數(shù)據(jù)利用率3.1.3 摘要 3.2 來自訓(xùn)練的幻覺3.2.1訓(xùn)練前的幻覺3.2.2來自對齊的幻覺3.2.3…

大型語言模型中的幻覺研究綜述:原理、分類、挑戰(zhàn)和未決問題11.15

  • 摘要
  • 1 引言
  • 2 定義
    • 2.1 LLM
    • 2.3 大語言模型中的幻覺
  • 3 幻覺的原因
    • 3.1 數(shù)據(jù)的幻覺
      • 3.1.1 有缺陷的數(shù)據(jù)源
      • 3.1.2 較差的數(shù)據(jù)利用率
      • 3.1.3 摘要
    • 3.2 來自訓(xùn)練的幻覺
      • 3.2.1訓(xùn)練前的幻覺
      • 3.2.2來自對齊的幻覺
      • 3.2.3總結(jié)
    • 3.3 來自干擾解碼的幻覺
      • 3.3.1內(nèi)在抽樣隨機性
      • 3.3.2不完美的解碼
      • 3.3.3總結(jié)
  • 4 幻覺檢測和基準(zhǔn)
    • 4.1 幻覺檢測
      • 4.1.1 幻覺檢測
      • 4.1.2忠實性幻覺檢測
    • 4.2 基準(zhǔn)
      • 4.2.1 幻覺評估基準(zhǔn)
      • 4.2.2 幻覺檢測基準(zhǔn)
  • 5 減輕幻覺
    • 5.1數(shù)據(jù)相關(guān)幻覺
      • 5.1.1 減少錯誤信息和偏見
      • 5.1.2 減少知識邊界
      • 5.1.3減少知識冗余
      • 5.1.4減輕知識回憶
    • 5.2減輕與培訓(xùn)相關(guān)的幻覺
      • 5.2.1 減輕預(yù)訓(xùn)練相關(guān)的幻覺
      • 5.2.2 緩解錯位幻覺
    • 5.3 減輕與推理相關(guān)的幻覺
      • 5.3.1 真實增強解碼
      • 5.3.2忠誠度增強解碼
  • 6 挑戰(zhàn)和開放性問題
    • 6.1LLM的挑戰(zhàn)
      • 6.1.1長格式文本生成中的幻覺
      • 6.1.2檢索增強生成中的幻覺
      • 6.1.3 大型視覺語言模型中的幻覺
    • 6.2 在LLM幻覺開放問題
      • 6.2.1 自我糾正機制是否有助于減輕推理幻覺?
      • 6.2.2我們能準(zhǔn)確地捕捉LLM知識邊界嗎?
      • 6.2.3 如何在創(chuàng)造性和真實性之間取得平衡?

在這里插入圖片描述

摘要

大型語言模型(LLM)的出現(xiàn)標(biāo)志著自然語言處理(NLP)的重大突破,導(dǎo)致文本理解和生成的顯著進步。然而,除了這些進步之外,LLM還表現(xiàn)出產(chǎn)生幻覺的關(guān)鍵傾向,導(dǎo)致內(nèi)容與現(xiàn)實世界的事實或用戶輸入不一致。這種現(xiàn)象對它們的實際部署提出了重大挑戰(zhàn),并引起了對LLM在現(xiàn)實世界場景中的可靠性的擔(dān)憂,這吸引了越來越多的關(guān)注來檢測和減輕這些幻覺。在這項調(diào)查中,我們的目標(biāo)是提供一個全面和深入的概述LLM幻覺領(lǐng)域的最新進展。我們開始與LLM幻覺的創(chuàng)新分類,然后深入研究的因素,有助于幻覺。隨后,我們提出了一個全面的概述幻覺檢測方法和基準(zhǔn)。此外,相應(yīng)地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了突出當(dāng)前局限性的挑戰(zhàn),并提出了開放性問題,旨在為未來的幻覺研究描繪道路。

1 引言

最近,大型語言模型(LLM)的出現(xiàn)已經(jīng)迎來了自然語言處理(NLP)的范式轉(zhuǎn)變,在語言理解方面取得了前所未有的進步,LLM和推理。然而,隨著LLM的快速發(fā)展,存在一種令人擔(dān)憂的趨勢,即它們表現(xiàn)出產(chǎn)生幻覺的傾向,導(dǎo)致看似合理但事實上不支持的內(nèi)容。

目前對幻覺的定義與先前的研究一致,將它們表征為對所提供的源內(nèi)容無意義或不忠實的所生成的內(nèi)容。這些幻覺進一步分為內(nèi)在幻覺和外在幻覺類型,這取決于與源內(nèi)容的矛盾。雖然這一類別在各種自然語言生成(NLG)任務(wù)中共享,但確實存在特定于任務(wù)的變化。由于LLM非常通用,并且在不同的NLG任務(wù)中表現(xiàn)出色,特別是在開放域應(yīng)用程序中,與特定任務(wù)模型相比,它們顯著的多功能性放大了幻覺的潛力。在LLM中,幻覺的范圍包括更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演變,有必要調(diào)整現(xiàn)有的幻覺分類,提高其適用性和適應(yīng)性。
在這里插入圖片描述
在這項調(diào)查中,我們重新定義了幻覺的分類,為LLM應(yīng)用程序提供了一個更適合的框架。我們把幻覺分為兩大類:真實性幻覺和忠實性幻覺。事實幻覺強調(diào)生成的內(nèi)容與可驗證的現(xiàn)實世界事實之間的差異,通常表現(xiàn)為事實不一致或捏造。例如,如圖1(a)所示,當(dāng)被問及第一個在月球上行走的人時,這個模型可能會斷言它是1951年的查爾斯·林德伯格。而事實是,尼爾阿姆斯特朗是第一個在月球上行走的個人在1969年在阿波羅11號使命。另一方面,忠實性幻覺是指生成的內(nèi)容與用戶指令或輸入提供的上下文的分歧,以及生成的內(nèi)容內(nèi)的自一致性。如圖1(b)所示,當(dāng)被要求總結(jié)一篇新聞文章時,該模型錯誤地生成了以色列和哈馬斯之間沖突的實際事件日期,從2023年10月到2006年10月。關(guān)于事實性,我們進一步將其分為兩個亞類:事實不一致和事實捏造。為了忠實,我們強調(diào)從用戶的角度來解決不一致,將其分類為指令不一致,上下文不一致和邏輯不一致,從而更好地與LLM的當(dāng)前使用保持一致。

至于幻覺的根本原因,雖然在NLG任務(wù)的背景下進行了研究,但在尖端LLM中存在獨特的挑戰(zhàn),值得深入研究。我們深入分析專門針對LLM中幻覺的獨特起源,涵蓋了從數(shù)據(jù)訓(xùn)練推理階段的一系列影響因素。在這個框架內(nèi),我們查明了潛在的數(shù)據(jù)相關(guān)原因,如有缺陷的來源和次優(yōu)利用,可能在預(yù)訓(xùn)練和對齊過程中引起幻覺的劣質(zhì)訓(xùn)練策略,以及那些源于解碼策略的隨機性和推理過程中的不完美表示。此外,我們?nèi)娓攀隽烁鞣N有效的檢測方法,專門設(shè)計用于檢測LLM中的幻覺,以及與LLM幻覺相關(guān)的基準(zhǔn)的詳盡概述,作為適當(dāng)?shù)臏y試平臺,以評估LLM產(chǎn)生的幻覺程度和檢測方法的有效性。此外,我們詳細介紹了為減輕幻覺的確定原因而量身定制的綜合策略。

通過這項全面的調(diào)查,我們的目標(biāo)是為LLM領(lǐng)域的進步做出貢獻,并提供有價值的見解,加深對法學(xué)碩士中與幻覺相關(guān)的機遇和挑戰(zhàn)的理解。這種探索不僅增強了我們對當(dāng)前LLM局限性的理解,而且為未來的研究和開發(fā)更強大,更值得信賴的LLM提供了必要的指導(dǎo)。

與現(xiàn)有調(diào)查進行比較。隨著對可靠的生成式人工智能的推動加劇,LLM幻覺作為一個主要挑戰(zhàn)脫穎而出,導(dǎo)致對其最近進展的大量調(diào)查。雖然這些著作從不同的角度探討了LLM幻覺,并提供了有價值的見解,但有必要區(qū)分我們目前調(diào)查的獨特方面和綜合性質(zhì)。Ji主要闡明了在NLG任務(wù)領(lǐng)域內(nèi)預(yù)先訓(xùn)練的語言模型中的幻覺,使LLM超出了他們的討論范圍。Liu從更廣的角度討論了LLM的可信度,而Wang,內(nèi)遷至中國。相比之下,我們的調(diào)查集中在LLM可信度的一部分挑戰(zhàn)上,涵蓋了事實的各個方面,并進一步擴大了話語范圍,包括與忠誠相關(guān)的幻覺。據(jù)我們所知,與我們的調(diào)查最一致的工作是,概述了LLM幻覺現(xiàn)象的分類,評估基準(zhǔn)和緩解策略。然而,我們的調(diào)查在其分類和組織結(jié)構(gòu)方面都與眾不同。我們提出了一個分層和粒度分類的幻覺。在結(jié)構(gòu)上,我們通過追溯LLM的能力來剖析LLM幻覺的原因。更有針對性的是,我們的緩解戰(zhàn)略與根本原因緊密相連,確保采取連貫和有針對性的方法。

本次調(diào)查的組織。在本文中,我們提出了一個全面的調(diào)查的最新進展,幻覺LLM。我們首先定義了LLM,并在此背景下構(gòu)建了幻覺的分類學(xué)(§2)。隨后,我們深入分析了導(dǎo)致LLMs幻覺的因素(§3),隨后檢查了用于可靠檢測LLMs幻覺的各種方法和基準(zhǔn)(§4)。然后,我們詳細介紹了一系列旨在減輕LLM幻覺的方法(§5)。最后,我們深入探討了該領(lǐng)域當(dāng)前的局限性和未來前景所面臨的挑戰(zhàn)和開放性問題,為未來的研究提供了見解和潛在的途徑(§6)。

2 定義

為了全面了解LLM中的幻覺,我們首先簡要介紹LLM(第2.1節(jié)),描述本調(diào)查的范圍。隨后,我們深入研究了LLM的訓(xùn)練過程(§2.2),因為徹底了解潛在的訓(xùn)練機制有助于闡明幻覺的起源。最后,我們闡述了LLM中幻覺的概念(§2.3),進一步將其分為兩種不同的類型。

2.1 LLM

在深入研究幻覺的原因之前,我們首先介紹LLM的概念。典型地,LLM指的是一系列通用模型,這些模型利用基于轉(zhuǎn)換器的語言模型體系結(jié)構(gòu),并在大量文本語料庫上進行廣泛的訓(xùn)練,其中值得注意的例子包括GPT-3、PaLM、卡拉狄加、LLaMA和GPT-4。通過擴展數(shù)據(jù)量和模型容量,LLM提高了驚人的涌現(xiàn)能力,通常包括情境學(xué)習(xí)(ICL)、思想鏈提示和遵循指令。

前期訓(xùn)練。預(yù)培訓(xùn)通常被認為是LLM獲得知識和技能的關(guān)鍵階段。在預(yù)訓(xùn)練期間,語言模型的目標(biāo)是自回歸地預(yù)測序列中的下一個標(biāo)記。通過對大量文本語料的自我監(jiān)督訓(xùn)練,該模型獲得了語言句法知識、世界知識和推理能力,為后續(xù)的微調(diào)任務(wù)提供了堅實的基礎(chǔ)。此外,最近的研究提出了預(yù)測后續(xù)單詞類似于無損壓縮重要信息。語言模型的本質(zhì)在于預(yù)測即將出現(xiàn)的單詞的概率分布。準(zhǔn)確的預(yù)測意味著對知識的深刻掌握,轉(zhuǎn)化為對世界的微妙理解。

監(jiān)督微調(diào)。雖然LLM在預(yù)培訓(xùn)階段獲得了大量的知識和能力,但必須認識到預(yù)培訓(xùn)主要是為了完成培訓(xùn)。因此,預(yù)訓(xùn)練的LLM基本上用作完成機,這可能導(dǎo)致LLM的下一個單詞預(yù)測目標(biāo)與用戶獲得期望響應(yīng)的目標(biāo)之間的不對準(zhǔn)。為了彌補這一差距,SFT,其涉及使用(指令、響應(yīng))對的精心注釋的集合來進一步訓(xùn)練LLM,從而導(dǎo)致LLM的增強的能力和改進的可控性。此外,最近的研究已經(jīng)證實了監(jiān)督微調(diào)的有效性,以實現(xiàn)對看不見的任務(wù)的卓越性能,展示了其顯著的泛化能力。

從人的反饋中強化學(xué)習(xí)。雖然SFT過程成功地使LLM能夠遵循用戶指令,但它們?nèi)杂懈玫嘏c人類偏好保持一致的空間。在利用人類反饋的各種方法中,RLHF作為通過強化學(xué)習(xí)與人類偏好一致的研究所解決方案而脫穎而出。通常,RLHF采用偏好模型,訓(xùn)練用于預(yù)測偏好排名,同時給出一對人類標(biāo)記的響應(yīng)。為了與人的偏好一致,RLHF優(yōu)化LLM以生成使由經(jīng)訓(xùn)練的偏好模型提供的回報最大化的輸出,典型地采用強化學(xué)習(xí)算法,諸如鄰近策略優(yōu)化(PPO)。這種將人的反饋整合到訓(xùn)練循環(huán)中的做法已被證明在增強LLM的一致性、引導(dǎo)它們產(chǎn)生高質(zhì)量且無害的響應(yīng)方面是有效的。

2.3 大語言模型中的幻覺

幻覺的概念起源于病理學(xué)和心理學(xué)領(lǐng)域,被定義為對現(xiàn)實中不存在的實體或事件的感知。在NLP領(lǐng)域內(nèi),幻覺通常被稱為一種現(xiàn)象,其中生成的內(nèi)容看起來對所提供的源內(nèi)容無意義或不忠實。這個概念與人類心理學(xué)中觀察到的幻覺現(xiàn)象有著松散的相似之處。通常,自然語言生成任務(wù)中的幻覺可分為兩種主要類型:內(nèi)在幻覺和外在幻覺。具體來說,內(nèi)在幻覺是與原始內(nèi)容相沖突的LLM的輸出。相反,外在幻覺是指無法從源內(nèi)容中驗證的LLM生成。

然而,在大型語言模型的時代,這些模型的多功能性促進了它們在不同領(lǐng)域的廣泛使用,突出了現(xiàn)有特定任務(wù)分類范式的局限性??紤]到LLM非常重視以用戶為中心的交互,并優(yōu)先考慮與用戶指令的一致性,再加上他們的幻覺主要出現(xiàn)在事實層面的事實,我們引入了一個更細粒度的分類法,該分類法建立在Ji的基礎(chǔ)工作之上。這種精細的分類法試圖概括與LLM幻覺相關(guān)的獨特復(fù)雜性。為了更直觀地說明我們對LLM幻覺的定義,我們在表1中給出了每種幻覺類型的例子,并附有相應(yīng)的解釋。我們建議的類別詳情如下:

真實的幻覺。LLM的出現(xiàn)標(biāo)志著從傳統(tǒng)的特定任務(wù)工具包到AI助手的重大轉(zhuǎn)變,這些助手更加關(guān)注開放領(lǐng)域的交互。這種轉(zhuǎn)變主要歸因于他們大量的參數(shù)化事實知識。然而,現(xiàn)有的LLM偶爾會表現(xiàn)出產(chǎn)生與現(xiàn)實世界事實不一致或潛在誤導(dǎo)的輸出的趨勢,這對人工智能的可信度構(gòu)成了挑戰(zhàn)。在這種情況下,我們將這些事實錯誤歸類為事實性幻覺。根據(jù)生成的事實內(nèi)容是否可以根據(jù)可靠來源進行驗證,它們可以進一步分為兩種主要類型:

  • 事實不一致 是指LLM的輸出包含可以基于真實世界信息的事實,但存在矛盾的情況。這種類型的幻覺發(fā)生得最頻繁,并且來自不同的來源,包括LLM對事實知識的捕獲,存儲和表達。如表1所示,當(dāng)被問及“第一個登上月球的人”時,模型錯誤地生成了“尤里·加加林”,這與現(xiàn)實世界的事實相矛盾。
  • 事實捏造 是指LLM的輸出包含無法根據(jù)既定的現(xiàn)實世界知識進行驗證的事實的情況。如表1所示,雖然“獨角獸的起源”傳統(tǒng)上缺乏經(jīng)驗基礎(chǔ),但該模型為獨角獸編造了一個合理的歷史起源。
    在這里插入圖片描述

忠誠幻覺。對LLM進行了固有培訓(xùn),以符合用戶說明。隨著LLM的使用轉(zhuǎn)向更加以用戶為中心的應(yīng)用程序,確保其與用戶提供的說明和上下文信息的一致性變得越來越重要。此外,LLM的忠實性還體現(xiàn)在其生成內(nèi)容的邏輯一致性上。從這個角度來看,我們將忠誠幻覺分為三種亞型:

  • 指令不一致。是指LLM的輸出偏離用戶的指令。雖然有些偏差可能符合安全準(zhǔn)則,但此處的不一致表示與非惡意用戶指令的無意不一致。如表1所示,用戶的實際意圖是翻譯,然而,LLM錯誤地偏離了用戶的指令,而是執(zhí)行了問答任務(wù)。
  • 上下文不一致。指向LLM的輸出與用戶提供的上下文信息不忠實的情況。例如,如表1所示,用戶提到尼羅河的源頭在中非的五大湖地區(qū),但LLM的回應(yīng)與上下文相矛盾。
  • 邏輯不一致。強調(diào)LLM輸出表現(xiàn)出內(nèi)部邏輯矛盾時,通常在推理任務(wù)中觀察到。這表現(xiàn)為推理步驟本身之間以及推理步驟與最終答案之間的不一致。例如,如表1所示,雖然等式兩邊除以2的推理步驟是正確的,但x=4的最終答案與推理鏈不一致,導(dǎo)致不正確的結(jié)果。

3 幻覺的原因

幻覺有多方面的起源,跨越了LLM能力獲取過程的整個范圍。在本節(jié)中,我們深入研究了LLM中幻覺的根本原因,主要分為三個關(guān)鍵方面:數(shù)據(jù)(§3.1),訓(xùn)練(§3.2)和推理(§3.3)。

3.1 數(shù)據(jù)的幻覺

培訓(xùn)前的數(shù)據(jù)是LLM的基礎(chǔ),使他們能夠獲得一般能力和實際知識。然而,它可能會在無意中成為LLM幻覺的來源。這主要表現(xiàn)在兩個方面:一是數(shù)據(jù)不完善帶來的潛在風(fēng)險來源(§3.1.1),以及對數(shù)據(jù)中獲取的事實知識的劣質(zhì)利用(§3.1.2)。

3.1.1 有缺陷的數(shù)據(jù)源

雖然擴大培訓(xùn)前的數(shù)據(jù)大大提高了LLM的能力,在保持一致的數(shù)據(jù)質(zhì)量方面出現(xiàn)了挑戰(zhàn),這可能潛在地引入錯誤信息和偏見。此外,數(shù)據(jù)中缺乏特定領(lǐng)域知識和最新事實會導(dǎo)致LLM形成知識邊界,這對LLM在特定場景中造成了限制。在此基礎(chǔ)上,我們將可能導(dǎo)致幻覺的因素初步歸類為錯誤信息、偏見和知識邊界限制。為了更全面地理解,表2中給出了每種類型的數(shù)據(jù)誘導(dǎo)幻覺的說明性示例。
在這里插入圖片描述

錯誤信息和偏見。隨著對大規(guī)模語料庫需求的增加,啟發(fā)式數(shù)據(jù)收集方法被用來有效地收集大量數(shù)據(jù)。在提供大量數(shù)據(jù)的同時,它們可能無意中引入錯誤信息,增加了模仿謊言的風(fēng)險。此外,社會偏見可能會無意中引入LLM的學(xué)習(xí)過程。這些偏見主要包括重復(fù)偏見和各種社會偏見,可能導(dǎo)致幻覺。

  • 模仿性謊言。LLM預(yù)訓(xùn)練的主要目的是模擬訓(xùn)練分布。當(dāng)LLM在事實上不正確的數(shù)據(jù)上被訓(xùn)練時,它們可能無意中放大這些不準(zhǔn)確性,潛在地導(dǎo)致事實上不正確的幻覺,被稱為“模仿性謬誤”。例如,如表2所示,“托馬斯愛迪生發(fā)明了燈泡”這句話實際上是一個誤解,隨著時間的推移,人們普遍誤解了它。對此類事實錯誤數(shù)據(jù)進行培訓(xùn)的LLM可能導(dǎo)致誤導(dǎo)性輸出。
  • 復(fù)制偏差。神經(jīng)網(wǎng)絡(luò),尤其是大型語言模型,具有記憶訓(xùn)練數(shù)據(jù)的內(nèi)在傾向。研究進一步表明,這種記憶傾向隨著模型尺寸。然而,固有的記憶能力在預(yù)訓(xùn)練數(shù)據(jù)中存在重復(fù)信息的情況下變得有問題。這種重復(fù)可以將LLM從概括轉(zhuǎn)變?yōu)橛洃?#xff0c;最終導(dǎo)致重復(fù)偏見,其中LLM過度優(yōu)先考慮重復(fù)數(shù)據(jù)的回憶,并導(dǎo)致偏離所需內(nèi)容的幻覺。在表2中,當(dāng)用戶請求“列出一些紅色水果,不包括蘋果”時,訓(xùn)練數(shù)據(jù)集中頻繁重復(fù)的“紅蘋果、西瓜、櫻桃和草莓”等語句的存在導(dǎo)致模型在輸出中產(chǎn)生記憶過度的語句。
  • 社會偏見。某些偏見與幻覺有著內(nèi)在的聯(lián)系,特別是與性別有關(guān)的偏見和國籍。例如,即使在用戶提供的上下文中沒有明確提到性別,LLM也可能會將護理職業(yè)與女性聯(lián)系起來,這是第2.3節(jié)中討論的上下文不一致性幻覺的例證。這種偏見可能無意中從基于互聯(lián)網(wǎng)的文本中獲得,這些文本充斥著不同的和有偏見的觀點,并隨后傳播到生成的內(nèi)容中。除了這些偏差,數(shù)據(jù)分布的差異也是幻覺的潛在原因。在自然界中McKenna發(fā)現(xiàn),LLM傾向于通過對訓(xùn)練數(shù)據(jù)中確認的假設(shè)的偏見而錯誤地標(biāo)記。
    在這里插入圖片描述
    知識邊界。雖然龐大的預(yù)培訓(xùn)語料庫賦予了LLM廣泛的事實知識,但他們天生就有邊界。這種局限性主要表現(xiàn)在兩個方面:缺乏最新的事實知識和專業(yè)領(lǐng)域知識。表3中給出了一個示例。
  • 領(lǐng)域知識缺乏。LLM在通用領(lǐng)域的廣泛下游任務(wù)中表現(xiàn)出卓越的性能。然而,鑒于這些通用LLM主要是在廣泛的公開可用數(shù)據(jù)集上訓(xùn)練的,他們在專業(yè)領(lǐng)域的專業(yè)知識本質(zhì)上受到缺乏專有培訓(xùn)數(shù)據(jù)的限制。因此,當(dāng)遇到需要特定領(lǐng)域知識的問題時,例如醫(yī)學(xué)和法律的問題,這些模型可能會表現(xiàn)出明顯的幻覺,往往表現(xiàn)為事實捏造。
  • 過時的事實知識。除了特定領(lǐng)域知識的不足之外,關(guān)于LLMs內(nèi)的知識邊界的另一個內(nèi)在限制是它們對最新知識的有限能力。嵌入在LLM中的事實知識表現(xiàn)出明確的時間界限并且可以隨著時間變得過時。一旦這些模型被訓(xùn)練,它們的內(nèi)部知識就永遠不會更新。鑒于我們這個世界的動態(tài)和不斷旋轉(zhuǎn)的性質(zhì),這構(gòu)成了一個挑戰(zhàn)。當(dāng)遇到超越時間范圍的問題時,LLM常常會編造事實或提供過去可能正確但現(xiàn)在已經(jīng)過時的答案。

3.1.2 較差的數(shù)據(jù)利用率

在這里插入圖片描述
預(yù)訓(xùn)練數(shù)據(jù)體現(xiàn)了豐富的真實世界的事實知識,使LLM能夠捕獲并隨后編碼大量的事實知識在其參數(shù)內(nèi)。然而,盡管有這個巨大的知識庫,LLM仍然可以產(chǎn)生知識誘導(dǎo)的幻覺,由于參數(shù)知識的利用率較低。在這種情況下,我們深入研究了兩個關(guān)鍵的挑戰(zhàn):捕獲事實知識的虛假相關(guān)性及其在知識回憶中的斗爭。表4中給出了與較差數(shù)據(jù)利用相關(guān)的每種幻覺類型的示例,以進一步說明。

知識庫。雖然在探索它們的知識儲存方面已經(jīng)作出了重大努力和探測,LLM獲取事實知識的確切機制仍然難以捉摸。最近的研究指出,LLM往往不真正理解事實知識的錯綜復(fù)雜,而是訴諸捷徑。它們表現(xiàn)出過度依賴位置接近的趨勢、共現(xiàn)統(tǒng)計和相關(guān)文獻計數(shù),這可能引入對偽相關(guān)性的偏差,如果偏差反映了事實上不正確的信息,則可能導(dǎo)致幻覺。例如,如表4所示,當(dāng)查詢“the capital ofCanada”時,模型錯誤地返回“多倫多”。這種錯誤可能是由于加拿大和多倫多在其訓(xùn)練數(shù)據(jù)中的共同出現(xiàn)頻率較高,導(dǎo)致模型錯誤地捕獲了有關(guān)加拿大首都的事實知識。

知識回憶失敗。當(dāng)LLM努力有效地利用他們廣泛的知識時,可能會出現(xiàn)幻覺。我們探討了知識召回的兩個主要挑戰(zhàn):在召回長尾知識和困難的復(fù)雜情況下,需要多跳推理和邏輯推理的不足。

  • 長尾知識 在LLM所利用的巨大知識景觀中,一個值得注意的挑戰(zhàn)以長尾知識利用的形式出現(xiàn)。這種長尾知識的特點是在預(yù)訓(xùn)練數(shù)據(jù)中相對罕見,這對LLM提出了固有的挑戰(zhàn),LLM主要依賴于共現(xiàn)模式來記憶事實知識。因此,當(dāng)遇到與這種長尾知識有關(guān)的查詢時,LLM面臨著更高的幻覺風(fēng)險,試圖生成事實上不準(zhǔn)確的響應(yīng)。例如,如表4所示,當(dāng)提示為維基百科訓(xùn)練數(shù)據(jù)中以前遇到的長尾實體生成傳記時,LLM錯誤地將該職業(yè)歸因于將政治家描述為教育家。
  • 除了長尾知識帶來的挑戰(zhàn)之外,知識的有效利用與推理能力密不可分。例如,在多跳問答場景中,即使LLM擁有必要的知識,如果問題之間存在多個關(guān)聯(lián),由于其推理的局限性,它也可能難以產(chǎn)生準(zhǔn)確的結(jié)果。此外,Berglund揭示了LLM中一個特定的推理失敗,稱為Reversal Curse。具體地說,當(dāng)問題被公式化為“A是B”時,模型可以正確回答,而當(dāng)被問到“B是A”時,它表現(xiàn)出失敗的邏輯推理。這種推理上的差異超出了簡單的演繹。在回收增強環(huán)境中,Liu等人強調(diào)了相關(guān)挑戰(zhàn)。盡管在模型的上下文窗口中有包含正確答案的文檔,但由于模型在有效利用所提供的證據(jù)方面的不足,該模型仍然難以生成精確的響應(yīng)。如表4所示,盡管LLM認為珠峰是世界最高峰,但他們無法確定如果珠峰的海拔降低500米,哪座山將成為最高峰,這是一項需要復(fù)雜推理能力的任務(wù)。

3.1.3 摘要

LLM中與數(shù)據(jù)相關(guān)的幻覺主要源于有缺陷的數(shù)據(jù)源和低劣的數(shù)據(jù)利用率。數(shù)據(jù)源中的錯誤信息和固有偏見不僅傳播了模仿性的錯誤,而且還引入了有偏見的輸出,導(dǎo)致各種形式的幻覺。LLM中的知識邊界在處理特定領(lǐng)域的查詢或遇到快速更新的事實知識時變得明顯。關(guān)于數(shù)據(jù)利用,LLM傾向于捕捉虛假的相關(guān)性,并在回憶知識,特別是長尾信息,以及復(fù)雜的推理場景中表現(xiàn)出困難,進一步加劇了幻覺。這些挑戰(zhàn)突出表明,迫切需要提高數(shù)據(jù)質(zhì)量和模型更有效地學(xué)習(xí)和回憶事實知識的能力。

3.2 來自訓(xùn)練的幻覺

LLM的訓(xùn)練過程主要包括兩個主要階段:
1)預(yù)培訓(xùn)階段,LLM學(xué)習(xí)通用表示并捕獲世界知識,以及
2)調(diào)整階段,LLM經(jīng)過調(diào)整以更好地與用戶指令和偏好保持一致。雖然這個過程使LLM具有非凡的能力,但這些階段的任何不足都可能無意中導(dǎo)致幻覺。

3.2.1訓(xùn)練前的幻覺

預(yù)訓(xùn)練是LLM的基礎(chǔ)階段,通常采用基于轉(zhuǎn)換器的體系結(jié)構(gòu)在龐大的語料庫上進行因果語言建模。然而,與幻覺相關(guān)的問題可能來自于固有的結(jié)構(gòu)設(shè)計和所采用的特定訓(xùn)練策略。在本節(jié)中,我們將深入研究架構(gòu)缺陷帶來的挑戰(zhàn)和暴露偏差的影響。

架構(gòu)缺陷。LLM通常采用遵循GPT建立的基于變換器的架構(gòu),其中他們通過因果語言建模目標(biāo)來獲取表示,因果語言建模目標(biāo)是由諸如OPT、Falcon和美洲駝-2。盡管它取得了成功,但它并非沒有陷阱,特別是關(guān)于單向表征不足和注意力故障。
其局限性 它只從一個方向利用上下文,這阻礙了它捕獲復(fù)雜的上下文依賴性的能力,潛在地增加了幻覺出現(xiàn)的風(fēng)險。

  • 注意力故障?;趖ransformer的架構(gòu),配備了自我注意模塊,在捕獲遠程依賴關(guān)系方面表現(xiàn)出了卓越的能力。然而,最近的研究已經(jīng)表明,它們偶爾會在算法推理的上下文中表現(xiàn)出不可預(yù)測的推理錯誤,跨越長距離和短距離的依賴關(guān)系,無論模型規(guī)模如何。一個潛在的原因是軟注意力的局限性,隨著序列長度的增加,注意力在各個位置上都會被稀釋。

暴露偏倚。除了架構(gòu)缺陷之外,訓(xùn)練策略也起著至關(guān)重要的作用。值得注意的是,暴露偏倚現(xiàn)象,由于自回歸生成模型中的訓(xùn)練和推理之間的差異而脫穎而出。在訓(xùn)練過程中,這些模型通常采用強制的最大似然估計(MLE)訓(xùn)練策略,其中提供地面實況標(biāo)記作為輸入。但是,在推理期間,模型依賴于其自己生成的標(biāo)記來進行后續(xù)預(yù)測。這種不一致性可能導(dǎo)致幻覺,尤其是當(dāng)模型生成的錯誤表征在整個后續(xù)序列中級聯(lián)錯誤時,類似于滾雪球效應(yīng)。

3.2.2來自對齊的幻覺

對齊通常涉及兩個主要過程,監(jiān)督微調(diào)和從人類反饋中強化學(xué)習(xí),是解鎖LLM功能并使其與人類偏好保持一致的關(guān)鍵一步。雖然對齊顯著提高了LLM響應(yīng)的質(zhì)量,但它也引入了幻覺的風(fēng)險。在本節(jié)中,我們將把與幻覺相關(guān)的對齊不足分為兩部分:能力失調(diào)和信念失調(diào)

能力失調(diào) ??紤]到LLM具有在預(yù)訓(xùn)練期間建立的固有能力邊界,SFT利用高質(zhì)量指令沿著其對應(yīng)的響應(yīng),使LLM能夠遵循用戶的指示,在這個過程中解鎖他們獲得的能力。然而,隨著LLM能力的擴展,一個重大的挑戰(zhàn)出現(xiàn)了:LLM的內(nèi)在能力和注釋數(shù)據(jù)中描述的那些能力之間的潛在不匹配。當(dāng)比對數(shù)據(jù)的需求超過這些預(yù)定義的能力邊界時,LLM會接受訓(xùn)練,以產(chǎn)生超出其自身知識邊界的內(nèi)容,從而放大幻覺的風(fēng)險。

信念失調(diào)。一些研究已經(jīng)證明LLM的激活包含了與其生成的陳述的真實性相關(guān)的內(nèi)部信念。然而,這些內(nèi)部信念和生成的輸出之間偶爾會出現(xiàn)偏差。即使當(dāng)利用人的反饋來改進LLM時,他們有時會產(chǎn)生與他們的內(nèi)部信念不同的輸出。這種行為被稱為阿諛奉承,強調(diào)了該模型的傾向,以安撫人類評價者,往往是以犧牲真實性為代價的。最近的研究表明,通過RLHF訓(xùn)練的模型表現(xiàn)出明顯的迎合用戶意見的行為。這種阿諛奉承的行為并不限于沒有明確答案的模棱兩可的問題,就像政治立場一樣,但是當(dāng)模型選擇了明顯不正確的答案時也會出現(xiàn),盡管意識到其不準(zhǔn)確性。深入研究這一現(xiàn)象,認為,阿諛奉承的根源可能在于RLHF模型的培訓(xùn)過程。通過進一步探討人類偏好在這一行為中的作用,研究表明,阿諛奉承的傾向可能是由人類和偏好模型共同驅(qū)動的,偏好模型顯示出對拍馬屁反應(yīng)的偏好高于真實反應(yīng)。

3.2.3總結(jié)

在訓(xùn)練LLM時,基礎(chǔ)預(yù)訓(xùn)練和隨后的對齊都提出了可能引起幻覺的獨特挑戰(zhàn)。在訓(xùn)練前的階段,架構(gòu)缺陷,特別是不充分的單向表征,以及注意故障,再加上眾所周知的暴露偏見,都會導(dǎo)致幻覺。同時,在整合階段,也出現(xiàn)了能力錯位和信念錯位的問題。前者有可能將LLM推到他們不知道的地方。邊緣邊界,而后者揭示了LLM的信念和它的輸出之間的差距。這些挑戰(zhàn)強調(diào)了培訓(xùn)法學(xué)碩士以確保其真實性的重要性。從基礎(chǔ)模型設(shè)計和培訓(xùn)策略,以符合人類的期望,它仍然是一個多方面的奮進。

3.3 來自干擾解碼的幻覺

在預(yù)訓(xùn)練和對齊后表現(xiàn)LLM的能力方面起著重要作用。然而,解碼策略中的某些缺陷可能導(dǎo)致LLM幻覺。在這一節(jié)中,我們將深入探討解碼過程中的潛在原因,強調(diào)兩個關(guān)鍵因素:解碼策略的固有隨機性(3.3.1節(jié))和不完美的解碼表示(3.3.2節(jié))。

3.3.1內(nèi)在抽樣隨機性

LLM在生成高度創(chuàng)造性和多樣化的內(nèi)容方面表現(xiàn)出了非凡的才能,這種能力在很大程度上取決于隨機性在其解碼策略中的關(guān)鍵作用。隨機抽樣是目前這些LLM所采用的主要解碼策略。將隨機性納入解碼策略的基本原理源于這樣的認識,即高似然序列通常會導(dǎo)致令人驚訝的低質(zhì)量文本,這被稱為似然陷阱。解碼策略中的隨機性所引入的多樣性是有代價的,因為它與幻覺風(fēng)險的增加正相關(guān)。采樣溫度的升高導(dǎo)致更均勻的令牌概率分布,從而增加了從分布的尾部對具有較低頻率的token進行采樣的可能性。因此,這種對不經(jīng)常出現(xiàn)的記號進行采樣的高度傾向加劇了幻覺的風(fēng)險。

3.3.2不完美的解碼

表示在解碼階段,LLM使用其toplayer表示來預(yù)測下一個token。然而,頂層表示有其局限性,主要表現(xiàn)在兩個方面:上下文注意力不足和Softmax瓶頸

上下文注意不足。先前的研究,特別是在像機器翻譯的領(lǐng)域中的研究和總結(jié)已經(jīng)突出了在采用編碼器-解碼器體系結(jié)構(gòu)的生成模型中的過度置信的問題。這種過度自信源于對部分生成的內(nèi)容的過度關(guān)注,通常以忠實地遵守源上下文為代價來優(yōu)先考慮流利性。雖然主要采用因果語言模型架構(gòu)的大型語言模型已經(jīng)獲得了廣泛的使用,但過度自信現(xiàn)象仍然持續(xù)存在。在生成過程中,下一個單詞的預(yù)測取決于語言模型上下文和部分生成的文本。然而,如先前的研究,語言模型經(jīng)常在它們的注意機制內(nèi)表現(xiàn)出局部化的焦點,優(yōu)先考慮附近的單詞并導(dǎo)致上下文注意的顯著不足。此外,這種擔(dān)心在有產(chǎn)生冗長和全面反應(yīng)傾向的LLM中得到進一步放大。在這種情況下,甚至存在對遺忘指令的風(fēng)險的更高的敏感性。這種注意力不足會直接導(dǎo)致忠實幻覺,其中模型輸出的內(nèi)容偏離了原始上下文。

Softmax瓶頸。大多數(shù)語言模型利用在語言模型內(nèi)的最后層的表示上操作的softmax層,結(jié)合單詞嵌入,來計算與單詞預(yù)測相關(guān)聯(lián)的最終概率。然而,基于Softmax的語言模型的功效受到稱為Softmax瓶頸的公認限制的阻礙,其中與分布式字嵌入相結(jié)合的softmax的使用被限制在給定阻止LM輸出期望分布的上下文的情況下輸出概率分布的表達性。此外,發(fā)現(xiàn),當(dāng)輸出單詞嵌入空間內(nèi)的期望分布呈現(xiàn)出多種模式時,語言模型在準(zhǔn)確地將所有模式中的單詞優(yōu)先排序為下一個單詞時面臨挑戰(zhàn),這也引入了幻覺的風(fēng)險。

3.3.3總結(jié)

在解碼階段,挑戰(zhàn)來自固有的解碼策略和用于預(yù)測的表示。前者強調(diào)其解碼算法中的隨機性,隨著隨機性的增加,可能成為幻覺的來源。而在表示方面,過度依賴附近內(nèi)容和softmax瓶頸等問題可能會限制模型表達不同輸出概率的能力,從而導(dǎo)致令牌預(yù)測不準(zhǔn)確的風(fēng)險。這些復(fù)雜性強調(diào)了在整個解碼過程中保持真實性和忠實性的必要性。

4 幻覺檢測和基準(zhǔn)

LLM所展示的幻覺由于其對模型可靠性和現(xiàn)實世界部署的影響而引起了大量關(guān)注。隨著模型越來越擅長生成類似人類的文本,區(qū)分準(zhǔn)確和虛幻的內(nèi)容成為一個關(guān)鍵問題。兩個主要方面涵蓋了幻覺緩解的廣泛范圍:檢測機制和評估基準(zhǔn)。本節(jié)將深入探討檢測幻覺的最新技術(shù)(第4.1節(jié))和評估其威力的基準(zhǔn)(第4.2節(jié))。

4.1 幻覺檢測

檢測LLM中的幻覺對于確保所生成內(nèi)容的可靠性和可信度至關(guān)重要。傳統(tǒng)的衡量標(biāo)準(zhǔn)主要取決于單詞重疊,無法區(qū)分似是而非和幻覺內(nèi)容之間的細微差異。這樣的挑戰(zhàn)突出了針對LLM幻覺的更復(fù)雜檢測方法的必要性。鑒于這些幻覺的不同性質(zhì),檢測方法也相應(yīng)地不同。因此,在本節(jié)中,我們提供了一個全面的概述初級幻覺檢測策略,針對真實性和忠誠性幻覺。

4.1.1 幻覺檢測

Chen和Shu的研究強調(diào)了人類在識別ChatGPT產(chǎn)生的錯誤信息方面面臨的挑戰(zhàn),導(dǎo)致越來越多的研究旨在設(shè)計檢測方法目標(biāo)事實性幻覺。在這種情況下,我們提出了一個概述,建立的方法,通常分為外部因素和不確定性估計。
在這里插入圖片描述

檢索外部事實。為了有效地指出LLM輸出中的事實錯誤,一種直觀的策略涉及將模型生成的內(nèi)容與可靠的知識源進行比較,如圖3所示。這種方法與事實核查任務(wù)的工作流程緊密一致。然而,傳統(tǒng)的事實核查方法通常包含簡化的實用性假設(shè),在應(yīng)用于復(fù)雜的現(xiàn)實世界場景時會導(dǎo)致差異。認識到這些限制,Chen等人更加強調(diào)了現(xiàn)實世界的場景,其中證據(jù)是從時間受限的、未經(jīng)策劃的網(wǎng)絡(luò)資源中獲取的。他們開創(chuàng)了一個集成了多個組件得全自動化管道:索賠分解,原始文檔檢索,細粒度檢索,以索賠為中心得摘要以及準(zhǔn)確性分類.Galitsky(2023)進一步解決了潛在沖突檢索證據(jù)的情況,方法是找到最少失敗的權(quán)威來源并避免最多失敗的來源。此外,Min等人(2023年)引入了FACTSCORE,這是一種專門用于長格式文本生成的細粒度事實度量。它將生成內(nèi)容分解為原子事實,然后計算由可靠知識源支持的百分比。最近,Huo等人(2023)通過查詢擴展增強了檢索幻覺檢測支持證據(jù)的標(biāo)準(zhǔn)方法。通過在檢索過程中將原始問題與LLM生成的答案相結(jié)合,他們解決了主題漂移問題,確保檢索到的段落與問題和LLM的回答保持一致。從更廣泛的角度來看,Chern等人(2023)提出了一個統(tǒng)一的框架,使LLM能夠通過利用一套外部工具來收集證據(jù)來檢測事實錯誤。
在這里插入圖片描述
不確定性估計。雖然許多幻覺檢測方法依賴于外部知識源來進行事實檢查,但已經(jīng)設(shè)計了幾種方法來解決零資源環(huán)境中的問題,從而消除了檢索的需要。這些策略背后的基本前提是LLM幻覺的起源與生俱來地與模型的不確定性有關(guān)。因此,通過估計模型產(chǎn)生的事實內(nèi)容的不確定性,檢測幻覺變得可行。不確定性估計的方法大致可以分為兩種方法:基于內(nèi)部狀態(tài)的方法和基于LLM行為的方法,如圖4所示。前者在假設(shè)可以訪問模型的內(nèi)部狀態(tài)的情況下運行,而后者則推廣到更受約束的環(huán)境,僅利用模型的可觀察行為來推斷其潛在的不確定性。

  • LLM內(nèi)部狀態(tài)。LLM的內(nèi)部狀態(tài)可以作為其不確定性的信息指示符,通常通過像令牌概率或熵這樣的度量來表現(xiàn)。Varshney等人(2023)通過考慮這些概念中的最小標(biāo)記概率,確定了模型對關(guān)鍵概念的不確定性。其基本原理是,低概率可作為模型不確定性的有力指標(biāo),而概念中出現(xiàn)的較高概率表征的影響較小。類似地,Luo等人(2023 a)采用了一種基于自我評估的方法來進行不確定性估計,其基本原理是,語言模型能夠熟練地從其生成的解釋中重構(gòu)原始概念,這表明了其對該概念的熟練程度。通過最初提示模型生成給定概念的解釋,然后采用約束解碼來使模型基于其生成的解釋重新創(chuàng)建原始概念,來自響應(yīng)序列的概率得分可以用作概念的熟悉度得分。此外,Yao等人(2023 a)通過對抗性攻擊的透鏡解釋了幻覺。他們利用基于梯度的標(biāo)記替換,設(shè)計了誘導(dǎo)幻覺的提示。值得注意的是,他們觀察到,與對抗性攻擊相比,從原始提示生成的第一個令牌通常表現(xiàn)出低熵?;谶@一觀察結(jié)果,他們提出設(shè)置熵閾值來定義這種幻覺攻擊。
  • LLM行為。然而,當(dāng)系統(tǒng)只能通過API調(diào)用訪問時,可能無法訪問輸出的令牌級概率分布。考慮到這一限制,一些研究已經(jīng)將重點轉(zhuǎn)移到探索模型的不確定性,或者通過自然語言提示或通過檢查其行為表現(xiàn)。例如,Manakul et al.(2023)通過對LLM對同一提示的多個反應(yīng)進行采樣,通過評估事實陳述之間的一致性來檢測幻覺。然而,這些方法主要依賴于直接查詢,這些直接查詢顯式地請求來自模型的信息或驗證。Agrawal等人(2023年)受調(diào)查性訪談的啟發(fā),主張使用間接詢問。與直接提問不同的是,這些間接提問者往往提出開放式問題,以獲取具體信息。通過使用這些間接查詢,可以更好地評估跨多個模型生成的一致性。除了從單個LLM的多個代的自一致性評估不確定性之外,還可以通過加入額外的LLM來包含多主體的觀點。從法律的交叉詢問實踐中汲取靈感,Cohen等人(2023)引入了LMvLM方法。該策略利用“審查者”LM來詢問"被審查者“LM,旨在揭示多輪交互期間的聲明不一致性。

4.1.2忠實性幻覺檢測

確保LLM提供上下文或用戶指令的忠實性對于其在無數(shù)應(yīng)用中的實際效用至關(guān)重要,從總結(jié)交互式對話系統(tǒng)。忠實性幻覺檢測主要關(guān)注于確保生成的內(nèi)容與給定的上下文保持一致,避免無關(guān)或矛盾輸出的潛在陷阱。在這一小節(jié)中,我們探索了檢測LLM代中不忠的方法,并在圖5中提供了概述。

基于事實的調(diào)查 在評估忠實性的領(lǐng)域中,最直觀的方法之一涉及測量生成內(nèi)容和源內(nèi)容之間的關(guān)鍵事實的重疊。考慮到事實的不同表現(xiàn)形式,度量可以基于實體、關(guān)系三元組和知識進行分類。

  • 基于N-gram的。當(dāng)把源內(nèi)容作為參考時,傳統(tǒng)的基于n元語法重疊的評價指標(biāo),如Rouge和Parent-T,也可以用來評估忠誠度。然而,由于語言表達的自然多樣性及其對表層匹配的依賴,這些指標(biāo)與人類的相關(guān)性較差。
  • 基于知識。摘要任務(wù)中普遍采用基于實體重疊的度量,因為這些關(guān)鍵實體的任何遺漏或不準(zhǔn)確生成都可能導(dǎo)致不真實的摘要。Nan等人(2021年)引入了一種量化實體幻覺程度的指標(biāo),該指標(biāo)計算了摘要中命名實體與源實體的精確度。
  • 基于關(guān)系。注意,即使實體匹配,它們之間的關(guān)系也可能是錯誤的。因此,古德里奇等人(2019)專注于關(guān)系元組的重疊,并引入了一個度量,該度量計算使用訓(xùn)練的端到端事實提取模型提取的關(guān)系元組的重疊。
  • 基于知識。同樣,對于以知識為基礎(chǔ)的對話任務(wù),事實往往與對話中呈現(xiàn)的知識相對應(yīng)。Shuster等人(2021)引入了知識F1指標(biāo),以評估模型的生成與所提供知識的一致性。

基于分類器 除了計算事實重疊之外,評估模型的忠實度的另一種直接方法涉及利用分類器,該分類器被訓(xùn)練為包括任務(wù)特定的幻覺和忠實內(nèi)容,以及來自相關(guān)任務(wù)的數(shù)據(jù)或合成生成的數(shù)據(jù)。它可以大致分為以下幾種類型:

  • 基于蘊涵。在使用自然語言推理(NLI)來評估生成文本的忠實性時,一個流行的概念是基于這樣的想法,即真正忠實的內(nèi)容應(yīng)該固有地由其源內(nèi)容所包含。與此相一致的是,許多研究已經(jīng)在NLI數(shù)據(jù)集上訓(xùn)練了分類器來識別事實上的不準(zhǔn)確性,尤其是在摘要摘要的背景下。但是,Mishra等人(2021)強調(diào),傳統(tǒng)NLI數(shù)據(jù)集和不一致性檢測數(shù)據(jù)集之間的輸入粒度不匹配限制了其有效檢測不一致性的適用性。在此基礎(chǔ)上,更先進的研究提出方法,例如對對抗性數(shù)據(jù)集進行微調(diào),在依存關(guān)系弧級分解蘊涵決定,將文檔分割成句子單元,然后聚合句子對之間的得分。這些集體努力強調(diào)了提高幻覺檢測準(zhǔn)確性的潛力。
  • 每周監(jiān)督。雖然使用來自相關(guān)任務(wù)的數(shù)據(jù)來微調(diào)分類器在評估忠實度方面顯示出了希望,但認識到相關(guān)任務(wù)與下游任務(wù)之間的內(nèi)在差距是至關(guān)重要的。注釋數(shù)據(jù)的稀缺性進一步限制了其適用性。為了應(yīng)對這一挑戰(zhàn),Kryscinski等人(2020)分析了尖端概括模型造成的誤差,并引入了一種方法,使用基于規(guī)則的轉(zhuǎn)換來創(chuàng)建弱監(jiān)督數(shù)據(jù),以微調(diào)分類器。同時,Zhou等人(2021)設(shè)計了一種自動生成表征級幻覺數(shù)據(jù)并執(zhí)行表征的方法水平幻覺檢測。在Kryovski等人的工作的基礎(chǔ)上,Dhani等人(2021年b)利用擾動方法生成對抗性合成數(shù)據(jù),旨在增強基于知識的對話任務(wù)中的幻覺檢測,而Santhanam等人(2021年)則關(guān)注對話領(lǐng)域的事實一致性。

基于問答的指標(biāo)。與基于分類器的度量相比,基于QA的度量最近因其捕獲模型的生成和其源之間的信息重疊的增強能力而受到關(guān)注。這些度量通過從LLM的輸出內(nèi)的信息單元中最初選擇目標(biāo)答案來操作,然后由問題生成模塊生成問題。這些問題隨后被用于基于用戶上下文生成源答案。最后,通過比較源答案和目標(biāo)答案之間的匹配分數(shù)來計算LLM的回答的忠實度。雖然這些方法不同的學(xué)科都有一個共同的主題方法,它們在答案選擇、問題生成和答案重疊等方面表現(xiàn)出可變性,導(dǎo)致不同的績效結(jié)果。在這項基礎(chǔ)工作的基礎(chǔ)上,Fabbri等人(2022)對基于QA的指標(biāo)中的組件進行了深入評估,進一步增強了忠誠度評估。

不確定性估計。根據(jù)第4.1.1節(jié)的見解,條件文本生成中的幻覺與高模型不確定性密切相關(guān)。不確定性估計在貝葉斯深度學(xué)習(xí)中得到了廣泛的研究。從貝葉斯的角度來看,預(yù)測的總不確定性由輸出分布的預(yù)測熵來表征。此外,一些工作試圖使用對數(shù)概率來量化模型的不確定性。基于這些原理,我們將現(xiàn)有的通過不確定性估計進行幻覺檢測的方法分為以下類型:

  • 基于熵。觀察到數(shù)據(jù)到文本生成中的幻覺可能性與預(yù)測不確定性之間的正相關(guān)性,預(yù)測不確定性由深度集合估計利用Monte Carlo Dropout產(chǎn)生的假設(shè)方差作為神經(jīng)機器翻譯(NMT)中的不確定性度量。最近,貨車der Poel等人(2022)采用了條件熵,以評估抽象總結(jié)中的模型不確定性。
  • 基于對數(shù)概率。Guerreiro等人(2023a)使用長度歸一化序列對數(shù)概率來衡量模型置信度。
  • 基于模型。Miao等人(2023)通過使用SelfCheck(一種逐步檢查器,用于評估LLM中的每個推理步驟)來集中研究復(fù)雜推理中的錯誤檢測。該系統(tǒng)通過目標(biāo)提取、信息收集、步驟再生和結(jié)果比較的簡化過程來匯總置信度分數(shù),從而提高問答準(zhǔn)確性。

基于網(wǎng)絡(luò)的度量
最近,LLM顯著的指令遵循能力強調(diào)了其自動評估的潛力。利用這種能力,研究人員已經(jīng)冒險進入用于評估模型生成的內(nèi)容的忠實性的新穎范例。通過向LLM提供具體的評估指南,并向他們提供模型生成的內(nèi)容和源內(nèi)容,他們可以有效地評估忠誠度。最終的評估輸出可以是對忠實性的二元判斷或指示忠誠度的k點Likert度量。對于提示選擇,評估提示可以是直接提示、思路鏈提示,使用上下文學(xué)習(xí)或允許模型產(chǎn)生伴隨解釋的評估結(jié)果。

4.2 基準(zhǔn)

在本節(jié)中,我們?nèi)娓攀隽爽F(xiàn)有的幻覺基準(zhǔn),這些基準(zhǔn)可以分為兩個主要領(lǐng)域:幻覺評估基準(zhǔn)(§4.2.1),用于評估現(xiàn)有尖端LLM產(chǎn)生的幻覺程度,以及幻覺檢測基準(zhǔn)(§4.2.2),專門用于評估現(xiàn)有幻覺檢測方法的性能??偟膩碚f,這些基準(zhǔn)建立了一個統(tǒng)一的框架,使LLM的幻覺模式的細致入微和徹底的探索。

4.2.1 幻覺評估基準(zhǔn)

幻覺評估基準(zhǔn)旨在評估LLM產(chǎn)生幻覺的傾向,特別強調(diào)識別事實不準(zhǔn)確和測量與原始上下文的偏差。目前,這些基準(zhǔn)的主要重點是評估LLM生成內(nèi)容的真實性。雖然大多數(shù)都是以問答形式組織的,但他們的主要重點仍然是LLM的真實性。他們獨特的特征源于他們所選擇的知識領(lǐng)域,語言和響應(yīng)格式。我們在下面詳細介紹了最具代表性的基準(zhǔn),并同時提供了對常見LLM性能的評估這些基準(zhǔn)的要求(§A)。

真實的QA。TruthfulQA由817個問題組成,涵蓋健康、法律、金融和政治等38個不同類別,是一項專門用于評估語言模型真實性的基準(zhǔn)測試。它采用了對抗性方法,旨在引出“模仿性謊言”–由于模型頻繁出現(xiàn)在訓(xùn)練數(shù)據(jù)中,可能會產(chǎn)生誤導(dǎo)性反應(yīng)。該性能指標(biāo)評測分為兩部分,其中一部分包含手動策劃的問題,這些問題通過篩選GPT-3正確回答的問題而得到進一步優(yōu)化,最終得到437個篩選問題。另一部分包括380個未過濾的非對抗性問題。在評估方面,TruthfulQA提供了兩種類型的問題回答任務(wù):生成和多項選擇,并采用人工評估來衡量模型的真實性和信息量。此外,該性能指標(biāo)評測還引入了一個名為GPT-judge的自動度量,該度量在6.7B GPT-3模型上進行了微調(diào)。

REALTIMEQA。由于世界知識是不斷發(fā)展的,因此,如何驗證邏輯學(xué)習(xí)模型對當(dāng)前世界的真實性就成為一個關(guān)鍵問題。該基準(zhǔn)測試提供了從新發(fā)布的新聞文章中提取的實時開放域多項選擇題,涉及政治、商業(yè)、體育和娛樂等多個主題。此外,該性能指標(biāo)評測還提供了一個用于實時評估的平臺,可以通過按準(zhǔn)確性評估的多選格式,也可以通過使用精確匹配和基于令牌的F1指標(biāo)評估的生成設(shè)置。

Med-HALT。鑒于幻覺在醫(yī)療領(lǐng)域?qū)Σ∪俗o理的嚴(yán)重后果,意識到了具體到醫(yī)學(xué)領(lǐng)域的LLM的挑戰(zhàn)。Med-HALT結(jié)合了來自不同國家的多項選擇問題,專門用于評估LLM在醫(yī)學(xué)背景下的推理和記憶能力。推理任務(wù)有18,866個樣本,測試了LLM使用多項選擇醫(yī)學(xué)問題區(qū)分不正確或不相關(guān)選項和虛假問題的能力。同時,包括4,916個樣本的記憶任務(wù)通過從PubMed摘要/標(biāo)題生成鏈接或從給定鏈接和PMID生成標(biāo)題來評估LLM回憶和生成準(zhǔn)確事實信息的能力。對于評估,LLM的表現(xiàn)是通過他們在測試問題上的準(zhǔn)確性來衡量的,或者通過一個點態(tài)分數(shù)來衡量,該分數(shù)考慮了正確答案的積極分數(shù)和不正確答案的消極懲罰。

因子。為了定量評估LM的真實性,Muhlgay等人(2023)引入了一種方法,該方法通過擾動指定語料庫中的事實陳述來自動創(chuàng)建基準(zhǔn)。產(chǎn)生兩個基準(zhǔn):Wiki-FACTOR和News-FACTOR。具體地,對于給定的前綴文本,來自語料庫的原始完成用作事實上正確的答案。然后,InstructGPT將在包含特定錯誤類型的提示的指導(dǎo)下生成非事實性的完成。這些生成的回答隨后被過濾以獲得流暢性和自我一致性,作為多項選擇任務(wù)的基礎(chǔ)。為了評估,LM的真實性通過模型產(chǎn)生真實正確的完成的可能性是否超過產(chǎn)生其他非真實完成的可能性來衡量。

中國事實評估。ChineseFactEval從常識、科學(xué)研究、醫(yī)學(xué)、法律、金融、數(shù)學(xué)和中國近代史等多個領(lǐng)域收集問題,采用125個問題對6位當(dāng)代中國法學(xué)碩士的事實能力以及GPT-4進行了評估。為了進行評估,根據(jù)不同的LLM所達到的準(zhǔn)確性對問題進行分類,并為不同難度的問題分配不同的分數(shù)。來自所有LLM的響應(yīng)主要由人注釋,并由FacTool補充(Chern等人,2023年)。然后,使用LLM的最終分數(shù)來評估其真實性。

HalluQA。圖紙來自TruthfulQA的施工方法(Lin等人,2022),HalluQA專門評估中國大語言模型中的幻覺,重點是模仿性錯誤和事實錯誤。該基準(zhǔn)測試包括30個領(lǐng)域的450個手工設(shè)計的對抗性問題,分為兩個部分。誤導(dǎo)部分捕獲了成功欺騙GLM-130 B的問題,而知識部分保留了ChatGPT和Puyu一貫回答錯誤的問題。為了進行評估,LLM生成對這些問題的回答,然后使用GPT-4將其與正確答案進行比較,以確定答案是否包含幻覺。

FreshQA。認識到幻覺可能部分地由經(jīng)驗學(xué)習(xí)理論中過時的知識引起,引入基準(zhǔn)來評估現(xiàn)有經(jīng)驗學(xué)習(xí)理論的真實性。該基準(zhǔn)包括600個手工編制的問題,這些問題的答案可能會隨著時間的推移而變化,或者其前提事實上是不正確的。該基準(zhǔn)主要評估法律碩士對快速變化的知識的才能,以及他們識別錯誤前提問題的能力。對于評估,基準(zhǔn)測試提供了兩種模式的評估過程:RELAXED(僅評估主要答案的正確性)和STRICT(進一步評估答案中每個事實的準(zhǔn)確性)。在這兩種模式中,LLM的真實性由其響應(yīng)的準(zhǔn)確性來反映,如通過人工注釋所確定的。

4.2.2 幻覺檢測基準(zhǔn)

對于幻覺檢測基準(zhǔn),大多數(shù)先前的研究主要集中在任務(wù)特異性幻覺上,例如抽象概括,數(shù)據(jù)到文本,以及機器翻譯。然而,在這些研究中產(chǎn)生的內(nèi)容通常源自具有較小能力的模型,例如BART和PEGASUS。因此,它們可能無法準(zhǔn)確地反映幻覺檢測策略的有效性。因此,這些研究不屬于我們目前討論的范圍。

SelfCheckGPT-Wikibio。Miao等人(2023)基于WikiBio數(shù)據(jù)集的概念,通過使用GPT-3生成合成維基百科文章,引入了句子級幻覺檢測數(shù)據(jù)集。這些段落的真實性,然后手動注釋的時態(tài)水平,共生成238篇文章的1908句句子。

HaluEval。為了評估LLM在識別幻覺方面的能力,HaluEval是通過自動生成和人工注釋的組合構(gòu)建的,產(chǎn)生了5,000個與ChatGPT響應(yīng)配對的一般用戶查詢和30,000個特定任務(wù)樣本。自動生成采用了“采樣-然后過濾”的方法。該基準(zhǔn)測試基于來自問題回答、基于知識的對話和文本摘要的特定任務(wù)數(shù)據(jù)集,首先使用ChatGPT根據(jù)任務(wù)相關(guān)的幻覺模式對多方面的幻覺答案進行采樣,然后通過ChatGPT選擇最合理的幻覺樣本。對于人工注釋,ChatGPT處理來自羊駝的查詢,以采集多個響應(yīng),然后手動評估是否存在幻覺內(nèi)容。

竹子。在Li等人(2023c)提出的方法基礎(chǔ)上,該基準(zhǔn)引入了兩個新的數(shù)據(jù)集,SenHallu和AbsHallu,旨在檢測長文本背景下的幻覺。這些數(shù)據(jù)集是通過誘導(dǎo)ChatGPT產(chǎn)生給定學(xué)術(shù)論文的幻覺而構(gòu)建的,分別產(chǎn)生200個樣本。

FELM。與以前主要集中在諸如總結(jié)之類的特定任務(wù)上的研究不同(Fabbri等人,2021年; Tang等人,2022)或諸如世界知識的特定領(lǐng)域(Miao等人,2023年),該基準(zhǔn)評估了五個領(lǐng)域的真實性:世界知識、科學(xué)和技術(shù)、數(shù)學(xué)、寫作和推薦以及推理。雖然早期的研究有意地誘導(dǎo)LLM基于特定模式產(chǎn)生幻覺(Li等人,2023 c),該基準(zhǔn)測試采用ChatGPT在零觸發(fā)設(shè)置下生成響應(yīng),總共產(chǎn)生817個樣本(包括3948個片段)。每個段都標(biāo)注了真實性、錯誤原因、錯誤類型和外部引用。作為事實性檢測器的測試平臺,該基準(zhǔn)測試采用F1評分和平衡分類準(zhǔn)確度來評估細分和響應(yīng)級別的事實性錯誤。

PHD。該基準(zhǔn)并不側(cè)重于句子級的幻覺檢測,而是強調(diào)段落級的檢測?;鶞?zhǔn)的構(gòu)建始于從Wikipedia轉(zhuǎn)儲中提取實體,然后使用ChatGPT生成段落。認識到當(dāng)LLM缺乏足夠的知識時,往往會出現(xiàn)真實性錯誤,基準(zhǔn)測試根據(jù)Google搜索返回的相關(guān)條目的數(shù)量選擇實體。這種分類導(dǎo)致三個不同的組:PHD-低、PHD中和PHD-高。從每個類別中,抽取100個實體,然后在段落級別上進行人工注釋,如事實,非事實或無法驗證。在評估過程中,基準(zhǔn)采用精確度,召回率和F1措施來評估檢測非事實段落的方法的有效性。

屏幕評估。ScreenEval基準(zhǔn)測試基于主要關(guān)注短文檔的現(xiàn)有研究,將范圍擴展到長格式對話中的事實不一致性?;赟ummScreen數(shù)據(jù)集(Chen等人,2022 a),該基準(zhǔn)測試在句子級為Longformer和GPT-4生成的摘要引入了事實不一致性注釋,得到了一個包含52個文檔和624個摘要句子的數(shù)據(jù)集。至于評價,幻覺檢測方法在該基準(zhǔn)上使用AUROC評分進行評價。

RealHall。該基準(zhǔn)的構(gòu)建遵循以下原則:幻覺檢測基準(zhǔn)內(nèi)的任務(wù)應(yīng)該對LLM提出實質(zhì)性挑戰(zhàn),并與現(xiàn)實世界的應(yīng)用相關(guān),同時確保多樣性的廣度。與此相一致,基準(zhǔn)集中在問答任務(wù)上,根據(jù)提示中參考文本的可用性將其分為封閉和開放組?;鶞?zhǔn)測試中的每個問題最初都使用ChatGPT來生成響應(yīng),隨后通過人工注釋、GPT 4評估和基于規(guī)則的自動評估的組合方法為響應(yīng)分配布爾地面實況標(biāo)簽。應(yīng)用于該基準(zhǔn)的幻覺檢測方法的功效使用AUROC評分來量化。

LSum?;鶞?zhǔn)測試的中心是在由LLM承擔(dān)的摘要任務(wù)中檢測事實一致性?;赬Sum構(gòu)建(Narayan等人,2018年),基準(zhǔn)涉及使用各種LLM生成摘要,來自GPT系列,GLM系列和LLaMA通過使用ChatGPT和GPT 4在句子水平上注釋事實一致性,總共產(chǎn)生6,166個注釋摘要。

SAC。該基準(zhǔn)測試由兩個數(shù)據(jù)集組成:HotpotQA-halu和NQopen-halu。這些數(shù)據(jù)集是通過從HotpotQA的訓(xùn)練集中抽樣250個例子來構(gòu)建的(Yang等人,2018 b)和NQ開放(Kwiatkowski等人,2019年)。然后使用gpt-3.5turbo生成幻覺答案。然后,對答案進行人工注釋,其中包括將其與地面真相和相關(guān)知識來源進行比較。

5 減輕幻覺

在本節(jié)中,我們提出了一個全面的審查當(dāng)代方法,旨在減輕幻覺LLM。我們從《幻覺的原因》(§3)中討論的觀點出發(fā),根據(jù)幻覺的根本原因?qū)@些方法進行了系統(tǒng)的分類。具體而言,我們關(guān)注的是解決數(shù)據(jù)相關(guān)幻覺(§5.1)、培訓(xùn)相關(guān)幻覺(§5.2)和推理相關(guān)幻覺(§5.3)的方法,每種方法都提供了量身定制的解決方案,以應(yīng)對各自原因所固有的特定挑戰(zhàn)。

5.1數(shù)據(jù)相關(guān)幻覺

通常是偏見、錯誤信息和知識差距的副產(chǎn)品,這些因素從根本上植根于訓(xùn)練數(shù)據(jù)。在這種情況下,我們探索各種策略來減輕這種幻覺,旨在盡量減少錯誤信息和偏見的發(fā)生,同時還提供知識增強和提高知識的有效利用LLM。

5.1.1 減少錯誤信息和偏見

為了減少錯誤信息和偏見的存在,最直觀的方法是收集高質(zhì)量的事實數(shù)據(jù),以防止引入錯誤信息,并進行數(shù)據(jù)清理以消除偏見。

事實數(shù)據(jù)增強.保持訓(xùn)練數(shù)據(jù)的事實正確性在減輕諸如模仿性虛假的問題中是至關(guān)重要的(Lin等人,2022年)。最直接的方法是對預(yù)訓(xùn)練數(shù)據(jù)集進行手動管理。早在GPT-2出現(xiàn)時,拉德福等人(2019)強調(diào)了專門抓取經(jīng)過人類專家嚴(yán)格管理和過濾的網(wǎng)頁的重要性。然而,隨著預(yù)訓(xùn)練數(shù)據(jù)集的不斷擴展,手動管理成為一個挑戰(zhàn)。鑒于學(xué)術(shù)或?qū)I(yè)領(lǐng)域的數(shù)據(jù)通常都是真實準(zhǔn)確的,因此收集高質(zhì)量的數(shù)據(jù)成為了一項主要策略。值得注意的例子包括樁(Gao等人,2021)和“教科書式”數(shù)據(jù)源(Gunasekar等人,2023年; Li等人,2023 f)。另外,在預(yù)訓(xùn)練階段期間對事實數(shù)據(jù)進行上采樣已被證明在增強LLM的事實正確性方面是有效的(Touvron等人,#20320;,從而緩解幻覺。

德拜斯。預(yù)訓(xùn)練數(shù)據(jù)中的偏差通常可以分為兩大類:重復(fù)偏差和社會偏差,每一類都需要不同的去偏差方法。

  • 復(fù)制偏差。重復(fù)數(shù)據(jù)刪除是預(yù)培訓(xùn)階段的一個關(guān)鍵步驟?,F(xiàn)有的做法通常分為兩類:完全重復(fù)和近似重復(fù)。對于完全重復(fù)的字符串,最直接的方法是進行完全子字符串匹配,以識別相同的字符串。然而,給定大量的預(yù)訓(xùn)練數(shù)據(jù),該過程可能是計算密集型的。此外,一種更有效的方法利用后綴數(shù)組的構(gòu)造(Manber和Myers,1993),使得能夠在線性時間內(nèi)有效地計算大量子串查詢。關(guān)于近似重復(fù),識別通常涉及近似全文匹配,通常利用基于散列的技術(shù)來識別具有顯著ngram重疊的文檔對。此外,MinHash(Broder,1997)作為用于大規(guī)模重復(fù)數(shù)據(jù)刪除任務(wù)的流行算法而脫穎而出(Gyawali等人,2020年)。此外,SemDeDup(Abbas等人,2023)利用來自預(yù)訓(xùn)練模型的嵌入來識別語義重復(fù),語義重復(fù)指的是具有語義相似性但不完全相同的數(shù)據(jù)對。
  • 社會偏見。鑒于預(yù)訓(xùn)練數(shù)據(jù)的龐大性和不可測性,直接解決社會偏見的根本原因是一項艱巨的挑戰(zhàn)(費拉拉,2023)。因此,當(dāng)前的主流解決方案嚴(yán)重依賴于精心策劃的培訓(xùn)語料庫。通過精心挑選多樣化、均衡、有代表性的通過使用代表性的訓(xùn)練數(shù)據(jù),我們可以減輕偏差(Paullada et al.,2021年; Narayanan Venkit等人,2023年; Ladhak等人,#20203;可能會引發(fā)幻覺。此外,還引入了工具包(Viswanath和Zhang,2023),使用戶能夠消除現(xiàn)有模型和自定義模型的偏差。

5.1.2 減少知識邊界

受訓(xùn)練數(shù)據(jù)的覆蓋范圍和時間邊界的約束,不可避免地形成知識邊界,帶來了顯著的挑戰(zhàn)。為了應(yīng)對這些挑戰(zhàn),兩種流行的方法得到了極大的關(guān)注。一種是知識編輯(Sinitsin et al.,2020; Yao等人,2023 c),其目的是直接編輯模型參數(shù),以彌合知識差距。另一種是通過檢索增強生成(RAG)利用非參數(shù)知識源(劉易斯等人,2020 b; Guu等人,2020年; Shuster等人,2021年)。

知識編輯。知識編輯De Cao et al.(2021); Sinitsin et al.(2020)已經(jīng)引起了研究人員越來越多的關(guān)注,其目的是通過整合額外的知識來矯正模型行為。當(dāng)前的知識編輯技術(shù)可以修復(fù)事實錯誤并刷新過時的信息以減輕知識差距,這可以被分類為兩類:通過修改模型參數(shù)或使用外部模型插件來改變模型的行為,其中原始模型被凍結(jié)(Yao等人,2023 c)。

  • 修改模型參數(shù)。這些技術(shù)直接將知識注入到原始模型中,導(dǎo)致模型輸出的實質(zhì)性改變,這可以進一步分為定位然后編輯方法和元學(xué)習(xí)方法。
    定位然后編輯方法(Dai等人,2022 a; Meng等人,2022)由兩個階段組成,首先定位模型參數(shù)的“錯誤”部分,然后對它們應(yīng)用更新以改變模型的行為。例如,羅馬(Meng等人,2022)通過破壞并隨后恢復(fù)激活來定位編輯相關(guān)層,然后以編輯知識的定向方式更新FFN的參數(shù)。MEMIT(Meng等人,2023)采用了與羅馬相同的知識定位方法,使多個層次的并發(fā)更新,以方便對知識的定位數(shù)千種編輯知識的同步整合。然而,Yao等人(2023c)發(fā)現(xiàn)這些方法缺乏非平凡的泛化能力,并且對不同的模型架構(gòu)具有不同的性能和適用性。性能最好的方法羅馬(Meng等人,2022)和MEMIT(Meng等人,2023)經(jīng)驗上僅在僅解碼器LLM上工作良好。
    元學(xué)習(xí)方法 訓(xùn)練外部超網(wǎng)絡(luò)以預(yù)測原始模型的權(quán)重更新。然而,元學(xué)習(xí)方法通常需要額外的訓(xùn)練和存儲器成本,需要專門的設(shè)計來減少LLM時代的超網(wǎng)絡(luò)的大小(例如,低秩分解(Mitchell等人,2022 a))。雖然這些方法可以細粒度地調(diào)整模型的行為,但對參數(shù)的修改可能對模型的固有知識產(chǎn)生潛在的有害影響。

  • 保留模型參數(shù)。一系列研究不是直接修改模型參數(shù),而是將額外的模型插件應(yīng)用到原始模型中,以實現(xiàn)模型行為的所需更改。SERAC(Mitchell等人,2022 b)采用范圍分類器來將與存儲在外部編輯存儲器中的新知識相關(guān)聯(lián)的輸入路由到反事實模型,這可以幫助基礎(chǔ)模型處理更新的信息。
    與整個模型相比,存在涉及并入附加參數(shù)層(例如,適配器層(Hartvigsen等人,2022))作為插件插入原始模型。T-Patcher(Huang等人,2023 d)和NKB(Dai等人,2022 b)都將補丁添加到FFN層中,FFN層被確認為存儲知識的庫(Geva等人,#20201;糾正錯誤。CALINET(Dong等人,2022)提出了一種用于識別PLM中錯誤知識的評估方法,并通過引入類似FFN的存儲槽來調(diào)整FFN的輸出,這有利于緩解知識缺口。這些方法需要額外的步驟來訓(xùn)練參數(shù)模塊,精心設(shè)計訓(xùn)練函數(shù)和結(jié)構(gòu),以促進插件在更新的知識中發(fā)揮作用,同時保持由原始模塊處理的未編輯事實。知識編輯方法可以有效地引入知識,在一定程度上緩解模型的知識缺口。然而,知識編輯的影響仍有提高的余地。(Zhong等人,2023 b)提出了MQUAKE來評估注入知識的泛化,并發(fā)現(xiàn)編輯后的模型可以成功地回憶編輯后的事實,但在復(fù)雜的多跳問題中失敗。也有一些研究(Wu等人,2023; Wang等人,2023 e),這表明現(xiàn)有的編輯方法表現(xiàn)出有限的跨語言泛化能力。此外,Pinter和Elhadad(2023)認為,知識編輯技術(shù)在試圖減輕LLM的幻覺時會給用戶帶來潛在風(fēng)險,并建議使用包含明確知識的方法(例如檢索增強方法)。

檢索增強。減輕知識差距的直觀方式是檢索擴增生成(RAG)(劉易斯等人,2020 b; Guu等人,2020年; Shuster等人,2021),在生成過程中,通過對從外部知識源檢索的相關(guān)文檔進行調(diào)節(jié),使LLM成為基礎(chǔ)。典型地,RAG遵循檢索-讀取流水線,其中相關(guān)的上下文文檔首先由檢索器檢索(Karpukhin等人,2020),然后由生成器根據(jù)輸入文本和檢索到的文檔兩者來生成所需的輸出。我們將使用檢索增強來減輕幻覺的方法分為三種類型,包括一次性檢索、迭代檢索和事后檢索。

  • 一次性檢索。一次檢索的目的是將一次檢索所獲得的外部知識直接前置到學(xué)習(xí)資源管理者的提示中。Ram et al.(2023)引入了Incontext RALM,它需要一種簡單而有效的策略,將所選文檔預(yù)先添加到LLM的輸入文本中。實證結(jié)果表明,在不同規(guī)模的語料庫和不同的語料庫中,語境中的RALM的使用都能持續(xù)地提高學(xué)習(xí)績效。值得注意的是,排名機制的結(jié)合已被證明可以進一步放大性能增益。
    除了傳統(tǒng)的知識庫,如維基百科,正在進行的研究努力探索替代途徑,特別是知識圖(KG)的利用。這些KG充當(dāng)促進LLM的關(guān)鍵工具,促進它們與最新知識的交互,并引出強大的推理途徑(Wen et al.,2023; Qi等人,2023年; Baek等人,2023年)。Varshney et al.(2023)介紹了參數(shù)知識指導(dǎo)(PKG)框架,增強了具有特定領(lǐng)域知識的LLM。PKG采用可訓(xùn)練的背景知識模塊,將其與任務(wù)知識對齊并生成相關(guān)的上下文信息。PKG的有效性突出了通過整合檢索到的背景知識來提高LLM的忠誠度的潛力。
  • 迭代檢索。然而,當(dāng)面對復(fù)雜的挑戰(zhàn),如多步推理時和長式問答,傳統(tǒng)的一次性檢索可能會有所不足。
    為了滿足這些苛刻的信息需求,最近的研究提出了迭代檢索,它允許在整個生成過程中不斷收集知識。一個新興的研究方向努力通過將這些復(fù)雜的任務(wù)分解為更易于管理的子任務(wù)來解決這些復(fù)雜的任務(wù)。認識到思維鏈提示在多步推理中給LLM帶來的實質(zhì)性進步Wei et al.(2022),許多研究嘗試在每個推理步驟中融入外部知識,并進一步指導(dǎo)基于正在進行的推理的檢索過程,減少推理鏈中的事實錯誤。在思維鏈提示的基礎(chǔ)上,Press等人(2022)引入了自我提問。與傳統(tǒng)的連續(xù)的、未描述的思維鏈提示不同,自我提問在每一步都描述了它打算解決的問題,隨后結(jié)合了基于后續(xù)問題的搜索動作是的。Feng et al.(2023 b)和Shao et al.(2023)都采用了迭代檢索生成協(xié)作框架,而不是僅僅依賴于提示檢索指導(dǎo)的思想鏈,其中模型的響應(yīng)作為一個有洞察力的上下文來獲取更多相關(guān)知識,隨后在后續(xù)迭代中細化響應(yīng)。除了多步推理任務(wù)之外,Jiang等人(2023)將重點轉(zhuǎn)移到長形式生成。他們提出了一個主動檢索增強生成框架,該框架迭代地將即將到來的預(yù)測視為檢索相關(guān)文檔的查詢。如果預(yù)測包含低置信度的標(biāo)記,則句子經(jīng)歷再生。除了使用迭代檢索來改進中間代,Zhang等人(2023 e)提出了MixAlign,它使用基于模型的指導(dǎo)迭代地細化用戶問題并尋求用戶的澄清,最終增強了問題和知識之間的一致性。
  • 事后檢索。除了傳統(tǒng)的先檢索后閱讀的模式,一系列的工作已經(jīng)深入到事后檢索,通過后續(xù)的基于檢索的修訂來精煉LLM輸出。為了提高LLM的可信度和歸屬性,Gao et al.(2023 a)采用了研究-然后-修訂的工作流程,該流程首先研究相關(guān)證據(jù),然后根據(jù)檢測到的與證據(jù)不符的情況修改初始生成。類似地,Zhao等人(2023 a)引入了verify-andedit框架,通過合并外部知識來提高推理鏈的事實準(zhǔn)確性。對于一致性低于平均水平的推理鏈,框架會生成驗證問題,然后根據(jù)檢索到的知識細化推理,確保做出更符合事實的回答。Yu等人(2023 d)通過不同的答案生成增強了事后檢索方法。他們不是只生成一個答案,而是對各種可能的答案進行采樣,從而獲得更全面的檢索反饋。此外,通過采用在檢索之前和之后考慮答案的可能性的集成技術(shù),它們進一步減輕了誤導(dǎo)性檢索反饋的風(fēng)險。

5.1.3減少知識冗余

當(dāng)LLM依靠虛假的相關(guān)性(例如預(yù)訓(xùn)練語料庫的共現(xiàn)統(tǒng)計數(shù)據(jù))來捕獲事實知識時,知識捷徑就會出現(xiàn)。Kang和Choi(2023)建議對通過排除有偏樣本構(gòu)建的去偏數(shù)據(jù)集進行微調(diào)。雖然這會導(dǎo)致當(dāng)更多的樣本被排除時,對頻繁事實的回憶會顯著下降,但當(dāng)在微調(diào)過程中看不到罕見事實時,這種方法很難概括。

5.1.4減輕知識回憶

失敗LLM中幻覺的普遍來源是他們無法準(zhǔn)確檢索和應(yīng)用嵌入其參數(shù)知識中的相關(guān)信息。在信息完整性至關(guān)重要的復(fù)雜推理場景中,這一挑戰(zhàn)尤其嚴(yán)峻。通過增強知識回憶,我們可以更好地將模型的輸出錨到可驗證的知識,從而提供更強大的防御來防止產(chǎn)生幻覺內(nèi)容。通常,最直接的方法來回憶知識是使LLMs能夠通過思路鏈提示進行推理。Zhong等人(2023b)認為,簡單地應(yīng)用CoT可以提高知識回憶,這大大提高了在多跳設(shè)置下編輯事實的性能。Zheng et al.(2023)認為,直接用相關(guān)信息補充問題可以增強模型回憶關(guān)鍵知識的能力,而不是整合推理步驟。Wang等人(2023g)采用概念化的方法推進了這一點,概念化將原始的常識知識提煉成高級抽象知識,從而提高了知識的回憶率。

5.2減輕與培訓(xùn)相關(guān)的幻覺

與培訓(xùn)相關(guān)的幻覺通常源于LLM所采用的架構(gòu)和培訓(xùn)策略的內(nèi)在局限性。在這種情況下,我們討論了各種優(yōu)化方法,包括訓(xùn)練階段(§5.2.1)和對齊階段(§5.2.2),旨在減輕訓(xùn)練過程中的幻覺。

5.2.1 減輕預(yù)訓(xùn)練相關(guān)的幻覺

為了解決預(yù)訓(xùn)練相關(guān)的幻覺,大多數(shù)研究強調(diào)探索新的模型架構(gòu)和改進預(yù)訓(xùn)練目標(biāo)。

緩解有缺陷的模型架構(gòu)。減輕預(yù)訓(xùn)練相關(guān)幻覺的一個重要研究途徑集中在模型架構(gòu)固有的局限性上,特別是單向表示和注意力故障。有鑒于此,許多研究已經(jīng)深入研究設(shè)計專門針對這些缺陷的新型模型架構(gòu)。

  • 緩解單向表示。為了解決單向代表中固有的局限性,介紹了采用雙向自回歸方法的BATGPT。這種設(shè)計允許模型基于所有先前看到的令牌預(yù)測下一個令牌,同時考慮過去和未來的上下文,從而捕獲兩個方向的依賴關(guān)系?;谶@一想法,Liu等人(2023 e)強調(diào)了編碼器-解碼器模型更好地利用其上下文窗口的潛力,為未來的LLM架構(gòu)設(shè)計提出了一個有希望的方向。
  • 減輕注意力故障。認識到軟注意力在基于自我注意力的架構(gòu)中的局限性,Liu et al.(2023a)提出了注意力銳化正則化器。這種即插即用的方法使用可微損失項來稀疏化自我注意力架構(gòu)(Zhang等人,2018),以促進稀疏,導(dǎo)致推理幻覺顯著減少。

緩解次優(yōu)預(yù)訓(xùn)練目標(biāo)
在LLM的預(yù)訓(xùn)練階段,目標(biāo)的選擇在確定模型的性能方面起著關(guān)鍵作用。然而,傳統(tǒng)的目標(biāo)可能會導(dǎo)致模型輸出的碎片化表示和不一致。最近的進展試圖通過改進預(yù)訓(xùn)練策略,確保更豐富的上下文理解和規(guī)避偏見來應(yīng)對這些挑戰(zhàn)。本節(jié)闡明了這些開創(chuàng)性的方法,包括新的培訓(xùn)目標(biāo)和努力,以抵消暴露偏見。

  • 培訓(xùn)目標(biāo)。為了解決訓(xùn)練LLM的固有局限性,即由于GPU內(nèi)存限制和計算效率,文檔級的非結(jié)構(gòu)化事實知識經(jīng)常被分塊,導(dǎo)致信息碎片化和實體關(guān)聯(lián)不正確,Lee等人(2022b)引入了一種事實增強訓(xùn)練方法。該方法通過在事實文檔中的每個句子后附加一個TOPICPREFIX,將其轉(zhuǎn)換為獨立的事實,顯著減少了事實錯誤,增強了模型對事實關(guān)聯(lián)的理解。類似地,考慮到在預(yù)訓(xùn)練期間隨機連接較短的文檔可能會在模型輸出中引入不一致,提出上下文預(yù)訓(xùn)練,一種創(chuàng)新的方法,其中LLM在相關(guān)文檔的序列上進行訓(xùn)練。該方法通過改變文檔的順序,使上下文窗口內(nèi)的相似度最大化。它明確地鼓勵LLM跨越文檔邊界進行推理,從而潛在地增強了各代之間的邏輯一致性。
  • 暴露偏倚。暴露偏倚誘發(fā)的幻覺與錯誤累積有著錯綜復(fù)雜的聯(lián)系。雖然Chen et al.(2020); Welleck et al.(2020); Bertsch et al.(2023)提出了幾種方法來減輕暴露偏倚,但很少有研究與幻覺直接相關(guān)。為了填補這一空白,Wang等人(2023 b)引入了中間序列作為置換多任務(wù)學(xué)習(xí)框架內(nèi)的監(jiān)督信號,以減輕NMT中域轉(zhuǎn)移場景中的虛假相關(guān)性。另外,通過采用最小貝葉斯風(fēng)險解碼,它可以進一步減少與暴露偏見相關(guān)的幻覺。

5.2.2 緩解錯位幻覺

在對齊過程中產(chǎn)生的幻覺往往源于能力錯位和信念錯位。然而,定義LLM的知識邊界證明是具有挑戰(zhàn)性的,使得難以彌合LLM的固有能力和人類注釋數(shù)據(jù)中呈現(xiàn)的知識之間的差距。雖然有限的研究解決能力失調(diào),重點主要轉(zhuǎn)向信念失調(diào)。

源于信念錯位的幻覺通常表現(xiàn)為阿諛奉承,這是LLMs以不受歡迎的方式尋求人類認可的一種傾向。這種阿諛奉承的行為可以歸因于這樣的事實:人類的偏好判斷通常偏愛阿諛奉承的反應(yīng)而不是更真實的反應(yīng),為獎勵黑客鋪平了道路。為了解決這個問題,一個簡單的策略就是改進人類的偏好判斷,進而改進偏好模型。最近的研究已經(jīng)研究了LLM的使用,以幫助人類貼標(biāo)人識別被忽視的缺陷。此外,Sharma等人(2023)發(fā)現(xiàn),聚合多種人類偏好可以提高反饋質(zhì)量,從而減少奉承。

此外,對LLM內(nèi)部激活的修改也顯示出改變模型行為的潛力。這可以通過諸如微調(diào)的方法來實現(xiàn)或推理期間的激活操縱。具體而言,Wei等人(2023)提出了一種合成數(shù)據(jù)干預(yù),即使用合成數(shù)據(jù)對語言模型進行微調(diào),其中聲明的基本事實獨立于用戶的意見,旨在減少諂媚傾向。

另一個研究途徑是通過激活導(dǎo)向來減輕諂媚。該方法涉及使用成對的阿諛奉承/非阿諛奉承提示來生成阿諛奉承導(dǎo)向向量,該向量是從平均中間激活的差異中導(dǎo)出的。在推理過程中,減去此向量可以產(chǎn)生不那么諂媚的LLM輸出。

5.3 減輕與推理相關(guān)的幻覺

大型語言模型中的解碼策略在決定生成內(nèi)容的真實性和忠實性方面起著關(guān)鍵作用。然而,正如§3.3節(jié)中所分析的,不完美的解碼通常會導(dǎo)致輸出缺乏真實性或偏離原始上下文。在本小節(jié)中,我們探討了兩種先進的策略,旨在完善解碼策略,以提高LLM輸出的真實性和忠實性。

5.3.1 真實增強解碼

事實增強解碼的重點是確保LLM產(chǎn)生的信息的真實性。通過強調(diào)事實的準(zhǔn)確性,這一戰(zhàn)略旨在產(chǎn)生嚴(yán)格遵循真實世界信息的產(chǎn)出,并抵制產(chǎn)生誤導(dǎo)或虛假陳述。

獨立解碼??紤]到采樣過程中的隨機性可能會將非事實內(nèi)容引入開放式文本生成中,Lee等人(2022 b)引入了事實核采樣算法,該算法在整個句子生成過程中動態(tài)調(diào)整“核”p。通過基于衰減因子和下邊界動態(tài)地調(diào)整核概率,并在每個新句子的開始處重置核概率,解碼策略在生成事實內(nèi)容和保持輸出多樣性。

此外,一些研究認為LLM的激活空間包含與真實性相關(guān)的可解釋結(jié)構(gòu)?;谶@一想法,Li等人(2023 d)引入了推理時間干預(yù)(ITI)。該方法首先確定與事實正確的陳述相關(guān)聯(lián)的激活空間中的方向,然后在推理過程中沿著與事實相關(guān)的方向沿著調(diào)整激活。通過反復(fù)應(yīng)用這種干預(yù),可以引導(dǎo)LLM產(chǎn)生更真實的反應(yīng)。

同樣,Chuang et al.(2023)從事實知識存儲的角度深入研究了增強LLM解碼過程的真實性。他們利用Transformer LLM中事實知識的分層編碼,注意到較低級別的信息在較早的層中捕獲,語義信息在較晚的層中捕獲。從Li等人(2022 c)中汲取靈感,他們引入了DoLa,這是一種動態(tài)選擇和對比不同層的logit以改進解碼真實性的策略。通過強調(diào)來自高層的知識并淡化來自低層的知識,DoLa展示了其使LLM更真實的潛力,從而減少幻覺。

后期編輯解碼。與直接修改概率分布以防止在初始解碼期間出現(xiàn)幻覺的方法不同,后編輯解碼尋求利用LLM的自校正能力來精煉原始生成的內(nèi)容而不依賴于外部知識庫。Dhuliawala等人(2023年)介紹了驗證鏈(COVE),其運行假設(shè)是,在適當(dāng)提示下,LLM可以自我糾正錯誤,并提供更準(zhǔn)確的事實。它從初稿開始,首先提出核查問題,然后系統(tǒng)地回答這些問題,以便最后提出一份經(jīng)過改進的訂正答復(fù)。類似地,Ji等人(2023 b)專注于醫(yī)學(xué)領(lǐng)域,并引入了迭代的自我反思過程。這個過程利用LLM的固有能力,首先生成事實知識,然后細化響應(yīng),直到它與提供的背景知識一致。

5.3.2忠誠度增強解碼

另一方面,忠誠度增強解碼優(yōu)先考慮與用戶指令或提供的上下文的一致性,并強調(diào)增強所生成內(nèi)容的一致性。因此,在本節(jié)中,我們將現(xiàn)有的工作總結(jié)為兩類,包括上下文一致性和邏輯一致性。

上下文一致性。設(shè)計了優(yōu)先考慮上下文一致性的解碼策略,以增強LLM對用戶指令和所提供上下文的忠實度。在LLM時代之前,先前的研究廣泛地探索了語境一致性的改進,主要集中在抽象概括和數(shù)據(jù)文本領(lǐng)域。Tian等人(2019)提出了置信解碼,即在解碼過程中加入置信度評分,以測量模型對源的關(guān)注度。當(dāng)置信度較高時,他們會更加強調(diào)來源,從而減輕由于缺乏對情境的關(guān)注而產(chǎn)生的幻覺。貨車der Poel等人(2022)將解碼目標(biāo)轉(zhuǎn)移到逐點互信息。這種方法鼓勵模型優(yōu)先考慮與源文檔相關(guān)的標(biāo)記,特別是當(dāng)模型不確定性增加時,旨在防止幻覺。與之前強調(diào)加強對來源的關(guān)注以支持上下文一致性的策略相反,Wan等人(2023)深入研究了更好地探索搜索空間是否可以提高忠實度。通過使用自動忠誠度指標(biāo)來對波束搜索生成的候選人進行排名,并結(jié)合為下一代分配忠誠度評分的前瞻性算法,與現(xiàn)有的解碼策略相比,他們在忠誠度方面取得了顯著的改進。

然而,在LLM時代,由于對情境關(guān)注不足而產(chǎn)生的幻覺問題依然存在。Shi等人(2023 b)提出了上下文感知解碼(CAD),其通過減少對先驗知識的依賴來修改輸出分布,從而促進模型對上下文信息的關(guān)注。然而,由于多樣性和歸屬之間的內(nèi)在權(quán)衡,過分強調(diào)上下文信息會減少多樣性。作為回應(yīng),Chang等人(2023a)引入了一種創(chuàng)新的采樣算法,以在保持多樣性的同時支持歸因。該方法涉及兩個并行的解碼,一個考慮源,另一個不考慮,并動態(tài)調(diào)整溫度使用的KL分歧之間的令牌分布,以反映源屬性。Lei等人(2023)探索了一種更通用的編輯后框架,以減輕推理過程中的忠實幻覺。該方法首先在句子和實體級別檢測幻覺,然后利用該檢測反饋來細化所生成的響應(yīng)。此外,Choi等人(2023年)引入了知識約束解碼(KCD),該解碼采用表征級幻覺檢測來識別幻覺,并通過對表征分布進行重新加權(quán)來指導(dǎo)生成過程,從而更好地估計未來的知識基礎(chǔ)。另外,考慮到softmax瓶頸制約了多樣性表達和忠實表達。一系列工作探索了克服瓶頸的方法,或者通過混合Softmax,其使用多個隱藏狀態(tài)來多次計算Softmax并合并所得到的分布(Yang等人,2019)或使用指針網(wǎng)絡(luò)來使LLM能夠復(fù)制上下文詞語,進一步減少幻覺。

邏輯一致性。邏輯一致性在LLM中是至關(guān)重要的,以確保一致的反應(yīng)和防止幻覺,特別是在多步推理期間。為了增強思維鏈激勵中固有的自我一致性,Wang等人采用了一種知識提煉框架。他們首先使用對比解碼產(chǎn)生一致的基本原理,然后用反事實推理目標(biāo)微調(diào)學(xué)生模型,這有效地消除了推理捷徑,在不考慮基本原理情況下得出答案。此外,通過直接使用對比解碼,LLM可以減少表面級復(fù)制并防止遺漏推理步驟。

6 挑戰(zhàn)和開放性問題

在本節(jié)中,我們深入研究了LLM中圍繞幻覺的各種挑戰(zhàn)和開放性問題,旨在指導(dǎo)這個關(guān)鍵領(lǐng)域的未來方向。

6.1LLM的挑戰(zhàn)

在追求可靠和真實的LLM,解決幻覺是必不可少的,鑒于其固有的復(fù)雜性。雖然在減輕LLM幻覺方面取得了重大進展,但仍然存在顯著的挑戰(zhàn)。在這種情況下,我們深入研究了這些挑戰(zhàn),強調(diào)了它們在長文本生成(§6.1.1),檢索增強生成(§6.1.2)和大型視覺語言模型(§6.1.3)等領(lǐng)域的表現(xiàn)。

6.1.1長格式文本生成中的幻覺

長格式文本生成在LLM中得到了廣泛的應(yīng)用。然而,隨著所生成內(nèi)容的長度增加,幻覺傾向也增加,導(dǎo)致評估這種幻覺的挑戰(zhàn)。首先,現(xiàn)有的LLM幻覺基準(zhǔn)通常以factoid問題和答案的形式呈現(xiàn),更多地關(guān)注事實幻覺。在長文本生成領(lǐng)域中,明顯缺乏人工標(biāo)注的幻覺基準(zhǔn),這阻礙了研究人員在這一背景下研究特定類型的幻覺。其次,在長文本生成中評估幻覺是一個挑戰(zhàn)。雖然有一些可用的評價指標(biāo),它們有局限性,當(dāng)事實更加細微、開放和有爭議時,或者當(dāng)知識來源存在沖突時,它們不適用。這對現(xiàn)實世界場景中的實際應(yīng)用造成了障礙。

6.1.2檢索增強生成中的幻覺

檢索增強生成(RAG)已成為減輕LLM幻覺的一種有前途的策略。隨著人們對LLM幻覺的擔(dān)憂加劇,RAG越來越受到關(guān)注,為一系列商業(yè)應(yīng)用鋪平了道路,如困惑2、YOU.com 3和新Bing 4。通過從外部知識庫中檢索證據(jù),RAG使LLM能夠掌握最新的知識,并根據(jù)相關(guān)證據(jù)做出反應(yīng)。但是,盡管有它的優(yōu)點,RAG也患有幻覺。一個值得注意的問題是,RAG管道不相關(guān)的證據(jù)可能會傳播到生成階段,可能會污染輸出。另一個關(guān)注點在于生成檢索的競技場,它偶爾會遭受引用不準(zhǔn)確。雖然引用的目的是提供一個可追溯的路徑,以驗證信息的來源,在這個領(lǐng)域的錯誤可能會導(dǎo)致用戶誤入歧途。此外,現(xiàn)有的RAG可能遭受多樣性和真實性之間的折衷(Liu等人,2023 f),這在多樣性的需要方面提出了新的挑戰(zhàn)。

6.1.3 大型視覺語言模型中的幻覺

大型視覺語言模型(LVLM)具有視覺感知能力,沿著卓越的語言理解和生成能力,已經(jīng)表現(xiàn)出卓越的視覺語言能力的報告。與先前的從大規(guī)模視覺語言預(yù)訓(xùn)練數(shù)據(jù)集中獲得有限的視覺語言能力的預(yù)訓(xùn)練多模態(tài)模型不同,LVLM利用高級的大語言模型來更好地與人類和環(huán)境交互。LVLM隨之而來的各種應(yīng)用也為保持此類系統(tǒng)的可靠性帶來了新的挑戰(zhàn),因此必須進一步研究和緩解。

Li等人(2023 e)、Lovenia等人(2023)在評估LVLM中的客體幻覺方面邁出了第一步。評估和實驗表明,當(dāng)前的LVLM易于生成關(guān)于相關(guān)圖像的不一致響應(yīng),包括不存在的對象、錯誤的對象屬性、不正確的語義關(guān)系等。此外,Liu等人(2023 c),Zong等人(2023)和Liu等人(2023 b)表明,LVLM很容易被愚弄,并且由于過度依賴強語言先驗,以及其抵抗不適當(dāng)?shù)挠脩糨斎氲妮^差能力。目前的評價和討論主要集中在客體幻覺上。然而,盡管存在感知錯誤,LVLM在正確識別所有視覺元素的情況下仍會產(chǎn)生有缺陷的邏輯推理結(jié)果,這一問題有待于進一步研究。

已經(jīng)努力建立一個更強大的大型視覺語言模型。Gunjal等人(2023),Lu等人(2023)和Liu等人(2023 c)建議進一步微調(diào)模型,以產(chǎn)生更真實和有用的反應(yīng)。另一種工作方式選擇事后校正所生成的不一致內(nèi)容,諸如(Zhou等人,2023 b),以及(Yin等人,2023年)。雖然這些方法被證明是有效的,但通常需要額外的數(shù)據(jù)注釋、視覺專家或訓(xùn)練階段,這阻礙了LVLM有效地擴展和推廣到各個領(lǐng)域。因此,預(yù)計未來將采用更普遍的方法來建立更可靠的系統(tǒng)。更重要的是,當(dāng)呈現(xiàn)多個圖像時,LVLM有時會混淆或錯過部分視覺上下文,并且無法理解它們之間的時間或邏輯聯(lián)系,這可能會阻礙它們在許多場景中的使用,但正確識別這種疾病的原因并解決它們?nèi)匀恍枰^續(xù)努力。

6.2 在LLM幻覺開放問題

隨著對LLM幻覺研究的進展,有幾個問題需要持續(xù)討論。這些包括LLM自我糾正機制在減少幻覺方面的有效性(§6.2.1),對LLM內(nèi)知識邊界的理解(§6.2.2)以及他們的創(chuàng)造力和真實性之間的平衡(§6.2.3)。深入研究這些開放性問題為更深刻地理解LLM的能力和幻覺的復(fù)雜性鋪平了道路。

6.2.1 自我糾正機制是否有助于減輕推理幻覺?

雖然LLM已經(jīng)顯示出通過思維鏈提示處理復(fù)雜推理任務(wù)的非凡能力,他們偶爾表現(xiàn)出不忠實的推理,其特征在于推理步驟或結(jié)論內(nèi)的不一致性,這些不一致性在邏輯上不遵循推理鏈。研究表明,將外部反饋整合到LLM中可以顯著減輕推理中的幻覺。這種反饋通常通過檢索過程來自外部知識源,與其他LLM的互動辯論或來自外部評估指標(biāo)的指導(dǎo)。

盡管如此,研究的一個分支探索自我糾正機制的潛力,其中LLM使用其內(nèi)置功能糾正其初始響應(yīng),獨立于外部反饋。雖然自我糾正已經(jīng)顯示出實現(xiàn)忠實和準(zhǔn)確推理的希望,特別是在迭代設(shè)置中,但某些研究質(zhì)疑自我糾正機制的有效性,指出LLM仍然很難自我糾正他們的推理鏈。因此,自我糾正機制在緩解推理幻覺方面的有效性仍然是一個值得進一步探討的問題。

6.2.2我們能準(zhǔn)確地捕捉LLM知識邊界嗎?

盡管LLM從大量數(shù)據(jù)中獲取事實知識的能力令人印象深刻,但在認識自己的知識邊界方面仍面臨挑戰(zhàn)。這種不足導(dǎo)致幻覺的發(fā)生,其中LLM自信地制造謊言,而沒有意識到他們自己的知識限制。許多研究深入探討了LLM的知識邊界,利用諸如在多項選擇設(shè)置中評估正確回答的概率的策略,或者通過評估具有不確定含義的句子集合之間的相似性來量化模型的輸出不確定性。

此外,一系列的工作揭示了LLM在其激活空間中包含與真實性信念相關(guān)的潛在結(jié)構(gòu)。最近的研究還發(fā)現(xiàn)了大量的證據(jù),證明LLM有能力對問題的不可回答性進行編碼,盡管這些模型在面對無法回答的問題時表現(xiàn)出過度自信并產(chǎn)生幻覺。盡管如此,Levinstein和Herrmann(2023)已經(jīng)采用了經(jīng)驗和概念工具來探索LLM是否有信念。他們的經(jīng)驗結(jié)果表明,目前用于LLM的測謊儀方法還不完全可靠,并且Burns等人提出的探測方法,2022)和(Azaria和米切爾,2023)沒有充分概括。因此,我們是否可以有效地探測LLM的內(nèi)部信念正在進行中,需要進一步的研究。

6.2.3 如何在創(chuàng)造性和真實性之間取得平衡?

在開發(fā)真實可靠的LLM過程中,平衡創(chuàng)造性和真實性的挑戰(zhàn)是一個重要的問題。確保真實性對于用于實際應(yīng)用的LLM至關(guān)重要;任何不準(zhǔn)確的信息都可能誤導(dǎo)用戶并污染在線環(huán)境。這種錯誤信息的影響可能是顯著的,可能滾雪球和級聯(lián)到數(shù)據(jù)用于后續(xù)的LLM培訓(xùn)。相反,幻覺有時候也能提供有價值的視角,特別是在創(chuàng)造性的努力中,比如講故事、頭腦風(fēng)暴和產(chǎn)生超越傳統(tǒng)思維的解決方案。

雖然目前對LLM的研究嚴(yán)重傾向于減少幻覺,但它往往忽視了他們創(chuàng)造能力的重要作用。隨著LLM的不斷發(fā)展,在創(chuàng)造性和事實準(zhǔn)確性之間取得平衡的挑戰(zhàn)仍然沒有得到解決。不僅在多模態(tài)文本生成任務(wù)中探索平衡也是有趣的而且在視覺生成任務(wù)中也是如此。這一問題超出了單純的技術(shù)性問題,需要對人工智能的本質(zhì)及其對人類互動和知識交流的影響進行更廣泛的思考。

http://www.risenshineclean.com/news/58766.html

相關(guān)文章:

  • wordpress 仿虎嗅沈陽百度推廣優(yōu)化
  • 新疆吐魯番建設(shè)網(wǎng)站搜索引擎優(yōu)化崗位
  • wordpress網(wǎng)站模板下載建筑設(shè)計網(wǎng)站
  • 涿州住房和城鄉(xiāng)建設(shè)局網(wǎng)站微信軟文范例100字
  • 網(wǎng)站建設(shè)需要會什么軟件seo優(yōu)化需要多少錢
  • asp做bs網(wǎng)站怎么寫網(wǎng)頁百度網(wǎng)站優(yōu)化
  • 建設(shè)一個返利網(wǎng)站芭蕉視頻app無限次數(shù)
  • 可以加外鏈的網(wǎng)站網(wǎng)站seo優(yōu)化免費
  • 設(shè)計師網(wǎng)站知乎最近七天的新聞大事
  • 徐州建設(shè)局網(wǎng)站51趣優(yōu)化網(wǎng)絡(luò)seo工程師教程
  • asp網(wǎng)站開發(fā)軟件seo標(biāo)題生成器
  • node.js 網(wǎng)站開發(fā)cpc廣告接單平臺
  • 黃做網(wǎng)站發(fā)廣告平臺有哪些免費
  • 網(wǎng)站推廣有哪些公司可以做網(wǎng)絡(luò)運營是做什么的工作
  • 銷售型網(wǎng)站seo的范疇是什么
  • 玉林網(wǎng)站建設(shè)公司小說引流推廣
  • 江蘇常州青之峰做網(wǎng)站營銷頁面
  • 射洪哪里可以做網(wǎng)站優(yōu)化大師apk
  • 寧波營銷型網(wǎng)站建設(shè)可以發(fā)廣告的100個網(wǎng)站
  • 做二手車廣告推廣哪家網(wǎng)站好突發(fā)大事震驚全國
  • 歐陽網(wǎng)站建設(shè)平臺推廣文案
  • 網(wǎng)站建設(shè) 預(yù)算谷歌瀏覽器下載官方正版
  • 大網(wǎng)站服務(wù)器維護費用技能培訓(xùn)班
  • 廣州網(wǎng)站建設(shè)優(yōu)化中國輿情觀察網(wǎng)
  • 外貿(mào)網(wǎng)站模板 外貿(mào)網(wǎng)站制作游戲掛機賺錢一小時20
  • 建個網(wǎng)站多少費用游戲代理推廣渠道
  • 網(wǎng)站的建設(shè)模式專業(yè)推廣引流團隊
  • 做網(wǎng)站好平臺化百度網(wǎng)頁版主頁
  • 網(wǎng)頁動畫制作軟件網(wǎng)站seo專員
  • 網(wǎng)站建設(shè)找金手指排名網(wǎng)站站點