中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

濟南做網(wǎng)站公司xywlcn網(wǎng)站搜索引擎優(yōu)化報告

濟南做網(wǎng)站公司xywlcn,網(wǎng)站搜索引擎優(yōu)化報告,蘭州網(wǎng)站建設推薦q479185700頂上,環(huán)球新軍事LLMs在回答各種復雜問題時,有時會“胡言亂語”,產(chǎn)生所謂的幻覺。解決這一問題的初始步驟就是創(chuàng)建高質(zhì)量幻覺數(shù)據(jù)集訓練模型以幫助檢測、緩解幻覺。 但現(xiàn)有的幻覺標注數(shù)據(jù)集,因為領(lǐng)域窄、數(shù)量少,加上制作成本高、標注人員水平不一…

LLMs在回答各種復雜問題時,有時會“胡言亂語”,產(chǎn)生所謂的幻覺。解決這一問題的初始步驟就是創(chuàng)建高質(zhì)量幻覺數(shù)據(jù)集訓練模型以幫助檢測、緩解幻覺。

但現(xiàn)有的幻覺標注數(shù)據(jù)集,因為領(lǐng)域窄、數(shù)量少,加上制作成本高、標注人員水平不一,所以很難變得強大。

為了解決這個問題,上海AI lab設計了一個迭代自訓練框架——ANAH-v2,它像滾雪球一樣,一邊擴大幻覺檢測的數(shù)據(jù)集,一邊提高標注者的準確性。

這個框架利用期望最大化算法,每次循環(huán)都會先用現(xiàn)有的幻覺標注工具給新數(shù)據(jù)打上“幻覺”標簽,然后用這些新數(shù)據(jù)訓練一個更厲害的標注工具。

通過迭代,檢測工具越來越強,數(shù)據(jù)集也越來越大。一個僅有7B參數(shù)的幻覺標注模型(89.55%)超越了GPT-4的表現(xiàn)(86.97%),并且在幻覺檢測基準HaluEval和HalluQA上獲得了新的SOTA!

圖片

論文標題:
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

論文鏈接
https://arxiv.org/pdf/2407.04693

圖片

方法

1. 善于分析的幻覺標注器

幻覺標注器的目標是識別模型響應中的幻覺,在本文中該過程分為三個階段,更貼近人類認知判斷過程:

  • 事實存在判斷:標注器評估提供的句子是否包含可驗證的事實。如果沒有事實內(nèi)容,該句子被歸類為“無事實”,無需進一步標注。

    圖片

  • 參考信息提取:標注器從與問題和答案相關(guān)的文檔中提取相關(guān)參考點。

    圖片

  • 幻覺類型判斷:標注器根據(jù)提取的參考點確定幻覺類型。如果句子與參考點一致,則分類為“無幻覺”。如果與參考點矛盾,則視為“矛盾幻覺”。如果缺乏支持證據(jù)且無法驗證,則標記為“不可驗證幻覺”。

    圖片

以上三個階段將在訓練數(shù)據(jù)中形成多輪對話,用于后續(xù)模型訓練。

2. 最大期望(EM)算法

本文通過最大期望算法同時擴展數(shù)據(jù)集和提高標注準確性。對于輸入集合,需要同時估計兩個隱藏變量,即輸出集合和模型參數(shù)。具體而言,定義幻覺標注器的輸入來自輸入集合,包括一個問題、一個待標注的句子和一個參考文檔。預期輸出包括事實信息、參考文檔中的關(guān)鍵參考點和幻覺類型。通過交替執(zhí)行步和步來最大化的對數(shù)似然估計以更新模型參數(shù):

圖片

E步:為了提高的估計準確性和穩(wěn)定性,作者引入了自一致性方法,這提供了分布的更穩(wěn)健表示。對于每個輸入,進行多次采樣以產(chǎn)生個獨立的輸出,其中第個輸出樣本由事實信息()、參考點()和幻覺類型()組成。使用自一致性度量從所有輸出中選擇最具代表性的樣本:

圖片

在選擇過程中,依次考慮幻覺類型、參考點和事實信息。通過對所有樣本進行多數(shù)投票來確定最常見的幻覺類型,記為。然后,從包含的輸出中獲取相應的,形成候選參考集合。通過比較余弦相似性選擇最“一致”的參考點。對于中的每個,首先計算它與中其他元素的平均余弦相似性。之后,選擇平均余弦相似性最高的參考點:。最后,利用(,?),可以唯一地選擇相應的。

M步:在E步的穩(wěn)健估計之后,M步更新模型參數(shù)以最大化所選輸出的似然。在第次迭代中將參數(shù)更新策略公式化為:

圖片

3. 多維數(shù)據(jù)縮放

基于EM算法,本文框架以迭代方式運行,逐步擴展數(shù)據(jù)集,包括三個階段:

階段1:種子數(shù)據(jù)和基礎標注器本文利用ANAH數(shù)據(jù)集作為種子數(shù)據(jù),其中包含超過700個主題和大約4300個由LLM生成的問題和回答。對于每個回答,ANAH通過人工參與的方法為每個句子提供幻覺類型。本文使用第一節(jié)中描述的標注方法,用這些種子數(shù)據(jù)訓練初始幻覺標注器,稱為ANAH-v2階段1。

階段2:在回答維度上擴展在階段1中,對于每個問題,ANAH提供GPT-3.5基于參考文檔生成的回答,以及InternLM-7B在沒有參考文檔的情況下生成回答。

本文首先通過收集13個不同規(guī)模和系列的開源模型對相同問題的回答來擴展數(shù)據(jù)集的模型回答。對于每個模型,收集有無參考文檔的回答。在過濾掉相似的模型回答后,這些回答使用ANAH-v2階段1的自一致性pipeline逐句進行標注。新標注的數(shù)據(jù)與種子數(shù)據(jù)結(jié)合,用于訓練ANAH-v2階段2。

階段3:在主題維度上擴展本文沿四個類別擴展主題覆蓋:地點、人物、事件和事物,與ANAH的配置平行。對于每個主題,根據(jù)提供的參考文檔生成幾個問題。然后,使用階段2中的相同方法,收集多個模型的回答,并按照階段2中使用ANAH-v2階段2標注器的相同程序進行標注。最終數(shù)據(jù)集結(jié)合前幾個階段的數(shù)據(jù),用于訓練最終版本的標注器。

總體統(tǒng)計

最終數(shù)據(jù)集涵蓋超過3000個主題,約196k個模型回答和約822k個標注句子,包含英文和中文。

圖片

主題覆蓋名人、事件、地點和事物,涉及廣泛領(lǐng)域,如政治、健康和體育。該數(shù)據(jù)集規(guī)模龐大,覆蓋全面。

圖片

實驗與分析

本文采用了預訓練的InternLM2-7B模型來對幻覺標注器進行微調(diào),使用ANAH數(shù)據(jù)集的子集作為測試集。利用F1和準確率評估標注器在預測幻覺類型方面的性能,還使用RougeL和BertScore 來將生成的文本與人類參考文本進行比較,以考慮語法、連續(xù)性、順序和語義方面。實驗結(jié)果如下表:

圖片

上表的最后三行展示了ANAH-v2在數(shù)據(jù)擴展各階段的性能。隨著數(shù)據(jù)集數(shù)量的增加,其性能逐步提高。這一趨勢突顯了幻覺標注框架的可擴展性和有效性。

值得注意的是,ANAH-v2在第二階段的F1值達到87.78%,準確率達到88.03%,超越了GPT-4。最終,在第三階段,我們達到了89.30%的F1值和89.55%的準確率。

除此之外,ANAH-v2在第一階段的準確率(84.85%)已超過參數(shù)為20B的ANAH-20B(81.01%),而其參數(shù)僅為7B。這種優(yōu)越性能歸功于前文提到的善于分析的幻覺標注器的設計,得到了非常豐富的多輪對話。

消融實驗

自一致性的影響

當標注器模型在各個數(shù)據(jù)擴展階段使用相同的訓練數(shù)據(jù)時,如下表所示,采用自一致性推理策略(w/ SC)的性能始終優(yōu)于不采用自一致性策略(w/o SC),即對每個輸入只生成一次。因此,自一致性方法提高了幻覺標注估計的準確性和穩(wěn)定性。

圖片

漸進數(shù)據(jù)縮放的影響

在漸進方法中,第二階段更新的標注器用于標注額外主題的響應,不斷豐富訓練數(shù)據(jù)。相比之下,在非漸進方法中,第一階段的基本標注器用于生成第三階段額外訓練數(shù)據(jù)的標注。

圖片

在相同規(guī)模的訓練數(shù)據(jù)下,使用非漸進數(shù)據(jù)擴展訓練的標注器性能不如使用漸進數(shù)據(jù)擴展訓練的標注器。

訓練策略的影響

在默認訓練過程中,將新標注的數(shù)據(jù)與舊數(shù)據(jù)混合以重新訓練標注器。或者僅使用新標注的數(shù)據(jù)來進一步訓練上一階段的標注器模型。

圖片

結(jié)果表明,混合訓練數(shù)據(jù)的訓練策略比僅用新數(shù)據(jù)進一步訓練效果更好。在各個訓練階段整合不同質(zhì)量的數(shù)據(jù)提高了標注器模型的魯棒性。

評估ANAH-v2模型在幻覺檢測能力的泛化性

本文進一步驗證了微調(diào)模型ANAH-v2在其他幻覺檢測數(shù)據(jù)集HaluEval(英文)和HalluQA(中文)上的有效性。讓ANAH-v2分別判斷回答中是否包含幻覺。

圖片

結(jié)果顯示,標注模型ANAH-v2在HaluEval和HalluQA上均取得了顯著的準確率。ANAH-v2第三階段在zero-shot設置下分別在HaluEval(81.54%)和HalluQA(94.44%)上取得了新的SOTA,這突顯了ANAH-v2的泛化能力。此外,ANAH-v2第三階段的表現(xiàn)優(yōu)于第一階段和第二階段的標注器,這進一步證明了數(shù)據(jù)擴展策略在處理不熟悉回答時有效地穩(wěn)定了性能。

ANAH-v2數(shù)據(jù)集可作為幻覺評估基準

ANAH-v2數(shù)據(jù)集和標注器可以作為現(xiàn)有模型生成文本中幻覺水平的基準。作者評估了各種不同規(guī)模的LLMs在ANAH-v2數(shù)據(jù)集的上性能。

圖片

  • 所有模型在英文中的表現(xiàn)優(yōu)于中文,這突顯了需要進一步研究以理解和減少語言依賴的差異。

  • 所有模型在使用參考文檔時的性能都優(yōu)于不使用參考文檔時的性能。Qwen1.5-14B在使用參考文檔時實現(xiàn)了最低的幻覺率(5.33%),而Deepseek-67B在沒有提供參考文檔時實現(xiàn)了最低的幻覺率(47.17%)。

ANAH-v2標注器可用于緩解幻覺

除了用于測量幻覺水平外,ANAH-v2還可以用于緩解幻覺。本文使用了兩個模型InternLM2-7B和LLaMA2-7B,通過top-k采樣(k=40)生成36個候選響應,然后使用ANAH-v2標注器對這些響應進行重新排序,選擇具有最低幻覺率的最佳響應。

為了量化幻覺程度,使用了RougeL、BertScore、NLI和QuestionEval指標測量生成的響應與標準答案和/或參考文檔之間的一致性。

圖片

結(jié)果顯示,通過ANAH-v2標注器進行重新排序后,幻覺水平明顯下降。LLaMA2-7B的NLI指標顯著提高,從25.00%上升到37.01%。

結(jié)語

本文通過迭代自我訓練,逐步擴大數(shù)據(jù)集的多樣性和規(guī)模,并提高幻覺標注器的準確性。最終得到的ANAH-v2僅用7B參數(shù)在各種幻覺檢測基準測試中首次超過了GPT-4,并在第三方幻覺檢測基準測試中表現(xiàn)出色。

ANAH-v2不僅提供了一個基于的擴展數(shù)據(jù)集的自動幻覺評估基準,為未來幻覺緩解研究鋪平了道路,還通過簡單的重新排序策略展示了其在幻覺緩解中的潛力。相信ANAH-v2還可以為更細粒度的RLHF等更多幻覺緩解策略提供幫助。

http://www.risenshineclean.com/news/41115.html

相關(guān)文章:

  • 手表網(wǎng)站制作照片網(wǎng)絡營銷的核心
  • 購物網(wǎng)站排行nba季后賽最新排名
  • 做返利網(wǎng)站能賺錢aso排名優(yōu)化
  • 做的比較好的官方網(wǎng)站上海百度推廣方案
  • 珠海做網(wǎng)站哪家專業(yè)seo sem論壇
  • 如何做網(wǎng)站的搜索欄網(wǎng)絡營銷的推廣方法有哪些
  • 自己搭建服務器做網(wǎng)站91手機用哪個瀏覽器
  • 網(wǎng)站優(yōu)化主旨百度廣告推廣收費標準
  • 武漢專業(yè)網(wǎng)站建設zz51上海網(wǎng)站制作開發(fā)
  • 競網(wǎng)做的網(wǎng)站交換鏈接營銷成功案例
  • 做網(wǎng)站與考研學技術(shù)包分配的培訓機構(gòu)
  • WordPress方糖無錫網(wǎng)站建設優(yōu)化公司
  • 專業(yè)的團隊網(wǎng)站建設引擎搜索入口
  • 室內(nèi)裝修設計圖紙seo快速軟件
  • 外國人做外貿(mào)都會瀏覽哪些網(wǎng)站焊工培訓內(nèi)容有哪些
  • 網(wǎng)站建設常用代碼營銷策劃36計
  • 直播視頻網(wǎng)站如何做網(wǎng)站策劃
  • 佛山專業(yè)做企業(yè)網(wǎng)站上海今天最新發(fā)布會
  • 吉 360 網(wǎng)站建設如何做好精準營銷
  • 網(wǎng)站客服工作內(nèi)容重慶網(wǎng)站建設哪家好
  • 凡客專賣店網(wǎng)站優(yōu)化入門
  • 安徽國貿(mào)集團網(wǎng)站建設沈陽網(wǎng)站推廣優(yōu)化
  • 合肥專業(yè)做網(wǎng)站的互聯(lián)網(wǎng)域名注冊查詢
  • 做網(wǎng)站拍攝照片用什么佳能相機好網(wǎng)站優(yōu)化課程培訓
  • 哪個網(wǎng)站可以做社工試題網(wǎng)絡服務器
  • 湖北住房和城鄉(xiāng)建設委員會網(wǎng)站東莞市民最新疫情
  • 三門峽集團網(wǎng)站建設愛站網(wǎng)關(guān)鍵詞查詢工具
  • 有沒有人與動物做的電影網(wǎng)站自己做網(wǎng)站怎么做
  • 自適應全屏網(wǎng)站競價排名名詞解釋
  • 網(wǎng)站建設網(wǎng)站排名優(yōu)化金牌服務搜索引擎排名影響因素有哪些