中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站開發(fā)論文需要寫什么windows優(yōu)化大師怎么使用

網(wǎng)站開發(fā)論文需要寫什么,windows優(yōu)化大師怎么使用,黑龍江建設(shè)培訓(xùn)網(wǎng)站,網(wǎng)站開發(fā)人員趨勢論文地址:https://arxiv.org/abs/2405.14768https://arxiv.org/abs/2405.14768 1. 概述 隨著世界知識的不斷變化,大語言模型(LLMs)需要及時(shí)更新,糾正其生成的虛假信息或錯誤響應(yīng)。這種持續(xù)的知識更新被稱為終身模型編…

論文地址:https://arxiv.org/abs/2405.14768icon-default.png?t=O83Ahttps://arxiv.org/abs/2405.14768

1. 概述

????????隨著世界知識的不斷變化,大語言模型(LLMs)需要及時(shí)更新,糾正其生成的虛假信息或錯誤響應(yīng)。這種持續(xù)的知識更新被稱為終身模型編輯。當(dāng)前的模型編輯方法主要通過兩種方式存儲新知識:長期記憶(模型參數(shù))工作記憶(神經(jīng)網(wǎng)絡(luò)激活/表示的非參數(shù)化知識)。然而,這兩種方式在終身編輯情境下存在局限性,無法同時(shí)實(shí)現(xiàn)可靠性、泛化性局部性。為了解決這一問題,本文提出了一種新的模型編輯方法——WISE。該方法采用雙參數(shù)內(nèi)存機(jī)制,在預(yù)訓(xùn)練知識與更新知識之間實(shí)現(xiàn)了無縫銜接,通過一種知識分片機(jī)制來避免知識沖突。

????????大語言模型在訓(xùn)練時(shí)獲取的知識是靜態(tài)的,但世界知識是不斷變化的。因此,部署后的LLMs可能生成包含幻覺、偏見或過時(shí)的響應(yīng)。同時(shí),由于重新訓(xùn)練或微調(diào)模型代價(jià)高昂,無法滿足快速增長的知識需求。因此,終身模型編輯成為一種解決方案,通過不斷地更新和注入知識來保持模型的準(zhǔn)確性。然而,模型編輯面臨一個關(guān)鍵問題:更新后的知識應(yīng)存儲在何處。

  • 長期記憶編輯:直接修改模型參數(shù)存儲新知識。這種方式雖然可以保持對新知識的記憶,但會導(dǎo)致與原有預(yù)訓(xùn)練知識發(fā)生沖突,影響局部性和可靠性。
  • 工作記憶編輯:利用非參數(shù)化的檢索機(jī)制存儲新知識,不修改模型參數(shù)。這種方式雖然可以避免與原有知識的沖突,提升局部性,但難以泛化,無法應(yīng)對多樣化的查詢。

????????在此背景下,如何在終身模型編輯中平衡可靠性、泛化性和局部性,成為模型編輯的一個核心難題。

?????????為了解決上述問題,本文提出了WISE(雙參數(shù)內(nèi)存機(jī)制的終身模型編輯方法),通過結(jié)合長期記憶和工作記憶的優(yōu)點(diǎn),打破模型編輯中的“不可能三角”。

  • 雙參數(shù)內(nèi)存機(jī)制

    • 主內(nèi)存:存儲預(yù)訓(xùn)練時(shí)的原始知識,保持長期記憶的泛化能力。
    • 側(cè)內(nèi)存:專門用于存儲和更新新知識,保證可靠性和局部性。
  • 路由機(jī)制:為了確保編輯后的模型在不同情境下調(diào)用合適的知識,WISE設(shè)計(jì)了一個路由器。該路由器根據(jù)輸入查詢的不同,自動選擇是使用主內(nèi)存中的預(yù)訓(xùn)練知識,還是側(cè)內(nèi)存中的更新知識。這樣就能避免對無關(guān)知識的干擾。

  • 知識分片機(jī)制:為了應(yīng)對不斷增加的編輯請求,WISE引入了知識分片機(jī)制。每一組編輯知識會被存儲在不同的參數(shù)子空間中,這些子空間是相互正交的,確保了不同編輯之間不會產(chǎn)生沖突。編輯完成后,這些分片會被合并為一個共享的側(cè)內(nèi)存,從而實(shí)現(xiàn)無沖突的終身編輯。

????????WISE的設(shè)計(jì)主要解決了現(xiàn)有模型編輯方法在終身學(xué)習(xí)中的不足。具體體現(xiàn)在以下幾點(diǎn):

  • 可靠性:模型可以記住當(dāng)前和之前的編輯內(nèi)容,不會在多次編輯后遺忘新知識。
  • 局部性:編輯只會影響到相關(guān)的知識,不會破壞與該編輯無關(guān)的預(yù)訓(xùn)練知識。
  • 泛化性:模型不僅能記住具體的查詢-目標(biāo)對,還能理解編輯內(nèi)容,能夠應(yīng)對不同形式的相同知識查詢。

????????在實(shí)驗(yàn)中,WISE顯著優(yōu)于傳統(tǒng)的基于長期記憶或工作記憶的模型編輯方法。其在多個LLM架構(gòu)(如GPT、LLaMA、Mistral等)下的實(shí)驗(yàn)表明,WISE在問答任務(wù)幻覺檢測分布外任務(wù)等終身模型編輯場景中,均在可靠性、泛化性和局部性三個指標(biāo)上取得了更好的結(jié)果。

2. 方法

2.1?終身模型編輯 ?

????????終身模型編輯問題,其核心目標(biāo)是通過連續(xù)的編輯,使得大語言模型(LLMs)的輸出能夠符合人類的期望,同時(shí)保持模型之前的知識和能力。?

2.2 重新思考終身模型編輯的內(nèi)存設(shè)計(jì)???????

表1列出了當(dāng)前主要模型編輯方法在內(nèi)存類型和終身編輯能力上的對比。對比的關(guān)鍵維度包括:

  • 長期記憶編輯(修改模型參數(shù))
  • 工作記憶編輯(檢索時(shí)使用神經(jīng)網(wǎng)絡(luò)激活/表示的非參數(shù)化知識)
  • 參數(shù)化知識檢索知識
  • 是否支持終身編輯
  • 可靠性、泛化性局部性

表1中的方法對比總結(jié)如下:

  • FT-EWC、ROME、MEMIT、MEND:這些方法通過修改 LLM 模型參數(shù)來編輯長期記憶,但無法支持連續(xù)編輯,或者會對無關(guān)知識產(chǎn)生負(fù)面影響,導(dǎo)致局部性較差。
  • GRACE:基于工作記憶,通過檢索知識避免了對無關(guān)知識的沖突,但由于檢索機(jī)制只記憶查詢,不理解其含義,泛化能力較差。

????????WISE 方法則通過結(jié)合長期記憶和工作記憶的優(yōu)勢,提供了一種更有效的終身模型編輯方案。它利用一個雙參數(shù)內(nèi)存機(jī)制,同時(shí)保持 LLM 的長期記憶(泛化能力)和工作記憶(可靠性和局部性),使其在終身模型編輯中表現(xiàn)出色。

2.3 WISE: 側(cè)內(nèi)存與知識分片、合并及路由

WISE 的側(cè)內(nèi)存包含兩個關(guān)鍵組成部分:

  • 側(cè)內(nèi)存設(shè)計(jì)

    • 側(cè)內(nèi)存:側(cè)內(nèi)存是 LLM 某一前饋神經(jīng)網(wǎng)絡(luò)(FFN)層的副本,用于存儲編輯流。通過這種設(shè)計(jì),避免直接修改主內(nèi)存而可能帶來的遺忘和副作用。
    • 路由機(jī)制:為了決定使用主內(nèi)存還是側(cè)內(nèi)存,設(shè)計(jì)了路由激活組件,來識別編輯的范圍。在推理過程中,該組件決定是使用主內(nèi)存還是側(cè)內(nèi)存來完成推理。
  • 知識分片與合并

    • 知識在隨機(jī)子空間中的分片:為了避免遺忘,將側(cè)內(nèi)存分為多個隨機(jī)子空間,保證知識編輯的密度和分布性。
    • 知識合并:利用模型合并技術(shù),將不同的側(cè)內(nèi)存片段合并為一個共享的側(cè)內(nèi)存,避免知識丟失。

2.3.1 側(cè)內(nèi)存設(shè)計(jì) (Side Memory Design)

(1)側(cè)內(nèi)存設(shè)計(jì)的基本原理
????????在Transformer中,每層包含一個多頭自注意力機(jī)制(MHA)和一個前饋神經(jīng)網(wǎng)絡(luò)(FFN),而FFN占據(jù)了模型中大量的參數(shù)。為避免直接修改主內(nèi)存(模型預(yù)訓(xùn)練時(shí)學(xué)到的知識),WISE引入了側(cè)內(nèi)存,用來存儲編輯過的知識。

(2)主內(nèi)存與側(cè)內(nèi)存之間的路由 (Routing between Side Memories and Main Memory)

?(3)基于邊界的損失函數(shù) (Margin-based Loss Function)

2.3.2 知識分片與合并 (Knowledge Sharding and Merging)

(1)知識密度問題 (Knowledge Density)

為了在終身模型編輯中有效存儲更新的知識,作者引入了知識密度的概念,它類似于知識容量,用于描述在模型的參數(shù)中存儲了多少知識。在這個背景下,存在以下兩難問題:

  • 知識密度過低:如果編輯次數(shù)較少或?qū)φ麄€內(nèi)存進(jìn)行微調(diào),知識密度低,可能導(dǎo)致過擬合;
  • 知識密度過高:如果編輯過于頻繁,知識密度過高,導(dǎo)致已編輯的知識發(fā)生沖突,可能引發(fā)災(zāi)難性遺忘。

為解決此問題,作者提出了一種知識分片和合并機(jī)制,將側(cè)內(nèi)存編輯劃分為多個子片段,存儲在不同的參數(shù)子空間中,隨后通過合并這些子空間,形成一個完整的側(cè)內(nèi)存。這樣設(shè)計(jì)的好處在于避免了知識沖突,同時(shí)實(shí)現(xiàn)高效存儲。

(2)隨機(jī)子空間中的知識 (Knowledge in Random Memory Subspaces)

???? (3)知識合并 (Knowledge Merging)?????

????????在完成多次編輯后,多個子空間中的知識需要合并為一個共享的側(cè)內(nèi)存。由于不同的子空間通過隨機(jī)掩碼生成,這些子空間可能存在重疊部分和不相交部分。作者提出了如下定理來描述這些子空間重疊的情況:

(3)知識合并技術(shù):Ties-Merge??????

Ties-Merge 的合并過程分為三步:

  • 修剪:修剪每個任務(wù)向量中的冗余參數(shù);
  • 符號選擇:為每個參數(shù)選擇最合適的符號;
  • 不相交合并:計(jì)算不相交子空間的參數(shù)均值,并將結(jié)果合并到一個統(tǒng)一的側(cè)內(nèi)存中。

????????通過 Ties-Merge,多個子空間中的知識能夠有效合并,減少了子空間合并時(shí)的沖突。

(4)路由與檢索多個側(cè)內(nèi)存 (Routing and Retrieving among Several Side Memories)

????????由于單個側(cè)內(nèi)存的知識容量有限,WISE 設(shè)計(jì)了一個多側(cè)內(nèi)存系統(tǒng),能夠產(chǎn)生多個側(cè)內(nèi)存并在推理過程中進(jìn)行檢索。檢索過程通過激活評分路由機(jī)制(activation score routing)來實(shí)現(xiàn),系統(tǒng)會根據(jù)不同的激活指示器分?jǐn)?shù),選擇最合適的內(nèi)存進(jìn)行推理。該設(shè)計(jì)被稱為WISE-Retrieve,允許模型應(yīng)對更復(fù)雜的終身編輯場景。

3.實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置和評估指標(biāo)

(1)數(shù)據(jù)集與模型

  • 選擇了幾種流行的自回歸大型語言模型(LLMs)進(jìn)行實(shí)驗(yàn),包括:
    • LLaMA-2-7B
    • Mistral-7B
    • GPT-J-6B

論文使用了三個不同的數(shù)據(jù)集:

  • ZsRE(零樣本關(guān)系抽取,用于問答任務(wù))
  • SelfCheckGPT(用于修正語言模型生成的幻覺現(xiàn)象)
  • Temporal(用于評估編輯模型在分布外數(shù)據(jù)上的泛化能力)

????????表格3中給出了這些數(shù)據(jù)集的統(tǒng)計(jì)信息,以及編輯數(shù)據(jù)和評估時(shí)使用的無關(guān)數(shù)據(jù)。

(2)基線方法

實(shí)驗(yàn)中,比較了多種基線方法和WISE,包括:

  • FT-L:直接微調(diào),使用了KL散度損失。
  • FT-EWC:基于彈性權(quán)重合并(EWC)的連續(xù)學(xué)習(xí)微調(diào)方法。
  • GPT風(fēng)格編輯器:如ROMEMEMIT,用于批量編輯模型。
  • MEND:基于超網(wǎng)絡(luò)的編輯器。
  • DEFERGRACE:基于檢索的記憶編輯方法。

(3)評估指標(biāo)

每個編輯示例包含三個主要測試指標(biāo):

  • Reliability(可靠性):模型編輯的成功率。
  • Generalization(泛化能力):編輯后的模型在其他類似查詢上的表現(xiàn)。
  • Locality(局部性):編輯后的模型應(yīng)保持無關(guān)數(shù)據(jù)的輸出不變。

????????? ? ?

?3.2 實(shí)驗(yàn)結(jié)果

(1)WISE的競爭性表現(xiàn)

WISE 在實(shí)驗(yàn)中展示了相對于基線模型的卓越性能,特別是在以下幾個方面:

  • WISE 超越了現(xiàn)有方法,尤其是在長編輯序列任務(wù)中;
  • 直接編輯長期記憶(如 ROMEMEMIT 等)會導(dǎo)致與預(yù)訓(xùn)練知識的沖突,導(dǎo)致局部性差;
  • 使用檢索工作記憶的方法(如 GRACEDEFER 等)在泛化能力上表現(xiàn)不佳,難以適應(yīng)多樣化查詢。

????????在 問答任務(wù)(QA setting) 中,編輯次數(shù) T=1000 時(shí),WISE 在 LLaMAMistral 模型上分別獲得了 0.830.79 的平均分?jǐn)?shù),相較于最接近的競爭對手提高了 18%11%。這說明了 WISE 在處理長序列編輯時(shí)具有良好的穩(wěn)定性和有效的管理能力。

????????相比之下,盡管 MENDROME 在編輯初期表現(xiàn)良好,但隨著編輯序列的擴(kuò)展,它們的表現(xiàn)明顯下降,尤其在局部性方面。直接編輯長期記憶的方式(如 MEMIT、FT-EWCMEND)會顯著破壞模型的知識結(jié)構(gòu),且在 T=1001000 時(shí)表現(xiàn)出局部性的大幅下降。

(2)分布外泛化評估(Out-of-Distribution Evaluation)

????????理想的模型編輯方法應(yīng)能夠在復(fù)雜分布轉(zhuǎn)換(distributional shift)中從公式化編輯例子泛化到自然文本?;诖?#xff0c;使用 Temporal 數(shù)據(jù)集 測試了分布外的泛化能力。WISE 在該數(shù)據(jù)集上取得了最佳表現(xiàn),在 OOD Gen.(泛化能力) 和整體性能上表現(xiàn)出色,尤其是表5所展示的結(jié)果。

  • GRACE 在處理長文本時(shí)表現(xiàn)不佳,主要因?yàn)樗挠邢迏?shù)訓(xùn)練能力。
  • WISE 通過在有限記憶中進(jìn)行檢索路由,避免了 GRACEMEMIT 在處理分布外泛化時(shí)所面臨的問題,尤其是在應(yīng)對單個輸入詞元(token)表示時(shí)遇到的問題。

????????這段內(nèi)容的主要總結(jié)是 WISE 在不同任務(wù)和編輯場景下,相對于其他基線方法具有更好的魯棒性、泛化能力和局部性表現(xiàn),特別是在長編輯序列和分布外任務(wù)中的優(yōu)異表現(xiàn)。

3.3 進(jìn)一步分析(Further Analysis)?

(1)WISE的路由激活可視化(Visualization of WISE’s Routing Activation)

????????為了展示記憶路由的效果,實(shí)驗(yàn)記錄了1000個問答任務(wù)(QA)和600個幻覺檢測任務(wù)中的查詢激活值。結(jié)果表明,幾乎所有無關(guān)查詢的激活值都較低,而WISE可以精確地將編輯查詢和未見過的同義詞路由到側(cè)記憶中。這確保了編輯的局部性,并防止了在長期編輯中模型偏離預(yù)訓(xùn)練分布。

(2)WISE側(cè)記憶的局部化分析(Localization Analysis of WISE’s Side Memory)

????????為了驗(yàn)證在Transformer模型中中到晚層編輯的優(yōu)勢,實(shí)驗(yàn)選擇了解碼器的早期、中期和晚期層進(jìn)行對比。結(jié)果表明,早期和最終層的編輯效果不佳,而中到晚層的編輯效果顯著。例如,選擇第26層進(jìn)行編輯可以保持80%的成功率和泛化率,同時(shí)保持100%的局部性。這表明中到晚層非常適合作為側(cè)記憶的編輯層。

(3)對ρ和k的分析(Analysis of ρ and k for WISE)

????????通過對WISE的重要超參數(shù)(掩碼比例ρ和子空間數(shù)量k)的分析,結(jié)果表明,當(dāng)k?ρ=0.4<1 時(shí),子空間設(shè)計(jì)的知識密度較高,有助于更好的泛化。最佳的子空間重疊概率是0.03,這在合并時(shí)作為錨點(diǎn),同時(shí)避免了沖突。實(shí)驗(yàn)表明,約20%的FFN參數(shù)可以存儲至少500個編輯示例。

(4)擴(kuò)展到3000次編輯(Scale Up to 3K of Edits)

????????實(shí)驗(yàn)將連續(xù)編輯次數(shù)擴(kuò)展到3000次,比較了WISE的多次合并方法(WISE-Merge)和基于路由和檢索的WISE-Retrieve方法。實(shí)驗(yàn)表明,WISE在應(yīng)對大規(guī)模編輯時(shí)保持了高可擴(kuò)展性,并且WISE-Retrieve在3000次編輯中表現(xiàn)出最佳的性能。

(5)路由器設(shè)計(jì)的貢獻(xiàn)(Contribution of Router Designs in WISE)

????????實(shí)驗(yàn)對比了沒有路由策略的情況下,所有輸入均通過主記憶或側(cè)記憶。通過實(shí)驗(yàn)驗(yàn)證,WISE的路由器設(shè)計(jì)在識別編輯范圍和最小化副作用方面具有顯著效果。表7顯示了不同編輯次數(shù)下路由器對性能的影響。

(6)WISE的推理時(shí)間分析(Inference Time Analysis of WISE)

????????推理時(shí)間分析表明,隨著編輯次數(shù)的增加,WISE-Merge保持了穩(wěn)定的推理時(shí)間延遲(約3%),而WISE-Retrieve由于引入了檢索機(jī)制,推理時(shí)間有所增加,但總體仍在可接受范圍內(nèi),約增加了7%的時(shí)間成本。

? ? ? ? 存在的潛在問題:

(1)副記憶檢索的可擴(kuò)展性:作者承認(rèn)在處理非常長的編輯流時(shí),副記憶的檢索還有改進(jìn)的空間。隨著編輯數(shù)量的增加,特別是在WISE-Retrieve模式下,這可能會導(dǎo)致效率低下。

(2)推理時(shí)間的增加:隨著編輯次數(shù)的增加,特別是在WISE-Retrieve模式中,推理時(shí)間會變長。這對于實(shí)時(shí)應(yīng)用(需要低延遲響應(yīng))來說是一個問題。

(3)合并過程中潛在的知識沖突雖然WISE采用了Ties-Merge技術(shù)來合并副記憶并減少沖突,但在存在多個重疊編輯的情況下,仍可能會出現(xiàn)知識沖突的場景

http://www.risenshineclean.com/news/35091.html

相關(guān)文章:

  • wordpress短視頻主題上海整站seo
  • 兼職做調(diào)查哪個網(wǎng)站好溫州seo公司
  • 成都 高端網(wǎng)站建設(shè)如何制作網(wǎng)頁最簡單的方法
  • 網(wǎng)站設(shè)計(jì)如何收費(fèi)上海專業(yè)網(wǎng)絡(luò)推廣公司
  • 公司網(wǎng)站自己可以做嗎外包項(xiàng)目接單平臺
  • 怎么添加網(wǎng)站百度網(wǎng)盤下載電腦版官方下載
  • 建商城網(wǎng)站如何去推廣一個app
  • 上海著名網(wǎng)站設(shè)計(jì)公司網(wǎng)絡(luò)營銷品牌
  • 微網(wǎng)站 微官網(wǎng)的區(qū)別嗎最近的新聞大事10條
  • 深色大氣網(wǎng)站模板電腦培訓(xùn)學(xué)校學(xué)費(fèi)多少
  • web網(wǎng)站開發(fā)的基本流程產(chǎn)品運(yùn)營方案
  • php網(wǎng)站怎么做測試工具上海網(wǎng)站建設(shè)開發(fā)
  • 網(wǎng)站頂部展出的大幅廣告推廣網(wǎng)站源碼
  • 廣州專業(yè)的網(wǎng)站建設(shè)青島建站seo公司
  • 想象力做網(wǎng)站十大免費(fèi)最虧的免費(fèi)app
  • 佛山網(wǎng)站建設(shè)百度一下首頁
  • cpa個人網(wǎng)站怎么做快速seo排名優(yōu)化
  • 網(wǎng)站建設(shè)公司做網(wǎng)站要多少費(fèi)用農(nóng)產(chǎn)品品牌推廣方案
  • 微信開放平臺登錄好口碑的關(guān)鍵詞優(yōu)化
  • 網(wǎng)站建設(shè) 中企動力南昌產(chǎn)品如何推廣
  • 西安免費(fèi)做網(wǎng)站哪家好大連seo外包平臺
  • 分類信息網(wǎng)站平臺的推廣新聞20字摘抄大全
  • 張家港保稅區(qū)建設(shè)規(guī)劃局網(wǎng)站湖南優(yōu)化公司
  • 做精神科網(wǎng)站專業(yè)代寫軟文
  • 電商網(wǎng)站seoseo管理系統(tǒng)培訓(xùn)
  • 南京做網(wǎng)站公司seo排名優(yōu)化推薦
  • wordpress好看分頁北京做網(wǎng)絡(luò)優(yōu)化的公司
  • 新聞網(wǎng)站開發(fā)書籍北京seo公司
  • 做網(wǎng)站上傳服務(wù)器嗎優(yōu)化網(wǎng)站教程
  • 海南高端網(wǎng)站建設(shè)直接打開百度