網(wǎng)站開發(fā)論文需要寫什么windows優(yōu)化大師怎么使用
論文地址:https://arxiv.org/abs/2405.14768https://arxiv.org/abs/2405.14768
1. 概述
????????隨著世界知識的不斷變化,大語言模型(LLMs)需要及時(shí)更新,糾正其生成的虛假信息或錯誤響應(yīng)。這種持續(xù)的知識更新被稱為終身模型編輯。當(dāng)前的模型編輯方法主要通過兩種方式存儲新知識:長期記憶(模型參數(shù))和工作記憶(神經(jīng)網(wǎng)絡(luò)激活/表示的非參數(shù)化知識)。然而,這兩種方式在終身編輯情境下存在局限性,無法同時(shí)實(shí)現(xiàn)可靠性、泛化性和局部性。為了解決這一問題,本文提出了一種新的模型編輯方法——WISE。該方法采用雙參數(shù)內(nèi)存機(jī)制,在預(yù)訓(xùn)練知識與更新知識之間實(shí)現(xiàn)了無縫銜接,通過一種知識分片機(jī)制來避免知識沖突。
????????大語言模型在訓(xùn)練時(shí)獲取的知識是靜態(tài)的,但世界知識是不斷變化的。因此,部署后的LLMs可能生成包含幻覺、偏見或過時(shí)的響應(yīng)。同時(shí),由于重新訓(xùn)練或微調(diào)模型代價(jià)高昂,無法滿足快速增長的知識需求。因此,終身模型編輯成為一種解決方案,通過不斷地更新和注入知識來保持模型的準(zhǔn)確性。然而,模型編輯面臨一個關(guān)鍵問題:更新后的知識應(yīng)存儲在何處。
- 長期記憶編輯:直接修改模型參數(shù)存儲新知識。這種方式雖然可以保持對新知識的記憶,但會導(dǎo)致與原有預(yù)訓(xùn)練知識發(fā)生沖突,影響局部性和可靠性。
- 工作記憶編輯:利用非參數(shù)化的檢索機(jī)制存儲新知識,不修改模型參數(shù)。這種方式雖然可以避免與原有知識的沖突,提升局部性,但難以泛化,無法應(yīng)對多樣化的查詢。
????????在此背景下,如何在終身模型編輯中平衡可靠性、泛化性和局部性,成為模型編輯的一個核心難題。
?????????為了解決上述問題,本文提出了WISE(雙參數(shù)內(nèi)存機(jī)制的終身模型編輯方法),通過結(jié)合長期記憶和工作記憶的優(yōu)點(diǎn),打破模型編輯中的“不可能三角”。
-
雙參數(shù)內(nèi)存機(jī)制:
- 主內(nèi)存:存儲預(yù)訓(xùn)練時(shí)的原始知識,保持長期記憶的泛化能力。
- 側(cè)內(nèi)存:專門用于存儲和更新新知識,保證可靠性和局部性。
-
路由機(jī)制:為了確保編輯后的模型在不同情境下調(diào)用合適的知識,WISE設(shè)計(jì)了一個路由器。該路由器根據(jù)輸入查詢的不同,自動選擇是使用主內(nèi)存中的預(yù)訓(xùn)練知識,還是側(cè)內(nèi)存中的更新知識。這樣就能避免對無關(guān)知識的干擾。
-
知識分片機(jī)制:為了應(yīng)對不斷增加的編輯請求,WISE引入了知識分片機(jī)制。每一組編輯知識會被存儲在不同的參數(shù)子空間中,這些子空間是相互正交的,確保了不同編輯之間不會產(chǎn)生沖突。編輯完成后,這些分片會被合并為一個共享的側(cè)內(nèi)存,從而實(shí)現(xiàn)無沖突的終身編輯。
????????WISE的設(shè)計(jì)主要解決了現(xiàn)有模型編輯方法在終身學(xué)習(xí)中的不足。具體體現(xiàn)在以下幾點(diǎn):
- 可靠性:模型可以記住當(dāng)前和之前的編輯內(nèi)容,不會在多次編輯后遺忘新知識。
- 局部性:編輯只會影響到相關(guān)的知識,不會破壞與該編輯無關(guān)的預(yù)訓(xùn)練知識。
- 泛化性:模型不僅能記住具體的查詢-目標(biāo)對,還能理解編輯內(nèi)容,能夠應(yīng)對不同形式的相同知識查詢。
????????在實(shí)驗(yàn)中,WISE顯著優(yōu)于傳統(tǒng)的基于長期記憶或工作記憶的模型編輯方法。其在多個LLM架構(gòu)(如GPT、LLaMA、Mistral等)下的實(shí)驗(yàn)表明,WISE在問答任務(wù)、幻覺檢測和分布外任務(wù)等終身模型編輯場景中,均在可靠性、泛化性和局部性三個指標(biāo)上取得了更好的結(jié)果。
2. 方法
2.1?終身模型編輯 ?
????????終身模型編輯問題,其核心目標(biāo)是通過連續(xù)的編輯,使得大語言模型(LLMs)的輸出能夠符合人類的期望,同時(shí)保持模型之前的知識和能力。?
2.2 重新思考終身模型編輯的內(nèi)存設(shè)計(jì)???????
表1列出了當(dāng)前主要模型編輯方法在內(nèi)存類型和終身編輯能力上的對比。對比的關(guān)鍵維度包括:
- 長期記憶編輯(修改模型參數(shù))
- 工作記憶編輯(檢索時(shí)使用神經(jīng)網(wǎng)絡(luò)激活/表示的非參數(shù)化知識)
- 參數(shù)化知識與檢索知識
- 是否支持終身編輯
- 可靠性、泛化性和局部性
表1中的方法對比總結(jié)如下:
- FT-EWC、ROME、MEMIT、MEND:這些方法通過修改 LLM 模型參數(shù)來編輯長期記憶,但無法支持連續(xù)編輯,或者會對無關(guān)知識產(chǎn)生負(fù)面影響,導(dǎo)致局部性較差。
- GRACE:基于工作記憶,通過檢索知識避免了對無關(guān)知識的沖突,但由于檢索機(jī)制只記憶查詢,不理解其含義,泛化能力較差。
????????WISE 方法則通過結(jié)合長期記憶和工作記憶的優(yōu)勢,提供了一種更有效的終身模型編輯方案。它利用一個雙參數(shù)內(nèi)存機(jī)制,同時(shí)保持 LLM 的長期記憶(泛化能力)和工作記憶(可靠性和局部性),使其在終身模型編輯中表現(xiàn)出色。
2.3 WISE: 側(cè)內(nèi)存與知識分片、合并及路由
WISE 的側(cè)內(nèi)存包含兩個關(guān)鍵組成部分:
-
側(cè)內(nèi)存設(shè)計(jì):
- 側(cè)內(nèi)存:側(cè)內(nèi)存是 LLM 某一前饋神經(jīng)網(wǎng)絡(luò)(FFN)層的副本,用于存儲編輯流。通過這種設(shè)計(jì),避免直接修改主內(nèi)存而可能帶來的遺忘和副作用。
- 路由機(jī)制:為了決定使用主內(nèi)存還是側(cè)內(nèi)存,設(shè)計(jì)了路由激活組件,來識別編輯的范圍。在推理過程中,該組件決定是使用主內(nèi)存還是側(cè)內(nèi)存來完成推理。
-
知識分片與合并:
- 知識在隨機(jī)子空間中的分片:為了避免遺忘,將側(cè)內(nèi)存分為多個隨機(jī)子空間,保證知識編輯的密度和分布性。
- 知識合并:利用模型合并技術(shù),將不同的側(cè)內(nèi)存片段合并為一個共享的側(cè)內(nèi)存,避免知識丟失。
2.3.1 側(cè)內(nèi)存設(shè)計(jì) (Side Memory Design)
(1)側(cè)內(nèi)存設(shè)計(jì)的基本原理:
????????在Transformer中,每層包含一個多頭自注意力機(jī)制(MHA)和一個前饋神經(jīng)網(wǎng)絡(luò)(FFN),而FFN占據(jù)了模型中大量的參數(shù)。為避免直接修改主內(nèi)存(模型預(yù)訓(xùn)練時(shí)學(xué)到的知識),WISE引入了側(cè)內(nèi)存,用來存儲編輯過的知識。
(2)主內(nèi)存與側(cè)內(nèi)存之間的路由 (Routing between Side Memories and Main Memory)
?(3)基于邊界的損失函數(shù) (Margin-based Loss Function)
2.3.2 知識分片與合并 (Knowledge Sharding and Merging)
(1)知識密度問題 (Knowledge Density)
為了在終身模型編輯中有效存儲更新的知識,作者引入了知識密度的概念,它類似于知識容量,用于描述在模型的參數(shù)中存儲了多少知識。在這個背景下,存在以下兩難問題:
- 知識密度過低:如果編輯次數(shù)較少或?qū)φ麄€內(nèi)存進(jìn)行微調(diào),知識密度低,可能導(dǎo)致過擬合;
- 知識密度過高:如果編輯過于頻繁,知識密度過高,導(dǎo)致已編輯的知識發(fā)生沖突,可能引發(fā)災(zāi)難性遺忘。
為解決此問題,作者提出了一種知識分片和合并機(jī)制,將側(cè)內(nèi)存編輯劃分為多個子片段,存儲在不同的參數(shù)子空間中,隨后通過合并這些子空間,形成一個完整的側(cè)內(nèi)存。這樣設(shè)計(jì)的好處在于避免了知識沖突,同時(shí)實(shí)現(xiàn)高效存儲。
(2)隨機(jī)子空間中的知識 (Knowledge in Random Memory Subspaces)
???? (3)知識合并 (Knowledge Merging)?????
????????在完成多次編輯后,多個子空間中的知識需要合并為一個共享的側(cè)內(nèi)存。由于不同的子空間通過隨機(jī)掩碼生成,這些子空間可能存在重疊部分和不相交部分。作者提出了如下定理來描述這些子空間重疊的情況:
(3)知識合并技術(shù):Ties-Merge??????
Ties-Merge 的合并過程分為三步:
- 修剪:修剪每個任務(wù)向量中的冗余參數(shù);
- 符號選擇:為每個參數(shù)選擇最合適的符號;
- 不相交合并:計(jì)算不相交子空間的參數(shù)均值,并將結(jié)果合并到一個統(tǒng)一的側(cè)內(nèi)存中。
????????通過 Ties-Merge,多個子空間中的知識能夠有效合并,減少了子空間合并時(shí)的沖突。
(4)路由與檢索多個側(cè)內(nèi)存 (Routing and Retrieving among Several Side Memories)
????????由于單個側(cè)內(nèi)存的知識容量有限,WISE 設(shè)計(jì)了一個多側(cè)內(nèi)存系統(tǒng),能夠產(chǎn)生多個側(cè)內(nèi)存并在推理過程中進(jìn)行檢索。檢索過程通過激活評分路由機(jī)制(activation score routing)來實(shí)現(xiàn),系統(tǒng)會根據(jù)不同的激活指示器分?jǐn)?shù),選擇最合適的內(nèi)存進(jìn)行推理。該設(shè)計(jì)被稱為WISE-Retrieve,允許模型應(yīng)對更復(fù)雜的終身編輯場景。
3.實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置和評估指標(biāo)
(1)數(shù)據(jù)集與模型
- 選擇了幾種流行的自回歸大型語言模型(LLMs)進(jìn)行實(shí)驗(yàn),包括:
- LLaMA-2-7B
- Mistral-7B
- GPT-J-6B
論文使用了三個不同的數(shù)據(jù)集:
- ZsRE(零樣本關(guān)系抽取,用于問答任務(wù))
- SelfCheckGPT(用于修正語言模型生成的幻覺現(xiàn)象)
- Temporal(用于評估編輯模型在分布外數(shù)據(jù)上的泛化能力)
????????表格3中給出了這些數(shù)據(jù)集的統(tǒng)計(jì)信息,以及編輯數(shù)據(jù)和評估時(shí)使用的無關(guān)數(shù)據(jù)。
(2)基線方法
實(shí)驗(yàn)中,比較了多種基線方法和WISE,包括:
- FT-L:直接微調(diào),使用了KL散度損失。
- FT-EWC:基于彈性權(quán)重合并(EWC)的連續(xù)學(xué)習(xí)微調(diào)方法。
- GPT風(fēng)格編輯器:如ROME和MEMIT,用于批量編輯模型。
- MEND:基于超網(wǎng)絡(luò)的編輯器。
- DEFER 和 GRACE:基于檢索的記憶編輯方法。
(3)評估指標(biāo)
每個編輯示例包含三個主要測試指標(biāo):
- Reliability(可靠性):模型編輯的成功率。
- Generalization(泛化能力):編輯后的模型在其他類似查詢上的表現(xiàn)。
- Locality(局部性):編輯后的模型應(yīng)保持無關(guān)數(shù)據(jù)的輸出不變。
????????? ? ?
?3.2 實(shí)驗(yàn)結(jié)果
(1)WISE的競爭性表現(xiàn)
WISE 在實(shí)驗(yàn)中展示了相對于基線模型的卓越性能,特別是在以下幾個方面:
- WISE 超越了現(xiàn)有方法,尤其是在長編輯序列任務(wù)中;
- 直接編輯長期記憶(如 ROME 和 MEMIT 等)會導(dǎo)致與預(yù)訓(xùn)練知識的沖突,導(dǎo)致局部性差;
- 使用檢索工作記憶的方法(如 GRACE 和 DEFER 等)在泛化能力上表現(xiàn)不佳,難以適應(yīng)多樣化查詢。
????????在 問答任務(wù)(QA setting) 中,編輯次數(shù) T=1000 時(shí),WISE 在 LLaMA 和 Mistral 模型上分別獲得了 0.83 和 0.79 的平均分?jǐn)?shù),相較于最接近的競爭對手提高了 18% 和 11%。這說明了 WISE 在處理長序列編輯時(shí)具有良好的穩(wěn)定性和有效的管理能力。
????????相比之下,盡管 MEND 和 ROME 在編輯初期表現(xiàn)良好,但隨著編輯序列的擴(kuò)展,它們的表現(xiàn)明顯下降,尤其在局部性方面。直接編輯長期記憶的方式(如 MEMIT、FT-EWC 和 MEND)會顯著破壞模型的知識結(jié)構(gòu),且在 T=100 或 1000 時(shí)表現(xiàn)出局部性的大幅下降。
(2)分布外泛化評估(Out-of-Distribution Evaluation)
????????理想的模型編輯方法應(yīng)能夠在復(fù)雜分布轉(zhuǎn)換(distributional shift)中從公式化編輯例子泛化到自然文本?;诖?#xff0c;使用 Temporal 數(shù)據(jù)集 測試了分布外的泛化能力。WISE 在該數(shù)據(jù)集上取得了最佳表現(xiàn),在 OOD Gen.(泛化能力) 和整體性能上表現(xiàn)出色,尤其是表5所展示的結(jié)果。
- GRACE 在處理長文本時(shí)表現(xiàn)不佳,主要因?yàn)樗挠邢迏?shù)訓(xùn)練能力。
- WISE 通過在有限記憶中進(jìn)行檢索路由,避免了 GRACE 和 MEMIT 在處理分布外泛化時(shí)所面臨的問題,尤其是在應(yīng)對單個輸入詞元(token)表示時(shí)遇到的問題。
????????這段內(nèi)容的主要總結(jié)是 WISE 在不同任務(wù)和編輯場景下,相對于其他基線方法具有更好的魯棒性、泛化能力和局部性表現(xiàn),特別是在長編輯序列和分布外任務(wù)中的優(yōu)異表現(xiàn)。
3.3 進(jìn)一步分析(Further Analysis)?
(1)WISE的路由激活可視化(Visualization of WISE’s Routing Activation)
????????為了展示記憶路由的效果,實(shí)驗(yàn)記錄了1000個問答任務(wù)(QA)和600個幻覺檢測任務(wù)中的查詢激活值。結(jié)果表明,幾乎所有無關(guān)查詢的激活值都較低,而WISE可以精確地將編輯查詢和未見過的同義詞路由到側(cè)記憶中。這確保了編輯的局部性,并防止了在長期編輯中模型偏離預(yù)訓(xùn)練分布。
(2)WISE側(cè)記憶的局部化分析(Localization Analysis of WISE’s Side Memory)
????????為了驗(yàn)證在Transformer模型中中到晚層編輯的優(yōu)勢,實(shí)驗(yàn)選擇了解碼器的早期、中期和晚期層進(jìn)行對比。結(jié)果表明,早期和最終層的編輯效果不佳,而中到晚層的編輯效果顯著。例如,選擇第26層進(jìn)行編輯可以保持80%的成功率和泛化率,同時(shí)保持100%的局部性。這表明中到晚層非常適合作為側(cè)記憶的編輯層。
(3)對ρ和k的分析(Analysis of ρ and k for WISE)
????????通過對WISE的重要超參數(shù)(掩碼比例ρ和子空間數(shù)量k)的分析,結(jié)果表明,當(dāng)k?ρ=0.4<1 時(shí),子空間設(shè)計(jì)的知識密度較高,有助于更好的泛化。最佳的子空間重疊概率是0.03,這在合并時(shí)作為錨點(diǎn),同時(shí)避免了沖突。實(shí)驗(yàn)表明,約20%的FFN參數(shù)可以存儲至少500個編輯示例。
(4)擴(kuò)展到3000次編輯(Scale Up to 3K of Edits)
????????實(shí)驗(yàn)將連續(xù)編輯次數(shù)擴(kuò)展到3000次,比較了WISE的多次合并方法(WISE-Merge)和基于路由和檢索的WISE-Retrieve方法。實(shí)驗(yàn)表明,WISE在應(yīng)對大規(guī)模編輯時(shí)保持了高可擴(kuò)展性,并且WISE-Retrieve在3000次編輯中表現(xiàn)出最佳的性能。
(5)路由器設(shè)計(jì)的貢獻(xiàn)(Contribution of Router Designs in WISE)
????????實(shí)驗(yàn)對比了沒有路由策略的情況下,所有輸入均通過主記憶或側(cè)記憶。通過實(shí)驗(yàn)驗(yàn)證,WISE的路由器設(shè)計(jì)在識別編輯范圍和最小化副作用方面具有顯著效果。表7顯示了不同編輯次數(shù)下路由器對性能的影響。
(6)WISE的推理時(shí)間分析(Inference Time Analysis of WISE)
????????推理時(shí)間分析表明,隨著編輯次數(shù)的增加,WISE-Merge保持了穩(wěn)定的推理時(shí)間延遲(約3%),而WISE-Retrieve由于引入了檢索機(jī)制,推理時(shí)間有所增加,但總體仍在可接受范圍內(nèi),約增加了7%的時(shí)間成本。
? ? ? ? 存在的潛在問題:
(1)副記憶檢索的可擴(kuò)展性:作者承認(rèn)在處理非常長的編輯流時(shí),副記憶的檢索還有改進(jìn)的空間。隨著編輯數(shù)量的增加,特別是在WISE-Retrieve模式下,這可能會導(dǎo)致效率低下。
(2)推理時(shí)間的增加:隨著編輯次數(shù)的增加,特別是在WISE-Retrieve模式中,推理時(shí)間會變長。這對于實(shí)時(shí)應(yīng)用(需要低延遲響應(yīng))來說是一個問題。
(3)合并過程中潛在的知識沖突:雖然WISE采用了Ties-Merge技術(shù)來合并副記憶并減少沖突,但在存在多個重疊編輯的情況下,仍可能會出現(xiàn)知識沖突的場景