當(dāng)前位置：首頁 > news >正文

網(wǎng)站開發(fā)論文需要寫什么windows優(yōu)化大師怎么使用

news 2025/7/3 13:21:11

網(wǎng)站開發(fā)論文需要寫什么,windows優(yōu)化大師怎么使用,黑龍江建設(shè)培訓(xùn)網(wǎng)站,網(wǎng)站開發(fā)人員趨勢論文地址：https://arxiv.org/abs/2405.14768https://arxiv.org/abs/2405.14768 1. 概述隨著世界知識的不斷變化，大語言模型（LLMs）需要及時(shí)更新，糾正其生成的虛假信息或錯誤響應(yīng)。這種持續(xù)的知識更新被稱為終身模型編…

論文地址：https://arxiv.org/abs/2405.14768https://arxiv.org/abs/2405.14768

1. 概述

????????隨著世界知識的不斷變化，大語言模型（LLMs）需要及時(shí)更新，糾正其生成的虛假信息或錯誤響應(yīng)。這種持續(xù)的知識更新被稱為終身模型編輯。當(dāng)前的模型編輯方法主要通過兩種方式存儲新知識：長期記憶（模型參數(shù)）和工作記憶（神經(jīng)網(wǎng)絡(luò)激活/表示的非參數(shù)化知識）。然而，這兩種方式在終身編輯情境下存在局限性，無法同時(shí)實(shí)現(xiàn)可靠性、泛化性和局部性。為了解決這一問題，本文提出了一種新的模型編輯方法——WISE。該方法采用雙參數(shù)內(nèi)存機(jī)制，在預(yù)訓(xùn)練知識與更新知識之間實(shí)現(xiàn)了無縫銜接，通過一種知識分片機(jī)制來避免知識沖突。

????????大語言模型在訓(xùn)練時(shí)獲取的知識是靜態(tài)的，但世界知識是不斷變化的。因此，部署后的LLMs可能生成包含幻覺、偏見或過時(shí)的響應(yīng)。同時(shí)，由于重新訓(xùn)練或微調(diào)模型代價(jià)高昂，無法滿足快速增長的知識需求。因此，終身模型編輯成為一種解決方案，通過不斷地更新和注入知識來保持模型的準(zhǔn)確性。然而，模型編輯面臨一個關(guān)鍵問題：更新后的知識應(yīng)存儲在何處。

長期記憶編輯：直接修改模型參數(shù)存儲新知識。這種方式雖然可以保持對新知識的記憶，但會導(dǎo)致與原有預(yù)訓(xùn)練知識發(fā)生沖突，影響局部性和可靠性。
工作記憶編輯：利用非參數(shù)化的檢索機(jī)制存儲新知識，不修改模型參數(shù)。這種方式雖然可以避免與原有知識的沖突，提升局部性，但難以泛化，無法應(yīng)對多樣化的查詢。

????????在此背景下，如何在終身模型編輯中平衡可靠性、泛化性和局部性，成為模型編輯的一個核心難題。

?????????為了解決上述問題，本文提出了WISE（雙參數(shù)內(nèi)存機(jī)制的終身模型編輯方法），通過結(jié)合長期記憶和工作記憶的優(yōu)點(diǎn)，打破模型編輯中的“不可能三角”。

雙參數(shù)內(nèi)存機(jī)制：
- 主內(nèi)存：存儲預(yù)訓(xùn)練時(shí)的原始知識，保持長期記憶的泛化能力。
- 側(cè)內(nèi)存：專門用于存儲和更新新知識，保證可靠性和局部性。
路由機(jī)制：為了確保編輯后的模型在不同情境下調(diào)用合適的知識，WISE設(shè)計(jì)了一個路由器。該路由器根據(jù)輸入查詢的不同，自動選擇是使用主內(nèi)存中的預(yù)訓(xùn)練知識，還是側(cè)內(nèi)存中的更新知識。這樣就能避免對無關(guān)知識的干擾。
知識分片機(jī)制：為了應(yīng)對不斷增加的編輯請求，WISE引入了知識分片機(jī)制。每一組編輯知識會被存儲在不同的參數(shù)子空間中，這些子空間是相互正交的，確保了不同編輯之間不會產(chǎn)生沖突。編輯完成后，這些分片會被合并為一個共享的側(cè)內(nèi)存，從而實(shí)現(xiàn)無沖突的終身編輯。

????????WISE的設(shè)計(jì)主要解決了現(xiàn)有模型編輯方法在終身學(xué)習(xí)中的不足。具體體現(xiàn)在以下幾點(diǎn)：

可靠性：模型可以記住當(dāng)前和之前的編輯內(nèi)容，不會在多次編輯后遺忘新知識。
局部性：編輯只會影響到相關(guān)的知識，不會破壞與該編輯無關(guān)的預(yù)訓(xùn)練知識。
泛化性：模型不僅能記住具體的查詢-目標(biāo)對，還能理解編輯內(nèi)容，能夠應(yīng)對不同形式的相同知識查詢。

????????在實(shí)驗(yàn)中，WISE顯著優(yōu)于傳統(tǒng)的基于長期記憶或工作記憶的模型編輯方法。其在多個LLM架構(gòu)（如GPT、LLaMA、Mistral等）下的實(shí)驗(yàn)表明，WISE在問答任務(wù)、幻覺檢測和分布外任務(wù)等終身模型編輯場景中，均在可靠性、泛化性和局部性三個指標(biāo)上取得了更好的結(jié)果。

2. 方法

2.1?終身模型編輯 ?

????????終身模型編輯問題，其核心目標(biāo)是通過連續(xù)的編輯，使得大語言模型（LLMs）的輸出能夠符合人類的期望，同時(shí)保持模型之前的知識和能力。?

2.2 重新思考終身模型編輯的內(nèi)存設(shè)計(jì)???????

表1列出了當(dāng)前主要模型編輯方法在內(nèi)存類型和終身編輯能力上的對比。對比的關(guān)鍵維度包括：

長期記憶編輯（修改模型參數(shù)）
工作記憶編輯（檢索時(shí)使用神經(jīng)網(wǎng)絡(luò)激活/表示的非參數(shù)化知識）
參數(shù)化知識與檢索知識
是否支持終身編輯
可靠性、泛化性和局部性

表1中的方法對比總結(jié)如下：

FT-EWC、ROME、MEMIT、MEND：這些方法通過修改 LLM 模型參數(shù)來編輯長期記憶，但無法支持連續(xù)編輯，或者會對無關(guān)知識產(chǎn)生負(fù)面影響，導(dǎo)致局部性較差。
GRACE：基于工作記憶，通過檢索知識避免了對無關(guān)知識的沖突，但由于檢索機(jī)制只記憶查詢，不理解其含義，泛化能力較差。

????????WISE 方法則通過結(jié)合長期記憶和工作記憶的優(yōu)勢，提供了一種更有效的終身模型編輯方案。它利用一個雙參數(shù)內(nèi)存機(jī)制，同時(shí)保持 LLM 的長期記憶（泛化能力）和工作記憶（可靠性和局部性），使其在終身模型編輯中表現(xiàn)出色。

2.3 WISE: 側(cè)內(nèi)存與知識分片、合并及路由

WISE 的側(cè)內(nèi)存包含兩個關(guān)鍵組成部分：

側(cè)內(nèi)存設(shè)計(jì)：
- 側(cè)內(nèi)存：側(cè)內(nèi)存是 LLM 某一前饋神經(jīng)網(wǎng)絡(luò)（FFN）層的副本，用于存儲編輯流。通過這種設(shè)計(jì)，避免直接修改主內(nèi)存而可能帶來的遺忘和副作用。
- 路由機(jī)制：為了決定使用主內(nèi)存還是側(cè)內(nèi)存，設(shè)計(jì)了路由激活組件，來識別編輯的范圍。在推理過程中，該組件決定是使用主內(nèi)存還是側(cè)內(nèi)存來完成推理。
知識分片與合并：
- 知識在隨機(jī)子空間中的分片：為了避免遺忘，將側(cè)內(nèi)存分為多個隨機(jī)子空間，保證知識編輯的密度和分布性。
- 知識合并：利用模型合并技術(shù)，將不同的側(cè)內(nèi)存片段合并為一個共享的側(cè)內(nèi)存，避免知識丟失。

2.3.1 側(cè)內(nèi)存設(shè)計(jì) (Side Memory Design)

（1）側(cè)內(nèi)存設(shè)計(jì)的基本原理：
????????在Transformer中，每層包含一個多頭自注意力機(jī)制（MHA）和一個前饋神經(jīng)網(wǎng)絡(luò)（FFN），而FFN占據(jù)了模型中大量的參數(shù)。為避免直接修改主內(nèi)存（模型預(yù)訓(xùn)練時(shí)學(xué)到的知識），WISE引入了側(cè)內(nèi)存，用來存儲編輯過的知識。

（2）主內(nèi)存與側(cè)內(nèi)存之間的路由 (Routing between Side Memories and Main Memory)

?（3）基于邊界的損失函數(shù) (Margin-based Loss Function)

2.3.2 知識分片與合并 (Knowledge Sharding and Merging)

（1）知識密度問題 (Knowledge Density)

為了在終身模型編輯中有效存儲更新的知識，作者引入了知識密度的概念，它類似于知識容量，用于描述在模型的參數(shù)中存儲了多少知識。在這個背景下，存在以下兩難問題：

知識密度過低：如果編輯次數(shù)較少或?qū)φ麄€內(nèi)存進(jìn)行微調(diào)，知識密度低，可能導(dǎo)致過擬合；
知識密度過高：如果編輯過于頻繁，知識密度過高，導(dǎo)致已編輯的知識發(fā)生沖突，可能引發(fā)災(zāi)難性遺忘。

為解決此問題，作者提出了一種知識分片和合并機(jī)制，將側(cè)內(nèi)存編輯劃分為多個子片段，存儲在不同的參數(shù)子空間中，隨后通過合并這些子空間，形成一個完整的側(cè)內(nèi)存。這樣設(shè)計(jì)的好處在于避免了知識沖突，同時(shí)實(shí)現(xiàn)高效存儲。

（2）隨機(jī)子空間中的知識 (Knowledge in Random Memory Subspaces)

???? （3）知識合并 (Knowledge Merging)?????

????????在完成多次編輯后，多個子空間中的知識需要合并為一個共享的側(cè)內(nèi)存。由于不同的子空間通過隨機(jī)掩碼生成，這些子空間可能存在重疊部分和不相交部分。作者提出了如下定理來描述這些子空間重疊的情況：

（3）知識合并技術(shù)：Ties-Merge??????

Ties-Merge 的合并過程分為三步：

修剪：修剪每個任務(wù)向量中的冗余參數(shù)；
符號選擇：為每個參數(shù)選擇最合適的符號；
不相交合并：計(jì)算不相交子空間的參數(shù)均值，并將結(jié)果合并到一個統(tǒng)一的側(cè)內(nèi)存中。

????????通過 Ties-Merge，多個子空間中的知識能夠有效合并，減少了子空間合并時(shí)的沖突。

（4）路由與檢索多個側(cè)內(nèi)存 (Routing and Retrieving among Several Side Memories)

????????由于單個側(cè)內(nèi)存的知識容量有限，WISE 設(shè)計(jì)了一個多側(cè)內(nèi)存系統(tǒng)，能夠產(chǎn)生多個側(cè)內(nèi)存并在推理過程中進(jìn)行檢索。檢索過程通過激活評分路由機(jī)制（activation score routing）來實(shí)現(xiàn)，系統(tǒng)會根據(jù)不同的激活指示器分?jǐn)?shù)，選擇最合適的內(nèi)存進(jìn)行推理。該設(shè)計(jì)被稱為WISE-Retrieve，允許模型應(yīng)對更復(fù)雜的終身編輯場景。

3.實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置和評估指標(biāo)

（1）數(shù)據(jù)集與模型

選擇了幾種流行的自回歸大型語言模型（LLMs）進(jìn)行實(shí)驗(yàn)，包括：
- LLaMA-2-7B
- Mistral-7B
- GPT-J-6B

論文使用了三個不同的數(shù)據(jù)集：

ZsRE（零樣本關(guān)系抽取，用于問答任務(wù)）
SelfCheckGPT（用于修正語言模型生成的幻覺現(xiàn)象）
Temporal（用于評估編輯模型在分布外數(shù)據(jù)上的泛化能力）

????????表格3中給出了這些數(shù)據(jù)集的統(tǒng)計(jì)信息，以及編輯數(shù)據(jù)和評估時(shí)使用的無關(guān)數(shù)據(jù)。

（2）基線方法

實(shí)驗(yàn)中，比較了多種基線方法和WISE，包括：

FT-L：直接微調(diào)，使用了KL散度損失。
FT-EWC：基于彈性權(quán)重合并（EWC）的連續(xù)學(xué)習(xí)微調(diào)方法。
GPT風(fēng)格編輯器：如ROME和MEMIT，用于批量編輯模型。
MEND：基于超網(wǎng)絡(luò)的編輯器。
DEFER 和 GRACE：基于檢索的記憶編輯方法。

（3）評估指標(biāo)

每個編輯示例包含三個主要測試指標(biāo)：

Reliability（可靠性）：模型編輯的成功率。
Generalization（泛化能力）：編輯后的模型在其他類似查詢上的表現(xiàn)。
Locality（局部性）：編輯后的模型應(yīng)保持無關(guān)數(shù)據(jù)的輸出不變。

????????? ? ?

?3.2 實(shí)驗(yàn)結(jié)果

（1）WISE的競爭性表現(xiàn)

WISE 在實(shí)驗(yàn)中展示了相對于基線模型的卓越性能，特別是在以下幾個方面：

WISE 超越了現(xiàn)有方法，尤其是在長編輯序列任務(wù)中；
直接編輯長期記憶（如 ROME 和 MEMIT 等）會導(dǎo)致與預(yù)訓(xùn)練知識的沖突，導(dǎo)致局部性差；
使用檢索工作記憶的方法（如 GRACE 和 DEFER 等）在泛化能力上表現(xiàn)不佳，難以適應(yīng)多樣化查詢。

????????在 問答任務(wù)（QA setting） 中，編輯次數(shù) T=1000 時(shí)，WISE 在 LLaMA 和 Mistral 模型上分別獲得了 0.83 和 0.79 的平均分?jǐn)?shù)，相較于最接近的競爭對手提高了 18% 和 11%。這說明了 WISE 在處理長序列編輯時(shí)具有良好的穩(wěn)定性和有效的管理能力。

????????相比之下，盡管 MEND 和 ROME 在編輯初期表現(xiàn)良好，但隨著編輯序列的擴(kuò)展，它們的表現(xiàn)明顯下降，尤其在局部性方面。直接編輯長期記憶的方式（如 MEMIT、FT-EWC 和 MEND）會顯著破壞模型的知識結(jié)構(gòu)，且在 T=100 或 1000 時(shí)表現(xiàn)出局部性的大幅下降。

（2）分布外泛化評估（Out-of-Distribution Evaluation）

????????理想的模型編輯方法應(yīng)能夠在復(fù)雜分布轉(zhuǎn)換（distributional shift）中從公式化編輯例子泛化到自然文本?；诖?#xff0c;使用 Temporal 數(shù)據(jù)集 測試了分布外的泛化能力。WISE 在該數(shù)據(jù)集上取得了最佳表現(xiàn)，在 OOD Gen.（泛化能力） 和整體性能上表現(xiàn)出色，尤其是表5所展示的結(jié)果。

GRACE 在處理長文本時(shí)表現(xiàn)不佳，主要因?yàn)樗挠邢迏?shù)訓(xùn)練能力。
WISE 通過在有限記憶中進(jìn)行檢索路由，避免了 GRACE 和 MEMIT 在處理分布外泛化時(shí)所面臨的問題，尤其是在應(yīng)對單個輸入詞元（token）表示時(shí)遇到的問題。

????????這段內(nèi)容的主要總結(jié)是 WISE 在不同任務(wù)和編輯場景下，相對于其他基線方法具有更好的魯棒性、泛化能力和局部性表現(xiàn)，特別是在長編輯序列和分布外任務(wù)中的優(yōu)異表現(xiàn)。

3.3 進(jìn)一步分析（Further Analysis）?

（1）WISE的路由激活可視化（Visualization of WISE’s Routing Activation）

????????為了展示記憶路由的效果，實(shí)驗(yàn)記錄了1000個問答任務(wù)（QA）和600個幻覺檢測任務(wù)中的查詢激活值。結(jié)果表明，幾乎所有無關(guān)查詢的激活值都較低，而WISE可以精確地將編輯查詢和未見過的同義詞路由到側(cè)記憶中。這確保了編輯的局部性，并防止了在長期編輯中模型偏離預(yù)訓(xùn)練分布。

（2）WISE側(cè)記憶的局部化分析（Localization Analysis of WISE’s Side Memory）

????????為了驗(yàn)證在Transformer模型中中到晚層編輯的優(yōu)勢，實(shí)驗(yàn)選擇了解碼器的早期、中期和晚期層進(jìn)行對比。結(jié)果表明，早期和最終層的編輯效果不佳，而中到晚層的編輯效果顯著。例如，選擇第26層進(jìn)行編輯可以保持80%的成功率和泛化率，同時(shí)保持100%的局部性。這表明中到晚層非常適合作為側(cè)記憶的編輯層。

（3）對ρ和k的分析（Analysis of ρ and k for WISE）

????????通過對WISE的重要超參數(shù)（掩碼比例ρ和子空間數(shù)量k）的分析，結(jié)果表明，當(dāng)k?ρ=0.4<1 時(shí)，子空間設(shè)計(jì)的知識密度較高，有助于更好的泛化。最佳的子空間重疊概率是0.03，這在合并時(shí)作為錨點(diǎn)，同時(shí)避免了沖突。實(shí)驗(yàn)表明，約20%的FFN參數(shù)可以存儲至少500個編輯示例。

（4）擴(kuò)展到3000次編輯（Scale Up to 3K of Edits）

????????實(shí)驗(yàn)將連續(xù)編輯次數(shù)擴(kuò)展到3000次，比較了WISE的多次合并方法（WISE-Merge）和基于路由和檢索的WISE-Retrieve方法。實(shí)驗(yàn)表明，WISE在應(yīng)對大規(guī)模編輯時(shí)保持了高可擴(kuò)展性，并且WISE-Retrieve在3000次編輯中表現(xiàn)出最佳的性能。

（5）路由器設(shè)計(jì)的貢獻(xiàn)（Contribution of Router Designs in WISE）

????????實(shí)驗(yàn)對比了沒有路由策略的情況下，所有輸入均通過主記憶或側(cè)記憶。通過實(shí)驗(yàn)驗(yàn)證，WISE的路由器設(shè)計(jì)在識別編輯范圍和最小化副作用方面具有顯著效果。表7顯示了不同編輯次數(shù)下路由器對性能的影響。

（6）WISE的推理時(shí)間分析（Inference Time Analysis of WISE）

????????推理時(shí)間分析表明，隨著編輯次數(shù)的增加，WISE-Merge保持了穩(wěn)定的推理時(shí)間延遲（約3%），而WISE-Retrieve由于引入了檢索機(jī)制，推理時(shí)間有所增加，但總體仍在可接受范圍內(nèi)，約增加了7%的時(shí)間成本。

? ? ? ? 存在的潛在問題：

（1）副記憶檢索的可擴(kuò)展性：作者承認(rèn)在處理非常長的編輯流時(shí)，副記憶的檢索還有改進(jìn)的空間。隨著編輯數(shù)量的增加，特別是在WISE-Retrieve模式下，這可能會導(dǎo)致效率低下。

（2）推理時(shí)間的增加：隨著編輯次數(shù)的增加，特別是在WISE-Retrieve模式中，推理時(shí)間會變長。這對于實(shí)時(shí)應(yīng)用（需要低延遲響應(yīng)）來說是一個問題。

（3）合并過程中潛在的知識沖突：雖然WISE采用了Ties-Merge技術(shù)來合并副記憶并減少沖突，但在存在多個重疊編輯的情況下，仍可能會出現(xiàn)知識沖突的場景

查看全文

http://www.risenshineclean.com/news/35091.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

網(wǎng)站開發(fā)論文需要寫什么windows優(yōu)化大師怎么使用

1. 概述