網(wǎng)站qq聯(lián)系怎么做視頻廣告接單平臺(tái)
本文總結(jié)了2024年6月后兩周發(fā)表的一些最重要的大語言模型論文。這些論文涵蓋了塑造下一代語言模型的各種主題,從模型優(yōu)化和縮放到推理、基準(zhǔn)測(cè)試和增強(qiáng)性能。
LLM進(jìn)展與基準(zhǔn)
1、 BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions
自動(dòng)化軟件工程近期受益于大型語言模型(LLMs)在編程領(lǐng)域的進(jìn)展。盡管現(xiàn)有基準(zhǔn)測(cè)試表明LLMs能夠執(zhí)行各種軟件工程任務(wù),但它們的評(píng)估主要限于短小且自成一體的算法任務(wù)。
解決具有挑戰(zhàn)性和實(shí)用性的編程任務(wù),需要利用各種函數(shù)調(diào)用作為工具,如數(shù)據(jù)分析和網(wǎng)頁開發(fā)。使用多個(gè)工具解決任務(wù)需要通過準(zhǔn)確理解復(fù)雜指令來進(jìn)行組合推理。
滿足這兩種特性對(duì)LLMs來說是一個(gè)巨大的挑戰(zhàn)。為了評(píng)估LLMs在解決具有挑戰(zhàn)性和實(shí)用性的編程任務(wù)方面的表現(xiàn),論文引入了一個(gè)基準(zhǔn)測(cè)試Bench,挑戰(zhàn)LLMs從139個(gè)庫和7個(gè)領(lǐng)域調(diào)用多個(gè)函數(shù)作為工具,用于1,140個(gè)細(xì)粒度的編程任務(wù)。
為了嚴(yán)格評(píng)估LLMs,每個(gè)編程任務(wù)包含5.6個(gè)測(cè)試用例,平均分支覆蓋率為99%。提出了一個(gè)以自然語言為導(dǎo)向的Bench變體,Benchi,它自動(dòng)將原始文檔字符串轉(zhuǎn)換為僅包含關(guān)鍵信息的簡短指令。
我們對(duì)60個(gè)LLMs的廣泛評(píng)估顯示,LLMs尚未能夠按照復(fù)雜指令精確使用函數(shù)調(diào)用,得分最高為60%,遠(yuǎn)低于人類的97%表現(xiàn)。這些結(jié)果強(qiáng)調(diào)了該領(lǐng)域需要進(jìn)一步發(fā)展的必要性。
https://arxiv.org/abs/2406.15877
2、Unlocking Continual Learning Abilities in Language Models
語言模型(LMs)表現(xiàn)出令人印象深刻的性能和泛化能力。但是LMs面臨著持續(xù)學(xué)習(xí)(CL)中長期可持續(xù)性受損的持久挑戰(zhàn)——災(zāi)難性遺忘。
現(xiàn)有方法通常通過將舊任務(wù)數(shù)據(jù)或任務(wù)相關(guān)的歸納偏置加入到LMs中來解決這一問題。但是舊數(shù)據(jù)和準(zhǔn)確的任務(wù)信息往往難以獲得或成本高昂,這限制了當(dāng)前LMs持續(xù)學(xué)習(xí)方法的可用性。
為了解決這一限制,論文引入了MIGU(基于幅度的梯度更新,用于持續(xù)學(xué)習(xí)),這是一種無需復(fù)習(xí)和無需任務(wù)標(biāo)簽的方法,僅在LMs線性層中更新具有大幅度輸出的模型參數(shù)。
MIGU基于以下觀察:當(dāng)LMs處理不同任務(wù)數(shù)據(jù)時(shí),其線性層輸出的L1標(biāo)準(zhǔn)化幅度分布有所不同。通過在梯度更新過程中施加這一簡單約束,可以利用LMs的固有行為,從而釋放其固有的持續(xù)學(xué)習(xí)能力。
實(shí)驗(yàn)表明,MIGU普遍適用于所有三種LM架構(gòu)(T5、RoBERTa和Llama2),在四個(gè)持續(xù)學(xué)習(xí)基準(zhǔn)測(cè)試中,無論是持續(xù)微調(diào)還是持續(xù)預(yù)訓(xùn)練設(shè)置,均展現(xiàn)出最先進(jìn)或相當(dāng)?shù)男阅堋?/p>
例如在一個(gè)包含15個(gè)任務(wù)的持續(xù)學(xué)習(xí)基準(zhǔn)測(cè)試中,MIGU比傳統(tǒng)的高效參數(shù)微調(diào)基線平均提高了15.2%的準(zhǔn)確率。MIGU還可以與所有三種現(xiàn)有的CL類型無縫集成,進(jìn)一步提升性能。
https://arxiv.org/abs/2406.17245
3、Large Language Models Assume People Are More Rational than We Really Are
為了使人工智能系統(tǒng)能夠有效地與人類交流,它們必須了解人類是如何做決策的。但是人類的決策并不總是理性的,因此大型語言模型(LLMs)中關(guān)于人類決策制定的隱含內(nèi)部模型必須考慮到這一點(diǎn)。
以前的經(jīng)驗(yàn)證據(jù)似乎表明這些隱含模型是準(zhǔn)確的——LLMs提供了可信的人類行為代理,表現(xiàn)出我們期望人類在日常互動(dòng)中的行為。
但是通過將LLM的行為和預(yù)測(cè)與大型人類決策數(shù)據(jù)集進(jìn)行比較,論文發(fā)現(xiàn)實(shí)際情況并非如此:在模擬和預(yù)測(cè)人們的選擇時(shí),一系列尖端的LLMs(包括GPT-4o & 4-Turbo,Llama-3–8B & 70B,Claude 3 Opus)假設(shè)人們比實(shí)際上更理性。
這些模型偏離了人類行為,更接近于一個(gè)經(jīng)典的理性選擇模型——期望值理論。人們?cè)诮忉屗诵袨闀r(shí),也傾向于假設(shè)他人是理性的。
當(dāng)論文作者使用另一個(gè)心理學(xué)數(shù)據(jù)集比較LLMs和人類從他人決策中得出的推斷時(shí),發(fā)現(xiàn)這些推斷高度相關(guān)。因此,LLMs的隱含決策模型似乎與人們期望他人將理性行事的預(yù)期相一致,而不是與人們的實(shí)際行為相一致。
https://arxiv.org/abs/2406.17055
4、MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression
稀疏注意力可以有效減輕大型語言模型(LLMs)在長文本上的顯著內(nèi)存和吞吐量需求?,F(xiàn)有方法通常采用統(tǒng)一的稀疏注意力掩碼,在不同的注意力頭和輸入長度上應(yīng)用相同的稀疏模式。
然而這種統(tǒng)一方法未能捕捉LLMs固有的多樣化注意力模式,忽略了它們不同的準(zhǔn)確性-延遲權(quán)衡。為了解決這一挑戰(zhàn),論文提出了混合注意力(MoA),它能自動(dòng)為不同的頭和層定制不同的稀疏注意力配置。
MoA構(gòu)建并導(dǎo)航各種注意力模式及其相對(duì)于輸入序列長度的縮放規(guī)則的搜索空間。它對(duì)模型進(jìn)行分析,評(píng)估潛在配置,并確定最優(yōu)的稀疏注意力壓縮計(jì)劃。
MoA能適應(yīng)不同的輸入大小,顯示出一些注意力頭為適應(yīng)更長的序列而擴(kuò)展其焦點(diǎn),而其他頭則始終集中在固定長度的局部上下文上。
實(shí)驗(yàn)表明,MoA將有效上下文長度增加了3.9倍,同時(shí)保持相同的平均注意力跨度,使得在Vicuna-7B、Vicuna-13B和Llama3–8B模型上的檢索準(zhǔn)確性提高了1.5-7.1倍,超過了統(tǒng)一注意力基線。
此外MoA縮小了稀疏和密集模型之間的能力差距,將最大相對(duì)性能下降從9%-36%減少到兩個(gè)長文本理解基準(zhǔn)中的5%以內(nèi)。
MoA在單GPU上實(shí)現(xiàn)了1.2-1.4倍的GPU內(nèi)存減少,并將7B和13B密集模型的解碼吞吐量提高了5.5-6.7倍,對(duì)性能的影響最小。
https://arxiv.org/abs/2406.14909
5、Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs
論文提出了語義熵探針(SEPs),這是一種在大型語言模型(LLMs)中進(jìn)行不確定性量化的低成本且可靠的方法?;糜X——聽起來合理但事實(shí)上不正確且隨意的模型生成,是LLMs實(shí)際應(yīng)用中的一個(gè)主要挑戰(zhàn)。
Farquhar等人(2024年)的最近研究提出了語義熵(SE),通過估計(jì)一組模型生成中的語義意義空間的不確定性來檢測(cè)幻覺。但是與SE計(jì)算相關(guān)的5到10倍的計(jì)算成本增加阻礙了其實(shí)際應(yīng)用。
為了解決這個(gè)問題,作者提出了SEPs,它可以直接從單一生成的隱藏狀態(tài)近似SE。SEPs易于訓(xùn)練,在測(cè)試時(shí)不需要采樣多個(gè)模型生成,將語義不確定性量化的開銷幾乎降為零。
論文展示了SEPs在幻覺檢測(cè)方面保持高性能,并且在泛化到分布外數(shù)據(jù)方面比直接預(yù)測(cè)模型準(zhǔn)確性的以前的探針方法更好。
在多個(gè)模型和任務(wù)上的結(jié)果表明,模型隱藏狀態(tài)捕獲了SE,我們的消融研究進(jìn)一步洞察了哪些標(biāo)記位置和模型層是這種情況。
https://arxiv.org/abs/2406.15927
6、A Closer Look into Mixture-of-Experts in Large Language Models
專家混合模型(MoE)由于其獨(dú)特的屬性和卓越的性能,尤其是在語言任務(wù)中,越來越受到關(guān)注。通過稀疏激活每個(gè)標(biāo)記的一部分參數(shù),MoE架構(gòu)可以在不犧牲計(jì)算效率的情況下增加模型大小,實(shí)現(xiàn)性能和訓(xùn)練成本之間更好的權(quán)衡。
然而MoE的底層機(jī)制仍需進(jìn)一步探索,其模塊化程度仍有待商榷。論文首次嘗試?yán)斫饣贛oE的大型語言模型的內(nèi)部工作原理。
具體來說,全面研究了三個(gè)最近的基于MoE的模型的參數(shù)和行為特征,并揭示了一些有趣的觀察結(jié)果,包括:
- 神經(jīng)元表現(xiàn)得像細(xì)粒度專家。
- MoE的路由器通常選擇具有較大輸出范數(shù)的專家。
- 專家多樣性隨層的增加而增加,而最后一層是一個(gè)異常值。
基于這些觀察結(jié)果,作者還為廣泛的MoE實(shí)踐者提供了一些建議,例如路由器設(shè)計(jì)和專家分配。希望這項(xiàng)工作能為未來對(duì)MoE框架和其他模塊化架構(gòu)的研究提供啟示。
https://arxiv.org/abs/2406.18219
7、Leave No Document Behind Benchmarking Long-Context LLMs with Extended Multi-Doc QA
長文本建模能力已經(jīng)引起廣泛關(guān)注,出現(xiàn)了具有超長上下文窗口的大型語言模型(LLMs)。與此同時(shí),評(píng)估長文本LLMs的基準(zhǔn)測(cè)試也在逐漸跟進(jìn)。
現(xiàn)有的基準(zhǔn)測(cè)試使用不相關(guān)的噪音文本人為延長測(cè)試用例的長度,與長文本應(yīng)用的現(xiàn)實(shí)場(chǎng)景背道而馳。為了彌合這一差距,作者提出了一個(gè)新的長文本基準(zhǔn)測(cè)試,Loong,通過擴(kuò)展的多文檔問答(QA)與現(xiàn)實(shí)場(chǎng)景保持一致。
與典型的文檔QA不同,在Loong的測(cè)試用例中,每個(gè)文檔都與最終答案相關(guān),忽略任何一個(gè)文檔都會(huì)導(dǎo)致答案失敗。此外,Loong引入了四種類型的任務(wù),包括不同范圍的上下文長度:聚光定位、比較、聚類和推理鏈,以便更真實(shí)、全面地評(píng)估長文本理解能力。
廣泛的實(shí)驗(yàn)表明,現(xiàn)有的長文本語言模型仍然顯示出相當(dāng)大的增強(qiáng)潛力。檢索增強(qiáng)生成(RAG)表現(xiàn)不佳,證明Loong能可靠地評(píng)估模型的長文本建模能力。
https://arxiv.org/abs/2406.17419
8、LongIns: A Challenging Long-context Instruction-based Exam for LLMs
近年來,大型語言模型(LLMs)的長文本能力成為熱門話題。為了評(píng)估LLMs在不同場(chǎng)景下的表現(xiàn),各種評(píng)估基準(zhǔn)測(cè)試已經(jīng)出現(xiàn)。
由于這些基準(zhǔn)測(cè)試大多專注于識(shí)別關(guān)鍵信息以回答問題,主要需要LLMs的檢索能力,這些基準(zhǔn)測(cè)試只能部分代表LLMs從大量信息中的推理性能。
盡管LLMs經(jīng)常聲稱具有32k、128k、200k甚至更長的上下文窗口,但這些基準(zhǔn)測(cè)試未能揭示這些LLMs實(shí)際支持的長度。為了解決這些問題,作者提出了LongIns基準(zhǔn)數(shù)據(jù)集,這是一個(gè)基于現(xiàn)有指令數(shù)據(jù)集建立的挑戰(zhàn)性長文本指令型考試,用于評(píng)估LLMs。
具體來說,在LongIns中,引入了三種評(píng)估設(shè)置:全局指令與單任務(wù)(GIST)、局部指令與單任務(wù)(LIST)和局部指令與多任務(wù)(LIMT)?;贚ongIns,我們對(duì)現(xiàn)有的LLMs進(jìn)行了全面評(píng)估,并得出以下重要發(fā)現(xiàn):
- 在LongIns中,表現(xiàn)最佳的GPT-4具有128k的上下文長度,在16k的評(píng)估上下文窗口中表現(xiàn)不佳。
- 對(duì)于許多現(xiàn)有LLMs的多跳推理能力,在短上下文窗口(小于4k)下仍需要顯著努力。
https://arxiv.org/abs/2406.17588
RAG
1、 LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
在傳統(tǒng)的RAG(檢索增強(qiáng)生成)框架中,基本的檢索單元通常較短。像DPR這樣的常見檢索器通常使用100字的維基百科段落。這種設(shè)計(jì)迫使檢索器在大型語料庫中搜索小型單元。
相比之下,讀取器只需要從檢索到的小型單元中提取答案。這種不平衡的重檢索器和輕讀取器設(shè)計(jì)可能導(dǎo)致性能不佳。為了緩解這種不平衡,作者提出了一個(gè)新框架LongRAG,包括一個(gè)長檢索器和一個(gè)長讀取器。
LongRAG將整個(gè)維基百科處理成4K令牌單元,這比以前長30倍。通過增加單元大小,顯著減少了總單元數(shù),從2200萬減少到70萬。這顯著降低了檢索器的負(fù)擔(dān),從而導(dǎo)致了顯著的檢索得分:在NQ上的答案召回率@1=71%(之前為52%)和在HotpotQA(全維基)上的答案召回率@2=72%(之前為47%)。
然后將前k個(gè)檢索到的單元(大約30K令牌)提供給現(xiàn)有的長上下文LLM進(jìn)行零樣本答案提取。無需任何訓(xùn)練,LongRAG在NQ上實(shí)現(xiàn)了62.7%的精確匹配(EM),這是已知的最佳結(jié)果。
LongRAG在HotpotQA(全維基)上也達(dá)到了64.3%,與當(dāng)前最好的模型持平。論文的研究為將RAG與長上下文LLMs結(jié)合提供了未來的發(fā)展路線圖。
https://arxiv.org/abs/2406.15319
2、Towards Retrieval Augmented Generation over Large Video Libraries
在這篇論文中引入了視頻庫問答(VLQA)任務(wù),通過一個(gè)可互操作的架構(gòu),將檢索增強(qiáng)生成(RAG)應(yīng)用于視頻庫。
作者提出了一個(gè)系統(tǒng),該系統(tǒng)使用大型語言模型(LLMs)生成搜索查詢,檢索通過語音和視覺元數(shù)據(jù)索引的相關(guān)視頻時(shí)刻。
一個(gè)答案生成模塊將用戶查詢與此元數(shù)據(jù)整合,以生成帶有具體視頻時(shí)間戳的響應(yīng)。這種方法在多媒體內(nèi)容檢索和AI輔助視頻內(nèi)容創(chuàng)作中顯示出潛力。
https://arxiv.org/abs/2406.14938
3、A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
檢索增強(qiáng)生成(RAG)代表了人工智能的重大進(jìn)展,它結(jié)合了檢索階段和生成階段,后者通常由大型語言模型(LLMs)驅(qū)動(dòng)。
當(dāng)前RAG的常見做法包括使用“受指導(dǎo)”的LLMs,這些模型經(jīng)過監(jiān)督訓(xùn)練進(jìn)行微調(diào),以增強(qiáng)其遵循指令的能力,并使用最先進(jìn)的技術(shù)與人類偏好對(duì)齊。
與流行觀念相反,論文的研究表明,在作者的實(shí)驗(yàn)設(shè)置下,基礎(chǔ)模型在RAG任務(wù)中的表現(xiàn)平均比受指導(dǎo)的對(duì)應(yīng)模型高出20%。這一發(fā)現(xiàn)挑戰(zhàn)了有關(guān)受指導(dǎo)LLMs在RAG應(yīng)用中優(yōu)越性的普遍假設(shè)。
進(jìn)一步的調(diào)查揭示了更為細(xì)致的情況,質(zhì)疑RAG的基本方面,并建議就該話題進(jìn)行更廣泛的討論;正如弗羅姆(Fromm)所說,“很少有一瞥統(tǒng)計(jì)數(shù)據(jù)就足以理解數(shù)字的含義”。
https://arxiv.org/abs/2406.14972
4、Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation
檢索增強(qiáng)生成(RAG)已證明在減輕大型語言模型(LLMs)的幻覺問題方面的有效性。但是使檢索器與LLMs多樣的知識(shí)偏好相匹配的困難不可避免地給開發(fā)可靠的RAG系統(tǒng)帶來了挑戰(zhàn)。
為了解決這個(gè)問題,作者提出了DPA-RAG,使RAG系統(tǒng)內(nèi)部多樣的知識(shí)偏好對(duì)齊的通用框架。首先引入了一個(gè)偏好知識(shí)構(gòu)建管道,并整合了五種新穎的查詢?cè)鰪?qiáng)策略,以緩解偏好數(shù)據(jù)稀缺的問題。
基于偏好數(shù)據(jù),DPA-RAG完成了外部和內(nèi)部偏好的對(duì)齊:
- 它將成對(duì)的、點(diǎn)對(duì)點(diǎn)的和對(duì)比性的偏好對(duì)齊能力集成到重排器中,實(shí)現(xiàn)了RAG組件間的外部偏好對(duì)齊。
- 它進(jìn)一步在傳統(tǒng)的監(jiān)督式微調(diào)(SFT)之前引入了一個(gè)預(yù)對(duì)齊階段,使LLMs能夠隱式地捕捉與其推理偏好一致的知識(shí),實(shí)現(xiàn)了LLMs的內(nèi)部對(duì)齊。
在四個(gè)知識(shí)密集型問答數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,DPA-RAG超越了所有基線,并且無縫整合了黑盒和開源的LLM閱讀器。進(jìn)一步的定性分析和討論也為實(shí)現(xiàn)可靠的RAG系統(tǒng)提供了經(jīng)驗(yàn)性指導(dǎo)。
https://arxiv.org/abs/2406.18676
LLM微調(diào)
1、Dataset Size Recovery from LoRA Weights
作者引入了一項(xiàng)新任務(wù):數(shù)據(jù)集大小恢復(fù),旨在直接從模型的權(quán)重確定用于訓(xùn)練模型的樣本數(shù)量。提出了一種名為DSiRe的方法,用于恢復(fù)在常見的LoRA微調(diào)情況下用于微調(diào)模型的圖像數(shù)量。
作者發(fā)現(xiàn),LoRA矩陣的范數(shù)和譜與微調(diào)數(shù)據(jù)集的大小密切相關(guān);利用這一發(fā)現(xiàn)提出了一個(gè)簡單而有效的預(yù)測(cè)算法。
為了評(píng)估LoRA權(quán)重的數(shù)據(jù)集大小恢復(fù),作者開發(fā)并發(fā)布了一個(gè)新的基準(zhǔn)測(cè)試LoRA-WiSE,包含來自2000多個(gè)多樣化LoRA微調(diào)模型的超過25000個(gè)權(quán)重快照。最好的分類器能夠預(yù)測(cè)微調(diào)圖像的數(shù)量,平均絕對(duì)誤差為0.36圖像,從而證明了這種方案的可行性。
https://arxiv.org/abs/2406.19395
2、Can Few Shots Work in a Long Context? Recycling the Context to Generate Demonstrations
盡管大型語言模型(LLMs)近年來取得了顯著進(jìn)展,但在處理長上下文任務(wù)時(shí),它們的性能仍然不盡如人意。在此場(chǎng)景中,使用少量示例進(jìn)行上下文內(nèi)學(xué)習(xí)(ICL)可能是一種提高LLM性能的有吸引力的解決方案。
但是簡單地添加帶有長上下文的ICL示例會(huì)引入挑戰(zhàn),包括為每個(gè)少量示例增加大量的令牌開銷,以及示范與目標(biāo)查詢之間的上下文不匹配。在這項(xiàng)工作中,論文提出通過回收上下文自動(dòng)為長上下文問答(QA)任務(wù)生成少量示例。
具體來說,給定一個(gè)長輸入上下文(1-3k令牌)和一個(gè)查詢,從給定上下文中生成額外的查詢-輸出對(duì)作為少量示例,同時(shí)只引入一次上下文。這確保了演示利用的是與目標(biāo)查詢相同的上下文,同時(shí)只向提示中添加少量令牌。
作者進(jìn)一步通過指示模型在回答之前明確識(shí)別相關(guān)段落來增強(qiáng)每個(gè)演示,這在提高性能的同時(shí),為答案來源提供了細(xì)粒度歸因。
在多個(gè)LLMs上應(yīng)用論文的方法,并在多個(gè)帶有長上下文的QA數(shù)據(jù)集上獲得了顯著的改進(jìn)(平均跨模型提高23%),特別是當(dāng)答案位于上下文中部時(shí)。令人驚訝的是,盡管只引入了單跳ICL示例,LLMs也成功地使用論文的方法推廣到多跳長上下文QA。
https://arxiv.org/abs/2406.13632
LLM推理
1、Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
大型語言模型(LLMs)在文本數(shù)學(xué)問題解決方面表現(xiàn)出令人印象深刻的推理能力。
但是現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每張圖像包含的問題-答案對(duì)數(shù)量有限,未能充分利用視覺信息來增強(qiáng)多模態(tài)LLMs(MLLMs)的多模態(tài)數(shù)學(xué)推理能力。
為了彌合這一差距,作者通過從24個(gè)現(xiàn)有數(shù)據(jù)集中收集40,000張高質(zhì)量圖像及其問題-答案對(duì),并合成320,000個(gè)新對(duì),創(chuàng)建了MathV360K數(shù)據(jù)集,這一數(shù)據(jù)集增強(qiáng)了多模態(tài)數(shù)學(xué)問題的廣度和深度。
論文還引入了Math-LLaVA,一種基于LLaVA-1.5并用MathV360K微調(diào)的模型。這種新方法顯著提高了LLaVA-1.5的多模態(tài)數(shù)學(xué)推理能力,在MathVista的最小分割上實(shí)現(xiàn)了19點(diǎn)的增長,并與GPT-4V的表現(xiàn)相當(dāng)。
并且Math-LLaVA展示了更強(qiáng)的泛化能力,在MMMU基準(zhǔn)測(cè)試上顯示出顯著改進(jìn)。這個(gè)研究強(qiáng)調(diào)了數(shù)據(jù)集多樣性和合成在推進(jìn)MLLMs數(shù)學(xué)推理能力方面的重要性。
https://arxiv.org/abs/2406.17294
LLM安全與對(duì)齊
1、Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges
論文提供了一種解決人類評(píng)估可擴(kuò)展性挑戰(zhàn)的有希望的解決方案,LLM作為評(píng)判的模式正在迅速成為評(píng)估大型語言模型(LLMs)的一種方法。
但是關(guān)于這一模式的優(yōu)勢(shì)和劣勢(shì),以及它可能持有的潛在偏見,仍有許多未解決的問題。作者展示了對(duì)各種作為評(píng)判的LLMs的性能的全面研究。
利用TriviaQA作為評(píng)估LLMs客觀知識(shí)推理的基準(zhǔn),并與作者發(fā)現(xiàn)具有高度一致性的人類注釋一起評(píng)估它們。
論文的研究包括9個(gè)評(píng)判模型和9個(gè)考生模型——基礎(chǔ)型和指令調(diào)優(yōu)型。評(píng)估評(píng)判模型在不同模型大小、家族和評(píng)判提示之間的一致性。
在其他結(jié)果中,了坤問的研究重新發(fā)現(xiàn)了使用科恩的卡帕系數(shù)作為一致性度量而非簡單的百分比一致性的重要性,顯示出具有高百分比一致性的評(píng)判仍然可以分配極其不同的分?jǐn)?shù)。
作者發(fā)現(xiàn)Llama-3 70B和GPT-4 Turbo在與人類的一致性上表現(xiàn)出色
https://arxiv.org/abs/2406.12624
2、Cross-Modality Safety Alignment
隨著人工通用智能(AGI)越來越多地融入人類生活的各個(gè)方面,確保這些系統(tǒng)的安全性和道德一致性至關(guān)重要。
以往的研究主要關(guān)注單一模態(tài)的威脅,鑒于跨模態(tài)交互的綜合性和復(fù)雜性,這可能不足以應(yīng)對(duì)挑戰(zhàn)。論文引入了一個(gè)名為“安全輸入但不安全輸出”(SIUO)的新型安全一致性挑戰(zhàn),以評(píng)估跨模態(tài)安全一致性。
它考慮了單一模態(tài)獨(dú)立安全但結(jié)合時(shí)可能導(dǎo)致不安全或不道德輸出的情況。為了實(shí)證研究這個(gè)問題,作者開發(fā)了SIUO,一個(gè)包括9個(gè)關(guān)鍵安全領(lǐng)域(如自我傷害、非法活動(dòng)和隱私侵犯)的跨模態(tài)基準(zhǔn)測(cè)試。
研究發(fā)現(xiàn),在封閉和開源的大型變量語言模型(LVLMs),如GPT-4V和LLaVA中發(fā)現(xiàn)了重大的安全漏洞,這突顯了當(dāng)前模型在可靠解釋和響應(yīng)復(fù)雜的現(xiàn)實(shí)世界場(chǎng)景中的不足。
https://arxiv.org/abs/2406.15279
3、Ruby Teaming: Improving Quality Diversity Search with Memory for Automated Red Teaming
作者的Ruby Teaming方法是在Rainbow Teaming的基礎(chǔ)上改進(jìn)的,它新增了一個(gè)內(nèi)存緩存作為第三維度。這一內(nèi)存維度為變異器提供線索,以生成質(zhì)量更高的提示,無論是在攻擊成功率(ASR)還是質(zhì)量多樣性方面。
由Ruby Teaming生成的提示檔案的ASR為74%,比基線高出20%。在質(zhì)量多樣性方面,根據(jù)香農(nóng)均勻指數(shù)(SEI)和辛普森多樣性指數(shù)(SDI),Ruby Teaming分別比Rainbow Teaming高出6%和3%。這表明Ruby Teaming在提升生成提示的效率和多樣性方面具有顯著優(yōu)勢(shì)。
https://arxiv.org/abs/2406.11654
4、Aligning Teacher with Student Preferences for Tailored Training Data Generation
大型語言模型(LLMs)在多種任務(wù)中作為協(xié)作工具顯示出顯著的潛力。在處理隱私敏感數(shù)據(jù)或?qū)ρ舆t敏感的任務(wù)時(shí),LLMs在邊緣設(shè)備上的本地部署是必要的。
這種設(shè)備的計(jì)算限制使得直接部署強(qiáng)大的大規(guī)模LLMs變得不切實(shí)際,這就需要從大規(guī)模模型到輕量級(jí)模型的知識(shí)蒸餾。
已經(jīng)有很多工作致力于從LLMs中引出多樣化和高質(zhì)量的訓(xùn)練示例,但對(duì)于基于學(xué)生偏好對(duì)教師指導(dǎo)內(nèi)容進(jìn)行對(duì)齊的關(guān)注卻很少,這類似于教育學(xué)中的“響應(yīng)性教學(xué)”。
所以作者提出了一種名為ARTE(Aligning TeacheR with StudenT PreferencEs)的框架,該框架將教師模型與學(xué)生偏好對(duì)齊,以生成針對(duì)知識(shí)蒸餾的定制化訓(xùn)練示例。
從教師模型中引出草稿問題和論證,然后使用學(xué)生在上下文學(xué)習(xí)中的表現(xiàn)作為代理,收集學(xué)生對(duì)這些問題和論證的偏好,并最終將教師模型與學(xué)生偏好對(duì)齊。
最后重復(fù)第一步,使用對(duì)齊后的教師模型為學(xué)生模型在目標(biāo)任務(wù)上引出定制化的訓(xùn)練示例。在學(xué)術(shù)基準(zhǔn)上進(jìn)行的廣泛實(shí)驗(yàn)表明,ARTE優(yōu)于現(xiàn)有從強(qiáng)大的LLMs蒸餾出的指導(dǎo)調(diào)整數(shù)據(jù)集。
作者還深入研究了ARTE的泛化能力,包括經(jīng)過微調(diào)的學(xué)生模型在推理能力上的泛化以及對(duì)齊的教師模型在跨任務(wù)和學(xué)生上生成定制訓(xùn)練數(shù)據(jù)的泛化。
這篇論文貢獻(xiàn)在于提出了一個(gè)生成定制訓(xùn)練示例的新框架,證明了它在實(shí)驗(yàn)中的有效性,并調(diào)查了ARTE中學(xué)生模型和對(duì)齊的教師模型的泛化能力。
https://arxiv.org/abs/2406.19227
5、WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models
論文介紹了WildTeaming,這是一個(gè)自動(dòng)化的LLM安全紅隊(duì)框架,它挖掘用戶與聊天機(jī)器人的互動(dòng),發(fā)現(xiàn)5700個(gè)獨(dú)特的新型越獄策略群集,然后組合多種策略系統(tǒng)地探索新型越獄。
與之前通過招募人工工作人員、基于梯度的優(yōu)化或與LLMs迭代修訂進(jìn)行紅隊(duì)操作的工作相比,論文的工作調(diào)查了那些沒有特別指示去破壞系統(tǒng)的聊天機(jī)器人用戶的越獄行為。
WildTeaming揭示了前沿LLMs以前未識(shí)別的漏洞,與最先進(jìn)的越獄方法相比,導(dǎo)致了多達(dá)4.6倍更多樣化和成功的對(duì)抗性攻擊。雖然有許多數(shù)據(jù)集用于越獄評(píng)估,但很少有開源數(shù)據(jù)集用于越獄訓(xùn)練,因?yàn)榧词鼓P蜋?quán)重是開放的,安全訓(xùn)練數(shù)據(jù)也是封閉的。
通過WildTeaming,作者創(chuàng)建了WildJailbreak,一個(gè)大規(guī)模的開源合成安全數(shù)據(jù)集,包含262K個(gè)普通(直接請(qǐng)求)和對(duì)抗性(復(fù)雜越獄)的提示-響應(yīng)對(duì)。
為了緩解夸大的安全行為,WildJailbreak提供了兩種對(duì)比類型的查詢:
- 有害查詢(普通和對(duì)抗性)
- 形式上類似有害查詢但不含有害內(nèi)容的良性查詢。
由于WildJailbreak大幅提升了現(xiàn)有安全資源的質(zhì)量和規(guī)模,它獨(dú)特地使我們能夠研究數(shù)據(jù)的規(guī)模效應(yīng)以及在安全訓(xùn)練期間數(shù)據(jù)屬性與模型能力的相互作用。
通過廣泛的實(shí)驗(yàn)作者確定了使模型能夠理想平衡安全行為的訓(xùn)練屬性:適當(dāng)?shù)谋Wo(hù)而不過度拒絕,有效處理普通和對(duì)抗性查詢,以及盡可能少地降低總體能力。WildJailbeak的所有組成部分都有助于實(shí)現(xiàn)模型的平衡安全行為。
https://arxiv.org/abs/2406.18510
https://avoid.overfit.cn/post/42caafd81dfb40f387c59747c6a96417