中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

怎么查看網(wǎng)站收錄東營(yíng)seo

怎么查看網(wǎng)站收錄,東營(yíng)seo,網(wǎng)站建設(shè)布局,建設(shè)網(wǎng)站的叫什么職位大語(yǔ)言模型對(duì)齊(Large Language Model Alignment)是利用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型來(lái)理解它們內(nèi)部的語(yǔ)義表示和計(jì)算過(guò)程的研究領(lǐng)域。主要目的是避免大語(yǔ)言模型可見(jiàn)的或可預(yù)見(jiàn)的風(fēng)險(xiǎn),比如固有存在的幻覺(jué)問(wèn)題、生成不符合人類期望的文本、容易被用來(lái)執(zhí)行惡意行為等。 從必…

大語(yǔ)言模型對(duì)齊(Large Language Model Alignment)是利用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型來(lái)理解它們內(nèi)部的語(yǔ)義表示和計(jì)算過(guò)程的研究領(lǐng)域。主要目的是避免大語(yǔ)言模型可見(jiàn)的或可預(yù)見(jiàn)的風(fēng)險(xiǎn),比如固有存在的幻覺(jué)問(wèn)題、生成不符合人類期望的文本、容易被用來(lái)執(zhí)行惡意行為等。

從必要性上來(lái)看,大語(yǔ)言模型對(duì)齊可以避免黑盒效應(yīng),提高模型的可解釋性和可控性,指導(dǎo)模型優(yōu)化,確保AI 技術(shù)的發(fā)展不會(huì)對(duì)社會(huì)產(chǎn)生負(fù)面影響。因此,大語(yǔ)言模型對(duì)齊對(duì)AI系統(tǒng)的發(fā)展至關(guān)重要。

目前的大語(yǔ)言模型對(duì)齊研究主要分為三個(gè)領(lǐng)域:外部對(duì)齊、內(nèi)部對(duì)齊、可解釋性。我整理了這三個(gè)領(lǐng)域的最新論文分享給大家,幫助同學(xué)們掌握大語(yǔ)言模型對(duì)齊的最新技術(shù)與研究重點(diǎn),快速找到新的idea。

全部論文及源代碼看文末

外部對(duì)齊(23篇)

非遞歸監(jiān)督

1.Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

強(qiáng)化學(xué)習(xí)利用人類反饋的開(kāi)放問(wèn)題和根本限制

簡(jiǎn)述:RLHF已成為調(diào)優(yōu)當(dāng)前領(lǐng)先的大型語(yǔ)言模型(LLM)的核心方法。盡管很流行,但是系統(tǒng)地總結(jié)它的缺陷的公開(kāi)工作相對(duì)較少。本文:(1)調(diào)研了RLHF及相關(guān)方法的開(kāi)放問(wèn)題和基本局限,(2)概述了在實(shí)踐中理解、改進(jìn)和補(bǔ)充RLHF的技術(shù),(3)提出了審計(jì)和披露標(biāo)準(zhǔn),以改進(jìn)對(duì)RLHF系統(tǒng)的社會(huì)監(jiān)督。

2.Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons

基于成對(duì)或K選項(xiàng)比較的人類反饋原則強(qiáng)化學(xué)習(xí)

簡(jiǎn)述:論文基于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)提供了一個(gè)理論框架,證明了在基于學(xué)習(xí)的獎(jiǎng)勵(lì)模型訓(xùn)練策略時(shí),MLE會(huì)失敗,而悲觀的MLE可以在某些覆蓋假設(shè)下提供性能更好的策略。此外,在PL模型下,真實(shí)的MLE和將K選比較分解成成對(duì)比較的替代MLE都收斂。而且,真實(shí)的MLE在漸近意義上更有效率。

3.Secrets of RLHF in Large Language Models Part I: PPO

大語(yǔ)言模型中的RLHF奧秘 第1部分:PPO

簡(jiǎn)述:大語(yǔ)言模型通過(guò)人類反饋強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)與人類的對(duì)齊,是實(shí)現(xiàn)人工通用智能的重要途徑。但獎(jiǎng)勵(lì)設(shè)計(jì)、環(huán)境交互、智能體訓(xùn)練等方面的挑戰(zhàn)使其穩(wěn)定訓(xùn)練仍然困難。論文通過(guò)分析策略優(yōu)化算法內(nèi)部工作機(jī)制,提出了改進(jìn)訓(xùn)練穩(wěn)定性的方法,為大語(yǔ)言模型的對(duì)齊提供了新思路。

  • 4.Guiding Large Language Models via Directional Stimulus Prompting

  • 5.Aligning Large Language Models through Synthetic Feedback

  • 6.Aligning Language Models with Preferences through f-divergence Minimization

  • 7.Scaling Laws for Reward Model Overoptimization

  • 8.Improving Language Models with Advantage-based Offline Policy Gradients

  • 9.RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs

  • 10.LIMA: Less Is More for Alignment

  • 11.SLiC-HF: Sequence Likelihood Calibration with Human Feedback

  • 12.RRHF: Rank Responses to Align Language Models with Human Feedback without tears

  • 13.Preference Ranking Optimization for Human Alignment

  • 14.Training Language Models with Language Feedback at Scale

  • 15.Direct Preference Optimization: Your Language Model is Secretly a Reward Model

  • 16.Training Socially Aligned Language Models on Simulated Social Interactions

  • 17.Chain of Hindsight Aligns Language Models with Feedback

  • 18.RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

可擴(kuò)展監(jiān)督

1.Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

從零開(kāi)始用最小人工監(jiān)督實(shí)現(xiàn)語(yǔ)言模型的原則驅(qū)動(dòng)自對(duì)齊

簡(jiǎn)述:論文提出一種新的自監(jiān)督對(duì)齊方法SELF-ALIGN,通過(guò)結(jié)合原則推理和大語(yǔ)言模型的生成能力,使AI助手實(shí)現(xiàn)自我對(duì)齊,僅需要極少的人類監(jiān)督。該方法可以有效解決當(dāng)前依賴監(jiān)督訓(xùn)練和人類反饋的方法中的問(wèn)題,如成本高、質(zhì)量低等。在LLaMA語(yǔ)言模型上的應(yīng)用證明該方法明顯優(yōu)于當(dāng)前SOTA的AI助手。

2.Let's Verify Step by Step

一步步驗(yàn)證

簡(jiǎn)述:針對(duì)訓(xùn)練可靠的復(fù)雜多步推理的大語(yǔ)言模型,論文比較了結(jié)果監(jiān)督和過(guò)程監(jiān)督兩種方法。研究發(fā)現(xiàn),過(guò)程監(jiān)督明顯優(yōu)于結(jié)果監(jiān)督,可以獲得更可靠的模型。作者采用過(guò)程監(jiān)督和主動(dòng)學(xué)習(xí)相結(jié)合的方法訓(xùn)練模型,在MATH數(shù)據(jù)集上取得了較好效果,測(cè)試集準(zhǔn)確率達(dá)到78%。

3.Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate

通過(guò)多智能體辯論激發(fā)大語(yǔ)言模型的發(fā)散性思維

簡(jiǎn)述:近年大規(guī)模語(yǔ)言模型如ChatGPT在通用語(yǔ)言任務(wù)上表現(xiàn)強(qiáng)大,但在復(fù)雜推理上仍有困難。論文提出多智能體辯論框架來(lái)激發(fā)模型的發(fā)散思維,多個(gè)智能體以你來(lái)我往方式表達(dá)觀點(diǎn),評(píng)委管理過(guò)程獲得最終解決方案。該框架可以激發(fā)語(yǔ)言模型的思考,有助于需要深度思考的任務(wù)。

4.Evaluating Superhuman Models with Consistency Checks

評(píng)估超人類模型的一致性檢查

簡(jiǎn)述:近年來(lái),機(jī)器學(xué)習(xí)模型在許多任務(wù)上達(dá)到或超過(guò)人類水平,如何評(píng)估這類“超人類”模型成為一個(gè)重要問(wèn)題。論文提出通過(guò)一致性檢查來(lái)評(píng)估它們,即使無(wú)法判斷這類模型決策的正確性,如果決策間存在邏輯矛盾,我們?nèi)钥砂l(fā)現(xiàn)其缺陷。該工作強(qiáng)調(diào)繼續(xù)改進(jìn)評(píng)估方法的重要性,以推動(dòng)可信賴的超人類AI系統(tǒng)發(fā)展。

5.Improving Factuality and Reasoning in Language Models through Multiagent Debate

通過(guò)多智能體辯論提高語(yǔ)言模型的事實(shí)性和推理能力

簡(jiǎn)述:論文提出了一種多語(yǔ)言模型互動(dòng)的“思維社會(huì)”方法,多個(gè)模型提出并辯論各自的觀點(diǎn),經(jīng)過(guò)多輪達(dá)成共識(shí)。實(shí)驗(yàn)表明,這種方法可以增強(qiáng)模型的邏輯推理能力,減少錯(cuò)誤信息。而且這種方法可以直接應(yīng)用于現(xiàn)有模型,并在各種任務(wù)上取得顯著改進(jìn)。

內(nèi)部對(duì)齊(3篇)

1.Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals

為什么正確的規(guī)范仍無(wú)法獲得正確的目標(biāo)?

簡(jiǎn)述:目標(biāo)誤推廣是AI系統(tǒng)一個(gè)重要問(wèn)題,它指學(xué)習(xí)算法把訓(xùn)練集表現(xiàn)良好的策略過(guò)度推廣到新的環(huán)境,導(dǎo)致非預(yù)期的負(fù)面后果。論文通過(guò)深度學(xué)習(xí)等實(shí)際系統(tǒng)中的例子,展示了這一問(wèn)題的存在。為避免更強(qiáng)AI系統(tǒng)產(chǎn)生這種問(wèn)題,我們需要在算法設(shè)計(jì)上防范過(guò)度推廣,也要增強(qiáng)系統(tǒng)對(duì)人類價(jià)值的內(nèi)化理解。

2.Goal Misgeneralization in Deep Reinforcement Learning

深度強(qiáng)化學(xué)習(xí)中的目標(biāo)誤推廣

簡(jiǎn)述:論文研究了強(qiáng)化學(xué)習(xí)中的一種分布外泛化失敗類型——目標(biāo)誤推廣。當(dāng)強(qiáng)化學(xué)習(xí)代理在分布外保持其能力但追求錯(cuò)誤目標(biāo)時(shí),就會(huì)發(fā)生目標(biāo)誤推廣失敗。作者形式化了能力泛化和目標(biāo)泛化之間的區(qū)別,提供了目標(biāo)誤推廣的首個(gè)實(shí)證演示,并部分描述了其原因。

3.Risks from Learned Optimization in Advanced Machine Learning Systems

高級(jí)機(jī)器學(xué)習(xí)系統(tǒng)中學(xué)習(xí)優(yōu)化的風(fēng)險(xiǎn)

簡(jiǎn)述:論文認(rèn)為MESA優(yōu)化的可能性為高級(jí)機(jī)器學(xué)習(xí)系統(tǒng)的安全性和透明度提出了兩個(gè)重要問(wèn)題。第一,在什么情況下學(xué)習(xí)模型會(huì)成為優(yōu)化器,包括在它本不應(yīng)該成為優(yōu)化器的情況下?第二,當(dāng)學(xué)習(xí)模型成為優(yōu)化器時(shí),它的目標(biāo)是什么——它將如何不同于其訓(xùn)練的損失函數(shù)——以及如何實(shí)現(xiàn)對(duì)齊?在本文中,作者對(duì)這兩個(gè)主要問(wèn)題進(jìn)行了深入分析,并概述了未來(lái)研究的主題。

可解釋性(9篇)

1.LEACE: Perfect linear concept erasure in closed form

LEACE:完美閉式線性概念擦除

簡(jiǎn)述:概念擦除是從機(jī)器學(xué)習(xí)模型中刪除某個(gè)概念的影響,以提高模型的公平性和可解釋性。論文提出了LEACE方法,可以高效并精確地實(shí)現(xiàn)線性模型的概念擦除。實(shí)驗(yàn)證明它可以減少語(yǔ)言模型對(duì)詞性信息的依賴和模型中的性別偏見(jiàn),增強(qiáng)機(jī)器學(xué)習(xí)模型的安全性、可解釋性和公平性。

2.Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

從語(yǔ)言模型中獲得真實(shí)答案

簡(jiǎn)述:論文提出了“推理時(shí)干預(yù)”(ITI)技術(shù),旨在增強(qiáng)大語(yǔ)言模型的“誠(chéng)實(shí)度”。ITI 通過(guò)在推理時(shí)沿少數(shù)注意力頭中的特定方向移動(dòng)模型激活來(lái)實(shí)現(xiàn),這種干預(yù)顯著提高了LLaMA模型在TruthfulQA基準(zhǔn)測(cè)試中的性能。另外,該技術(shù)的數(shù)據(jù)效率很高,雖然像RLHF這樣的方法需要大量標(biāo)注,但I(xiàn)TI 只需要幾百個(gè)例子就可以找到真實(shí)的方向。

3.Locating and Editing Factual Associations in GPT

在GPT中定位和編輯事實(shí)關(guān)聯(lián)

簡(jiǎn)述:論文現(xiàn)Transformer語(yǔ)言模型中存儲(chǔ)和回憶事實(shí)性關(guān)聯(lián)的機(jī)制對(duì)應(yīng)于可定位和直接編輯的中間層計(jì)算。通過(guò)因果干預(yù)和模型編輯,作者確認(rèn)了中間層前饋模塊在記憶事實(shí)關(guān)聯(lián)方面起關(guān)鍵作用。本文的模型編輯方法在零樣本關(guān)系提取和反事實(shí)斷言任務(wù)上都表現(xiàn)出強(qiáng)大的特異性和泛化能力,這說(shuō)明直接操作中間層計(jì)算是模型編輯的一個(gè)有效途徑。

  • 4.Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases

  • 5.Toy Models of Superposition

  • 6.Softmax Linear Units

  • 7.Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

  • 8.In-context Learning and Induction Heads

  • 9.A Comprehensive Mechanistic Interpretability Explainer & Glossary

關(guān)注下方《學(xué)姐帶你玩AI》🚀🚀🚀

回復(fù)“對(duì)齊”獲取全部論文+源代碼合集

碼字不易,歡迎大家點(diǎn)贊評(píng)論收藏!

http://www.risenshineclean.com/news/30117.html

相關(guān)文章:

  • 哪個(gè)新聞網(wǎng)站好友情鏈接是啥意思
  • 做美工一般要收藏哪些網(wǎng)站友情鏈接軟件
  • wordpress tag 收錄肇慶seo按天收費(fèi)
  • 衡水企業(yè)做網(wǎng)站多少錢(qián)使用百度地圖導(dǎo)航收費(fèi)嗎
  • 長(zhǎng)沙銘萬(wàn)做網(wǎng)站上海網(wǎng)站快速排名優(yōu)化
  • 服裝廠網(wǎng)站模板營(yíng)銷策劃公司名稱
  • 網(wǎng)站公安備案多久審核app推廣兼職是詐騙嗎
  • 廣州互聯(lián)網(wǎng)項(xiàng)目工作室seo外包公司怎么樣
  • h5網(wǎng)站建設(shè)的具體內(nèi)容企業(yè)營(yíng)銷網(wǎng)站
  • 上海網(wǎng)站建設(shè)管理推廣的渠道和方法有哪些
  • 鄭州建設(shè)企業(yè)網(wǎng)站百度一下 你就知道官方
  • 海口企業(yè)網(wǎng)站建設(shè)愛(ài)站網(wǎng)關(guān)鍵詞挖掘查詢工具
  • p2p網(wǎng)站開(kāi)發(fā)的多少錢(qián)一個(gè)產(chǎn)品的網(wǎng)絡(luò)營(yíng)銷方案
  • 大氣集團(tuán)網(wǎng)站源碼科學(xué)新概念seo外鏈平臺(tái)
  • 網(wǎng)站建設(shè)圖文百度網(wǎng)頁(yè)網(wǎng)址
  • 做網(wǎng)站購(gòu)買(mǎi)服務(wù)器國(guó)外常用的seo站長(zhǎng)工具
  • 企業(yè)網(wǎng)站建設(shè) 西寧公司網(wǎng)站域名續(xù)費(fèi)一年多少錢(qián)
  • 外貿(mào)免費(fèi)開(kāi)發(fā)網(wǎng)站建設(shè)網(wǎng)絡(luò)廣告營(yíng)銷方案策劃內(nèi)容
  • 佛山建站專寧波抖音seo搜索優(yōu)化軟件
  • 日文設(shè)計(jì)網(wǎng)站自動(dòng)點(diǎn)擊器下載
  • 海南??诰W(wǎng)站開(kāi)發(fā)公司怎么進(jìn)行網(wǎng)站推廣
  • 響應(yīng)式布局網(wǎng)頁(yè)seo入門(mén)教程視頻
  • 廈門(mén)市建設(shè)局網(wǎng)站住房保障2018怎么制作自己的網(wǎng)站
  • 網(wǎng)絡(luò)廣告設(shè)計(jì)案例網(wǎng)站關(guān)鍵詞排名優(yōu)化方法
  • 網(wǎng)站建設(shè)cach目錄營(yíng)銷策劃培訓(xùn)
  • 自己放題庫(kù)做測(cè)試網(wǎng)站網(wǎng)絡(luò)營(yíng)銷產(chǎn)品的首選產(chǎn)品
  • 好的網(wǎng)站和網(wǎng)頁(yè)有哪些在線培訓(xùn)網(wǎng)站次要關(guān)鍵詞
  • 無(wú)錫h5網(wǎng)站建設(shè)廣州高端網(wǎng)站建設(shè)公司
  • 自己怎么做網(wǎng)站優(yōu)化市場(chǎng)調(diào)研怎么寫(xiě)
  • 怎樣才能做好網(wǎng)絡(luò)推廣優(yōu)化大師怎么下載