買賣域名掙幾十萬標題優(yōu)化seo
🌹歡迎來到愛書不愛輸?shù)某绦蛟?/strong>的博客, 本博客致力于知識分享,與更多的人進行學習交流
愛書不愛輸?shù)某绦蛟?#xff1a;送書第二期
- 一、搞懂大模型的智能基因,RLHF系統(tǒng)設計關(guān)鍵問答
- 1.RLHF是什么?
- 2.RLHF適用于哪些任務?
- 3.RLHF和其他構(gòu)建獎勵模型的方法相比有何優(yōu)劣?
- 4.什么樣的人類反饋才是好的反饋?
- 5.RLHF算法有哪些類別,各有什么優(yōu)缺點?
- 5.1 監(jiān)督學習的思路訓練獎勵模型的RLHF
- 5.2 逆強化學習的思路訓練獎勵模型的RLHF
- 6.RLHF采用人類反饋會帶來哪些局限?
- 6.1 提供人類反饋的人群可能有偏見或局限性
- 6.2人的決策可能沒有機器決策那么高明。
- 6.3沒有將提供反饋的人的特征引入到系統(tǒng)。
- 6.4人性可能導致數(shù)據(jù)集不完美。
- 7.如何降低人類反饋帶來的負面影響?
- 二、《強化學習:原理與Python實戰(zhàn)》
- 2.1 書籍介紹
- 2.2 自行購買
- 三、🎁文末福利(切記關(guān)注+三連,否則抽獎無效)
一、搞懂大模型的智能基因,RLHF系統(tǒng)設計關(guān)鍵問答
本文內(nèi)容摘編自《強化學習:原理與Python實戰(zhàn)》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:978-7-111-72891-7)
1.RLHF是什么?
- 強化學習利用獎勵信號訓練智能體。有些任務并沒有自帶能給出獎勵信號的環(huán)境,也沒有現(xiàn)成的生成獎勵信號的方法。為此,可以搭建獎勵模型來提供獎勵信號。在搭建獎勵模型時,可以用數(shù)據(jù)驅(qū)動的機器學習方法來訓練獎勵模型,并且由人類提供數(shù)據(jù)。我們把這樣的利用人類提供的反饋數(shù)據(jù)來訓練獎勵模型以用于強化學習的系統(tǒng)稱為人類反饋強化學習,示意圖如下。
2.RLHF適用于哪些任務?
RLHF適合于同時滿足下面所有條件的任務:
- 要解決的任務是一個強化學習任務,但是沒有現(xiàn)成的獎勵信號并且獎勵信號的確定方式事先不知道。為了訓練強化學習智能體,考慮構(gòu)建獎勵模型來得到獎勵信號。
反例:比如電動游戲有游戲得分,那樣的游戲程序能夠給獎勵信號,那我們直接用游戲程序反饋即可,不需要人類反饋。
反例:某些系統(tǒng)獎勵信號的確定方式是已知的,比如交易系統(tǒng)的獎勵信號可以由賺到的錢完全確定。這時直接可以用已知的數(shù)學表達式確定獎勵信號,不需要人工反饋。
- 不采用人類反饋的數(shù)據(jù)難以構(gòu)建合適的獎勵模型,而且人類的反饋可以幫助得到合適的獎勵模型,并且人類來提供反饋可以在合理的代價(包括成本代價、時間代價等)內(nèi)得到。如果用人類反饋得到數(shù)據(jù)與其他方法采集得到數(shù)據(jù)相比不具有優(yōu)勢,那么就沒有必要讓人類來反饋。
3.RLHF和其他構(gòu)建獎勵模型的方法相比有何優(yōu)劣?
-
獎勵模型可以
人工指定
,也可以通過有監(jiān)督模型、逆強化學習等機器學習方法
來學習。RLHF使用機器學習方法學習獎勵模型,并且在學習過程中采用人類給出的反饋。 -
比較人工指定獎勵模型與采用機器學習方法學習獎勵模型的優(yōu)劣:這與對一般的機器學習優(yōu)劣的討論相同。機器學習方法的優(yōu)點包括不需要太多領域知識、能夠處理非常復雜的問題、能夠處理快速大量的高維數(shù)據(jù)、能夠隨著數(shù)據(jù)增大提升精度等等。機器學習算法的缺陷包括其訓練和使用需要數(shù)據(jù)時間空間電力等資源、模型和輸出的解釋型可能不好、模型可能有缺陷、覆蓋范圍不夠或是被攻擊(比如大模型里的提示詞注入)。
-
比較采用人工反饋數(shù)據(jù)和采用非人工反饋數(shù)據(jù)的優(yōu)劣:人工反饋往往更費時費力,并且不同人在不同時候的表現(xiàn)可能不一致,并且人還會有意無意地犯錯,或是人類反饋的結(jié)果還不如用其他方法生成數(shù)據(jù)來的有效,等等。我們在后文會詳細探討人工反饋的局限性。采用機器收集數(shù)據(jù)等非人工反饋數(shù)據(jù)則對收集的數(shù)據(jù)類型有局限性。有些數(shù)據(jù)只能靠人類收集,或是用機器難以收集。這樣的數(shù)據(jù)包括是主觀的、人文的數(shù)據(jù)(比如判斷藝術(shù)作品的藝術(shù)性),或是某些機器還做不了的事情(比如玩一個AI暫時還不如人類的游戲)。
4.什么樣的人類反饋才是好的反饋?
-
好的反饋需要夠用:反饋數(shù)據(jù)可以用來學成獎勵模型,并且數(shù)據(jù)足夠正確、量足夠大、覆蓋足夠全面,使得獎勵模型足夠好,進而在后續(xù)的強化學習中得到令人滿意的智能體。
- 這個部分涉及的評價指標包括:對數(shù)據(jù)本身的評價指標(正確性、數(shù)據(jù)量、覆蓋率、一致性),對獎勵模型及其訓練過程的評價指標、對強化學習訓練過程和訓練得到的智能體的評價指標。
-
好的反饋需要是可得的反饋。反饋需要可以在合理的時間花費和金錢花費的情況下得到,并且在成本可控的同時不會引發(fā)其他風險(如法律上的風險)。
- 涉及的評價指標包括:數(shù)據(jù)準備時間、數(shù)據(jù)準備涉及的人員數(shù)量、數(shù)據(jù)準備成本、是否引發(fā)其他風險的判斷。
5.RLHF算法有哪些類別,各有什么優(yōu)缺點?
RLHF算法有以下兩大類:用監(jiān)督學習的思路訓練獎勵模型的RLHF、用逆強化學習的思路訓練獎勵模型的RLHF。
5.1 監(jiān)督學習的思路訓練獎勵模型的RLHF
- 在用監(jiān)督學習的思路訓練獎勵模型的RLHF系統(tǒng)中,人類的反饋是獎勵信號或是獎勵信號的衍生量(如獎勵信號的排序)。
- 直接反饋獎勵信號和反饋獎勵信號衍生量各有優(yōu)缺點。這個優(yōu)點在于獲得獎勵參考值后可以直接把它用作有監(jiān)督學習的標簽。缺點在于不同人在不同時候給出的獎勵信號可能不一致,甚至矛盾。反饋獎勵信號的衍生量,比如獎勵模型輸入的比較或排序。有些任務給出評價一致的獎勵值有困難,但是比較大小容易得多。但是沒有密集程度的信息。在大量類似情況導致某部分獎勵對應的樣本過于密集的情況下,甚至可能不收斂。
- 一般認為,采用比較類型的反饋可以得到更好的性能中位數(shù),但是并不能得到更好的性能平均值。
5.2 逆強化學習的思路訓練獎勵模型的RLHF
- 在用逆強化學習的思路訓練獎勵模型的RLHF系統(tǒng)中,人類的反饋并不是獎勵信號,而是使得獎勵更大的獎勵模型輸入。即人類給出了較為正確的數(shù)量、文本、分類、物理動作等,告訴獎勵模型在這時候獎勵應該比較大。這其實就是逆強化學習的思想。
- 這種方法與用監(jiān)督學習訓練獎勵模型的RLHF相比,其優(yōu)點在于,訓練獎勵模型的樣本點不再拘泥于系統(tǒng)給出的需要評判的樣本。因為系統(tǒng)給出的需要評估獎勵的樣本可能具有局限性(因為系統(tǒng)沒有找到最優(yōu)的區(qū)間)。
- 在系統(tǒng)搭建初期,還可以將用戶提供的參考答案用于把最初的強化學習問題轉(zhuǎn)化成模仿學習問題。
- 這類設計還可以根據(jù)反饋的類型進一步分類,一類是讓人類獨立給出專家意見,另一類是在讓人類在已有數(shù)據(jù)的基礎上進行改進。讓人類提供意見就類似于讓人類提供模仿學習里的專家策略(當然可能略有不同,畢竟獎勵模型的輸入不只有動作)。讓用戶在已有的參考內(nèi)容上修改可以減少人類每個標注的成本,但是已有的參考內(nèi)容可能會干擾到人類的獨立判斷(這個干擾可能是正面的也可能是負面的)。
6.RLHF采用人類反饋會帶來哪些局限?
前面已經(jīng)提到,人類反饋可能更費時費力,并且不一定能夠保證準確性和一致性。除此之外,下面幾點會導致獎勵模型不完整不正確,導致后續(xù)強化學習訓練得到的智能體行為不能令人滿意。
6.1 提供人類反饋的人群可能有偏見或局限性
這個問題和數(shù)理統(tǒng)計里的對樣本進行抽樣方法可能遇到的問題類型。為RLHF系統(tǒng)提供反饋的人群可能并不是最佳的人群。有的時候出于成本、可得性等因素,會選擇人力成本低的團隊,但是這樣的團隊可能在專業(yè)度不夠,或是有著不同的法律、道德和宗教觀念,包括歧視性信息。反饋人中可能有惡意者,會提供有誤導性的反饋。
6.2人的決策可能沒有機器決策那么高明。
在一些問題上,機器可以比人做的更好,比如對于象棋圍棋等棋盤游戲,真人就比不過人工智能程序。在一些問題上,人能夠處理的信息沒有數(shù)據(jù)驅(qū)動的程序處理的信息全面。比如對于自動駕駛的應用,人類只能根據(jù)二維畫面和聲音進行決策,而程序能夠處理連續(xù)時間內(nèi)三維空間的信息。所以在理論上人類反饋的質(zhì)量是不如程序的。
6.3沒有將提供反饋的人的特征引入到系統(tǒng)。
每個人都是獨一無二的:每個人有自己的成長環(huán)境、宗教信仰、道德觀念、學習和工作經(jīng)歷、知識儲備等,我們不可能把每個人的所有特征都引入到系統(tǒng)。在這種情況下,如果忽略不同的人之間在某個特征維度上的差別,那么就會損失到許多有效信息,導致獎勵模型性能下降。
以大規(guī)模語言模型為例,用戶可以通過提示工程指定模型以某種特定的角色或溝通方式來溝通,比如有時要求語言模型的輸出文字更有禮貌更客套多奉承套,有時需要輸出文字內(nèi)容擲地有聲言之有物少客套;有時要求輸出文字更有創(chuàng)造性,有時要求輸出文字尊重事實更嚴謹;有時要求輸出簡潔扼要,有時要求輸出詳盡完備提供更多細節(jié);有時要求輸出中立客觀僅在純自然科學范圍內(nèi)討論,有時要求輸出多考慮人文社會的環(huán)境背景。而提供反饋數(shù)據(jù)的人的不同身份背景和溝通習慣可能正好對應于不同情況下的輸出要求。這種情況下,反饋人的特性就非常重要。
6.4人性可能導致數(shù)據(jù)集不完美。
比如語言模型可能會通過拍馬屁、戴高帽等行為獲得高分評價,但是這樣的高分評價可能并沒有真正解決問題,有違系統(tǒng)設計的初衷??此频梅趾芨?#xff0c;但是高得分可能是通過避免爭議性話題或是拍馬屁拍出來的,而不是真正解決了需要解決問題,沒有達到系統(tǒng)設計的初衷。
此外,人類提供反饋還有其他非技術(shù)上面的風險,比如泄密等安全性風險、監(jiān)管法律風險等。
7.如何降低人類反饋帶來的負面影響?
- 針對人類反饋費時費力且可能導致獎勵模型不完整不正確的問題,可以在收集人類反饋數(shù)據(jù)的同時就訓練獎勵模型、訓練智能體,并全面評估獎勵模型和智能體,以便于盡早發(fā)現(xiàn)人類反饋的缺陷。發(fā)現(xiàn)缺陷后,及時進行調(diào)整。
- 針對人類反饋中出現(xiàn)的反饋質(zhì)量問題以及錯誤反饋,可以對人類反饋進行校驗和審計,如引入已知獎勵的校驗樣本來校驗人類反饋的質(zhì)量,或為同一樣本多次索取反饋并比較多次反饋的結(jié)果等。
- 針對反饋人的選擇不當?shù)膯栴},可以在有效控制人力成本的基礎上,采用科學的方法選定提供反饋的人??梢詤⒖紨?shù)理統(tǒng)計里的抽樣方法,如分層抽樣、整群抽樣等,使得反饋人群更加合理。
- 對于反饋數(shù)據(jù)中未包括反饋人特征導致獎勵模型不夠好的問題,可以收集反饋人的特征,并將這些特征用于獎勵模型的訓練。比如,在大規(guī)模語言模型的訓練中可以記錄反饋人的職業(yè)背景(如律師、醫(yī)生等),并在訓練獎勵模型時加以考慮。當用戶要求智能體像律師一樣工作時,更應該利用由律師提供的數(shù)據(jù)學成的那部分獎勵模型來提供獎勵信號;當用戶要求智能體像醫(yī)生一樣工作時,更應該利用由醫(yī)生提供的數(shù)據(jù)學成的那部分獎勵模型來提供獎勵信號。
- 另外,在整個系統(tǒng)的實施過程中,可以征求專業(yè)人士意見,以減小其中法律和安全風險。
二、《強化學習:原理與Python實戰(zhàn)》
2.1 書籍介紹
《強化學習:原理與Python實戰(zhàn)》 肖智清 著
解密ChatGPT關(guān)鍵技術(shù)PPO和RLHF
理論完備,涵蓋強化學習主干理論和常見算法,帶你參透ChatGPT技術(shù)要點;
實戰(zhàn)性強,每章都有編程案例,深度強化學習算法提供TenorFlow和PyTorch對照實現(xiàn);
配套豐富,逐章提供知識點總結(jié),章后習題形式豐富多樣。還有Gym源碼解讀、開發(fā)環(huán)境搭建指南、習題答案等在線資源助力自學。
2.2 自行購買
購買鏈接:https://item.jd.com/13815337.html
三、🎁文末福利(切記關(guān)注+三連,否則抽獎無效)
- 🎁本次送書
1~5
本【取決于閱讀量,閱讀量越多,送的越多
】👈 - ??活動時間:截止到2023-09-10 10:00
- ??參與方式: 關(guān)注博主+三連(點贊、收藏、評論)
🆗有特別想要的朋友,還可以額外關(guān)注
同名公眾號
,發(fā)送內(nèi)容格式:自己的CSDN的ID+參與送書【如:qq_40332045參與送書】,可以增加抽獎權(quán)重(前提是本文要關(guān)注+三連,否則參與無效
)
- 🏆🏆 抽獎方式: 評論區(qū)隨機抽取小伙伴免費送出!!