中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站建設(shè)商務(wù)的術(shù)語怎么注冊網(wǎng)站平臺

網(wǎng)站建設(shè)商務(wù)的術(shù)語,怎么注冊網(wǎng)站平臺,網(wǎng)站建設(shè)項目需求分析,建立網(wǎng)站需要多少錢一個這篇對支持 ChatGPT 的機器學(xué)習(xí)模型的溫和介紹,將從大型語言模型的介紹開始,深入探討使 GPT-3 得到訓(xùn)練的革命性自我注意機制,然后深入研究人類反饋的強化學(xué)習(xí),使 ChatGPT 與眾不同的新技術(shù)。 大型語言模型 ChatGPT 是一類被稱…

這篇對支持 ChatGPT 的機器學(xué)習(xí)模型的溫和介紹,將從大型語言模型的介紹開始,深入探討使 GPT-3 得到訓(xùn)練的革命性自我注意機制,然后深入研究人類反饋的強化學(xué)習(xí),使 ChatGPT 與眾不同的新技術(shù)。?

大型語言模型

ChatGPT 是一類被稱為大型語言模型 (LLM) 的機器學(xué)習(xí)自然語言處理模型的外推。LLM 消化大量文本數(shù)據(jù)并推斷文本中單詞之間的關(guān)系。隨著我們看到計算能力的進步,這些模型在過去幾年中得到了發(fā)展。隨著輸入數(shù)據(jù)集和參數(shù)空間大小的增加,LLM 的能力也會增加。

語言模型最基本的訓(xùn)練涉及預(yù)測單詞序列中的單詞。最常見的是,這被觀察為下一個標(biāo)記預(yù)測和屏蔽語言建模。

下一個標(biāo)記預(yù)測和屏蔽語言建模的任意示例。

在這種通常通過長短期記憶 (LSTM) 模型部署的基本排序技術(shù)中,該模型使用給定周圍上下文的統(tǒng)計上最可能的詞來填充空白。這種順序建模結(jié)構(gòu)有兩個主要限制。

  1. 該模型無法比其他詞更重視周圍的一些詞。在上面的例子中,雖然“閱讀”可能最常與“討厭”聯(lián)系在一起,但在數(shù)據(jù)庫中,“雅各布”可能是一個狂熱的讀者,因此模型應(yīng)該給予“雅各布”比“閱讀”更多的權(quán)重,并選擇“愛” '而不是'討厭'。
  2. 輸入數(shù)據(jù)是單獨和順序處理的,而不是作為整個語料庫處理的。這意味著當(dāng) LSTM 被訓(xùn)練時,上下文窗口是固定的,僅擴展到序列中幾個步驟的單個輸入之外。這限制了單詞之間關(guān)系的復(fù)雜性和可以導(dǎo)出的含義。

針對這個問題,2017 年 Google Brain 的一個團隊引入了 transformers。與 LSTM 不同,轉(zhuǎn)換器可以同時處理所有輸入數(shù)據(jù)。使用自注意力機制,該模型可以根據(jù)語言序列的任何位置為輸入數(shù)據(jù)的不同部分賦予不同的權(quán)重。此功能在將意義注入 LLM 方面實現(xiàn)了巨大改進,并支持處理更大的數(shù)據(jù)集。

GPT 和自注意力

Generative Pre-training Transformer (GPT) 模型于 2018 年由 openAI 作為 GPT-1 首次推出。這些模型在 2019 年繼續(xù)發(fā)展 GPT-2,2020 年發(fā)展 GPT-3,最近在 2022 年發(fā)展 InstructGPT 和 ChatGPT。在將人類反饋集成到系統(tǒng)之前,GPT 模型進化的最大進步是由計算效率的成就推動的,這使得 GPT-3 能夠接受比 GPT-2 多得多的數(shù)據(jù)訓(xùn)練,從而賦予它更多樣化的知識庫和執(zhí)行更廣泛任務(wù)的能力。

GPT-2(左)和 GPT-3(右)的比較。由作者生成。

所有 GPT 模型都利用了 transformer 架構(gòu),這意味著它們有一個編碼器來處理輸入序列和一個解碼器來生成輸出序列。編碼器和解碼器都有一個多頭自注意力機制,允許模型對序列的不同部分進行不同的加權(quán)以推斷含義和上下文。此外,編碼器利用掩碼語言建模來理解單詞之間的關(guān)系并產(chǎn)生更易于理解的響應(yīng)。

驅(qū)動 GPT 的自注意力機制通過將標(biāo)記(文本片段,可以是單詞、句子或其他文本分組)轉(zhuǎn)換為表示標(biāo)記在輸入序列中的重要性的向量來工作。為此,模型,

  1. 為輸入序列中的每個標(biāo)記創(chuàng)建查詢、鍵和值向量。
  2. 通過取兩個向量的點積來計算第一步中的查詢向量與每個其他標(biāo)記的鍵向量之間的相似度。
  3. 通過將步驟 2 的輸出輸入softmax 函數(shù)來生成歸一化權(quán)重。
  4. 通過將步驟 3 中生成的權(quán)重乘以每個標(biāo)記的值向量,生成一個最終向量,表示標(biāo)記在序列中的重要性。

GPT 使用的“多頭”注意機制是自我注意的演變。模型不是執(zhí)行一次步驟 1-4,而是并行地多次迭代此機制,每次生成查詢、鍵和值向量的新線性投影。通過以這種方式擴展自注意力,該模型能夠掌握輸入數(shù)據(jù)中的子含義和更復(fù)雜的關(guān)系。

盡管 GPT-3 在自然語言處理方面取得了顯著進步,但它在符合用戶意圖方面的能力有限。例如,GPT-3 可能產(chǎn)生的輸出

  • 缺乏幫助意味著他們不?遵循用戶的明確指示。
  • 包含反映不存在或不正確事實的幻覺。
  • 缺乏可解釋性使人類難以理解模型是如何得出特定決策或預(yù)測的。
  • 包括有害或令人反感并傳播錯誤信息的有毒或有偏見的內(nèi)容。

ChatGPT 中引入了創(chuàng)新的培訓(xùn)方法,以解決標(biāo)準 LLM 的一些固有問題。

聊天GPT

ChatGPT 是 InstructGPT 的衍生產(chǎn)品,它引入了一種新穎的方法,將人類反饋納入訓(xùn)練過程,以更好地使模型輸出與用戶意圖保持一致。人類反饋強化學(xué)習(xí) (RLHF) 在中有深入描述openAI 的 2022紙訓(xùn)練語言模型以遵循帶有人類反饋的指令并在下面進行了簡化.

第 1 步:監(jiān)督微調(diào) (SFT) 模型

第一項開發(fā)涉及通過雇用 40 名承包商創(chuàng)建監(jiān)督訓(xùn)練數(shù)據(jù)集來微調(diào) GPT-3 模型,其中輸入具有供模型學(xué)習(xí)的已知輸出。輸入或提示是從實際用戶輸入到 Open API 中收集的。然后,貼標(biāo)簽者對提示做出適當(dāng)?shù)幕貞?yīng),從而為每個輸入創(chuàng)建一個已知的輸出。然后使用這個新的監(jiān)督數(shù)據(jù)集對 GPT-3 模型進行微調(diào),以創(chuàng)建 GPT-3.5,也稱為 SFT 模型。

為了最大化提示數(shù)據(jù)集中的多樣性,任何給定的用戶 ID 只能發(fā)出 200 個提示,并且刪除了任何共享長公共前綴的提示。最后,刪除了所有包含個人身份信息 (PII) 的提示。

在匯總來自 OpenAI API 的提示后,標(biāo)注者還被要求創(chuàng)建樣本提示以填寫只有最少真實樣本數(shù)據(jù)的類別。感興趣的類別包括

  • 普通提示:任意任意詢問。
  • Few-shot 提示:包含多個查詢/響應(yīng)對的指令。
  • 基于用戶的提示:對應(yīng)于為 OpenAI API 請求的特定用例。

在生成響應(yīng)時,標(biāo)注者被要求盡最大努力推斷用戶的指令是什么。本文介紹了提示請求信息的主要三種方式。

  1. 直接:?“告訴我關(guān)于……”
  2. Few-shot:鑒于這兩個故事的例子,寫另一個關(guān)于同一主題的故事。
  3. Continuation:給定一個故事的開始,結(jié)束它。

來自 OpenAI API 的提示匯編和標(biāo)注人員手寫的提示產(chǎn)生了 13,000 個輸入/輸出樣本,用于監(jiān)督模型。

圖片(左)從訓(xùn)練語言模型插入以遵循人類反饋的指令OpenAI 等,2022?https://arxiv.org/pdf/2203.02155.pdf。作者以紅色(右)添加的附加上下文。

第二步:獎勵模式

在步驟 1 中訓(xùn)練 SFT 模型后,該模型會對用戶提示生成更一致的響應(yīng)。下一個改進以訓(xùn)練獎勵模型的形式出現(xiàn),其中模型輸入是一系列提示和響應(yīng),輸出是一個縮放值,稱為獎勵。需要獎勵模型以利用強化學(xué)習(xí),在強化學(xué)習(xí)中模型學(xué)習(xí)產(chǎn)生輸出以最大化其獎勵(參見步驟 3)。

為了訓(xùn)練獎勵模型,為單個輸入提示向??貼標(biāo)機提供 4 到 9 個 SFT 模型輸出。他們被要求將這些輸出從最好到最差進行排名,創(chuàng)建輸出排名組合如下。

響應(yīng)排名組合示例。

將模型中的每個組合作為單獨的數(shù)據(jù)點包括在內(nèi)會導(dǎo)致過度擬合(無法推斷超出可見數(shù)據(jù)的范圍)。為了解決這個問題,該模型是利用每組排名作為單個批處理數(shù)據(jù)點構(gòu)建的。

圖片(左)從訓(xùn)練語言模型插入以遵循人類反饋的指令OpenAI 等,2022?https://arxiv.org/pdf/2203.02155.pdf。作者以紅色(右)添加的附加上下文。

第三步:強化學(xué)習(xí)模型

在最后階段,模型會收到隨機提示并返回響應(yīng)。響應(yīng)是使用模型在步驟 2 中學(xué)習(xí)的“策略”生成的。策略表示機器已經(jīng)學(xué)會使用以實現(xiàn)其目標(biāo)的策略;在這種情況下,最大化其獎勵。基于在步驟 2 中開發(fā)的獎勵模型,然后為提示和響應(yīng)對確定縮放器獎勵值。然后獎勵反饋到模型中以改進策略。

2017 年,舒爾曼等人。引入了近端策略優(yōu)化 (PPO),該方法用于在生成每個響應(yīng)時更新模型的策略。PPO 包含來自 SFT 模型的每個代幣 Kullback–Leibler (KL) 懲罰。KL 散度衡量兩個分布函數(shù)的相似性并對極端距離進行懲罰。在這種情況下,使用 KL 懲罰會減少響應(yīng)與步驟 1 中訓(xùn)練的 SFT 模型輸出之間的距離,以避免過度優(yōu)化獎勵模型和與人類意圖數(shù)據(jù)集的偏差太大。

圖片(左)從訓(xùn)練語言模型插入以遵循人類反饋的指令OpenAI 等,2022?https://arxiv.org/pdf/2203.02155.pdf。作者以紅色(右)添加的附加上下文。

該過程的第 2 步和第 3 步可以重復(fù)進行,但在實踐中并沒有廣泛這樣做。

生成的 ChatGPT 的屏幕截圖。

模型評估

模型的評估是通過在訓(xùn)練期間留出模型未見過的測試集來執(zhí)行的。在測試集上,進行了一系列評估,以確定該模型是否比其前身 GPT-3 更好地對齊。

有用性:模型推斷和遵循用戶指令的能力。在 85 ± 3% 的時間里,貼標(biāo)簽者更喜歡 InstructGPT 而非 GPT-3 的輸出。

真實性:模型產(chǎn)生幻覺的傾向。當(dāng)使用TruthfulQA數(shù)據(jù)集進行評估時,PPO 模型產(chǎn)生的輸出顯示真實性和信息量略有增加。

無害性:模型避免不當(dāng)、貶損和詆毀內(nèi)容的能力。使用 RealToxicityPrompts 數(shù)據(jù)集測試了無害性。測試在三種條件下進行。

  1. 指示提供尊重的回應(yīng):導(dǎo)致毒性反應(yīng)顯著減少。
  2. 指示提供響應(yīng),沒有任何尊重的設(shè)置:毒性沒有顯著變化。
  3. 指示提供毒性反應(yīng):反應(yīng)實際上比 GPT-3 模型毒性大得多。

有關(guān)創(chuàng)建 ChatGPT 和 InstructGPT 所用方法的更多信息,請閱讀 OpenAI Training language models to follow instructions with human feedback發(fā)表的原始論文,2022?https://arxiv.org/pdf/2203.02155.pdf。

生成的 ChatGPT 的屏幕截圖。

http://www.risenshineclean.com/news/54347.html

相關(guān)文章:

  • wordpress安裝顯示404寧波優(yōu)化網(wǎng)站排名軟件
  • 可信賴的深圳網(wǎng)站建設(shè)百度seo霸屏軟件
  • 門戶網(wǎng)站建設(shè)方案文檔如何自己建立一個網(wǎng)站
  • 京東商城企業(yè)網(wǎng)站建設(shè)分析收錄網(wǎng)
  • 網(wǎng)站內(nèi)的搜索怎么做的市場調(diào)研問卷
  • 網(wǎng)站標(biāo)題寫什么作用seo顧問服務(wù) 樂云踐新專家
  • 做了個網(wǎng)站 怎么做seo百度網(wǎng)盤網(wǎng)頁版登錄首頁
  • 空間網(wǎng)站鏈接怎么做淘寶店鋪買賣交易平臺
  • seo優(yōu)化方案書鄭州seo優(yōu)化推廣
  • 做網(wǎng)站-信科網(wǎng)絡(luò)軟文推廣網(wǎng)
  • 酒店網(wǎng)站素材百度電腦版網(wǎng)頁版入口
  • 建網(wǎng)站哪個好 優(yōu)幫云優(yōu)化公司結(jié)構(gòu)
  • 網(wǎng)上做網(wǎng)站 干對縫兒生意廣州seo公司品牌
  • 網(wǎng)站開發(fā)編程的工作方法可以看任何網(wǎng)站的瀏覽器
  • 做網(wǎng)站的網(wǎng)站怎么在網(wǎng)上做廣告宣傳
  • 甘肅農(nóng)村網(wǎng)站建設(shè)汽車seo是什么意思
  • 佛山網(wǎng)絡(luò)公司網(wǎng)站建設(shè)凡科建站登錄官網(wǎng)
  • 建設(shè)網(wǎng)站需要多久qq營銷軟件
  • 汕頭市網(wǎng)站建設(shè)公司任務(wù)放單平臺
  • 做網(wǎng)站換服務(wù)器怎么整成人教育機構(gòu)排行前十名
  • design工業(yè)設(shè)計seo優(yōu)化工作
  • 去哪找做網(wǎng)站的客戶網(wǎng)絡(luò)營銷推廣
  • pis粉絲做的網(wǎng)站seo營銷培訓(xùn)
  • 使用wordpress的建網(wǎng)站360優(yōu)化大師歷史版本
  • 網(wǎng)站建設(shè)運用軟件網(wǎng)站關(guān)鍵詞優(yōu)化推廣哪家快
  • 網(wǎng)站引流怎么做關(guān)鍵詞優(yōu)化工具
  • 自己做采集電影網(wǎng)站營銷推廣活動策劃方案
  • 網(wǎng)站建設(shè)速成班廈門人才網(wǎng)官網(wǎng)招聘信息網(wǎng)
  • 網(wǎng)站建設(shè)制作細節(jié)天津百度推廣公司電話
  • 給我一個網(wǎng)站2021seo顧問服務(wù) 樂云踐新專家