網(wǎng)站開發(fā)功能合同線上營銷渠道主要有哪些
MetaAI最近發(fā)布的Humpback,論文鏈接:https://arxiv.org/abs/2308.06259
解決什么問題?
大量高質(zhì)量的指令微調(diào)數(shù)據(jù)集的生成。
思路
在這項(xiàng)工作中,我們通過開發(fā)迭代自訓(xùn)練算法來利用大量未標(biāo)記的數(shù)據(jù)來創(chuàng)建高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù)集。該方法使用模型本身來增強(qiáng)和管理高質(zhì)量的訓(xùn)練樣例,以提高其自身的性能。我們的方法名為指令反翻譯(instruction backtranslation),其靈感來自機(jī)器翻譯的經(jīng)典反翻譯方法,即用模型生成的另一種語言的源句子自動注釋人類編寫的目標(biāo)句子。
就是最初我們有大語言模型 M 0 M_0 M0?、無標(biāo)注的數(shù)據(jù)和人工生成的少量初始問答對(seed data),用seed data對 M 0 M_0 M0?進(jìn)行微調(diào),微調(diào)后的 M 0 M_0 M0? predict出一些能在seed data中找到合適答案的問題(QA對),通過prompt讓 M 0 M_0 M0?自己篩選出其中較高質(zhì)量的QA對,并入seed data中,迭代。
最終是可以得到一個(gè)能產(chǎn)生高質(zhì)量問答數(shù)據(jù)的大模型 M k M_k Mk?,從而可以得到一系列高質(zhì)量問答對。
每個(gè)迭代的大模型會執(zhí)行兩個(gè)步驟:
-
自增強(qiáng)(self-augment):為未標(biāo)記數(shù)據(jù)(即web語料庫)生成指令,以生成(指令,輸出)對的候選訓(xùn)練數(shù)據(jù),用于指令調(diào)優(yōu)。
-
自我管理 (self-curate):自我選擇高質(zhì)量的演示示例作為訓(xùn)練數(shù)據(jù),以微調(diào)基本模型。這種方法是迭代完成的…
過程
- 初始數(shù)據(jù)生成:從一組人工注釋的(指令,輸出)示例開始,這些示例將用于微調(diào)語言模型,以在兩個(gè)方向上給出初始預(yù)測:預(yù)測給定指令的輸出,以及給定輸出的指令。
- 無標(biāo)簽數(shù)據(jù)收集,同時(shí)清洗(重復(fù)消除,長度過濾,啟發(fā)式方法刪除潛在低質(zhì)量):使用web語料庫作為未標(biāo)記數(shù)據(jù)的來源
- 微調(diào)以得到能生成高質(zhì)量問題的模型
- 讓模型對自己生成的問題進(jìn)行評分
- 掐尖,加入seed data中(通過后綴進(jìn)行區(qū)分),迭代