中國(guó)建設(shè)銀行濟(jì)南招聘信息網(wǎng)站google搜索app下載
本文是LLM系列文章,針對(duì)《Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor》的翻譯。
@TOC
摘要
指令調(diào)優(yōu)使預(yù)訓(xùn)練的語言模型能夠從推理時(shí)間的自然語言描述中執(zhí)行新的任務(wù)。這些方法依賴于以眾包數(shù)據(jù)集或用戶交互形式進(jìn)行的大量人工監(jiān)督。在這項(xiàng)工作中,我們介紹了非自然指令:一個(gè)創(chuàng)造性和多樣化指令的大型數(shù)據(jù)集,幾乎沒有人工勞動(dòng)。我們收集了64,000個(gè)例子,通過提示一個(gè)語言模型,其中包含三個(gè)指令的種子例子,并引出第四個(gè)。然后通過提示模型重新表述每個(gè)指令來擴(kuò)展該集合,創(chuàng)建總計(jì)約240,000個(gè)指令、輸入和輸出示例。實(shí)驗(yàn)表明,盡管包含了相當(dāng)數(shù)量的噪聲,但在非自然指令上的訓(xùn)練可以與在開源人工管理數(shù)據(jù)集上的訓(xùn)練相媲美,在各種基準(zhǔn)測(cè)試中超過了T0++和Tk-Instruct等模型的性能。這些結(jié)果證明了模型生成數(shù)據(jù)作為一種經(jīng)濟(jì)有效的方法的潛力替代眾包的數(shù)據(jù)集擴(kuò)展和多樣化。
1 引言
2 數(shù)據(jù)收集
3 數(shù)據(jù)分析
4 實(shí)驗(yàn)設(shè)置
5 結(jié)果
6 生成模型消融
7 相關(guān)工作
8 結(jié)論
我們介紹了非自然指令,這是一個(gè)自動(dòng)生成的自然語言指令數(shù)據(jù)集及其相應(yīng)的輸入和輸出。據(jù)我們所知,這是第一個(gè)自動(dòng)生成的通用NLP數(shù)據(jù)集。我們的實(shí)驗(yàn)表明,在多個(gè)基準(zhǔn)測(cè)試中,在非自然指令上訓(xùn)練的模型優(yōu)于在手動(dòng)注釋數(shù)據(jù)集上訓(xùn)練的模型。非自然指令不僅具有成本效益,我們還提供了證據(jù),證明所產(chǎn)生的指令具有更高的多樣性,并且在設(shè)計(jì)的任務(wù)中具有高水平的創(chuàng)造力,這是群體工作者難以獲得的特征。消融表明,即使沒有指令調(diào)優(yōu)的較弱模型也可以生成有用的指令,盡管它們可能難以產(chǎn)生相應(yīng)的輸出。然而,提出有趣的任務(wù)和編寫不同的指令可以說是數(shù)據(jù)收集過程的主要挑戰(zhàn),而給定指令和輸入,輸出通常更容易通過眾包進(jìn)行注釋。我們的發(fā)現(xiàn)鼓勵(lì)利用模型進(jìn)行通用數(shù)據(jù)生成,我們認(rèn)為這是未來研究的一個(gè)有趣方向。
9 局限性
我們指出了未來自動(dòng)指令生成的一些改進(jìn)方向。
首先,如§3所示,非自然指令包含有噪聲的例子,其中指令、輸入或輸出都是無效的。未來的工作可能側(cè)重于為這些示例開發(fā)更好的過濾器——例如,通過將示例子集注釋為有效或無效,并訓(xùn)練分類器來確定生成實(shí)例的正確性。
其次,未來的工作可能采用“人在循環(huán)”的方法,即人類應(yīng)該識(shí)別具有挑戰(zhàn)性的模式,鼓勵(lì)模型生成更復(fù)雜的示例。在另一個(gè)人在循環(huán)的場(chǎng)景中,人類可以查詢非自然指令訓(xùn)練的模型,以找到這些模型失敗的例子,從而收集更難的例子。
最后,語言模型有時(shí)會(huì)反映訓(xùn)練數(shù)據(jù)中存在的不良偏差。因此,自動(dòng)生成的數(shù)據(jù)可能包含此類內(nèi)容。我們注意到,在我們的手工分析中,我們沒有注意到任何有害的例子。盡管如此,未來的工作可能會(huì)考慮應(yīng)用過濾機(jī)制來降低有偏見內(nèi)容的風(fēng)險(xiǎn)。