廣東煙草電子商務(wù)網(wǎng)站谷歌推廣網(wǎng)站
本論文介紹了FLAN(Fine-tuned LAnguage Net,微調(diào)語(yǔ)言網(wǎng)絡(luò)),一種指導(dǎo)微調(diào)方法,并展示了其應(yīng)用結(jié)果。該研究證明,通過(guò)在1836個(gè)任務(wù)上微調(diào)540B PaLM模型,同時(shí)整合Chain-of-Thought Reasoning(思維鏈推理)數(shù)據(jù),FLAN在泛化、人類可用性和零射推理方面相對(duì)于基礎(chǔ)模型取得了改進(jìn)。論文還詳細(xì)介紹了如何評(píng)估這些方面。
這里是來(lái)自講座幻燈片的圖片,說(shuō)明了在訓(xùn)練FLAN時(shí)使用的微調(diào)任務(wù)和數(shù)據(jù)集。任務(wù)選擇在以前的工作基礎(chǔ)上進(jìn)行了擴(kuò)展,通過(guò)整合來(lái)自Muffin的對(duì)話和程序合成任務(wù),并將它們與新的Chain of Thought Reasoning任務(wù)集成。它還包括其他任務(wù)集合的子集,如T0和Natural Instructions v2。一些任務(wù)在訓(xùn)練期間被保留,后來(lái)用于評(píng)估模型在未見(jiàn)任務(wù)上的性能。
參考
https://www.coursera.org/learn/generative-ai-with-llms/supplement/aDQwy/scaling-instruct-models