西寧網(wǎng)站seo外包百度安裝到桌面
-
垂直領(lǐng)域大部分不用保持通用能力的,沒必要跟淘寶客服聊天氣預(yù)報,但是主要還是領(lǐng)導(dǎo)讓你保持
-
微調(diào)方法沒有大變數(shù)了,只能在數(shù)據(jù)上下功夫,我能想到的只有提高微調(diào)數(shù)據(jù)質(zhì)量。
-
sft微調(diào)的越多,遺忘的越多. 不過對于小任務(wù),rank比較低(例如8,16)的任務(wù),影響還是有有限的。一般很少掉點明顯。
-
sft能夠改變回復(fù)風(fēng)格。原來的風(fēng)格是列表回復(fù),如果sft數(shù)據(jù)集很短,則sft后的數(shù)據(jù)集也會很短,理論上二者的風(fēng)格應(yīng)該一致才行
-
在LLM時代,需要牢記 數(shù)據(jù)質(zhì)量 > 數(shù)量 這個真理,如:[Less is More! 上交清源 && 里海 | 利用200條數(shù)據(jù)微調(diào)模型,怒超MiniGPT-4!],超大規(guī)模的SFT數(shù)據(jù)會讓下游任務(wù)LLM減弱或者失去ICL、CoT等能力
-
全流程的LLM訓(xùn)練包括:預(yù)訓(xùn)練、監(jiān)督微調(diào)、獎勵模型、強化學(xué)習(xí),多數(shù)情況下監(jiān)督微調(diào)即可滿足自身需求。
-
對于垂類模型,更應(yīng)該關(guān)注PT的過程,而不是采集千萬百萬的SFT數(shù)據(jù)做訓(xùn)練,一般建議是 大規(guī)模預(yù)訓(xùn)練+小規(guī)模監(jiān)督微調(diào)=超強的LLM模型
-
指令微調(diào)階段不能夠進行過多輪次訓(xùn)練: