app開發(fā)定制軟件公司站長(zhǎng)之家seo一點(diǎn)詢
本文是LLM系列文章,針對(duì)《LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS》的翻譯。
LM-INFiNITE:大語(yǔ)言模型的一個(gè)簡(jiǎn)單長(zhǎng)度上推廣
- 摘要
- 1 引言
- 2 相關(guān)工作
- 3 LLMs中OOD因素的診斷
- 4 LM-INFINITE
- 5 評(píng)估
- 6 結(jié)論和未來(lái)工作
摘要
近年來(lái),基于Transformer的大型語(yǔ)言模型(LLM)在各個(gè)領(lǐng)域的性能都有了顯著的進(jìn)步。隨著這些LLM被部署用于越來(lái)越復(fù)雜的任務(wù),它們通常需要進(jìn)行更長(zhǎng)的推理過(guò)程或理解更大的上下文。在這些情況下,LLM在長(zhǎng)序列上的長(zhǎng)度泛化失敗變得更加突出。大多數(shù)預(yù)訓(xùn)練方案將訓(xùn)練序列截?cái)酁楣潭ㄩL(zhǎng)度(例如對(duì)于LLaMa為2048)。LLM通常很難在較長(zhǎng)的上下文后生成流暢的文本,更不用說(shuō)執(zhí)行下游任務(wù)了,即使是為了解決這個(gè)問(wèn)題而設(shè)計(jì)的相對(duì)位置編碼。常見(jiàn)的解決方案,如在較長(zhǎng)的語(yǔ)料庫(kù)上進(jìn)行微調(diào),通常涉及令人生畏的硬件和時(shí)間成本,并且需要仔細(xì)的訓(xùn)練過(guò)程設(shè)計(jì)。為了更有效地利用現(xiàn)有LLM的生成能力,我們從理論和實(shí)證上研究了導(dǎo)致這一問(wèn)題的主要分布外(OOD)因素。受此診斷的啟發(fā),我們提出了一種簡(jiǎn)單而有效的飛行長(zhǎng)度泛化解決方案LM Infinite,它只涉及 Λ \Lambda Λ形注意力掩碼和距離限制,而不需要參數(shù)更新或?qū)W習(xí)。我們發(fā)現(xiàn)它適用于使用相對(duì)位置編碼方法的各種LLM。LM Infinite在 O ( n ) \mathcal{O}(n) O(n)時(shí)間和空間上具有計(jì)算效率,并在ArXiv和OpenWebText2數(shù)據(jù)集上對(duì)多達(dá)32k個(gè)token表現(xiàn)出一致的流暢性和生成質(zhì)量,解碼速度提高了2.72倍。在諸如密鑰檢索之類的下游任務(wù)中,它繼續(xù)處理比普通模型立即失敗的訓(xùn)練長(zhǎng)度長(zhǎng)得多的輸入。
1 引言
2 相關(guān)工作
3 LLMs中OOD因素的診斷
4 LM-INFINITE
5 評(píng)估
6 結(jié)論和未來(lái)工作
在本文中,我們對(duì)具有相對(duì)位置編碼的基于Transformer的LLM中的長(zhǎng)度泛化問(wèn)題提供了解釋和簡(jiǎn)單的即時(shí)解決方案。我們首先對(duì)可能導(dǎo)致長(zhǎng)度泛化失敗的OOD(分布外)因素進(jìn)行理論和實(shí)證分析?;谶@些直覺(jué),我們提出了LM Infinite,一種無(wú)需任何參數(shù)更新的即插即用的治療方法。我們的經(jīng)驗(yàn)評(píng)估表明,我們可以讓多個(gè)開源SoTA LLM保持其原始生成質(zhì)量,類似于明確微調(diào)后的性能。LM Infinite還將任務(wù)求解能力擴(kuò)展到比訓(xùn)練樣本長(zhǎng)得多的序列。未來(lái)的工作可以探索如何讓LM Infinite更好地感知被掩蓋的注意力區(qū)域中的信息。我們希望LM Infinite的計(jì)算效率和易用性使沒(méi)有大量計(jì)算資源的研究人員也能在長(zhǎng)序列上使用LLM。