網(wǎng)站側(cè)邊欄代碼無錫網(wǎng)站服務(wù)公司
本文是LLM系列文章,針對《Parallel Context Windows for Large Language Models》的翻譯。
大語言模型并行上下文窗口
- 摘要
- 1 引言
- 2 并行上下文窗口
- 3 上下文學(xué)習(xí)的PCW
- 4 PCW用于QA
- 5 相關(guān)工作
- 6 結(jié)論和未來工作
- 不足
摘要
當(dāng)應(yīng)用于處理長文本時(shí),大型語言模型(LLM)受到其上下文窗口的限制?,F(xiàn)有的解決這一限制的努力涉及訓(xùn)練專門的體系結(jié)構(gòu),并且不能很容易地應(yīng)用于現(xiàn)成的LLM。我們提出了并行上下文窗口(PCW),這是一種在沒有進(jìn)一步訓(xùn)練的情況下減輕任何現(xiàn)成LLM的上下文窗口限制的方法。該方法的關(guān)鍵是將長上下文分割成塊(“窗口”),將注意力機(jī)制限制為僅在每個窗口內(nèi)應(yīng)用,并在窗口之間重復(fù)使用位置嵌入。我們的主要結(jié)果測試了PCW方法在上下文學(xué)習(xí)中的應(yīng)用,模型的大小在7.5億到1780億個參數(shù)之間,并顯示出對具有不同輸入和輸出空間的任務(wù)的顯著改進(jìn)。我們在長上下文窗口可能有益的其他設(shè)置中展示了額外的好處:多跳問題和使用多個檢索到的文檔的檢索增強(qiáng)問答。我們的研究結(jié)果強(qiáng)調(diào),并行上下文窗口是一種很有前途的方法,可以在一系列需要長文本序列的設(shè)置中應(yīng)用現(xiàn)成的LLM。我們在https://github.com/ai21labs/parallel-context-windows.
1 引言
2 并行上下文窗口
3 上下文學(xué)習(xí)的PCW
4 PCW用于QA
5 相關(guān)工作
6 結(jié)論和未來工作
近年來,已經(jīng)提出了許多成功的方法,允許基于Transformer的語言模型在推理過程中利用大量文本,從而產(chǎn)生了各種專用的體系結(jié)構(gòu)。然而,與此同時(shí),具有“常規(guī)”(多達(dá)數(shù)千個token)上下文窗口大小的新模型的主流LLM生產(chǎn)線在擴(kuò)展、創(chuàng)新和數(shù)據(jù)更新方面進(jìn)展更快。
本文介紹了并行上下文窗口(PCW):一種簡單的方法,允許任何現(xiàn)成的LLM在推理過程中擴(kuò)大其可以訪問的文本范圍。我們展示了PCW在上下文學(xué)習(xí)框架中的有效性,其中訪問一個大B因子的上下文意味著從B倍的訓(xùn)練例子中學(xué)習(xí)。我們的結(jié)果表明,在一組廣泛的多類分類任務(wù)中,PCW比普通的單上下文窗口方法更有效地進(jìn)行上下文內(nèi)學(xué)習(xí),這表明PCW可以在具有不同輸入或輸出空間的任務(wù)中改進(jìn)上下文內(nèi)學(xué)習(xí)。我們還展示了將PCW應(yīng)用于多檢索文檔讀取的有希望的信號。
我們認(rèn)為未來工作的兩個關(guān)鍵方向特別有希望。首先,通過證明現(xiàn)成的LLM可以通過PCW處理大量的文本,我們的結(jié)果激勵了在其他環(huán)境中對PCW方法的進(jìn)一步研究,在這些環(huán)境中,希望將主流LLM應(yīng)用于長文本序列。其次,盡管我們的研究結(jié)果表明,PCW在沒有進(jìn)一步訓(xùn)練的情況下是有效的,但我們相信,對具有并行上下文窗口的LLM進(jìn)行進(jìn)一步(短期)訓(xùn)練可以進(jìn)一步增強(qiáng)這項(xiàng)工作中展示的能力。
不足
我們提出了并行上下文窗口(PCW),這是一種簡單的方法,可以減輕任何現(xiàn)成LLM的上下文窗口限制,而無需額外的訓(xùn)練。我們在各種模型和數(shù)據(jù)集上展示了這種方法的潛力。因此,我們的方法確實(shí)有一些局限性。
上下文窗口的數(shù)量是有限制的,并且需要預(yù)先確定。與普通上下文學(xué)習(xí)類似,必須事先選擇要包含在提示中的示例數(shù)量。對于PCW,還需要選擇上下文窗口的數(shù)量B。在本文中,大多數(shù)結(jié)果都是B=3。我們在附錄C中對B的選擇進(jìn)行了實(shí)驗(yàn)。結(jié)果取決于任務(wù),但在高水平上,我們發(fā)現(xiàn)B周圍的回報(bào)在5到7之間遞減。我們將進(jìn)一步研究如何有效地從未來工作的更多窗口中獲益。
并非對所有類型的任務(wù)都有效。如第3節(jié)所述,PCW在ICL中顯示了令人印象深刻的優(yōu)勢,用于多類任務(wù)分類和信息提取等任務(wù)。但是,對于某些任務(wù),PCW并不能提高性能。這可能表明某些任務(wù)不適合并行處理。第4.2節(jié)表明,PCW更適用于輸入文本可以劃分為幾個獨(dú)立輸入的情況,但長文本生成等任務(wù)是否會從PCW中受益仍然是一個懸而未決的問題。