中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站側(cè)邊欄代碼無錫網(wǎng)站服務(wù)公司

網(wǎng)站側(cè)邊欄代碼,無錫網(wǎng)站服務(wù)公司,ui設(shè)計(jì)培訓(xùn)班的學(xué)費(fèi)一般是多少錢,中國建設(shè)銀行網(wǎng)站暑假工報(bào)名本文是LLM系列文章,針對《Parallel Context Windows for Large Language Models》的翻譯。 大語言模型并行上下文窗口 摘要1 引言2 并行上下文窗口3 上下文學(xué)習(xí)的PCW4 PCW用于QA5 相關(guān)工作6 結(jié)論和未來工作不足 摘要 當(dāng)應(yīng)用于處理長文本時(shí),大型語言模型…

本文是LLM系列文章,針對《Parallel Context Windows for Large Language Models》的翻譯。

大語言模型并行上下文窗口

  • 摘要
  • 1 引言
  • 2 并行上下文窗口
  • 3 上下文學(xué)習(xí)的PCW
  • 4 PCW用于QA
  • 5 相關(guān)工作
  • 6 結(jié)論和未來工作
  • 不足

摘要

當(dāng)應(yīng)用于處理長文本時(shí),大型語言模型(LLM)受到其上下文窗口的限制?,F(xiàn)有的解決這一限制的努力涉及訓(xùn)練專門的體系結(jié)構(gòu),并且不能很容易地應(yīng)用于現(xiàn)成的LLM。我們提出了并行上下文窗口(PCW),這是一種在沒有進(jìn)一步訓(xùn)練的情況下減輕任何現(xiàn)成LLM的上下文窗口限制的方法。該方法的關(guān)鍵是將長上下文分割成塊(“窗口”),將注意力機(jī)制限制為僅在每個窗口內(nèi)應(yīng)用,并在窗口之間重復(fù)使用位置嵌入。我們的主要結(jié)果測試了PCW方法在上下文學(xué)習(xí)中的應(yīng)用,模型的大小在7.5億到1780億個參數(shù)之間,并顯示出對具有不同輸入和輸出空間的任務(wù)的顯著改進(jìn)。我們在長上下文窗口可能有益的其他設(shè)置中展示了額外的好處:多跳問題和使用多個檢索到的文檔的檢索增強(qiáng)問答。我們的研究結(jié)果強(qiáng)調(diào),并行上下文窗口是一種很有前途的方法,可以在一系列需要長文本序列的設(shè)置中應(yīng)用現(xiàn)成的LLM。我們在https://github.com/ai21labs/parallel-context-windows.

1 引言

2 并行上下文窗口

3 上下文學(xué)習(xí)的PCW

4 PCW用于QA

5 相關(guān)工作

6 結(jié)論和未來工作

近年來,已經(jīng)提出了許多成功的方法,允許基于Transformer的語言模型在推理過程中利用大量文本,從而產(chǎn)生了各種專用的體系結(jié)構(gòu)。然而,與此同時(shí),具有“常規(guī)”(多達(dá)數(shù)千個token)上下文窗口大小的新模型的主流LLM生產(chǎn)線在擴(kuò)展、創(chuàng)新和數(shù)據(jù)更新方面進(jìn)展更快。
本文介紹了并行上下文窗口(PCW):一種簡單的方法,允許任何現(xiàn)成的LLM在推理過程中擴(kuò)大其可以訪問的文本范圍。我們展示了PCW在上下文學(xué)習(xí)框架中的有效性,其中訪問一個大B因子的上下文意味著從B倍的訓(xùn)練例子中學(xué)習(xí)。我們的結(jié)果表明,在一組廣泛的多類分類任務(wù)中,PCW比普通的單上下文窗口方法更有效地進(jìn)行上下文內(nèi)學(xué)習(xí),這表明PCW可以在具有不同輸入或輸出空間的任務(wù)中改進(jìn)上下文內(nèi)學(xué)習(xí)。我們還展示了將PCW應(yīng)用于多檢索文檔讀取的有希望的信號。
我們認(rèn)為未來工作的兩個關(guān)鍵方向特別有希望。首先,通過證明現(xiàn)成的LLM可以通過PCW處理大量的文本,我們的結(jié)果激勵了在其他環(huán)境中對PCW方法的進(jìn)一步研究,在這些環(huán)境中,希望將主流LLM應(yīng)用于長文本序列。其次,盡管我們的研究結(jié)果表明,PCW在沒有進(jìn)一步訓(xùn)練的情況下是有效的,但我們相信,對具有并行上下文窗口的LLM進(jìn)行進(jìn)一步(短期)訓(xùn)練可以進(jìn)一步增強(qiáng)這項(xiàng)工作中展示的能力。

不足

我們提出了并行上下文窗口(PCW),這是一種簡單的方法,可以減輕任何現(xiàn)成LLM的上下文窗口限制,而無需額外的訓(xùn)練。我們在各種模型和數(shù)據(jù)集上展示了這種方法的潛力。因此,我們的方法確實(shí)有一些局限性。
上下文窗口的數(shù)量是有限制的,并且需要預(yù)先確定。與普通上下文學(xué)習(xí)類似,必須事先選擇要包含在提示中的示例數(shù)量。對于PCW,還需要選擇上下文窗口的數(shù)量B。在本文中,大多數(shù)結(jié)果都是B=3。我們在附錄C中對B的選擇進(jìn)行了實(shí)驗(yàn)。結(jié)果取決于任務(wù),但在高水平上,我們發(fā)現(xiàn)B周圍的回報(bào)在5到7之間遞減。我們將進(jìn)一步研究如何有效地從未來工作的更多窗口中獲益。
并非對所有類型的任務(wù)都有效。如第3節(jié)所述,PCW在ICL中顯示了令人印象深刻的優(yōu)勢,用于多類任務(wù)分類和信息提取等任務(wù)。但是,對于某些任務(wù),PCW并不能提高性能。這可能表明某些任務(wù)不適合并行處理。第4.2節(jié)表明,PCW更適用于輸入文本可以劃分為幾個獨(dú)立輸入的情況,但長文本生成等任務(wù)是否會從PCW中受益仍然是一個懸而未決的問題。

http://www.risenshineclean.com/news/23132.html

相關(guān)文章:

  • icp 新聞網(wǎng)站長沙百度快速優(yōu)化
  • 裝修軟件app哪個最靠譜怎么做網(wǎng)站優(yōu)化
  • 自己做網(wǎng)站要服務(wù)器嗎企業(yè)網(wǎng)站優(yōu)化價(jià)格
  • 做獨(dú)立網(wǎng)站的好處網(wǎng)絡(luò)推廣最好的網(wǎng)站有哪些
  • 淄博網(wǎng)泰專業(yè)做網(wǎng)站網(wǎng)絡(luò)營銷圖片素材
  • 地圖定位網(wǎng)站開發(fā)網(wǎng)絡(luò)服務(wù)提供者
  • 建設(shè)網(wǎng)站設(shè)備預(yù)算如何制作網(wǎng)站二維碼
  • 東莞做網(wǎng)站哪個公司最好google chrome網(wǎng)頁版
  • 城鄉(xiāng)建設(shè)局和住監(jiān)局官網(wǎng)微博seo營銷
  • 新思維網(wǎng)站網(wǎng)站建設(shè)公司
  • 南寧模板建站多少錢臨沂seo
  • 南寧自助模板建站服務(wù)網(wǎng)站排名咨詢
  • 設(shè)計(jì)周關(guān)鍵詞優(yōu)化排名seo
  • asp網(wǎng)站鏈接access廣州seo關(guān)鍵詞優(yōu)化是什么
  • 怎么做58同城網(wǎng)站嗎app下載推廣平臺
  • 如何在百度做網(wǎng)站推廣疫情防控最新通告
  • 北京十大活動策劃公司哈爾濱seo優(yōu)化公司
  • 千圖網(wǎng)免費(fèi)素材圖庫海報(bào)網(wǎng)絡(luò)優(yōu)化工程師前景如何
  • 網(wǎng)站加載模式百度廣告太多
  • 最值錢的域名列表谷歌seo搜索引擎
  • 設(shè)計(jì)一個完整的靜態(tài)網(wǎng)站漣源網(wǎng)站seo
  • 建站科技公司免費(fèi)發(fā)廣告的軟件
  • 平面設(shè)計(jì)培訓(xùn)班價(jià)格百度seo公司報(bào)價(jià)
  • 幼兒園主題網(wǎng)絡(luò)圖設(shè)計(jì)ppt模板惠州seo優(yōu)化服務(wù)
  • wordpress中英文網(wǎng)站什么平臺推廣效果最好
  • 手機(jī)兼職的正規(guī)平臺有哪些如何優(yōu)化網(wǎng)站排名
  • 俄語網(wǎng)站建設(shè)學(xué)電商哪個培訓(xùn)學(xué)校好
  • 如何創(chuàng)立個人網(wǎng)站網(wǎng)站收錄怎么弄
  • 企業(yè)網(wǎng)站 wordpress網(wǎng)頁代碼模板
  • ps模板下載網(wǎng)站新網(wǎng)站秒收錄技術(shù)