中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

免費(fèi)素材庫(kù)短視頻素材網(wǎng)站互動(dòng)營(yíng)銷名詞解釋

免費(fèi)素材庫(kù)短視頻素材網(wǎng)站,互動(dòng)營(yíng)銷名詞解釋,html網(wǎng)站怎么做,網(wǎng)站建設(shè)企麻省理工學(xué)院和香港中文大學(xué)聯(lián)合發(fā)布了LongLoRA,這是一種全新的微調(diào)方法,可以增強(qiáng)大語(yǔ)言模型的上下文能力,而無(wú)需消耗大量算力資源。 通常,想增加大語(yǔ)言模型的上下文處理能力,需要更多的算力支持。例如,將…

麻省理工學(xué)院和香港中文大學(xué)聯(lián)合發(fā)布了LongLoRA,這是一種全新的微調(diào)方法,可以增強(qiáng)大語(yǔ)言模型的上下文能力,而無(wú)需消耗大量算力資源。

通常,想增加大語(yǔ)言模型的上下文處理能力,需要更多的算力支持。例如,將上下文長(zhǎng)度從2048擴(kuò)展至8192,需要多消耗16倍算力。

LongLoRA在開(kāi)源模型LLaMA2 7B/13B/70B上進(jìn)行了試驗(yàn),將上下文原始長(zhǎng)度擴(kuò)展至32K、64K、100K,所需要的算力資源卻很少。

開(kāi)源地址:https://github.com/dvlab-research/LongLoRA

論文地址:https://arxiv.org/abs/2309.12307

在這里插入圖片描述

LongLoRA的高效微調(diào)方法

根據(jù)LongLoRA的論文介紹,采用了兩大步驟完成了高效微調(diào)。第一,在訓(xùn)練期間使用一種更簡(jiǎn)單的注意力形式(聚焦于特定信息),開(kāi)發(fā)者稱之為轉(zhuǎn)變短注意力(S2-Attn)。

這種新的注意力方法有助于節(jié)省大量的計(jì)算能力,而且?guī)缀跖c常規(guī)的注意力方法一樣有效,在訓(xùn)練過(guò)程中發(fā)揮了重要作用。

在這里插入圖片描述

第二,重新挖掘了一種有效擴(kuò)大上下文(用于訓(xùn)練的信息量)的方法。開(kāi)發(fā)人員發(fā)現(xiàn),一種名為L(zhǎng)oRA的方法對(duì)此非常有效,尤其是當(dāng)與可訓(xùn)練的嵌入和規(guī)范化一起使用時(shí)。

LongLoRA在各種任務(wù)上都顯示出了優(yōu)異的結(jié)果,可以與不同大小的LLMs一起使用。它可以將用于訓(xùn)練的數(shù)據(jù)量從4k增加到100k,對(duì)于另一個(gè)模型,可以增加到32k,所有這些都在一臺(tái)強(qiáng)大的計(jì)算機(jī)機(jī)器上完成。此外,它與其他現(xiàn)有技術(shù)兼容性很強(qiáng),并不會(huì)改變?cè)寄P驮O(shè)計(jì)架構(gòu)。

在這里插入圖片描述

此外,為了讓 LongLoRA 更加實(shí)用、高效,開(kāi)發(fā)者還整理了一個(gè)名為 LongQA 的數(shù)據(jù)集,其中包含 3000 多對(duì)用于訓(xùn)練的問(wèn)題和答案。這使得 LongLoRA 還能有效改進(jìn)大語(yǔ)言模型的輸出能力。

在這里插入圖片描述

研究發(fā)現(xiàn)

該研究評(píng)估了Proof-pile 和 PG19數(shù)據(jù)集上的不同模型。研究發(fā)現(xiàn),在訓(xùn)練過(guò)程中,隨著上下文大小的增加,模型的表現(xiàn)更好,顯示了其微調(diào)方法的有效性。

簡(jiǎn)單來(lái)說(shuō),使用更多信息進(jìn)行訓(xùn)練,將會(huì)帶來(lái)更好的結(jié)果。例如,當(dāng)上下文窗口大小從 8192 增加到 32768 時(shí),一個(gè)模型的困惑度性能從 2.72 提高到 2.50。

該研究還探討了這些模型可以在一臺(tái)機(jī)器上處理多少上下文。開(kāi)發(fā)人員擴(kuò)展了模型以處理極長(zhǎng)的上下文,并發(fā)現(xiàn)模型仍然表現(xiàn)良好,盡管上下文尺寸較小時(shí)性能有所下降。
在這里插入圖片描述

除了語(yǔ)言建模之外,該研究還測(cè)試了其他任務(wù),包括在很長(zhǎng)的對(duì)話中找到特定的主題。開(kāi)發(fā)人員的模型在這項(xiàng)任務(wù)中的表現(xiàn)與最先進(jìn)的模型類似,甚至在某些情況下表現(xiàn)得更好。值得一提的是,與競(jìng)爭(zhēng)對(duì)手相比,開(kāi)發(fā)人員的模型能夠更有效地適應(yīng)開(kāi)源數(shù)據(jù)。

LongLoRA表明,大模型能夠處理的信息越多,理解語(yǔ)言的能力就越強(qiáng)。并且它不僅擅長(zhǎng)處理長(zhǎng)文本,而且LongLoRA也非常擅長(zhǎng)在長(zhǎng)對(duì)話中找到特定的主題。這表明它可以處理現(xiàn)實(shí)世界中復(fù)雜而混亂的任務(wù)。

但因?yàn)榧哟罅松舷挛拇翱?#xff0c;所以LongLoRA在處理較短的文本片段時(shí)會(huì)有一些問(wèn)題,這個(gè)問(wèn)題作者還沒(méi)有找到原因。

在這里插入圖片描述

總體來(lái)說(shuō),LongLoRA 在大型語(yǔ)言模型領(lǐng)域提出了創(chuàng)新方法,在處理大量信息時(shí),也可以更輕松、更高效地微調(diào)這些模型,而必須消耗更多的算力資源。

本文素材來(lái)源LongLoRA論文,如有侵權(quán)請(qǐng)聯(lián)系刪除

http://www.risenshineclean.com/news/58508.html

相關(guān)文章:

  • 接網(wǎng)站開(kāi)發(fā)的公司電話線上推廣是做什么的
  • 南寧企業(yè)網(wǎng)站建設(shè)包頭整站優(yōu)化
  • 網(wǎng)站建設(shè)上機(jī)考試怎么找一手app推廣代理
  • 網(wǎng)頁(yè)與網(wǎng)站設(shè)計(jì)什么是整體造型如何檢測(cè)網(wǎng)站是否安全
  • 做網(wǎng)站的目的什么網(wǎng)站可以發(fā)布廣告
  • 成都三合一網(wǎng)站建設(shè)蘇州網(wǎng)絡(luò)公司
  • 做網(wǎng)站用的什么服務(wù)器優(yōu)秀企業(yè)網(wǎng)站模板
  • github 可以做網(wǎng)站嗎如何創(chuàng)建網(wǎng)站教程
  • 佛山免費(fèi)網(wǎng)站制作百度排名點(diǎn)擊器
  • 國(guó)外做機(jī)械設(shè)計(jì)任務(wù)的網(wǎng)站求職seo
  • 個(gè)人網(wǎng)站可以做資訊嗎?網(wǎng)絡(luò)推廣課程培訓(xùn)
  • 潁州網(wǎng)站建設(shè)最近新聞?wù)?/a>
  • 優(yōu)惠購(gòu)網(wǎng)站怎么做的青島網(wǎng)站建設(shè)與設(shè)計(jì)制作
  • 佛山做公司網(wǎng)站地推項(xiàng)目平臺(tái)
  • 做動(dòng)態(tài)文字的網(wǎng)站杭州網(wǎng)站定制
  • 做網(wǎng)站建設(shè)的公司有哪些方面建設(shè)網(wǎng)站公司
  • 教育網(wǎng)站如何做seo網(wǎng)絡(luò)運(yùn)營(yíng)團(tuán)隊(duì)
  • 域名怎樣連接到網(wǎng)站外貿(mào)推廣哪個(gè)公司好
  • 網(wǎng)站地圖制作怎么做?360網(wǎng)站排名優(yōu)化
  • 電影網(wǎng)站做seo愛(ài)站關(guān)鍵詞
  • 網(wǎng)站seo設(shè)計(jì)百度手機(jī)助手app
  • 做網(wǎng)站的術(shù)語(yǔ)域名注冊(cè)平臺(tái)哪個(gè)好
  • 一個(gè)大佬做的本子網(wǎng)站專業(yè)seo站長(zhǎng)工具
  • 做搞機(jī)網(wǎng)站廣告公司經(jīng)營(yíng)范圍
  • 怎么做批量的網(wǎng)站檢查網(wǎng)頁(yè)設(shè)計(jì)制作網(wǎng)站教程
  • 深圳定制西裝哪家好seo優(yōu)化網(wǎng)站模板
  • 中文網(wǎng)站模板免費(fèi)下載域名??烤W(wǎng)頁(yè)推廣大全2021
  • 包裝設(shè)計(jì)網(wǎng)站排行榜十大接單推廣平臺(tái)
  • 微商城 微網(wǎng)站制作360應(yīng)用商店
  • 新河網(wǎng)招聘信息seo積分優(yōu)化