中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

中衛(wèi)市網(wǎng)站開發(fā)制作網(wǎng)址域名大全

中衛(wèi)市網(wǎng)站開發(fā)制作,網(wǎng)址域名大全,wordpress指定分類不顯示圖片,佛山做網(wǎng)站3lue文本嵌入是各項(xiàng)NLP任務(wù)的基礎(chǔ),用于將自然語言轉(zhuǎn)換為向量表示?,F(xiàn)有的大部分方法通常采用復(fù)雜的多階段訓(xùn)練流程,先在大規(guī)模數(shù)據(jù)上訓(xùn)練,再在小規(guī)模標(biāo)注數(shù)據(jù)上微調(diào)。此過程依賴于手動(dòng)收集數(shù)據(jù)制作正負(fù)樣本對(duì),缺乏任務(wù)的多樣性和語言多…

文本嵌入是各項(xiàng)NLP任務(wù)的基礎(chǔ),用于將自然語言轉(zhuǎn)換為向量表示。現(xiàn)有的大部分方法通常采用復(fù)雜的多階段訓(xùn)練流程,先在大規(guī)模數(shù)據(jù)上訓(xùn)練,再在小規(guī)模標(biāo)注數(shù)據(jù)上微調(diào)。此過程依賴于手動(dòng)收集數(shù)據(jù)制作正負(fù)樣本對(duì),缺乏任務(wù)的多樣性和語言多樣性。

此外,大部分方法采用BERT作為編碼器,如非常經(jīng)典的Sentence-BERT和SimCSE通過在推理數(shù)據(jù)集上對(duì)BERT進(jìn)行微調(diào)學(xué)習(xí)文本嵌入。

但現(xiàn)在LLMs技術(shù)發(fā)展得如火如荼,能否用LLMs來克服現(xiàn)有方法的限制,升級(jí)文本嵌入方法呢?

當(dāng)然可以!

最近,微軟發(fā)布了一種新穎的文本嵌入方法,使用專有的LLMs為93種語言中各種文本嵌入任務(wù)生成合成數(shù)據(jù),并且涉及了多個(gè)任務(wù)場(chǎng)景。

微軟使用了Mistral-7B對(duì)合成數(shù)據(jù)和標(biāo)記數(shù)據(jù)進(jìn)行混合訓(xùn)練,**成功登頂Huggingface排行榜,比之前的方法高2%**。

圖片

論文標(biāo)題:
Improving Text Embeddings with Large Language Models

論文鏈接:
https://arxiv.org/pdf/2401.00368.pdf

模型:
https://huggingface.co/intfloat/e5-mistral-7b-instruct

數(shù)據(jù)
https://huggingface.co/datasets/andersonbcdefg/synthetic_retrieval_tasks

方法

合成數(shù)據(jù)生成

作者使用GPT-4集思廣益產(chǎn)生一系列潛在的檢索任務(wù),然后為每個(gè)任務(wù)生成(查詢,正例,困難反例)三元組,如下圖所示。

圖片

為了生成多樣化的合成數(shù)據(jù),作者提出了一個(gè)簡(jiǎn)單的分類法,將嵌入任務(wù)分為幾個(gè)組,并針對(duì)每個(gè)組應(yīng)用不同的提示模板:

非對(duì)稱任務(wù):包括查詢和文檔在語義上相關(guān)但并不是互相改寫的任務(wù)。根據(jù)查詢和文檔的長(zhǎng)度,進(jìn)一步分為四個(gè)子組:短-長(zhǎng)匹配、長(zhǎng)-短匹配、短-短匹配和長(zhǎng)-長(zhǎng)匹配。短-長(zhǎng)匹配任務(wù)涉及短查詢和長(zhǎng)文檔,是商業(yè)搜索引擎中的典型情況。

對(duì)稱任務(wù):涉及具有相似語義但表面形式不同的查詢和文檔。包括單語語義文本相似性(STS)和雙語檢索。

訓(xùn)練

給定一個(gè)相關(guān)的查詢-文檔配對(duì)(,),將以下指令模板應(yīng)用于原始查詢,生成一個(gè)新的查詢?:

其中,嵌入任務(wù)的一句話描述的占位符。

給定一個(gè)預(yù)訓(xùn)練的LLM,將[EOS]標(biāo)記附加到查詢和文檔的末尾,然后將它們輸入LLM,通過獲取最后一層的[EOS]向量來獲得查詢和文檔的嵌入()。

為了訓(xùn)練嵌入模型,采用了標(biāo)準(zhǔn)的InfoNCE損失函數(shù)L,使用批內(nèi)負(fù)樣本和困難負(fù)樣本進(jìn)行計(jì)算。

圖片

其中計(jì)算查詢q和文檔d之間匹配分?jǐn)?shù)的函數(shù),本文采用溫度縮放余弦相似度函數(shù),是溫度超參,在本實(shí)驗(yàn)中設(shè)為0.02。

圖片

實(shí)驗(yàn)

合成數(shù)據(jù)統(tǒng)計(jì)

本文一共生成了500k個(gè)示例,其中包含150k個(gè)獨(dú)特指令。25%由GPT-3.5-Turbo生成,其余由GPT-4生成??偟膖oken消耗約為180M。主要語言為英語,覆蓋了共計(jì)93種語言。對(duì)于75種低資源語言,平均每種語言約有1k個(gè)示例。

圖片

模型微調(diào)與評(píng)估

模型選用Mistral-7b進(jìn)行1個(gè)epoch微調(diào),評(píng)估基準(zhǔn)選用MTEB基準(zhǔn)測(cè)試。

訓(xùn)練數(shù)據(jù):利用生成的合成數(shù)據(jù)和包含13個(gè)公共數(shù)據(jù)集的集合, 在采樣后得到約180萬個(gè)樣例。為了與一些先前的工作進(jìn)行公平比較,還報(bào)告了僅有標(biāo)簽監(jiān)督的MS-MARCO數(shù)據(jù)集的結(jié)果。

主要結(jié)果

圖片

▲表1

如上表所示,本文提出的模型“E5mistral-7b + full data”在MTEB基準(zhǔn)測(cè)試中獲得了最高的平均得分,比之前的最先進(jìn)模型高出2.4個(gè)點(diǎn)。

在“僅使用合成數(shù)據(jù)”的設(shè)置中,沒有使用標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,其性能仍然相當(dāng)有競(jìng)爭(zhēng)力。生成式語言建模和文本嵌入都需要模型對(duì)自然語言有深刻的理解,?;谇度肴蝿?wù)定義,一種真正強(qiáng)大的輕量級(jí)模型應(yīng)該能夠自動(dòng)生成訓(xùn)練數(shù)據(jù),然后通過輕量級(jí)微調(diào)轉(zhuǎn)換為嵌入模型。

圖片

▲表2

在表2中,作者還對(duì)幾個(gè)商業(yè)文本嵌入模型進(jìn)行了比較。然而,由于這些模型缺乏透明度和文檔說明,不可能做到完全公平的比較。作者主要關(guān)注BEIR基準(zhǔn)測(cè)試的檢索性能,因?yàn)镽AG是未來LLMs應(yīng)用的重要趨勢(shì)之一。正如表2所示,本文的模型在性能上明顯優(yōu)于當(dāng)前的商業(yè)模型。

多語言檢索

為了評(píng)估模型的多語言能力,作者在包含18種語言的MIRACL數(shù)據(jù)集上進(jìn)行了評(píng)估。該數(shù)據(jù)集包括人工注釋的查詢和相關(guān)性判斷。

圖片

▲表3

如表3所示,該模型在高資源語言特別是英語上超過mE5large。對(duì)于低資源語言,本文的模型仍然不夠優(yōu)秀。這是因?yàn)镸istral-7B主要預(yù)訓(xùn)練于英語數(shù)據(jù),未來將可以使用多語言LLM彌合這一差距。

除此之外,作者還探討分析了幾個(gè)問題。

分析

1. 對(duì)比預(yù)訓(xùn)練真的重要嗎?

弱監(jiān)督對(duì)比性預(yù)訓(xùn)練是現(xiàn)有文本嵌入模型取得成功的關(guān)鍵因素之一。例如,將隨機(jī)裁剪的片段作為預(yù)訓(xùn)練的正樣本對(duì)待,或者從各種來源收集并篩選文本對(duì)。

那么對(duì)于LLMs而言,對(duì)比預(yù)訓(xùn)練還有用嗎?

圖片

如上圖所示,對(duì)比預(yù)訓(xùn)練有益于XLM-Rlarge,在相同數(shù)據(jù)上微調(diào)時(shí),其檢索性能提高了8.2個(gè)點(diǎn),與之前的研究結(jié)果一致。

然而,對(duì)于基于Mistral-7B的模型,對(duì)比預(yù)訓(xùn)練對(duì)模型質(zhì)量幾乎沒有影響。這意味著廣泛的自回歸預(yù)訓(xùn)練使LLMs能夠獲取良好的文本表示,只需要進(jìn)行最少限度的微調(diào)即可將其轉(zhuǎn)化為有效的嵌入模型,而無需對(duì)比預(yù)訓(xùn)練。

個(gè)性化密碼檢索

為了評(píng)估模型的長(zhǎng)上下文能力,作者引入了一項(xiàng)新的合成任務(wù)——個(gè)性化密碼檢索,如下圖所示,包含多個(gè)文件,每個(gè)文件都有一個(gè)獨(dú)特的人名和一個(gè)隨機(jī)的密碼,插入在隨機(jī)的位置。任務(wù)是從100個(gè)候選項(xiàng)中找回包含給定個(gè)人密碼的文件。通過這個(gè)過程測(cè)試模型將長(zhǎng)上下文中的密碼信息編碼到嵌入中的能力。

圖片

作者通過改變滑動(dòng)窗口大小和RoPE旋轉(zhuǎn)基,比較了不同變體的性能。

圖片

  • 結(jié)果表明,默認(rèn)配置下,使用4k滑動(dòng)窗口在4k個(gè)token內(nèi)達(dá)到了100%的準(zhǔn)確率,但隨著上下文長(zhǎng)度的增加,準(zhǔn)確率迅速下降。

  • 將滑動(dòng)窗口大小天真地?cái)U(kuò)展到32k會(huì)導(dǎo)致更差的性能。

  • 通過將RoPE旋轉(zhuǎn)基準(zhǔn)更改為,模型可以在32k個(gè)標(biāo)記內(nèi)實(shí)現(xiàn)超過90%的準(zhǔn)確率。但在短上下文不太適用。

結(jié)論

這篇工作證明了通過LLMs技術(shù),文本嵌入的質(zhì)量可以得到顯著提升。?研究人員使用了專有的LLMs(如GPT-4),在多種語言環(huán)境下生成了多樣化的合成數(shù)據(jù),并結(jié)合Mistral模型強(qiáng)大的語言理解能力,在競(jìng)爭(zhēng)激烈的MTEB基準(zhǔn)測(cè)試中取得了SOTA。與現(xiàn)有的多階段方法相比,既簡(jiǎn)單又高效,不再需要中間預(yù)訓(xùn)練的環(huán)節(jié)。

用網(wǎng)友的話說就是“Amazing Amazing Amazing!”,省去了人工采集數(shù)據(jù)的繁瑣步驟,每個(gè)人都可以輕松地生成自己的數(shù)據(jù)集,并訓(xùn)練強(qiáng)大的嵌入模型。?語義檢索模型不給力導(dǎo)致生成模型性能受影響的局面,總算有希望翻篇兒了!

http://www.risenshineclean.com/news/39095.html

相關(guān)文章:

  • 網(wǎng)站上傳照片失敗東莞seo外包公司哪家好
  • 網(wǎng)站版權(quán)文字seo排名賺app最新版本
  • 做設(shè)計(jì)一般用的素材網(wǎng)站是什么長(zhǎng)沙百度搜索排名
  • 蘇州建設(shè)培訓(xùn)中心網(wǎng)站國(guó)際形勢(shì)最新消息
  • 地稅網(wǎng)站如何做稅種確認(rèn)長(zhǎng)沙百家號(hào)seo
  • webydo生成的網(wǎng)站能下載代碼嗎網(wǎng)站權(quán)重是什么意思
  • 電子商務(wù)網(wǎng)頁設(shè)計(jì)論文搜索引擎優(yōu)化seo網(wǎng)站
  • 如何做網(wǎng)站網(wǎng)頁焊工培訓(xùn)心得體會(huì)
  • wordpress信用卡收款百度seo標(biāo)題優(yōu)化軟件
  • 哪些企業(yè)需要網(wǎng)站建設(shè)的seo站長(zhǎng)網(wǎng)怎么下載
  • 代理注冊(cè)公司怎么樣成都抖音seo
  • dw網(wǎng)站制作廊坊百度快照優(yōu)化排名
  • 使用三劍客做網(wǎng)站柳州網(wǎng)站建設(shè)哪里有
  • 做鋼絲繩外貿(mào)的網(wǎng)站免費(fèi)拓客軟件哪個(gè)好用
  • 個(gè)人可以做慈善網(wǎng)站嗎關(guān)聯(lián)詞有哪些關(guān)系
  • 知名網(wǎng)站建設(shè)企業(yè)nba湖人最新新聞
  • 網(wǎng)站設(shè)計(jì) 韓國(guó)關(guān)鍵詞排名優(yōu)化公司哪家好
  • 網(wǎng)站建設(shè)公司怎么盈利高明公司搜索seo
  • 做介紹美食網(wǎng)站的菜單的傳媒網(wǎng)站
  • 阿里云做電影網(wǎng)站嗎常用的關(guān)鍵詞挖掘工具
  • 郴州seo排名搜外網(wǎng) seo教程
  • 網(wǎng)站空間500m是什么百度 指數(shù)
  • 如何申請(qǐng)免費(fèi)的網(wǎng)站空間優(yōu)化營(yíng)商環(huán)境的意義
  • 重慶做網(wǎng)站公司有哪些產(chǎn)品推廣方案怎么寫
  • 北京南昌企業(yè)網(wǎng)站制作創(chuàng)建網(wǎng)站需要什么條件
  • 上海網(wǎng)站推廣服務(wù)公司網(wǎng)絡(luò)推廣電話銷售技巧和話術(shù)
  • 個(gè)人網(wǎng)站的色彩設(shè)計(jì)怎么做香港服務(wù)器
  • 手機(jī)端企業(yè)網(wǎng)站模板新聞稿范文300字
  • 江蘇省建設(shè)廳網(wǎng)站建造師欄網(wǎng)絡(luò)推廣圖片
  • 網(wǎng)頁設(shè)計(jì)與制作視頻seo網(wǎng)絡(luò)推廣優(yōu)勢(shì)