中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

免費(fèi)建站網(wǎng)站網(wǎng)站開發(fā)需要的技術(shù)

免費(fèi)建站網(wǎng)站,網(wǎng)站開發(fā)需要的技術(shù),速遞物流系網(wǎng)站建設(shè)與維護(hù),河南省建設(shè)廳人員名單一. embedding 簡單來說,embedding就是用一個(gè)低維的向量表示一個(gè)物體,可以是一個(gè)詞,或是一個(gè)商品,或是一個(gè)電影等等。這個(gè)embedding向量的性質(zhì)是能使距離相近的向量對(duì)應(yīng)的物體有相近的含義,比如 Embedding(復(fù)仇者聯(lián)盟)…

一.?embedding

????????簡單來說,embedding就是用一個(gè)低維的向量表示一個(gè)物體,可以是一個(gè)詞,或是一個(gè)商品,或是一個(gè)電影等等。這個(gè)embedding向量的性質(zhì)是能使距離相近的向量對(duì)應(yīng)的物體有相近的含義,比如 Embedding(復(fù)仇者聯(lián)盟)和Embedding(鋼鐵俠)之間的距離就會(huì)很接近,但 Embedding(復(fù)仇者聯(lián)盟)和Embedding(亂世佳人)的距離就會(huì)遠(yuǎn)一些?! ?br /> ????????除此之外Embedding甚至還具有數(shù)學(xué)運(yùn)算的關(guān)系,比如Embedding(馬德里)-Embedding(西班牙)+Embedding(法國)≈Embedding(巴黎)
  從另外一個(gè)空間表達(dá)物體,甚至揭示了物體間的潛在關(guān)系,上次體會(huì)這樣神奇的操作還是在學(xué)習(xí)傅里葉變換的時(shí)候,從某種意義上來說,Embedding方法甚至具備了一些本體論的哲學(xué)意義。

Embedding在大模型中的價(jià)值

前面說的其實(shí)都是Embedding在之前的價(jià)值。但是,大語言模型時(shí)代,例如ChatGPT這樣的模型流行之后,大家發(fā)現(xiàn)embedding有了新的價(jià)值,即解決大模型的輸入限制。

此前,OpenAI官方也發(fā)布了一個(gè)案例,即如何使用embedding來解決長文本輸入問題,我們DataLearner官方博客也介紹了這個(gè)教程:OpenAI官方教程:如何使用基于embeddings檢索來解決GPT無法處理長文本和最新數(shù)據(jù)的問題 | 數(shù)據(jù)學(xué)習(xí)者官方網(wǎng)站(Datalearner)

像 GPT-3 這樣的語言模型有一個(gè)限制,即它們可以處理的輸入文本量有限。這個(gè)限制通常在幾千到數(shù)萬個(gè)tokens之間,具體取決于模型架構(gòu)和可用的硬件資源。

這意味著對(duì)于更長的文本,例如整本書或長文章,可能無法一次將所有文本輸入到語言模型中。在這種情況下,文本必須被分成較小的塊或“片段”,可以由語言模型單獨(dú)處理。但是,這種分段可能會(huì)導(dǎo)致輸出的上下文連貫性和整體連貫性問題,從而降低生成文本的質(zhì)量。

這就是Embedding的重要性所在。通過將單詞和短語表示為高維向量,Embedding允許語言模型以緊湊高效的方式編碼輸入文本的上下文信息。然后,模型可以使用這些上下文信息來生成更連貫和上下文適當(dāng)?shù)妮敵鑫谋?#xff0c;即使輸入文本被分成多個(gè)片段。

此外,可以在大量文本數(shù)據(jù)上預(yù)訓(xùn)練Embedding,然后在小型數(shù)據(jù)集上進(jìn)行微調(diào),這有助于提高語言模型在各種自然語言處理應(yīng)用程序中的準(zhǔn)確性和效率。

如何基于Embedding讓大模型解決長文本(如PDF)的輸入問題?

這里我們給一個(gè)案例來說明如何用Embedding來讓ChatGPT回答超長文本中的問題。

如前所述,大多數(shù)大語言模型都無法處理過長的文本。除非是GPT-4-32K,否則大多數(shù)模型如ChatGPT的輸入都很有限。假設(shè)此時(shí)你有一個(gè)很長的PDF,那么,你該如何讓大模型“讀懂”這個(gè)PDF呢?

首先,你可以基于這個(gè)PDF來創(chuàng)建向量embedding,并在數(shù)據(jù)庫中存儲(chǔ)(當(dāng)前已經(jīng)有一些很不錯(cuò)的向量數(shù)據(jù)庫了,如Pinecone)。

接下來,假設(shè)你想問個(gè)問題“這個(gè)文檔中關(guān)于xxx是如何討論的?”。那么,此時(shí)你有2個(gè)向量embedding了,一個(gè)是你的問題embedding,一個(gè)是之前PDF的embedding。此時(shí),你應(yīng)該基于你的問題embedding,去向量數(shù)據(jù)庫中搜索PDF中與問題embedding最相似的embedding。然后,把你的問題embedding和檢索的得到的最相似的embedding一起給ChatGPT,然后讓ChatGPT來回答。

當(dāng)然,你也可以針對(duì)問題和檢索得到的embedding做一些提示工程,來優(yōu)化ChatGPT的回答。

二、大模型

機(jī)器學(xué)習(xí)基礎(chǔ)
? 學(xué)習(xí)所用的數(shù)據(jù) 分類
? 監(jiān)督學(xué)習(xí) :無需標(biāo)注的數(shù)據(jù)即可學(xué)習(xí),通常用于聚類(一堆點(diǎn),如何分為 N 類)
? 監(jiān)督學(xué)習(xí) :利用標(biāo)注過的數(shù)據(jù),如:已知 N 套房子的大小和價(jià)格(大部分都是如此)
? 半監(jiān)督學(xué)習(xí) :少量標(biāo)注過的數(shù)據(jù),大部分是未標(biāo)注數(shù)據(jù)
? 自監(jiān)督學(xué)習(xí):從未標(biāo)注數(shù)據(jù)中,自行挖掘出可用于監(jiān)督的數(shù)據(jù)( ChatGPT 的做法)
? 強(qiáng)化學(xué)習(xí) :通過正向或負(fù)向反饋來學(xué)習(xí)調(diào)整
? 要達(dá)成的效果 分類
? 聚類:預(yù)先不知道要分成幾類,距離相近的自動(dòng)成為一類
? 分類:從若干類別中識(shí)別出所屬的特定類別
? 回歸:通過已知值,給出預(yù)測值(如例子中的房價(jià)預(yù)測)
? 翻譯:從一種形式,轉(zhuǎn)換為另一種形式
? 生成:根據(jù)概率分布,生成與原始數(shù)據(jù)類似的新數(shù)據(jù)
? 具體 算法
? 線性回歸
? 貝葉斯
? SVM
? 決策樹
? 隨機(jī)森林
? 神經(jīng)網(wǎng)絡(luò) :深度神經(jīng)網(wǎng)絡(luò)就是深度學(xué)習(xí),也是當(dāng)前一切 AI 的基礎(chǔ)
? 何為深度:至少應(yīng)有兩個(gè)隱藏層
深度學(xué)習(xí)

通過構(gòu)建和訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)和提取數(shù)據(jù)中的特征,從而實(shí)現(xiàn)高度自動(dòng)化和準(zhǔn)確性能的模型訓(xùn)練和預(yù)測。

深度學(xué)習(xí)和大模型:?大模型技術(shù)通常與深度學(xué)習(xí)相結(jié)合,因?yàn)樯疃葘W(xué)習(xí)網(wǎng)絡(luò)通常具有大量的參數(shù)和復(fù)雜的結(jié)構(gòu)。大模型技術(shù)通過增加模型的規(guī)模和容量,例如增加網(wǎng)絡(luò)層數(shù)、神經(jīng)元的數(shù)量或卷積核的大小,以增強(qiáng)模型的表達(dá)能力和學(xué)習(xí)性能。大模型技術(shù)還包括優(yōu)化算法和訓(xùn)練策略,以有效地訓(xùn)練和優(yōu)化這些龐大的深度學(xué)習(xí)模型。

大模型概念
  1. 預(yù)訓(xùn)練是指在大規(guī)模的未標(biāo)記數(shù)據(jù)上進(jìn)行的初始化模型訓(xùn)練階段。模型通過對(duì)大量的文本數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),學(xué)習(xí)到語言的各種結(jié)構(gòu)和表達(dá)方式。預(yù)訓(xùn)練的目標(biāo)是讓模型能夠在下游任務(wù)中具有更好的理解和表達(dá)能力。預(yù)訓(xùn)練通常是通過自編碼器或掩碼語言建模的方式進(jìn)行,其中模型要根據(jù)上下文預(yù)測缺失的詞或片段。

  2. 微調(diào):
    微調(diào)是在預(yù)訓(xùn)練完成后,將預(yù)訓(xùn)練模型應(yīng)用于特定任務(wù)并進(jìn)行有監(jiān)督的訓(xùn)練的過程。在微調(diào)階段,模型使用標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行進(jìn)一步的訓(xùn)練,以適應(yīng)特定任務(wù)的要求。微調(diào)以較低的學(xué)習(xí)率進(jìn)行,以避免過度調(diào)整預(yù)訓(xùn)練模型的參數(shù),從而保留預(yù)訓(xùn)練模型所學(xué)到的知識(shí)。通常,微調(diào)的數(shù)據(jù)集規(guī)模相對(duì)較小,因此可以使用更少的計(jì)算資源和時(shí)間來完成。

  3. 語料:
    語料是指用于模型訓(xùn)練的文本數(shù)據(jù)集。對(duì)于預(yù)訓(xùn)練大模型來說,用于預(yù)訓(xùn)練的語料庫通常是非常龐大的,例如大規(guī)模的網(wǎng)頁文本、維基百科、書籍、新聞等。預(yù)訓(xùn)練模型需要處理大量的語料來學(xué)習(xí)普遍的語言知識(shí)。對(duì)于微調(diào)階段,語料可以是特定任務(wù)的標(biāo)記訓(xùn)練集。

預(yù)訓(xùn)練、微調(diào)和語料是在大型NLP模型中實(shí)現(xiàn)強(qiáng)大性能的重要因素。通過預(yù)訓(xùn)練技術(shù),模型可以從大量無監(jiān)督的數(shù)據(jù)中學(xué)習(xí)語言特征,從而提高模型的泛化能力。通過微調(diào)過程,模型可以將預(yù)訓(xùn)練知識(shí)轉(zhuǎn)移到特定任務(wù)中,并根據(jù)特定任務(wù)的訓(xùn)練數(shù)據(jù)進(jìn)行細(xì)化調(diào)整。同時(shí),使用多樣化且廣泛的語料庫可以提高模型對(duì)不同領(lǐng)域和上下文的理解能力。

需要注意的是,預(yù)訓(xùn)練和微調(diào)的過程是基于大量的計(jì)算資源和大規(guī)模的數(shù)據(jù)集進(jìn)行的。這也導(dǎo)致了建立和訓(xùn)練大型模型的門檻相對(duì)較高,并且模型可能帶來較大的計(jì)算和存儲(chǔ)要求。

三、LangChain

參考:什么是LangChain - 知乎

LangChain是一個(gè)開源框架,允許從事人工智能的開發(fā)者將例如GPT-4的大語言模型與外部計(jì)算和數(shù)據(jù)來源結(jié)合起來。該框架目前以Python或JavaScript包的形式提供。

假設(shè),你想從你自己的數(shù)據(jù)、文件中具體了解一些情況(可以是一本書、一個(gè)pdf文件、一個(gè)包含專有信息的數(shù)據(jù)庫)。LangChain可以將GPT-4和這些外部數(shù)據(jù)連接起來,甚至可以讓LangChain幫助你采取你想采取的行動(dòng),例如發(fā)一封郵件。

三個(gè)重要概念:

  • Components

-LLM Wrapper:包裝器,允許我們連接到大語言模型,例如GPT-4或HuggingFace的模型。

-Prompt Templates:提示模板,使我們不必對(duì)文本進(jìn)行硬編碼,而文本是LLM的輸入。

-Indexes for relevant information retrieval:相關(guān)內(nèi)容的索引,允許我們?yōu)長LM提取相關(guān)信息。

  • Chains

允許我們將多個(gè)組件組合在一起,以解決一個(gè)特定的任務(wù),并建立一個(gè)完整的LLM應(yīng)用程序。

  • Agents

允許LLM與外部API互動(dòng)。

二、 原理

將你的文件切成小塊,把這些小塊存儲(chǔ)在一個(gè)矢量數(shù)據(jù)庫中,這些塊被存儲(chǔ)為embedding,意味著它們是文本的矢量表示。

pipeline執(zhí)行流程:

>>一個(gè)用戶提出了初始問題。

>>然后,這個(gè)問題被發(fā)送到大語言模型,并將該問題的向量表示在向量數(shù)據(jù)庫中做相似性搜索。

>>獲取相關(guān)的信息塊,將其反饋給大語言模型。

>>大語言模型通過初始問題和來自矢量數(shù)據(jù)庫的相關(guān)信息,提供一個(gè)答案或采取一個(gè)行動(dòng)。

http://www.risenshineclean.com/news/1150.html

相關(guān)文章:

  • 制作百度移動(dòng)網(wǎng)站每日一則新聞?wù)?/a>
  • 慈利做網(wǎng)站在哪里sem和seo有什么區(qū)別
  • 微信手機(jī)網(wǎng)站開發(fā)外貿(mào)網(wǎng)站外鏈平臺(tái)
  • 蘋果電腦做網(wǎng)站的步驟seo課程培訓(xùn)中心
  • 手機(jī)移動(dòng)網(wǎng)絡(luò)限制網(wǎng)站武漢電腦培訓(xùn)學(xué)校有哪些
  • 鄉(xiāng)鎮(zhèn)網(wǎng)站建設(shè)工作計(jì)劃國際新聞最新消息
  • wordpress mysql 配置關(guān)鍵詞優(yōu)化難度查詢
  • share poine 戶做網(wǎng)站百度網(wǎng)址大全 舊版本
  • 自己怎么做個(gè)網(wǎng)站數(shù)據(jù)分析方法
  • 成都網(wǎng)站建設(shè)公司官網(wǎng)服務(wù)營銷策劃方案
  • 長沙建網(wǎng)站的公司多少錢優(yōu)化網(wǎng)站關(guān)鍵詞優(yōu)化
  • 聯(lián)系我們網(wǎng)頁設(shè)計(jì)圖片百度seo推廣方案
  • wordpress 無法上傳文件外匯seo公司
  • 溫州外貿(mào)網(wǎng)站建設(shè)seo數(shù)據(jù)分析哪些方面
  • 校園網(wǎng)站設(shè)計(jì)與實(shí)現(xiàn)優(yōu)化seo深圳
  • 自己做的電商網(wǎng)站要多少錢如何制作網(wǎng)頁鏈接
  • 醫(yī)院網(wǎng)站HTML5辦公軟件速成培訓(xùn)班
  • 高端網(wǎng)站seo搜索引擎招聘
  • 網(wǎng)站編輯器失效無錫百度推廣開戶
  • 網(wǎng)站注冊頁面跳出怎么做移動(dòng)廣告平臺(tái)
  • 百度站長查詢工具網(wǎng)站制作建設(shè)
  • 重慶奉節(jié)網(wǎng)站建設(shè)公司哪家好適合推廣的app有哪些
  • wordpress隨機(jī)彈窗插件網(wǎng)站seo站群軟件
  • 辦公室裝修設(shè)計(jì)圖片信息流優(yōu)化師簡歷怎么寫
  • 網(wǎng)站沒有域名設(shè)置嗎騰訊會(huì)議開始收費(fèi)
  • kotlin做網(wǎng)站谷歌瀏覽器下載手機(jī)版
  • dede做購物網(wǎng)站發(fā)帖推廣平臺(tái)
  • 百度官網(wǎng)網(wǎng)站登錄seo公司推廣宣傳
  • WordPress文字水印寧波優(yōu)化系統(tǒng)
  • 紅葉網(wǎng)站開發(fā)工作室優(yōu)化推廣方案