中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

做網(wǎng)站的咋掙錢搜索引擎大全全搜網(wǎng)

做網(wǎng)站的咋掙錢,搜索引擎大全全搜網(wǎng),網(wǎng)絡(luò)營銷代運營外包公司,機關(guān)黨建網(wǎng)站建設(shè)方案大型語言模型 (LLM) 已經(jīng)流行了一段時間。最近,小型語言模型 (SLM) 增強了我們處理和使用各種自然語言和編程語言的能力。但是,一些用戶查詢需要比在通用語言上訓(xùn)練的模型所能提供的更高的準(zhǔn)確性和領(lǐng)域知識。此外,還需要定制小型語言模型&…

大型語言模型 (LLM) 已經(jīng)流行了一段時間。最近,小型語言模型 (SLM) 增強了我們處理和使用各種自然語言和編程語言的能力。但是,一些用戶查詢需要比在通用語言上訓(xùn)練的模型所能提供的更高的準(zhǔn)確性和領(lǐng)域知識。此外,還需要定制小型語言模型,這些模型可以匹配 LLM 的性能,同時降低運行時費用并確保安全且完全可管理的環(huán)境。

在本文中,我們探討了小型語言模型、它們的區(qū)別、使用它們的原因及其應(yīng)用。我們還在小型語言模型 Llama-2–13b 上使用微調(diào)方法來解決上述問題。

此外,我們的目標(biāo)是研究使該流程獨立于平臺的可能性。為此,我們選擇了 Databricks 作為可以在 Azure、Amazon Web Services (AWS) 或 Google Cloud Platform 之間轉(zhuǎn)移的平臺。

在人工智能和自然語言處理的背景下,SLM可以代表“小型語言模型”。它是一種輕量級的生成式 AI 模型。在這種情況下,“小型”標(biāo)簽指的是 a) 模型神經(jīng)網(wǎng)絡(luò)的大小、b) 參數(shù)數(shù)量和 c) 模型訓(xùn)練的數(shù)據(jù)量。有幾種實現(xiàn)可以在單個 GPU 上運行,并且參數(shù)超過 50 億個,包括Google Gemini Nano、微軟的Orca-2–7b和Orca -2–13b、Meta 的Llama-2–13b等。

SLM 和 LLM 之間存在一些差異。首先,與 SLM 相比,LLM 規(guī)模更大,并且經(jīng)過了更廣泛的訓(xùn)練。其次,LLM 具有顯著的自然語言處理能力,可以捕捉復(fù)雜的模式并在自然語言任務(wù)(例如復(fù)雜推理)中勝出。最后,LLM 可以更徹底地理解語言,而 SLM 對語言模式的接觸有限。這并不會讓 SLM 處于劣勢,在適當(dāng)?shù)挠美惺褂脮r,它們比 LLM 更有益。

使用這些模型的原因有很多。它們在各種應(yīng)用中越來越受歡迎,并且越來越重要,尤其是在可持續(xù)性和訓(xùn)練所需的數(shù)據(jù)量方面。從硬件的角度來看,運行成本更低,即 SLM 需要更少的計算能力和內(nèi)存,并且適合本地和設(shè)備部署,使其更安全。從使用的角度來看,這些是小型語言模型,針對特定領(lǐng)域或任務(wù)進行訓(xùn)練或微調(diào),因此它們可以擁有從法律術(shù)語到保護知識產(chǎn)權(quán)的醫(yī)療診斷的專業(yè)術(shù)語和知識。根據(jù)場景的不同,SLM 會更便宜、更高效。

SLM 廣泛應(yīng)用于醫(yī)療保健、科技等各個領(lǐng)域。所有這些行業(yè)的常見用例包括摘要文本、生成新文本、情緒分析、聊天機器人、識別命名實體、糾正拼寫、機器翻譯、代碼生成等。

語言模型微調(diào)是向預(yù)訓(xùn)練的語言模型提供額外訓(xùn)練的過程,使其更加針對特定領(lǐng)域或任務(wù)。此過程涉及使用額外的訓(xùn)練數(shù)據(jù)更新模型的參數(shù),以提高其在特定領(lǐng)域或應(yīng)用(如文本生成、問答、語言翻譯、情緒分析等)中的表現(xiàn)。我們對“特定領(lǐng)域微調(diào)”感興趣,因為當(dāng)我們希望模型理解和生成與特定行業(yè)或用例相關(guān)的文本時,它特別有用。ParagogerAI訓(xùn)練營 2img.ai

硬件要求

硬件要求可能因模型的大小和復(fù)雜程度、項目規(guī)模和數(shù)據(jù)集而異。最好先從小規(guī)模開始,然后根據(jù)需要擴大規(guī)模。不過,以下是一些微調(diào)私有語言模型的一般準(zhǔn)則。

  1. GPU(圖形處理單元)進行處理。它可以基于云。
  2. 用于傳輸數(shù)據(jù)的快速可靠的互聯(lián)網(wǎng)連接。
  3. 強大的多核 CPU 用于數(shù)據(jù)預(yù)處理和管理分發(fā)步驟。
  4. 內(nèi)存充足,存儲空間快速充足。

圖 1. 用于微調(diào)過程的虛擬機。

數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)集的質(zhì)量和可行性會顯著影響微調(diào)模型的性能。為了實現(xiàn)此階段的目標(biāo),我們需要從 PDF 中提取文本,清理和準(zhǔn)備文本,然后從給定的文本塊生成問題和答案對。最后,繼續(xù)進行微調(diào)過程。

值得注意的是,我們使用了 GPT-3.5 之類的 LLM 來生成問答對(這可能會違背這里的目的),但是,我們也可以嘗試使用 SLM 來根據(jù)用例生成這些對。

圖 2. 準(zhǔn)備微調(diào)數(shù)據(jù)集的關(guān)鍵步驟。

微調(diào)過程

我們使用了 HuggingFace 及其全套組件,并將它們集成在一起來完成這項任務(wù)。

圖 3. 用于微調(diào)的集成組件。

我們選擇了預(yù)訓(xùn)練語言模型Llama-2–13b-chat-hf。對于特定領(lǐng)域的數(shù)據(jù)集,我們將其轉(zhuǎn)換為 HuggingFace 數(shù)據(jù)集類型,并使用可通過 HuggingFace API 訪問的標(biāo)記器。此外,量化用于降低模型中數(shù)值的精度,從而實現(xiàn)數(shù)據(jù)壓縮、計算和存儲效率以及降噪。還啟用了性能配置,以有效適應(yīng)預(yù)訓(xùn)練模型。最后,訓(xùn)練參數(shù)用于定義訓(xùn)練過程的細節(jié),并向訓(xùn)練器傳遞參數(shù)、數(shù)據(jù)和約束。更多資訊,請訪問 2img.ai

訓(xùn)練過程

我們對模型進行了 50 個 epoch 的微調(diào)。一個 epoch 指的是訓(xùn)練數(shù)據(jù)集的一個完整周期。它需要大約 16 個小時才能完成,并且我們的 CPU 和 RAM 資源在此過程中沒有得到充分利用。具有有限 CPU 和 RAM 資源的機器可能適合這個過程。我們的 GPU 使用情況符合所述模型要求;也許增加批量大小可以加速訓(xùn)練過程。

圖 4. CPU 和 RAM 使用情況。

總體而言,盡管最初在理解互連方面面臨挑戰(zhàn),并且面臨多次失敗的嘗試,但微調(diào)過程似乎進展順利且一致。此微調(diào)過程的金錢成本約為 100 美元/83 英鎊。但是,上述成本不包括最終微調(diào)過程的所有試驗和錯誤的成本。

圖 5. 以英鎊計算的微調(diào)成本。

結(jié)果與觀察

請注意,我們使用 GPT-3.5 從訓(xùn)練數(shù)據(jù)中生成問題和答案。我們微調(diào)的模型是 Llama-2–13b-chat-hf,它只有 130 億個參數(shù),而 GPT-3.5 有 1750 億個參數(shù)。換句話說,我們期望小模型的表現(xiàn)與大模型一樣好。因此,由于 GPT-3.5 和 Llama-2–13b-chat-hf 規(guī)模不同,直接比較答案并不合適,但是答案必須是可比的。

為 SLM 和 GPT-3.5 生成的答案創(chuàng)建了嵌入,并使用余弦距離來確定兩個模型的答案的相似性。

圖 6. GPT-3.5 答案和 Llama-2–13b-chat-hf 答案的相似度分布。

根據(jù)圖 6,0.5 被設(shè)定為質(zhì)量的臨界值,0.6 代表 Llama-2–13b-chat-hf 產(chǎn)生的結(jié)果的平均質(zhì)量。高于 0.5 的任何值都被認為是可接受的,低于 0.5 的任何值都是不可接受的。這是因為,類似地,范圍從 -1 表示相反,1 表示完全匹配,0 表示與 0.5 的值無關(guān),這似乎是合理的論點。

對于微調(diào)過程,我們使用了大約 10,000 個從版本 1 的內(nèi)部文檔中生成的問答對。但為了進行評估,我們只選擇了與版本 1 和過程相關(guān)的問題。對結(jié)果的進一步分析表明,超過 70% 的問題與 GPT-3.5 生成的答案非常相似,即相似度為 0.5 及以上(見圖 6)??偣灿?605 個被認為是可接受的答案,118 個有點可接受的答案(低于 0.4),以及 12 個不可接受的答案。

經(jīng)過微調(diào)的模型似乎能夠提取和維護知識,同時展示出生成特定領(lǐng)域答案的能力。平臺無關(guān)的方法使我們能夠在 AWS 上執(zhí)行相同的微調(diào)過程,并在不更改代碼的情況下獲得幾乎相同的結(jié)果。

結(jié)論

SLM 也有一些缺點.與 LLM 相比,其知識庫更為有限,這意味著它無法回答諸如誰登上月球等問題和其他事實性問題。由于對語言和語境的理解狹隘,它只能給出更受限制和有限的答案。盡管如此,SLM 本身的前景還是相當(dāng)光明的。語言模型的發(fā)展歷程凸顯了人工智能的一個基本信息,即只要不斷進步和現(xiàn)代化,小規(guī)模也能令人印象深刻。此外,人們還認為,效率、多功能性、環(huán)保性和優(yōu)化的培訓(xùn)方法抓住了 SLM 的潛力。

我們將拭目以待,看看與 LLM 相比,SLM 會變得多么受歡迎,尤其是最近推出的 SLM,例如 Gemini Nano、Mixtral、Phi-2等。

ParagogerAI訓(xùn)練營 2img.ai

http://www.risenshineclean.com/news/48439.html

相關(guān)文章:

  • 做網(wǎng)站建設(shè)公司賺錢seo關(guān)鍵詞優(yōu)化排名哪家好
  • 電商網(wǎng)站如何做c2b如何宣傳推廣自己的產(chǎn)品
  • 做神馬網(wǎng)站優(yōu)化快速網(wǎng)絡(luò)營銷推廣策劃方案
  • 廈門區(qū)塊鏈網(wǎng)站開發(fā)網(wǎng)站排名快速提升工具
  • 專做機械零配件的網(wǎng)站營銷型企業(yè)網(wǎng)站推廣的方法有哪些
  • web網(wǎng)站開發(fā)學(xué)習(xí)seo排名優(yōu)化北京
  • 網(wǎng)站換域名怎么做百度seo多少錢一個月
  • 無錫市網(wǎng)站搭建學(xué)網(wǎng)絡(luò)運營需要多少錢
  • dns是不是做網(wǎng)站用的快手seo軟件下載
  • 馬鞍山網(wǎng)站建設(shè)專業(yè)制seo網(wǎng)頁優(yōu)化工具
  • 老外把金文做的網(wǎng)站翻譯叫什么發(fā)稿服務(wù)
  • 做網(wǎng)站平面一套多少錢seo jsbapp9
  • 電商抖音是c2c還是b2c安徽網(wǎng)站seo公司
  • 做網(wǎng)站用的三角形圖片網(wǎng)絡(luò)軟文怎么寫
  • 上海市門戶網(wǎng)站網(wǎng)站指數(shù)查詢
  • 做商城網(wǎng)站哪個好網(wǎng)絡(luò)推廣方案的內(nèi)容
  • 柳城網(wǎng)站開發(fā)電子商務(wù)網(wǎng)頁制作
  • 巨野做網(wǎng)站手機優(yōu)化大師
  • 醫(yī)療網(wǎng)站建設(shè)效果口碑營銷的模式
  • 電商運營培訓(xùn)視頻課程seo兼職工資一般多少
  • 網(wǎng)站打不開dns修改嗎深圳搜索引擎優(yōu)化收費
  • 哪個網(wǎng)站可以做兼職國內(nèi)企業(yè)網(wǎng)站模板
  • 學(xué)什么可以先做網(wǎng)站sem競價是什么
  • 高頻網(wǎng)站開發(fā)百度關(guān)鍵詞查詢工具免費
  • 建一個外貿(mào)網(wǎng)站要多少錢投放廣告的渠道有哪些
  • 做網(wǎng)站需要空間自動引流免費app
  • wordpress 面板站長工具seo綜合查詢降級
  • 自己做網(wǎng)站哪家好電話百度
  • 網(wǎng)站建設(shè)優(yōu)化托管優(yōu)秀的軟文
  • 重慶哪里可以做網(wǎng)站的可以免費打開網(wǎng)站的軟件下載