中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

寧波營銷型網(wǎng)站建設(shè)網(wǎng)絡(luò)銷售平臺有哪些

寧波營銷型網(wǎng)站建設(shè),網(wǎng)絡(luò)銷售平臺有哪些,網(wǎng)站頁面架構(gòu),佛山企業(yè)網(wǎng)站建設(shè)工作室前言 這是我的github上的一個(gè)介紹,關(guān)于如何訓(xùn)練中文版本的gpt2的。鏈接為: https://github.com/yuanzhoulvpi2017/zero_nlp 介紹 本文,將介紹如何使用中文語料,訓(xùn)練一個(gè)gpt2可以使用你自己的數(shù)據(jù)訓(xùn)練,用來:寫新聞、…

前言

  1. 這是我的github上的一個(gè)介紹,關(guān)于如何訓(xùn)練中文版本的gpt2的。
  2. 鏈接為: https://github.com/yuanzhoulvpi2017/zero_nlp

介紹

  1. 本文,將介紹如何使用中文語料,訓(xùn)練一個(gè)gpt2
  2. 可以使用你自己的數(shù)據(jù)訓(xùn)練,用來:寫新聞、寫古詩、寫對聯(lián)等
  3. 我這里也訓(xùn)練了一個(gè)中文gpt2模型,使用了612萬個(gè)樣本,每個(gè)樣本有512個(gè)tokens,總共相當(dāng)于大約31億個(gè)tokens

??安裝包

需要準(zhǔn)備好環(huán)境,也就是安裝需要的包

pip install -r requirements.txt

像是pytorch這種基礎(chǔ)的包肯定也是要安裝的,就不提了。

數(shù)據(jù)

數(shù)據(jù)來源

  1. 獲得數(shù)據(jù):數(shù)據(jù)鏈接,關(guān)注公眾號【統(tǒng)計(jì)學(xué)人】,然后回復(fù)【gpt2】即可獲得。
  2. 獲得我訓(xùn)練好的模型(使用了15GB的數(shù)據(jù)(31億個(gè)tokens),在一張3090上,訓(xùn)練了60多小時(shí))

數(shù)據(jù)格式

  1. 數(shù)據(jù)其實(shí)就是一系列文件夾📁,然后每一個(gè)文件夾里面有大量的文件,每一個(gè)文件都是.csv格式的文件。其中有一列數(shù)據(jù)是content
  2. 每一行的content就代表一句話,截圖如下
  3. 雖然數(shù)據(jù)有15GB那么大,但是處理起來一點(diǎn)也不復(fù)雜,使用 datasets
    包,可以很輕松的處理大數(shù)據(jù),而我只需要傳遞所有的文件路徑即可,這個(gè)使用 glob 包就能完成。

代碼

??訓(xùn)練代碼train_chinese_gpt2.ipynb

??注意

  1. 現(xiàn)在訓(xùn)練一個(gè)gpt2代碼,其實(shí)很簡單的。拋開處理數(shù)據(jù)問題,技術(shù)上就三點(diǎn):tokenizer、gpt2_model、Trainer
  2. tokenizer使用的是bert-base-chinese
    ,然后再添加一下bos_token、eos_tokenpad_token。
  3. gpt2_model使用的是gpt2,這里的gpt2我是從0開始訓(xùn)練的。而不是使用別人的預(yù)訓(xùn)練的gpt2模型。
  4. Trainer訓(xùn)練器使用的就是transformersTrainer模塊。(支撐多卡并行,tensorboard等,都寫好的,直接調(diào)用就行了,非常好用)

📤推理代碼infer.ipynb

??注意

這個(gè)是chinese-gpt2的推理代碼

  1. 將代碼中的model_name_or_path = "checkpoint-36000"里面的"checkpoint-36000",修改為模型所在的路徑。
  2. 然后運(yùn)行下面一個(gè)代碼塊,即可輸出文本生成結(jié)果
  3. 可以參考這個(gè)代碼,制作一個(gè)api,或者打包成一個(gè)函數(shù)或者類。

🤖交互機(jī)器人界面chatbot.py

??注意

  1. 修改代碼里面的第4行,這一行值為模型所在的位置,修改為我分享的模型文件路徑。
model_name_or_path = "checkpoint-36000"
  1. 運(yùn)行
python chatbot.py
  1. 點(diǎn)擊鏈接,即可在瀏覽器中打開機(jī)器人對話界面

更多

  1. 這個(gè)完整的項(xiàng)目下來,其實(shí)我都是全靠huggingface文檔、教程度過來的.
  2. 我做的東西,也就是把Tokenizer改成中文的了,然后也整理了數(shù)據(jù),別的大部分東西,都不是我做的了.
  3. 原文鏈接為https://huggingface.co/course/zh-CN/chapter7/6?fw=pt.

一起學(xué)習(xí)

其實(shí),我更喜歡做應(yīng)用,但是也要理解相關(guān)的背后原理,目前還在研究相關(guān)的gpt2原理還有相關(guān)的推理細(xì)節(jié),這是我整理的鏈接,希望可以共同進(jìn)步

  1. https://huggingface.co/blog/how-to-generate
  2. https://huggingface.co/gpt2
  3. https://huggingface.co/gpt2-large
http://www.risenshineclean.com/news/38823.html

相關(guān)文章:

  • 新風(fēng)格網(wǎng)站灰色詞排名代做
  • 上海工商登記查詢系統(tǒng)南昌網(wǎng)站優(yōu)化公司
  • 順德公益網(wǎng)站制作seo網(wǎng)站推廣
  • 去年做的電子請?zhí)趺凑以W(wǎng)站百度的網(wǎng)頁地址
  • 網(wǎng)站建設(shè)咨詢公企業(yè)網(wǎng)站建設(shè)門戶
  • 網(wǎng)站定位策劃小紅書關(guān)鍵詞優(yōu)化
  • 佛山網(wǎng)站建設(shè)公司哪家性價(jià)比高百度競價(jià)代運(yùn)營托管
  • 西安市城鄉(xiāng)建設(shè)檔案館網(wǎng)站域名注冊網(wǎng)站
  • 核名查詢系統(tǒng)seo如何優(yōu)化
  • 網(wǎng)站開發(fā)計(jì)劃書模板淘寶引流推廣平臺
  • 如何進(jìn)行優(yōu)化霸屏seo服務(wù)
  • 企業(yè)站用什么程序做網(wǎng)站友情鏈接樣式
  • 大連市營商環(huán)境建設(shè)局網(wǎng)站網(wǎng)絡(luò)銷售平臺上市公司有哪些
  • 網(wǎng)站二級域名怎么設(shè)置小紅書關(guān)鍵詞搜索量查詢
  • 桂林網(wǎng)站建設(shè)內(nèi)容瀏覽器2345網(wǎng)址導(dǎo)航下載安裝
  • 馬云將來淘汰的十個(gè)行業(yè)網(wǎng)站建設(shè)網(wǎng)站如何添加友情鏈接
  • 做網(wǎng)站與網(wǎng)店運(yùn)營如何免費(fèi)創(chuàng)建自己的網(wǎng)站平臺
  • wordpress活動召集插件seo內(nèi)部優(yōu)化具體做什么
  • 學(xué)做網(wǎng)站書籍微商營銷
  • 軟件app研發(fā)seo優(yōu)化標(biāo)題 關(guān)鍵詞
  • 怎么做網(wǎng)站后臺 更新日志網(wǎng)絡(luò)市場調(diào)研的方法
  • 網(wǎng)站偽靜態(tài)怎么設(shè)置seowhy官網(wǎng)
  • 網(wǎng)站仿做軟件seo是什么意思職業(yè)
  • 建設(shè)工程招標(biāo)網(wǎng)站互聯(lián)網(wǎng)推廣運(yùn)營是做什么的
  • 廣東出現(xiàn)新病毒是真的嗎關(guān)鍵詞優(yōu)化方法有什么步驟
  • 上海 做網(wǎng)站線下推廣方法有哪些
  • 定制網(wǎng)站開發(fā)哪家強(qiáng)某網(wǎng)站seo診斷分析和優(yōu)化方案
  • iis網(wǎng)站日志今日國際新聞?lì)^條新聞
  • 企業(yè)網(wǎng)站設(shè)計(jì)調(diào)查問卷全國十大婚戀網(wǎng)站排名
  • 表格網(wǎng)站源碼企業(yè)網(wǎng)站seo點(diǎn)擊軟件