深圳住建委網(wǎng)站智謀網(wǎng)站優(yōu)化公司
系列文章目錄
玩轉(zhuǎn)大語言模型——使用langchain和Ollama本地部署大語言模型
玩轉(zhuǎn)大語言模型——三分鐘教你用langchain+提示詞工程獲得貓娘女友
玩轉(zhuǎn)大語言模型——ollama導(dǎo)入huggingface下載的模型
玩轉(zhuǎn)大語言模型——langchain調(diào)用ollama視覺多模態(tài)語言模型
玩轉(zhuǎn)大語言模型——使用GraphRAG+Ollama構(gòu)建知識圖譜
玩轉(zhuǎn)大語言模型——完美解決GraphRAG構(gòu)建的知識圖譜全為英文的問題
玩轉(zhuǎn)大語言模型——配置圖數(shù)據(jù)庫Neo4j(含apoc插件)并導(dǎo)入GraphRAG生成的知識圖譜
玩轉(zhuǎn)大語言模型——本地部署帶聊天界面deepseek R1的小白教程
玩轉(zhuǎn)大語言模型——本地部署deepseek R1和本地數(shù)據(jù)庫的小白教程(Ollama+AnythingLLM)
玩轉(zhuǎn)大語言模型——使用Kiln AI可視化環(huán)境進(jìn)行大語言模型微調(diào)數(shù)據(jù)合成
文章目錄
- 系列文章目錄
- 前言
- 下載安裝
- 下載
- 安裝
- 模型支持
- 初次使用
- 合成數(shù)據(jù)
- 生成單條數(shù)據(jù)
- 批量生成數(shù)據(jù)
- 導(dǎo)出數(shù)據(jù)/微調(diào)
前言
Kiln AI是一個強(qiáng)大的工具,主要用于微調(diào)大型語言模型(LLM)、生成合成數(shù)據(jù)以及協(xié)作數(shù)據(jù)集。Kiln AI提供了一整套無需編程、可視化操作的解決方案,幫助用戶從零開始構(gòu)建微調(diào)后的模型。用戶可以通過Kiln UI創(chuàng)建任務(wù),明確需求、初始提示和輸入輸出結(jié)構(gòu),然后選擇合適的模型并配置參數(shù),即可發(fā)起微調(diào)任務(wù)。Kiln支持多種主流模型,如OpenAI的GPT-4o系列、Meta的Llama 3.1與Llama 3.2以及Mistral的Mixtral等。眾所周知人為去制作標(biāo)簽代價很大,對于學(xué)習(xí)微調(diào)或者僅作微調(diào)測試,Kiln是一個非常合適的應(yīng)用,可以幫助我們通過大語言模型合成微調(diào)數(shù)據(jù),輔助我們對模型進(jìn)行微調(diào),還可以導(dǎo)出生成的數(shù)據(jù),以供其他訓(xùn)練和微調(diào)方式使用。
下載安裝
下載
前往官網(wǎng)下載kiln
地址:https://docs.getkiln.ai/docs/quickstart
點擊下載后會自動跳轉(zhuǎn)到GitHub地址,選擇適合自己系統(tǒng)的版本即可。
安裝
下載后,安裝應(yīng)用程序:
- macOS:打開 .dmg 文件,然后將應(yīng)用程序拖到 Applications 目錄。
- Windows:雙擊安裝程序,然后按照指南進(jìn)行安裝。
- Linux:保存應(yīng)用程序并從終端啟動它。
模型支持
Kiln 基本上可以使用來自許多提供商的任何 LLM 模型:
- 使用 Ollama 在本地運行。
- 連接 OpenAI、Groq、OpenRouter、AWS、Fireworks 等云提供商。您提供自己的 API 密鑰,我們永遠(yuǎn)無法訪問您的數(shù)據(jù)集。
- 連接到任何 OpenAI 兼容服務(wù)器,例如用于 vLLM 的 LiteLLM。
初次使用
首次使用需要進(jìn)行一些設(shè)置,到以下設(shè)置界面點Skip
。
到這一界面后不需要提交郵箱,直接Continue
。
然后我們選擇Ollama,Ollama的使用我們已經(jīng)在前面的文章中配置過很多次了,不再贅述,可以翻翻前面的文章。選好后拉到下面點continue
。
首次進(jìn)入時需要新建一個項目,我這里就隨便輸了。
為了更方便的演示,創(chuàng)建的任務(wù)我是直接用他生成的例子(點右上角的Try an example
)。
讀者可以通過給出的提示參考改成自己需要的數(shù)據(jù)類型,然后點Create Task
創(chuàng)建任務(wù)。
隨后進(jìn)入以下界面。
合成數(shù)據(jù)
生成單條數(shù)據(jù)
在當(dāng)前界面,選擇模型后輸入相關(guān)信息后執(zhí)行。
運行結(jié)果如下:
右側(cè)可以為生成的數(shù)據(jù)評分,并且可以直接判斷他是否通過。
如果評分低還可以對模型的輸出設(shè)定要求。
當(dāng)輸出達(dá)到滿意的時候,保存退出后,點Dataset
可以看到剛才生成的數(shù)據(jù)。
批量生成數(shù)據(jù)
點擊左側(cè)Synthetic Data
然后點擊Add Top Level Topics
。
點擊之后選擇合適的模型直接點generate即可,這里推薦的是deepseek
蒸餾的qwen14b
。
稍等一會就會生成若干topics
,也可以點擊Add subtopics
新建子主題,在生成子主題時也要選用好一點的模型,經(jīng)過筆者測試使用qwen2.5:14b可以保證正常生成。
點擊Add data
,可以直接生成合成數(shù)據(jù),親測使用deepseek R1:14b
即可。
生成后的結(jié)果如下:
全部生成后點擊Save All
保存數(shù)據(jù)。
這一過程也需要使用模型生成,筆者還是選用的deepseek R1:14b
。
出現(xiàn)進(jìn)度條是正常的,不用管他,等一會就好了。
隨后我們返回Dataset
可以看到生成的數(shù)據(jù)全都添加上了。
導(dǎo)出數(shù)據(jù)/微調(diào)
點擊左側(cè)Fine Tune
,然后點擊Create Fine-Tune
由于我沒有使用API Key
,所以我這里并不能直接微調(diào),所以在此筆者選的是下面的Download
版本,讀者可以根據(jù)下面的提示選擇合適的數(shù)據(jù)格式。
然后選擇New Dataset
然后選擇過濾方式,可以通過此設(shè)置過濾掉低質(zhì)量的數(shù)據(jù),但為了節(jié)約時間,筆者用到的是不進(jìn)行過濾。
然后選擇數(shù)據(jù)劃分,同樣的也需要讀者根據(jù)自己需求選擇數(shù)據(jù)劃分。
隨后下載創(chuàng)建好的數(shù)據(jù)集
下載后可以使用Axolotl或Unsloth進(jìn)行微調(diào)