杭州網站設計渠道百度網盤怎么找片
參考文獻:https://blog.csdn.net/qq363685855/article/details/148512248
之前分享過LLM之RAG實戰(zhàn)(五十五)| 阿里開源新模型,Qwen3-Embedding與Qwen3 Reranker強勢來襲!。本文將分享如何使用ollama來部署這些模型。
一、首先,需要安裝Ollama
打開官網下載:https://ollama.com/download
? ? ? ?根據自己的操作系統(tǒng)下載對應的版本即可。正常來說,是可以安裝成功的。下面介紹一下特殊情況或者其他安裝方式。
a)對于Mac電腦,也可以通過Homebrew進行安裝
brew?install ollama
b)對linux服務器,有時候不能連接外網,因此需要離線安裝,可以參考文獻:https://blog.csdn.net/m0_71142057/article/details/143186418。
核心點是可以copy文章的install.sh然后下載ollama離線文件,并把他們放到同一個目錄下,執(zhí)行運行install.sh即可,如下圖所示:
可以通過命令lscpu來查看操作系統(tǒng)版本,我是x86_64。
chmod?+x ./install.sh
./install.sh
二、下載Qwen3-Embedding模型
ollama?run dengcao/Qwen3-Embedding-0.6B:F16
下面列出Qwen3-Embedding和Qwen3-Reranker各個版本的Ollama安裝命令。
Qwen3-Embedding-0.6B系列:???????
ollama?run dengcao/Qwen3-Embedding-0.6B:Q8_0
ollama?run dengcao/Qwen3-Embedding-0.6B:F16
Qwen3-Embedding-4B系列:???????
ollama?run dengcao/Qwen3-Embedding-4B:Q4_K_M
ollama?run dengcao/Qwen3-Embedding-4B:Q5_K_M
ollama?run dengcao/Qwen3-Embedding-4B:Q8_0
ollama?run dengcao/Qwen3-Embedding-8B:F16
Qwen3-Embedding-8B系列:???????
ollama?run dengcao/Qwen3-Embedding-8B:Q4_K_M
ollama?run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama?run dengcao/Qwen3-Embedding-8B:Q8_0
Qwen3-Reranker-0.6B系列:???????
ollama?run dengcao/Qwen3-Reranker-0.6B:Q8_0
ollama?run dengcao/Qwen3-Reranker-0.6B:F16
Qwen3-Reranker-4B系列:???????
ollama?run dengcao/Qwen3-Reranker-4B:Q4_K_M
ollama?run dengcao/Qwen3-Reranker-4B:Q5_K_M
ollama?run dengcao/Qwen3-Reranker-4B:Q8_0
Qwen3-Reranker-8B系列:???????
ollama?run dengcao/Qwen3-Reranker-8B:Q3_K_M
ollama?run dengcao/Qwen3-Reranker-8B:Q4_K_M
ollama?run dengcao/Qwen3-Reranker-8B:Q5_K_M
ollama?run dengcao/Qwen3-Reranker-8B:Q8_0
ollama?run dengcao/Qwen3-Reranker-8B:F16
關于量化版本的說明:
-
q8_0:與浮點數16幾乎無法區(qū)分。資源使用率高,速度慢。不建議大多數用戶使用。
-
q6_k:將Q8_K用于所有張量。
-
q5_k_m:將 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 張量,否則Q5_K。
-
q5_0: 原始量化方法,5位。精度更高,資源使用率更高,推理速度更慢。
-
q4_k_m:將 Q6_K 用于一半的 attention.wv 和 feed_forward.w2 張量,否則Q4_Kq4_0:原始量化方法,4 位。
-
q3_k_m:將 Q4_K 用于 attention.wv、attention.wo 和 feed_forward.w2 張量,否則Q3_K
-
q2_k:將 Q4_K 用于 attention.vw 和 feed_forward.w2 張量,Q2_K用于其他張量。
? ? ?根據經驗,建議使用 Q5_K_M,因為它保留了模型的大部分性能?;蛘?#xff0c;如果要節(jié)省一些內存,可以使用 Q4_K_M。