做網(wǎng)站的時(shí)候賣過假貨而出過事搜索引擎優(yōu)化是免費(fèi)的嗎
1 前言
jieba
是一個(gè)非常流行的中文分詞庫(kù),具有高效、準(zhǔn)確分詞的效果。
它支持3種分詞模式:
- 精確模式
- 全模式
- 搜索引擎模式
jieba==0.42.1
測(cè)試環(huán)境:python3.10.9
2 三種模式
2.1 精確模式
適應(yīng)場(chǎng)景:文本分析。
功能:可以將句子精確的分開。
import jiebatext = "有勇氣的牛排是一個(gè)編程領(lǐng)域博主的名字"
segments = jieba.lcut(text)print("精確模式分詞結(jié)果:", segments)
# ['有', '勇氣', '的', '牛排', '是', '一個(gè)', '編程', '領(lǐng)域', '博主', '的', '名字']
2.2 全模式
適應(yīng)場(chǎng)景:提取詞語(yǔ)。
功能:可以將句子中的成詞的詞語(yǔ)掃描出來,速度非???#xff0c;但不能解決歧義問題。
import jiebatext = "有勇氣的牛排是一個(gè)編程領(lǐng)域博主的名字"segments = jieba.lcut(text, cut_all=True)
print("全模式分詞結(jié)果:", segments)
# ['有', '勇氣', '的', '牛排', '是', '一個(gè)', '編程', '領(lǐng)域', '博', '主', '的', '名字']
2.3 搜索引擎模式
適應(yīng)場(chǎng)景:搜索分詞。
功能:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)分詞進(jìn)行切分,提高召回率。
import jiebatext = "有勇氣的牛排是一個(gè)編程領(lǐng)域博主的名字"segments = jieba.lcut_for_search(text)
print("搜索引擎模式分詞結(jié)果:", segments)
3 自定義詞典
jieba
允許用戶自定義詞典,以提高分詞的準(zhǔn)確性。
比如專業(yè)術(shù)語(yǔ)、名字、網(wǎng)絡(luò)新流行詞匯、方言、以及其他不常見短語(yǔ)名字等。
3.1 添加單個(gè)詞語(yǔ)
import jiebatext = "有勇氣的牛排是一個(gè)編程領(lǐng)域博主的名字"jieba.add_word("有勇氣的牛排")
segments = jieba.lcut_for_search(text)
print("搜索引擎模式分詞結(jié)果:", segments)
# ['勇氣', '牛排', '有勇氣的牛排', '是', '一個(gè)', '編程', '領(lǐng)域', '博主', '的', '名字']
3.2 添加詞典文件
cs_dict.txt
有勇氣的牛排
編程領(lǐng)域
main.py
import jiebatext = "有勇氣的牛排是一個(gè)編程領(lǐng)域博主的名字"jieba.load_userdict("cs_dict.txt")segments = jieba.lcut(text)
print("自定義詞典文件分詞結(jié)果:", segments)
# ['有勇氣的牛排', '是', '一個(gè)', '編程領(lǐng)域', '博主', '的', '名字']
4 詞性標(biāo)注
jieba
的詞性標(biāo)注(POS tagging)功能使用了標(biāo)注詞性(Part-of-Speech tags)來表示每個(gè)詞的詞性。
4.1 詞性對(duì)照表
原文地址:https://www.couragesteak.com/article/454
a 形容詞 ad 副形詞
ag 形容詞性語(yǔ)素 an 名形詞
b 區(qū)別詞 c 連詞
d 副詞 dg 副語(yǔ)素
e 嘆詞 f 方位詞
g 語(yǔ)素 h 前綴
i 成語(yǔ) j 簡(jiǎn)稱略語(yǔ)
k 后綴 l 習(xí)用語(yǔ)
m 數(shù)詞 mg 數(shù)語(yǔ)素
mq 數(shù)量詞 n 名詞
ng 名語(yǔ)素 nr 人名
ns 地名 nt 機(jī)構(gòu)團(tuán)體
nz 其他專名 o 擬聲詞
p 介詞 q 量詞
r 代詞 rg 代詞性語(yǔ)素
s 處所詞 t 時(shí)間詞
tg 時(shí)間詞性語(yǔ)素 u 助詞
vg 動(dòng)語(yǔ)素 v 動(dòng)詞
vd 副動(dòng)詞 vn 名動(dòng)詞
w 標(biāo)點(diǎn)符號(hào) x 非語(yǔ)素字
y 語(yǔ)氣詞 z 狀態(tài)詞
4.2 測(cè)試案例
import jieba.posseg as psegtext = "有勇氣的牛排是一個(gè)編程領(lǐng)域博主的名字"words = pseg.cut(text)
for word, flag in words:print(f"{word} - {flag}")
5 關(guān)鍵詞提取
from jieba import analyse
text = "有勇氣的牛排是一個(gè)編程領(lǐng)域博主的名字"# 取前5個(gè)關(guān)鍵詞
keywords = analyse.extract_tags(text, topK=5)
print("關(guān)鍵詞提取結(jié)果:", keywords)
6 詞頻統(tǒng)計(jì)
import jieba
from collections import Counter
text = "有勇氣的牛排是一個(gè)編程領(lǐng)域博主的名字"# 取前5個(gè)關(guān)鍵詞
segments = jieba.lcut(text)
word_counts = Counter(segments)
print("詞頻統(tǒng)計(jì)結(jié)果:", word_counts)