做壞事小視頻網(wǎng)站企業(yè)培訓(xùn)計劃
場景:假設(shè)給你一篇文章。
目標(biāo):說白了,就是數(shù)學(xué)的分類。但是如何實現(xiàn)分類呢。下面將逐步一 一 分析與拆解。先把目標(biāo)定好了和整體框架定好了。而不是只見樹木而不見森林。
情感分類(好評、差評,中性)
整體框架:
中文分詞:
常見的中文分詞方法:
1、基于詞典的方法:
- 正向最大匹配法:從左到右依次取詞,與詞典進行匹配,找到最長匹配的詞。
- 逆向最大匹配法:從右到左依次取詞,與詞典進行匹配。
2、基于統(tǒng)計的方法:
- 隱馬爾可夫模型(HMM):通過統(tǒng)計詞與詞之間的出現(xiàn)頻率和上下文關(guān)系來進行分詞。
- 條件隨機場(CRF):考慮了更復(fù)雜的特征和上下文信息。
3、基于機器學(xué)習(xí)的方法:
- 支持向量機(SVM):將文本轉(zhuǎn)化為特征向量,通過訓(xùn)練分類器來進行分詞。
- NB模型、隨機森林模型
4. 基于深度學(xué)習(xí)的分詞方法(也更先進):近年來,深度學(xué)習(xí)在NLP領(lǐng)域取得了顯著進展,基于深度學(xué)習(xí)的分詞方法也逐漸成為研究熱點。這些方法通過神經(jīng)網(wǎng)絡(luò)模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、長短期記憶網(wǎng)絡(luò)LSTM、Transformer等)學(xué)習(xí)漢字的上下文信息,進而實現(xiàn)分詞。
- 神經(jīng)網(wǎng)絡(luò)方法:如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等,能夠自動學(xué)習(xí)文本的特征和模式。