濟(jì)南免費(fèi)做網(wǎng)站合肥網(wǎng)站建設(shè)程序
NLP課程期末知識(shí)點(diǎn)總結(jié)
- 期末重點(diǎn)說明
- 第01章_引言+緒論
- 第02章_基于規(guī)則的自然語言處理
- 第03章_文本分類
- 第04章_語言模型
- 第05章_文本表示
- 第06章_卷積神經(jīng)網(wǎng)絡(luò)
- 第07章_循環(huán)神經(jīng)網(wǎng)絡(luò)
- 第08章_8-1_Transformer
- 第08章_8-2_預(yù)訓(xùn)練模型
- 第09章_信息抽取
示例:
可能會(huì)考
一定會(huì)考
期末重點(diǎn)說明
10道選擇題 1分*10
8道簡答題(2~3個(gè)子問題) 90分
內(nèi)容:
上課課堂練習(xí)&提問模型理解
每章一個(gè)問題,CNN,transformer等等
樸素貝葉斯文本分類計(jì)算
緒論自然語言處理的基本概念
主要內(nèi)容是ppt的內(nèi)容,搜索資料加深對模型的理解
第01章_引言+緒論
感覺概念都不重要,應(yīng)該不會(huì)默寫,那也太無聊了。
語言學(xué)
計(jì)算語言學(xué)CL
自然語言理解NLU
自然語言處理NLP
中文信息處理
人類語言技術(shù)HLT
Human Language Technology
各名詞范圍可視化
三種不同的語系
NLP研究內(nèi)容
技術(shù)現(xiàn)狀
一個(gè)有意思的問題:
但是我感覺n的個(gè)數(shù)可能有錯(cuò)
第02章_基于規(guī)則的自然語言處理
流程,依賴人類專家
規(guī)則方法適用的情況/任務(wù)
- 詞法分析:
可能重要一些的點(diǎn):
- 形態(tài)還原基本算法:
- 分詞方法羅列&缺點(diǎn)
- 詞性標(biāo)注看著一點(diǎn)不重要
- 命名實(shí)體識(shí)別后續(xù)課程應(yīng)該有詳細(xì)講
- 機(jī)器翻譯也只是淺淺概述
第03章_文本分類
文本分類常用數(shù)據(jù)集
傳統(tǒng)機(jī)器學(xué)習(xí)方法的流程
特征表示、特征選擇、分類
- 文本的形式化表示是反映文本內(nèi)容和區(qū)分不同文本的有效途徑
- 文本表示——向量空間模型(vector space model, VSM)
- 特征項(xiàng)是詞語:可稱為詞袋模型(bag-of-words,BOW)
- 特征項(xiàng)權(quán)重
- 布爾變量
- 詞頻(可以直接使用次數(shù),也可以 log ? ( t f i + 1 ) \log(tf_i + 1) log(tfi?+1))
為什么要 log ? ( t f i + 1 ) \log(tf_i+1) log(tfi?+1)? - 逆文檔頻率
- N:語料庫中總文檔數(shù)
- d f t df_t dft?:包含詞t的文檔數(shù)量
- 如果一個(gè)詞在很多文檔中都出現(xiàn),它的重要性就低(比如“的”、“是”)。如果一個(gè)詞只在少數(shù)文檔中出現(xiàn),它的重要性就高(比如“黑洞”、“愛因斯坦”)。
- TF_IDF
- 布爾變量
- 特征選擇
- 文檔頻率
- 一個(gè)特征的文檔頻率是指在文檔集中含有該特征的文檔數(shù)目
- 互信息
- 基本概念
- 互信息(感覺說的不是很清楚)
- 基本概念
- 信息增益(IG):原來的熵減去已知某一特征信息后的熵
- 一個(gè)特征的文檔頻率是指在文檔集中含有該特征的文檔數(shù)目
- 文檔頻率
計(jì)算信息增益
- 分類算法
- 監(jiān)督學(xué)習(xí)
- 生成式模型:樸素貝葉斯
為什么樸素貝葉斯算法是生成式模型
先理解判別式和生成式的區(qū)別
樸素貝葉斯建模了 P ( x ∣ c j ) P(x|c_j) P(x∣cj?)
- 生成式模型:樸素貝葉斯
NB決策
M是詞表大小
判別式模型只是淺淺略過。。
- 文本分類性能評估
- 正確率
- 宏:每類求R\P后平均
- 微:每類TP等加起來求R\P
- P-R(縱軸P,橫軸R)
- ROC(縱軸TPR,橫軸FPR)
第04章_語言模型
- 傳統(tǒng)語言模型
-
n元文法
此時(shí)還是考慮前面所有歷史基元- 語句的先驗(yàn)概率:前面所有的詞出現(xiàn)的情況下這個(gè)詞出現(xiàn)的概率(連乘)
但是存在參數(shù)量爆炸的問題
解決問題的思路:將歷史基元映射到等價(jià)類。
引出n元文法,只考慮前面n-1個(gè)歷史基元。
< - 語句的先驗(yàn)概率:前面所有的詞出現(xiàn)的情況下這個(gè)詞出現(xiàn)的概率(連乘)