58這種網(wǎng)站怎么做nba實力榜最新排名
人工智能-NLP簡單知識匯總01
1.1自然語言處理的基本概念
自然語言處理難點:
- 語音歧義
- 句子切分歧義
- 詞義歧義
- 結(jié)構(gòu)歧義
- 代指歧義
- 省略歧義
- 語用歧義
總而言之:!!語言無處不歧義
1.2自然語言處理的基本范式
1.2.1基于規(guī)則的方法
通過詞匯、形式文法等制定的規(guī)則引入語言學知識,從而完成相應(yīng)的自然語言處理任務(wù)
對于機器翻譯任務(wù)可以構(gòu)造如下規(guī)則庫:
if 漢語主語=我 then 英語主語 = I
if 英語主語=I then 英語 be動詞 = am/was
if 漢語 = 蘋果 and 沒有修飾量詞 then 英語 = apples
就是基于固定規(guī)則,優(yōu)缺點顯而易見
1.2.2基于機器學習的方法
將自然語言處理任務(wù)轉(zhuǎn)化為某種分類任務(wù)
-
數(shù)據(jù)構(gòu)建既是構(gòu)建語料庫(Corpus)
-
數(shù)據(jù)預處理既是簡單的數(shù)據(jù)處理劃分。
-
特征構(gòu)建階段是提取對于機器學習模型有用的特征。
-
模型學習階段既是選擇合適的機器學習模型,確定學習準則,訓練模型參數(shù)。
需要人工處理的特別多
1.2.3基于深度學習的方法
將特征學習和預測模型融合,通過優(yōu)化算法使得模型自動地學習出好的特征表示,并基于此進行結(jié)果預測
- 數(shù)據(jù)預處理簡單
- 通過多層特征轉(zhuǎn)換,將原始數(shù)據(jù)轉(zhuǎn)換為更加抽象的表示??梢栽谝欢ǔ潭壬贤耆嫒斯ぴO(shè)計的特征。也稱為:表示學習。
- 利用自監(jiān)督任務(wù)進行預處理,通過海量的數(shù)據(jù)得到更加通用語言表示,根據(jù)下游任務(wù)進行網(wǎng)絡(luò)調(diào)整。
1.2.4基于大模型的方法
將大量各類型自然語言處理任務(wù),統(tǒng)一為生成式自然語言理解框架
- 在大規(guī)模語言模型構(gòu)建階段,通過大量的文本內(nèi)容,訓練模型長文本的建模能力,使得模型具有語言生成能力,并使得模型獲得隱式的世界知識。
- 在通用能力注入階段,利用包括閱讀理解、情感分析、信息抽取等現(xiàn)有任務(wù)的標注數(shù)據(jù),結(jié)合人工設(shè)計的指令詞對模型進行多任務(wù)訓練,從而使得模型具有很好的任務(wù)泛化能力。
- 特定任務(wù)使用階段則變得非常簡單,由于模型具備了通用任務(wù)能力,只需要根據(jù)任務(wù)需求設(shè)計任務(wù)指令,將任務(wù)中所需處理的文本內(nèi)容與指令結(jié)合,然后就可以利用大模型得到所需結(jié)果。