漯河百度做網(wǎng)站電話360推廣登錄入口
語音識別概述
一.什么是語音?
語音是語言的聲學(xué)表現(xiàn)形式,是人類自然的交流工具。
圖片來源:https://www.shenlanxueyuan.com/course/381
二.語音識別的定義
語音識別(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是將語音轉(zhuǎn)換為文本的任務(wù)。其主要目標是解決機器“聽清”問題,處理聲學(xué)和(部分)語言上的混淆,確保每個人的語音都能被正確識別為文本。
1.主要解決的問題:
- 將語音轉(zhuǎn)換成文本。
- 解決機器“聽清”問題。
- 處理聲學(xué)和部分語言上的混淆。
- 確保不同人的語音都能被正確識別。
2.不解決的問題:
- 說話人識別。
- 副語言信息的分析與識別(如發(fā)音、質(zhì)量、韻律、情感)。
- 語言理解。
3.評估標準:
-
Accuracy(準確率):
- 音素錯誤率(Phone Error Rate, PER)
- 詞錯誤率(Word Error Rate, WER)
- 字錯誤率(Character Error Rate, CER)
- 句錯誤率(Sentence Error Rate, SER)
-
Efficiency(效率):
- 實時率(Real-time Factor, RTF)
4.錯誤率計算實例:
Ref: THE CAT IN THE HAT
Hyp: CAT IS ON THE GREEN HATDEL SUB INS INS
在這個例子中:
- 第一行為正確的抄本(Ref)。
- 第二行為識別結(jié)果(Hyp)。
- 錯誤類型:第一列為刪除錯誤(DEL),第三列為替換錯誤(SUB),第四列和第六列為插入錯誤(INS)。
錯誤率計算公式:Error rate=100×(1S+1D+2I)/5=80
計算過程中關(guān)注三種錯誤:插入錯誤、替換錯誤和刪除錯誤。實際計算時,錯誤率有可能超過100%。
5.語音識別系統(tǒng)分類:
- 說話人:特定人、非特定人
- 語種:單一語種、多語種
- 詞匯量:大詞匯量、中詞匯量、小詞匯量
- 設(shè)備:云端、端側(cè)
- 距離:近距離、遠距離
三.語音識別的重要性
語音識別(ASR,Automatic Speech Recognition)是一項極具挑戰(zhàn)性的技術(shù),被譽為“鑲嵌在人工智能皇冠上的明珠”。它在現(xiàn)代技術(shù)和應(yīng)用中占有重要地位,主要體現(xiàn)在以下幾個方面:
1. 快速、便捷、無接觸的優(yōu)點
- 快速:語音輸入的速度通常比鍵盤輸入更快,使信息傳遞更加高效。
- 便捷:用戶只需說話,無需學(xué)習復(fù)雜的輸入方法,使用門檻低。
- 無接觸(Hands-Free):特別適用于開車、做家務(wù)等需要雙手操作的場景,提升了用戶的便利性和安全性。
2. 音頻內(nèi)容分析與理解的基礎(chǔ)
- 文字轉(zhuǎn)寫:語音識別是將音頻內(nèi)容轉(zhuǎn)化為文本的第一步,這一過程是進一步分析與理解音頻內(nèi)容的基礎(chǔ)。
- 文本分析:轉(zhuǎn)寫后的文本可以進行情感分析、主題識別等處理。
- 數(shù)據(jù)存檔:轉(zhuǎn)寫文本便于存儲和檢索,提升了數(shù)據(jù)的可用性。
3. AIoT和智能服務(wù)的入口
-
AIoT(人工智能物聯(lián)網(wǎng)):語音識別是AIoT設(shè)備的主要交互方式,用戶可以通過語音控制智能家居、可穿戴設(shè)備等。
- 智能家居:語音助手控制燈光、溫度、家電等。
- 可穿戴設(shè)備:語音識別用于健康監(jiān)測、運動記錄等。
-
智能服務(wù):語音識別在智能客服、自動翻譯等領(lǐng)域有廣泛應(yīng)用。
- 智能客服:自動應(yīng)答用戶問題,提高客服效率。
- 自動翻譯:實時翻譯語音內(nèi)容,打破語言障礙。
4. 滿足自然人機交互和內(nèi)容理解與生成的需求
-
自然人機交互:語音識別使人機交互更加自然,用戶可以通過語音指令與設(shè)備進行交流,提升用戶體驗。
- 虛擬助手:如Siri、Alexa、Google Assistant等通過語音識別實現(xiàn)自然對話。
- 導(dǎo)航系統(tǒng):通過語音輸入目的地,提高駕駛安全性。
-
內(nèi)容理解與生成:語音識別技術(shù)與自然語言處理(NLP)結(jié)合,實現(xiàn)內(nèi)容的理解與生成。
- 語音搜索:用戶通過語音進行信息搜索,快速獲取答案。
- 語音生成:將文本轉(zhuǎn)化為自然語音,實現(xiàn)雙向交流。
5. 技術(shù)與應(yīng)用的廣泛性
- 醫(yī)療領(lǐng)域:醫(yī)生通過語音輸入病歷,提高工作效率,減少誤診。
- 教育領(lǐng)域:語音識別用于語言學(xué)習、課堂記錄等,提高學(xué)習效果。
- 安防領(lǐng)域:通過語音識別進行身份驗證和監(jiān)控,提高安全性。
四.語音交互
圖片來源:http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain
五.語音生成
語音生成(Speech Production)是指通過大腦指揮神經(jīng)系統(tǒng)發(fā)出肌肉命令,進而控制發(fā)音器官運動,最終產(chǎn)生聲音的過程。
1.語音生成過程
-
大腦指揮:大腦發(fā)出神經(jīng)信號,控制肌肉運動。
-
神經(jīng)肌肉命令:神經(jīng)系統(tǒng)將命令傳遞到發(fā)音器官。
-
發(fā)音器官運動:發(fā)音器官(如聲帶、口腔、鼻腔等)根據(jù)神經(jīng)信號進行運動,產(chǎn)生聲音。
2.發(fā)音的基本原理
- 聲門運動:聲門的快速打開與關(guān)閉產(chǎn)生不同的聲音。
- 基本頻率:聲門震動的快慢決定聲音的基本頻率。
- 口腔、鼻腔、舌頭的位置及嘴型:這些因素共同決定聲音的內(nèi)容。
- 肺部空氣壓力:肺部壓縮空氣的力量決定音量。
2.聲音類型
-
濁音(Voiced Sounds):由聲帶震動引起,波形具有明顯的周期性,人們可以感受到穩(wěn)定的高音。
-
清音(Unvoiced Sounds):聲帶不震動,波形類似白噪聲,人們無法感受到穩(wěn)定的高音。
3.語音單元
-
音素(Phonemes):
- 音素是語言中語音的最小單元,分為輔音(consonants)和元音(vowels)。
- 音素的數(shù)量因語言而異。
- 同位異音(Allophone):音素的聲學(xué)實現(xiàn)受到上下文影響,一個音素可能有不同的實現(xiàn)。
-
詞素(Morpheme):語言中最小的具有語義的結(jié)構(gòu)單元。
-
音節(jié)(Syllable):
- 由元音和輔音結(jié)合構(gòu)成。
- 音節(jié)頭(聲母):元音之前的輔音。
- 韻母:音節(jié)頭后的元音及隨后的輔音。
- 音節(jié)核:韻母中的元音。
- 音節(jié)尾:隨后的輔音。
- 在中文中,一個漢字的讀音為一個帶調(diào)音節(jié)(如普通話約1300多個帶調(diào)音節(jié),去掉聲調(diào)后約400個基礎(chǔ)音節(jié))。
4.聲學(xué)特征
-
共振峰(Formants):
- 在聲音的頻譜中,能量相對集中的區(qū)域。
- 共振峰決定音質(zhì),反映聲道的物理特征,不同元音會產(chǎn)生不同種類的共振。
-
協(xié)同發(fā)音(Coarticulation):
- 發(fā)音過程中,每個音素會受到前后音素的影響。
- 協(xié)同發(fā)音使得音素的聲學(xué)實現(xiàn)與上下文強相關(guān),因此語音識別中常建立上下文相關(guān)模型。
5.音素抄本
音素抄本(Phonetic Transcription)是一段語音對應(yīng)的音素列表,可以帶或不帶邊界。音素抄本提供時間信息,可以通過人工標注或自動對齊獲得。它在語音識別的聲學(xué)建模中非常重要。
六.語音感知
語音感知(Speech Perception)是指人耳將外界聲音信號傳遞到大腦,并由大腦進行處理和理解的過程。該過程包括外耳、中耳和內(nèi)耳的協(xié)同工作,以及聲音的物理特性與人耳聽覺特性之間的關(guān)系。
1.人耳結(jié)構(gòu)
-
外耳:
- 功能:聲源定位,對聲音進行放大。
- 組成:耳廓和外耳道。
-
中耳:
- 功能:進行聲阻抗變換,放大聲壓,保護內(nèi)耳。
- 組成:鼓膜和聽小骨(錘骨、砧骨、鐙骨)。
-
內(nèi)耳:
- 功能:將聲壓刺激轉(zhuǎn)化為神經(jīng)沖動,發(fā)送到大腦。
- 組成:耳蝸和聽神經(jīng)。
2.物理特性與聽覺特性
語音感知涉及聲音的物理量和感知量之間的關(guān)系。下表總結(jié)了這些關(guān)系:
物理量 (Physical Quantity) | 感知量 (Perceptual Quantity) |
---|---|
聲強 (Intensity) | 響度 (Loudness) |
基頻 (Fundamental Frequency) | 音高或音調(diào) (Pitch) |
頻譜形狀 (Spectral Shape) | 音色或音品 (Timbre) |
起始/結(jié)束時間 (Onset/offset time) | 時間感知 (Timing) |
雙耳聽覺的相位差 (Phase difference in binaural hearing) | 定位 (Location) |
3.聲音三要素
-
響度(Loudness):
- 響度是人主觀感受到的聲音強度,與聲音的頻率成分有關(guān)。
- 聞閾:人耳剛好能聽見的最小響度。
- 痛閾:聲音使人耳感到疼痛時的響度。
圖片來源:https://www.shenlanxueyuan.com/course/381
-
音高或音調(diào)(Pitch):
-
音調(diào)是人耳對聲音頻率的感知,是非線性的,近似對數(shù)函數(shù)。
-
音調(diào)和頻率的近似關(guān)系:𝑇𝑚𝑒𝑙=2595log10?(1+𝑓7000)。
𝑓為物理頻率,𝑇𝑚𝑒𝑙為音調(diào),單位是美(Mel)
-
-
音色或音品(Timbre):
- 音色由聲音波形的諧波頻譜和包絡(luò)決定。
- 基音:聲音波形的基頻產(chǎn)生的最清楚的音。
- 泛音:各次諧波的微小震動產(chǎn)生的音。
- 純音:單一頻率的音。
- 復(fù)音:具有諧波的音。
- 不同聲源的音色特征由聲音波形各次諧波的比例和隨時間的衰減大小決定。
4.掩蔽效應(yīng)
掩蔽效應(yīng)(Masking)是指一個較強聲音掩蔽附近較弱聲音,使其不易被察覺的現(xiàn)象。分為兩種情況:
-
同時掩蔽(Simultaneous Masking):一個強純音會掩蔽其附近頻率同時發(fā)生的弱純音。
-
異時掩蔽(Temporal Masking):在時間上相鄰的聲音之間的掩蔽現(xiàn)象。
掩蔽閾值是時間、頻率和聲壓級的函數(shù)。
七.語音識別的挑戰(zhàn)性
語音識別(Automatic Speech Recognition, ASR)是一個非常具有挑戰(zhàn)性的任務(wù),其在眾多方面表現(xiàn)出強大的可變性。以下是影響語音識別性能的主要因素及其可變性:
1.主要影響因素及其可變性
因素 | 可變性描述 |
---|---|
規(guī)模 | 詞表大小、復(fù)雜度/困惑度、書面化或口語化 |
說話人 | 是否特定說話人、適應(yīng)特定說話人的特性 |
聲學(xué)環(huán)境 | 噪聲、干擾人聲、信道條件(麥克風、傳輸空間、空間聲學(xué)) |
講話風格 | 連續(xù)或孤立詞、有計劃或即興對話、大聲或輕聲細語 |
口音/方言 | 是否能識別各種口音 |
語種 | 中文、英文、超過5000種語言、語言混雜 |
信道特性 | 不同麥克風、不同采樣率、傳輸編碼等 |
環(huán)境影響 | 距離衰減、噪聲、混響、干擾人聲 |
2.語音識別中的變異性
-
說話人之間的變異性:不同說話人的口音、語速、發(fā)音方式、語調(diào)等各不相同。適應(yīng)多種說話人的特性是語音識別的一個重要挑戰(zhàn)。
-
說話人之內(nèi)的變異性:同一個人在不同時間、不同情緒狀態(tài)、不同健康狀態(tài)下,語音特性也會有所不同。不同講話方式(如大聲、輕聲、低語)對語音識別系統(tǒng)的要求也各不相同。
-
信道變異性:不同麥克風的性能、采樣率和傳輸編碼會影響語音信號的質(zhì)量。在不同傳輸條件下,信號可能會受到干擾或衰減。
-
環(huán)境變異性:環(huán)境噪聲、回聲、混響以及干擾人聲等都會影響語音信號的清晰度。距離衰減效應(yīng),尤其在遠講場景下,語音信號會顯著衰減。
3.特殊場景挑戰(zhàn)
CHiME-5場景: 多說話人完全自由對話?,F(xiàn)實生活中的家居聲學(xué)場景。遠講情況下的語音識別。說話人移動及語音交疊。
八.語音識別的發(fā)展歷史
1.早期階段(1950-1960年代)
在語音識別研究的初期,研究人員主要集中于提出一些基礎(chǔ)的方法和引入關(guān)鍵的思想與概念。由于受限于方法、計算能力和數(shù)據(jù)量,這一階段的研究主要針對小詞表的語音識別,且缺乏大規(guī)模測試。主要特點包括:
- 初步探索:提出個別方法和概念。
- 小詞表研究:主要集中在小范圍詞匯的語音識別。
- 技術(shù)限制:計算能力和數(shù)據(jù)量的限制使得研究進展緩慢。
2.現(xiàn)代語音識別的誕生(1970-1980年代)
這個階段標志著語音識別從基礎(chǔ)研究進入了統(tǒng)計學(xué)習時代,幾乎忽略了語音學(xué)和語言學(xué)的專家知識,轉(zhuǎn)而使用數(shù)據(jù)驅(qū)動的方法。關(guān)鍵技術(shù)和方法在此期間得以發(fā)展,包括:
- 統(tǒng)計學(xué)習方法:將語音識別視為統(tǒng)計學(xué)習任務(wù)。
- 關(guān)鍵技術(shù):引入了EM算法、N-gram等。
- 中大詞表嘗試:開始嘗試中大詞表的語音識別系統(tǒng)。
3.平穩(wěn)發(fā)展期(1990-2000年代)
在這一階段,GMM-HMM(高斯混合模型-隱馬爾科夫模型)框架成為主導(dǎo),語音識別系統(tǒng)得以進一步發(fā)展。主要進展包括:
- GMM-HMM框架:成為語音識別的主流框架。
- 上下文相關(guān)建模:聲學(xué)建模開始考慮基于上下文相關(guān)的模型。
- n-gram語言模型:使用大量文本統(tǒng)計概率關(guān)系。
- 數(shù)據(jù)和任務(wù)復(fù)雜度增加:數(shù)據(jù)量和任務(wù)復(fù)雜度逐步增加。
- 判別式學(xué)習:引入?yún)^(qū)分性訓(xùn)練技術(shù)推動進步。
盡管技術(shù)不斷進步,但語音識別的準確率在這一時期鮮有顯著提升。
3.深度學(xué)習時代(2006年至今)
2006年是語音識別歷史上的一個重要轉(zhuǎn)折點,標志著深度學(xué)習技術(shù)的引入和廣泛應(yīng)用。在此之后,語音識別的準確率顯著提升,主要特點包括:
- 深度神經(jīng)網(wǎng)絡(luò)(DNNs):深度學(xué)習模型的應(yīng)用大幅提升了語音識別的性能。
- 大規(guī)模數(shù)據(jù)和計算能力:利用更大的數(shù)據(jù)集和更強的計算能力進行訓(xùn)練。
- 持續(xù)改進:技術(shù)不斷進步,推動語音識別系統(tǒng)向更高的準確率和更廣泛的應(yīng)用場景發(fā)展。
九.現(xiàn)代語音識別框架
現(xiàn)代語音識別框架主要分為兩類:統(tǒng)計模型和端到端系統(tǒng)。
1.統(tǒng)計模型
統(tǒng)計模型的核心思想是通過計算最有可能的單詞序列來進行語音識別。假設(shè)有一個聲學(xué)特征向量(觀測向量)的序列 X,表示一個單詞序列 W,那么最有可能的單詞序列可以通過以下公式計算得出:
W ^ = arg ? max ? W P ( W ∣ X ) \hat{W} = \arg\max_W P(W|X) W^=argWmax?P(W∣X)
應(yīng)用貝葉斯定理,這一公式可以進一步推導(dǎo)為:
P ( W ∣ X ) = p ( X ∣ W ) P ( W ) p ( X ) ∝ p ( X ∣ W ) P ( W ) P(W|X) = \frac{p(X|W)P(W)}{p(X)} \propto p(X|W)P(W) P(W∣X)=p(X)p(X∣W)P(W)?∝p(X∣W)P(W)
其中:
- p(X∣W) 是 聲學(xué)模型,用于計算給定單詞序列 W 下的聲學(xué)特征向量 X的概率。
- P(W) 是 語言模型,用于計算單詞序列 W的先驗概率。
通過組合聲學(xué)模型和語言模型,統(tǒng)計模型可以通過給定的聲學(xué)特征向量 X獲取最有可能的詞序列。
現(xiàn)代的統(tǒng)計模型通常使用三大組件:
-
聲學(xué)模型:用于計算聲學(xué)特征向量的概率分布。
-
語言模型:用于計算單詞序列的先驗概率。
-
發(fā)音詞典:提供單詞與其發(fā)音之間的映射。
圖片來源:https://www.shenlanxueyuan.com/course/381
2.端到端系統(tǒng)
端到端系統(tǒng)使用一個神經(jīng)網(wǎng)絡(luò)直接將輸入的聲學(xué)特征向量 X映射為詞序列。這種方法簡化了傳統(tǒng)統(tǒng)計模型的復(fù)雜架構(gòu),避免了多個組件的獨立優(yōu)化和組合,具有以下特點:
- 直接映射:通過神經(jīng)網(wǎng)絡(luò)直接將聲學(xué)特征向量轉(zhuǎn)換為單詞序列。
- 簡化架構(gòu):省去聲學(xué)模型、語言模型和發(fā)音詞典的獨立建模和組合。
- 統(tǒng)一訓(xùn)練:在一個訓(xùn)練過程中同時優(yōu)化聲學(xué)和語言模型的參數(shù)。
圖片來源:https://www.shenlanxueyuan.com/course/381
十.語料庫與工具包
1.英文數(shù)據(jù)
- TIMIT:用于音素識別,由 LDC 管理版權(quán)。
- WSJ:新聞播報語料庫,由 LDC 管理版權(quán)。
- Switchboard:電話對話語料庫,由 LDC 管理版權(quán)。
- Librispeech:有聲讀物語料庫,包含 1000 小時的開源數(shù)據(jù)。 Librispeech
- AMI:會議語料庫,開源數(shù)據(jù)。 AMI
- TED-LIUM:TED 演講語料庫,開源數(shù)據(jù)。 TED-LIUM
- CHiME-4:平板遠講語料庫,需要申請。
- CHiME-5/6:聚會聊天語料庫,需要申請。
2.中文數(shù)據(jù)
- THCHS-30:30 小時的開源語料庫。 THCHS-30
- HKUST:150 小時的電話對話語料庫,由 LDC 管理版權(quán)。
- AIShell-1:178 小時的開源語料庫。 AIShell-1
- AIShell-2:1000 小時的開源語料庫,需申請。 AIShell-2
- aidatatang_200zh:200 小時的開源語料庫。 aidatatang_200zh
- MAGICDATA:755 小時的開源語料庫。 MAGICDATA
3.工具包
- HTK:一款語音識別工具包。 HTK
- Kaldi:目前使用最廣泛的語音識別工具包,支持 C++ 和 Python。 Kaldi
- ESPNet:基于 Pytorch 的端到端語音識別工具包。 ESPNet
- Lingvo:基于 Tensorflow 的語音識別工具包。 Lingvo