外文文獻(xiàn)翻譯--使用MFCCDTW和KNN的隔離詞自動語音識別(ASR)系統(tǒng)【中文4600字】 【PDF+中文WORD】
外文文獻(xiàn)翻譯--使用MFCCDTW和KNN的隔離詞自動語音識別(ASR)系統(tǒng)【中文4600字】 【PDF+中文WORD】,中文4600字,PDF+中文WORD,外文文獻(xiàn)翻譯,使用MFCC,DTW和KNN的隔離詞自動語音識別(ASR)系統(tǒng)【中文4600字】,【PDF+中文WORD】,外文,文獻(xiàn),翻譯,使用,MFCC,DTW
【中文4600字】
使用MFCC,DTW和KNN的隔離詞自動語音識別(ASR)系統(tǒng)
Muhammad Atif Imtiaz
電子電氣工程學(xué)院工程技術(shù)學(xué)院,
Taxila
atif.imtiaz@uettaxila.edu.pk
Gulistan Raja
電子電氣工程學(xué)院工程技術(shù)學(xué)院,
Taxila
gulistan.raja@uettaxila.edu.pk
摘要 - 自動語音識別(ASR)系統(tǒng)被定義為將聲音語音信號轉(zhuǎn)換為字串。本文提出了一種基于Mel倒譜系數(shù)(MFCC),動態(tài)時間包絡(luò)(DTW)和K最近鄰(KNN)技術(shù)的基于孤立詞結(jié)構(gòu)的ASR系統(tǒng)的方法。 Mel-Frequency量表用于捕捉語音信號的重要特征;使用MFCC提取語音的特征。DTW用于語音特征匹配。KNN被用作分類器。實驗設(shè)置包括從五位講者收集的英語語言。這些話是在聲學(xué)平衡,無噪音的環(huán)境中說出來的。所提出的ASR系統(tǒng)的實驗結(jié)果是以稱為混淆矩陣的矩陣形式獲得的。本研究所獲得的識別準(zhǔn)確率為98.4%。
關(guān)鍵詞:ASR; MFCC; DTW; KNN
1.簡介
言語是人類肺部空氣中周期性變化的傳播。生產(chǎn)和塑造實際聲音的責(zé)任由人類聲帶在咽,鼻腔和嘴的幫助下完成。自動語音識別(ASR)系統(tǒng)是在數(shù)字設(shè)備中自動解釋人類語音的過程,并被定義為聲學(xué)語音信號到單詞串的轉(zhuǎn)換。一般而言,所有ASR系統(tǒng)的目標(biāo)是用來從輸入語音信號中提取字符串[1]。在ASR過程中,輸入是語音話語,輸出是與給定輸入相關(guān)聯(lián)的文本數(shù)據(jù)形式。ASR系統(tǒng)的性能主要依賴的一些因素是詞匯量,訓(xùn)練數(shù)據(jù)量和系統(tǒng)計算復(fù)雜度。ASR有很多應(yīng)用,如廣泛用于家用電器,安全設(shè)備,手機(jī),ATM機(jī)和計算機(jī)。
本文介紹了一個用小詞匯量詞匯進(jìn)行實驗的英語語言ASR系統(tǒng)。本白皮書的其余部分組織如下:第II節(jié)介紹整體ASR系統(tǒng)概述,ASR系統(tǒng)中使用的主要模塊。第三節(jié)描述了使用特征提取和分類技術(shù)實現(xiàn)ASR系統(tǒng)。第四節(jié)討論了實驗裝置的簡要描述,以及一些實驗結(jié)果。第五節(jié)討論了結(jié)論性意見。
II.ASR系統(tǒng)概述
ASR系統(tǒng)包括兩個主要塊,即特征提取塊和分類塊,如圖1所示。
圖1.建議的ASR系統(tǒng)設(shè)計的框圖
塊的輸入是語音,塊的輸出是文本數(shù)據(jù)。塊的工作如下所述:
A.特征提取塊
特征提取是ASR系統(tǒng)中最重要的模塊之一。在ASR中,語音信號被分成較小的幀,通常為10到25毫秒。由于存在冗余信息,存在于語音信號中。因此,應(yīng)用重要而有用的信息特征提取技術(shù)。這也將有助于減少維度。感知線性預(yù)測(PLP)系數(shù),基于小波變換的特征,線性預(yù)測系數(shù)(LPC),基于小波包特征和Mel頻率倒譜系數(shù)(MFCC)是ASR廣泛使用的特征。本研究中使用MFCC并在第三節(jié)詳細(xì)討論。
B.分類塊
在從語音信號中提取特征之后,將提取的特征提供給分類塊用于識別目的。在分類中,輸入語音特征向量用于訓(xùn)練已知特征模式,并在測試數(shù)據(jù)集上進(jìn)行測試,分類器的性能以百分比識別精度進(jìn)行評估。在這項研究中,DTW用于特征匹配,KNN用于分類,在第三節(jié)中進(jìn)一步討論。
C.數(shù)據(jù)庫
在ASR系統(tǒng)中,數(shù)據(jù)庫是一組語音樣本。收集這些語音數(shù)據(jù)樣本以說明語言的不同變化方面。選擇數(shù)據(jù)集對于成功進(jìn)行ASR研究具有重要意義。它提供了一個比較不同語音識別技術(shù)性能的平臺[3]。它還為研究人員提供了不同語音識別方面的平衡,即性別,年齡和方言。數(shù)據(jù)庫包含大,中或小尺寸,具體取決于字?jǐn)?shù)。數(shù)據(jù)可以從書籍,報紙,雜志,講座和電視廣告等來源收集。由于志愿者無法使用以及身份問題,語音數(shù)據(jù)庫不易獲取。一些標(biāo)準(zhǔn)的語音數(shù)據(jù)庫可用于少數(shù)語言,如BREF法語,TIMIT英語和ATR日語等[4]。
3.ASR系統(tǒng)的實現(xiàn)
在本節(jié)中,將詳細(xì)討論特征提取技術(shù)Mel的頻譜倒譜系數(shù)(MFCC),特征匹配技術(shù)(DTW)和特征分類技術(shù)K-最近鄰(KNN)的實現(xiàn)和描述。
A.Mel頻率倒譜系數(shù)
作為頻率函數(shù)的人類言語本質(zhì)上不是線性的;因此單一頻率的聲音語音信號的音高被映射為“梅爾”音階。在梅爾尺度下,低于1 kHz的頻率間隔是線性的,高于1 kHz的頻率間隔是對數(shù)的[5]。通過使用等式(1)計算對應(yīng)于赫茲頻率的梅爾頻率。
Mel頻率倒譜系數(shù)(MFCC)計算的框圖如圖2所示。
圖2. MFCC計算的框圖
下面詳細(xì)描述圖2中所示的內(nèi)部塊:
1) 預(yù)處理:錄制的音頻信號采樣率為16 kHz。每個單詞存儲在單獨(dú)的音頻文件中。預(yù)處理步驟包括預(yù)加重信號以提高高頻信號的能量。等式(2)給出了預(yù)加重濾波器的差分方程。
預(yù)加重濾波器的輸出響應(yīng)如圖3所示。
圖3.預(yù)加重濾波器輸出
2)成幀和開窗:語音信號本質(zhì)上不是固定的。為了使它靜止框架使用。成幀是預(yù)處理后的下一步;在該步驟中,語音信號被分成彼此重疊的較小幀。成幀開窗后用于消除幀邊緣的不連續(xù)性。本研究中使用的窗口方法是Hamming Window。漢明窗由等式(3)定義。
其中,N是單個幀中的樣本總數(shù)。原始信號和窗口信號的輸出響應(yīng)如圖4所示。
圖4.原始信號與窗口信號
3) 快速傅里葉變換(FFT):快速傅立葉變換用于計算信號的離散傅立葉變換(DFT),其中N = 512的大小已被使用[6]。執(zhí)行此步驟將信號轉(zhuǎn)換為頻域。使用等式(4)計算FFT。
其中,N是FFT的大小。 FFT的幅度譜如圖5所示。
圖5.快速傅立葉變換幅度譜
4) MelFilter Bank:對信號進(jìn)行FFT后的下一步是從Hertz到Mel Scale的轉(zhuǎn)換,頻譜功率轉(zhuǎn)換為Mel標(biāo)度[7]。梅爾濾波器組由三角形重疊濾波器組成,如圖6所示
5)
圖6. MFCC濾波器組輸出
6) Delta能量:在這一步中取前一步輸出的對數(shù)為10的對數(shù)。對數(shù)能量的計算是必不可少的,因為人耳對聲學(xué)語音信號電平的響應(yīng)不是線性的,人耳對振幅在較高振幅處的差異不太敏感。對數(shù)函數(shù)的優(yōu)點(diǎn)是它傾向于重復(fù)人耳的行為。能量計算使用等式(5)計算。能量計算圖如圖7所示。
圖7.信號記錄能量輸出
7) 離散余弦變換(DCT):采用離散余弦變換(DCT)后取對數(shù)的梅爾濾波器組的輸出。它最終產(chǎn)生Mel頻率倒譜系數(shù)。在這個單獨(dú)的詞的研究中,取出了39個三維特征,即12-MFCC(梅爾頻率倒譜系數(shù)),一個能量特征,一個三角洲能量特征,一個雙三角洲能量特征,12-delta MFCC特征和12-雙delta MFCC功能。等式(6)定義N點(diǎn)DCT [8]。
單個單詞的MFCC圖形如圖8所示。
圖8.單字的MFCC
B.分類和識別
在確定系統(tǒng)特別是ASR系統(tǒng)的性能時,分類器的作用非常顯著。在這項研究中,動態(tài)時間規(guī)整(DTW)和K-最近鄰已被用于語音特征匹配和分類。 DTW測量兩個時間序列中的相似性,這兩個時間序列在時間或速度上有所不同。為了優(yōu)化兩個時間序列之間的相似性,在DTW的編程中考慮了動態(tài)方法。對于連續(xù)語音識別情況,隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)被認(rèn)為適用于分類。人工神經(jīng)網(wǎng)絡(luò)有復(fù)制人類大腦活動的趨勢。人工神經(jīng)網(wǎng)絡(luò)由一組相互連接的神經(jīng)元組成。在人工神經(jīng)網(wǎng)絡(luò)中,產(chǎn)量是通過計算輸入加權(quán)和的乘積來衡量的。最流行的連續(xù)語音識別分類技術(shù)之一是隱馬爾可夫模型(HMM)。它基本上是統(tǒng)計分類技術(shù),并在存在兩個隨機(jī)變量的情況下對時間序列進(jìn)行建模[9]。建議研究側(cè)重于基于單詞結(jié)構(gòu)的單詞的ASR,并且不需要任何語言模型。在這項研究中,動態(tài)時間包絡(luò)(DTW)和K-最近鄰(KNN)技術(shù)已被用于基于MFCC的特征匹配和分類。分類步驟包括兩個階段;
i)預(yù)熱
ii)測試
結(jié)果和百分比識別準(zhǔn)確性以混淆矩陣的形式獲得。下一節(jié)將進(jìn)一步討論DTW和KNN。
1)動態(tài)時間包絡(luò)(DTW):DTW算法
計算是考慮在兩個時間序列中測量接近度,這可能會在時間和速度上發(fā)生變化。如果一個時間安排可能通過延長或縮短它的時間樞紐而非直線地包裹,那么比較就是根據(jù)兩個時間安排的位置來衡量的。
可以進(jìn)一步利用兩次布置中的包裹來發(fā)現(xiàn)兩個時間布置中的相關(guān)區(qū)域或聚焦兩個時間布置之間的接近度。數(shù)字上,DTW比較兩個時間布置的模式并借助于最小距離公式來測量它們之間的相似性。考慮具有長度n和m的兩個時間序列P和Q,即
在時間序列P和Q中,矩陣的第i和第j個分量包含兩個矩陣點(diǎn)pi和qj [10]中的距離d(pi,qj)。然后使用歐幾里得距離公式,在等式(7)中測量兩點(diǎn)之間的絕對距離。
每個矩陣元素i和j屬于點(diǎn)pi和qj中的對齊。然后,使用等式(8)計算累積距離。
2)K-最近鄰(KNN):本研究中KNN分類器的工作如下。
l KNN方法包括分配特征空間中距離給定分?jǐn)?shù)最近的特征向量的索引。
l 來自DTW的最低得分指數(shù)以KNN方法處理。
l 將當(dāng)前特征融合到特征空間的各個特征上。
l KNN返回多個特征,但這些特征來自特征空間。
l KNN返回的模式特征提供最常見的特征在于它將成為認(rèn)可的詞
圖9. KNN的流程圖
3)混淆矩陣:為了檢查系統(tǒng)的效率,即識別準(zhǔn)確度和誤差百分比,形成混淆矩陣。在N個字的情況下,它將包含N×N矩陣。在混淆矩陣的所有對角線條目中,狀態(tài)Aij對于i = j,表明了一個單詞i沒有正確匹配的時間[11]。類似地,非對角條目,對于i≠j,狀態(tài)Aij表示單詞i與單詞j相混淆的次數(shù)
A11 A12 A13 … A1N
A21 A22 A23 … A2N
A31 A32 A33 … A3N
. . . … .
. . . … .
AN1 AN2 AN3 … ANN
4)百分比誤差:為了檢查整個系統(tǒng)的性能,錯誤百分比的計算非常重要,它以混淆矩陣的形式進(jìn)行計算。為此,測試一個單獨(dú)的單詞并檢查它成功識別了多少次,并在第i行的對角線條目中聲明。百分比是通過成功除以條目總數(shù)除以計算的。因此,對于特定的詞,正確匹配C和百分比誤差E可以如等式(9)和(10)中那樣表示。從混淆矩陣得到的結(jié)果在第四節(jié)中進(jìn)一步討論。
4.實驗結(jié)果與討論
這些實驗是在一個小型的英語詞匯上進(jìn)行的。該設(shè)置包括從五個不同的說話人說出的話。這些話是在聲學(xué)平衡,無噪音的環(huán)境中說出來的。在MATLAB R2014b的幫助下分析了實現(xiàn)和實驗結(jié)果。ASR的測試和訓(xùn)練結(jié)果是以稱為混淆矩陣的矩陣的形式獲得的,如圖10所示。
圖10.詞的混淆矩陣圖
在混淆矩陣圖的圖10中,x軸和y軸顯示詞的索引。 z軸顯示高度,即顯示總次數(shù),單個單詞被成功識別或與任何其他單詞混淆。對角線插槽顯示高度為成功識別率。在這種情況下,最大可能達(dá)到的高度是200.在這種情況下,一個單詞被測試的總次數(shù)是200.表I中總結(jié)了正確匹配C和錯誤%E的值。
表I:詞的識別和錯誤百分比
詞匯
正確匹配的價值C
識別精度 (%)
錯誤 (%) =
(1-C)x100
“Dark”
0.98
98
2
“Wash”
0.99
99
1
“Water”
0.995
99.5
0.5
“Year”
0.975
97.5
2.5
“Don’t”
0.97
97
3
“Carry”
0.995
99.5
0.5
“Greasy”
0.98
98
2
“Like”
0.985
98.5
1.5
“Oily”
0.975
97.5
2.5
“That”
0.995
99.5
0.5
累計平均
0.984
98.4
1.6
表1描述了數(shù)據(jù)集的識別和錯誤率。首先對每個單詞進(jìn)行單獨(dú)評估,然后計算數(shù)據(jù)集的累積平均值。作為測試ASR系統(tǒng)的結(jié)果,以混淆矩陣的形式獲得數(shù)據(jù)。上述數(shù)據(jù)集的累計平均成功率為98.4%,錯誤率為1.6%。
5.總結(jié)
擬議的ASR系統(tǒng)研究描述了MFCC,DTW和KNN技術(shù)。特征的提取使用MFCC來執(zhí)行,DTW用于語音特征匹配并且KNN用于分類。 KNN處理從DTW獲取的最低分?jǐn)?shù)索引。實驗結(jié)果以混淆矩陣的形式得到。在整個研究過程中觀察到,當(dāng)MFCC,DTW和KNN聯(lián)合使用時,所提出的ASR系統(tǒng)顯示出良好的識別性能。本研究所獲得的識別準(zhǔn)確率為98.4%,誤差為1.6%。
參考
[1] J.M. Gilbert *,S.I. Rybchenko,R. Hofe,S.R. Ell,M.J. Fagan,R.K. Moore,P. Green,“使用磁性植入物和傳感器的沉默言語的孤立詞識別”,International Journal of Medical Engineering and physics,vol。 32,第1189-1197頁,2010年8月。
[2] Vimala.C和Dr.V.Radha“語音識別挑戰(zhàn)和方法綜述”計算機(jī)科學(xué)與信息技術(shù)雜志(WCSIT)的世界ISSN:2221-0741 Vol。 2,第1號,第1-7頁,2012年。
[3] J.Clear和N.Ostler S.Atkins,“語料庫設(shè)計標(biāo)準(zhǔn)”,Oxford Journal of Literary and linguistic computing,vol。 7,沒有。 1,pp.1-16,1992。
[4] L. F. Lamel和M. Eskenazi J. L. Gauvain,“第一屆國際口語語言處理會議,ICSLP,1990年,第1097-1100頁,”BREF的設(shè)計考慮和文本選擇,大型法語閱讀語料庫“。
[5] M Murugappan,Nurul Qasturi Idayu Baharuddin,Jerritta S“基于LDA和MFCC的基于人類情緒語音分類的LDA”國際生物醫(yī)學(xué)工程會議(ICoBE),檳城,2012年2月27 - 28日,第203-206頁。
[6] Michael Pitz,Ralf Schluter和Hermann Ney Sirko Molau,“在功率譜上計算Mel頻率倒譜系數(shù)”,2001年IEEE國際聲學(xué),語音和信號處理會議,2001年。會議錄。 (ICASSP '01),美國,2001年,第73-76頁。
[7] Ibrahim Patel和Y. Srinivas Rao博士“使用HMM進(jìn)行語音識別,使用頻譜分解技術(shù)進(jìn)行MFCC-AN分析”Signal&Image Processing:An International Journal(SIPIJ)Vol.1,No.2,pp.101 -110,2010年12月。
[8] AMilton,S.Sharmy Roy,S.Tamil Selvi“用于MFCC特征的語音情感識別的SVM方案”國際計算機(jī)應(yīng)用雜志(0975-8887)第69卷第9期第34-39頁,2013年5月。
[9] Areg G. Baghdasaryan和A. A.(Louis)Beex“Automatic Segmentation with Segmental Hidden Markov Models”IEEE 2011 Conference on Signals,Systems and Computers,ASILOMAR,2011,pp.569-574。
[10] Anjali bala,Abhijeet kumar,Nidhika birla。 “基于MFCC和DTW的語音命令識別系統(tǒng)”國際工程科學(xué)與技術(shù)期刊, 2,沒有。 12,第7335-7342頁,2010年1月。
[11] Ting-Nong Ting,Boon-Fei Yong,Seyed Mostafa Mirhassani,“Self-Adjustable Neural Network for speech recognition,”International Journal of Engineering Applications of Artificial Intelligence,vol。 26,pp2022-2027,July2013。
收藏
編號:233075192
類型:共享資源
大小:1.49MB
格式:ZIP
上傳時間:2023-10-02
12
積分
- 關(guān) 鍵 詞:
-
中文4600字
PDF+中文WORD
外文文獻(xiàn)翻譯--使用MFCC,DTW和KNN的隔離詞自動語音識別(ASR)系統(tǒng)【中文4600字】
【PDF+中文WORD】
外文
文獻(xiàn)
翻譯
使用
MFCC
DTW
- 資源描述:
-
外文文獻(xiàn)翻譯--使用MFCCDTW和KNN的隔離詞自動語音識別(ASR)系統(tǒng)【中文4600字】 【PDF+中文WORD】,中文4600字,PDF+中文WORD,外文文獻(xiàn)翻譯,使用MFCC,DTW和KNN的隔離詞自動語音識別(ASR)系統(tǒng)【中文4600字】,【PDF+中文WORD】,外文,文獻(xiàn),翻譯,使用,MFCC,DTW
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學(xué)習(xí)交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。