在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 語音識(shí)別技術(shù)

語音識(shí)別技術(shù)

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇語音識(shí)別技術(shù)范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

語音識(shí)別技術(shù)

語音識(shí)別技術(shù)范文第1篇

1.概況

語音識(shí)別技術(shù)成為21世紀(jì)“數(shù)字時(shí)代”的重要開發(fā)領(lǐng)域,在計(jì)算機(jī)的多媒體技術(shù)應(yīng)用和工業(yè)自動(dòng)化控制應(yīng)用等方面,成果令人屬目。語音識(shí)別技術(shù)是指用電子裝置來識(shí)別某些人的某些特征語音,語音識(shí)別的手段一般分為二大類,一類利用在計(jì)算機(jī)上開發(fā)語音識(shí)別系統(tǒng),通過編程軟件達(dá)到對(duì)語音的識(shí)別,另一類采用專門的語音識(shí)別芯片來進(jìn)行簡單的語音識(shí)別。利用專門的語音識(shí)別芯片應(yīng)用在地鐵車輛上,具有結(jié)構(gòu)簡單、使用方便,并且語音識(shí)別器有較高的可靠性、穩(wěn)定性的特點(diǎn),是簡單語音識(shí)別在自動(dòng)控制應(yīng)用上的一種優(yōu)先方案。

目前上海地鐵

一、

二、

三、

五、

六、八號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上缺少實(shí)用性和操作性,對(duì)乘客來講缺少在實(shí)時(shí)報(bào)站時(shí)的人性化。如:地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng)。如果在每個(gè)車門的上方安裝車站站名動(dòng)態(tài)顯示地圖,實(shí)時(shí)顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側(cè)顯示列車的終點(diǎn)站,良好的工業(yè)設(shè)計(jì)不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計(jì)以上地鐵列車時(shí),受科技發(fā)展的限制。現(xiàn)在上海地鐵4號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上滿足了廣大的乘客的需求,

增加了車站站名動(dòng)態(tài)顯示地圖。

如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實(shí)用性和性價(jià)比,同時(shí)安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計(jì)方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對(duì)于應(yīng)用在某條線路上的聲音識(shí)別系統(tǒng),不僅要修改原語音文件,而且聲音識(shí)別器不容易操縱,

對(duì)使用者來講仍然存在比較多的問題。對(duì)于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機(jī)帶來了任務(wù),每站需要手動(dòng)操作二次,同時(shí)顯示的相關(guān)內(nèi)容沒有實(shí)時(shí)性,總之乘客信息顯示系統(tǒng)比較落后。

設(shè)計(jì)一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。

2.設(shè)計(jì)

地鐵車輛乘客信息顯示系統(tǒng)的設(shè)計(jì),采用CMOS語音識(shí)別大規(guī)模集成電路,識(shí)別響應(yīng)時(shí)間小于300ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語音識(shí)別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣電路就非常少,外接64K非易失性SRAM,最多能識(shí)別40個(gè)車站站名語音(字長0.9秒),或(字長1.92秒)但識(shí)別僅20個(gè)車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個(gè)為宜。

針對(duì)目前上海地鐵列車在車廂內(nèi)外無LED動(dòng)態(tài)站名顯示而設(shè)計(jì),通過將列車車廂廣播的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),自動(dòng)控制LED發(fā)光二極管,在列車在車廂內(nèi)使得廣播的內(nèi)容(每個(gè)車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運(yùn)營線路為背景,達(dá)到列車進(jìn)站和出站時(shí)能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點(diǎn)站方向,從而方便乘客的上下車,提高了地鐵服務(wù)水平。在國外的地鐵列車上應(yīng)用已相當(dāng)普遍。

語音識(shí)別顯示器①的輸入端與車載廣播功放器相連接,實(shí)現(xiàn)廣播模擬信號(hào)發(fā)出的語音進(jìn)行車站名的自動(dòng)識(shí)別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計(jì)。整個(gè)系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識(shí)別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。

(1)輸入控制部分:

通過麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語音輸入點(diǎn)的電壓必須控制在大約20mv左右,以確保后期語音識(shí)別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號(hào)轉(zhuǎn)變成數(shù)字方波信號(hào),對(duì)語音輸入進(jìn)行開關(guān)量的控制,確保在T<0.9秒內(nèi)的正確輸入語音字長。

(2)語音識(shí)別部分:

利用語音識(shí)別芯片HM2007和外接6264SRAM存儲(chǔ)器組成為主要部分,(HM2007中ROM已經(jīng)固化了語音語法技術(shù))對(duì)語音的存儲(chǔ)及語音語法算法進(jìn)行控制。HM2007的詳細(xì)內(nèi)容見產(chǎn)品說明書。

(3)噪音濾波部分:

濾波功能是自動(dòng)識(shí)別(阻擋)我們?cè)谠O(shè)計(jì)階段設(shè)計(jì)好的各個(gè)工況的語音情況,例如:司機(jī)的講話及車輛雜音等(在麥克風(fēng)的工況下),以確保輸入語音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進(jìn)行濾波電路。如圖5。

(4)執(zhí)行顯示部分:

將車廂廣播喇叭的模擬信息通過語音識(shí)別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車廂內(nèi)車門上十個(gè)LED顯示面板,如圖6。

(5)錄音功能部分:

在進(jìn)行廣播內(nèi)容更改時(shí),本項(xiàng)目最大的特點(diǎn)是:不需要任何手段的手工軟件編程的修改,而是通過遠(yuǎn)程音頻電路控制技術(shù)進(jìn)行按動(dòng)相關(guān)按鈕,選擇地址然后自動(dòng)錄入內(nèi)容,如圖6。

3.結(jié)論

語音識(shí)別器及LED顯示面板的設(shè)計(jì),能應(yīng)用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設(shè)計(jì)的方式相比較,語音識(shí)別控制簡單、可靠性好、安裝方便、相對(duì)投資最小和不改動(dòng)車廂內(nèi)任何電器為特點(diǎn),僅提供110VDC電源和音頻輸入接口。

本項(xiàng)目的開發(fā)具有一定社會(huì)效益,得到國內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。

參考文獻(xiàn):

1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

2.555集成電路實(shí)用大全上??萍计占俺霭嫔?/p>

3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎(jiǎng)”

4.①編入《中國科技發(fā)展精典文庫》第四輯

語音識(shí)別技術(shù)范文第2篇

[關(guān)鍵詞]語音識(shí)別系統(tǒng);差異性;指標(biāo)需求

一、引言

語音作為語言的聲學(xué)體現(xiàn),也是人類進(jìn)行信息交流最自然、和諧的手段。與機(jī)械設(shè)各進(jìn)行語音的溝通,讓機(jī)器可以明白人類在說什么,并理解這是人類長期的夢(mèng)想。語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語音識(shí)別技術(shù)的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

二、語音信號(hào)分析與特征提取

1.基于發(fā)音模型的語音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進(jìn)行收縮,并進(jìn)行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時(shí)使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵(lì)聲道便會(huì)產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過時(shí)便會(huì)產(chǎn)生湍流,會(huì)得到一種相似噪聲的激勵(lì),對(duì)應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進(jìn)行釋放就是爆破音。(2)語音信號(hào)線性預(yù)測(cè)倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測(cè)分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測(cè)技術(shù)進(jìn)而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號(hào)通過z進(jìn)行變換以后再取其對(duì)數(shù),求反z變換所得到的譜。線性預(yù)測(cè)分析方法其實(shí)就是一種譜的估計(jì)方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵(lì)和信號(hào)的譜包絡(luò),對(duì)IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測(cè)模型直接獲得的,而又被稱為LPC倒譜系數(shù)(LPCC)。

2.基于聽覺模型的語音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對(duì)于聲音頻率高低和聲波實(shí)際的頻率高低不是線性的關(guān)系,它對(duì)不同聲音頻率信號(hào)的敏感度是不一樣的,也可看成是對(duì)數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因?yàn)榱硗獾纳碛暗某霈F(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對(duì)頻率群進(jìn)行劃分會(huì)出現(xiàn)許多的很小的部分,每一個(gè)部分都會(huì)對(duì)應(yīng)一個(gè)頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過程中。所以在進(jìn)行相應(yīng)的聲學(xué)測(cè)量時(shí),頻率刻度一般取非線性刻度。語音識(shí)別方面,主要的非線性頻率刻度有Mel刻度、對(duì)數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語音信號(hào)Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計(jì)算過程:

一是對(duì)語音信號(hào)進(jìn)行相應(yīng)的預(yù)加重,從而確定了每一幀的語音采樣的長度,語音信號(hào)通過離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域?qū)δ芰窟M(jìn)行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個(gè)三角形濾波器的兩個(gè)底點(diǎn)頻率和相鄰的兩個(gè)濾波器的中心頻率相等,頻率響應(yīng)之和為l。濾波器的個(gè)數(shù)一般和臨界帶數(shù)比較相近,設(shè)濾波器數(shù)是M,濾波后得到的輸出為:X(k),k=1,2,…,M。

語音識(shí)別技術(shù)范文第3篇

關(guān)鍵詞:語音識(shí)別;HMM;俄語聲學(xué)模型;俄語語言模型

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)29-0155-04

Research Status and Development Trend of Russian Speech Recognition Technology

MA Yan-zhou

(PLA University of Foreign Languages, Luoyang 471003, China)

Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.

Key words: speech recognition; hmm;russian acoustic models; russian language models

俄語(Русскийязык)[1]是俄羅斯和聯(lián)合國的官方語言,也是我國少數(shù)民族正式語言。在前蘇聯(lián)和俄羅斯使用,俄語在蘇聯(lián)時(shí)期具有很重要的地位,直到現(xiàn)在仍然有些獨(dú)聯(lián)體國家在廣泛使用,雖然這些國家已經(jīng)開始強(qiáng)調(diào)本地語言的重要性,但在這些國家之間依然使用俄語進(jìn)行交流。全球有超過一億四千萬把俄語作為母語使用,有近四千五百萬人以第二語言使用,使用俄語媒體的有3億多人。我國俄羅斯族使用俄語進(jìn)行交流,聚集地分布在新疆地區(qū)的阿勒泰、伊犁、塔城及內(nèi)蒙古呼倫貝爾市的額爾古納、滿洲里等地,

語音識(shí)別(Speech Recognition)[2]是指在各種情況下,識(shí)別出語音的內(nèi)容,讓機(jī)器聽懂人說的話,根據(jù)其信息而執(zhí)行人的不同意圖。它是一門交叉學(xué)科,涉及與計(jì)算機(jī)、語音語言學(xué)、通信、信號(hào)處理、數(shù)理統(tǒng)計(jì)、神經(jīng)心理學(xué)人工智能、和神經(jīng)生理學(xué)等學(xué)科。能夠能滿足不同需要的語音識(shí)別系統(tǒng)的實(shí)現(xiàn)已經(jīng)成為可能,它的前提是模式識(shí)別、信號(hào)處理技術(shù)、計(jì)算機(jī)技術(shù)和聲學(xué)技術(shù)等的發(fā)展。近年來,軍事、交通等領(lǐng)域,尤其在計(jì)算機(jī)、人工智能等領(lǐng)域得到廣泛應(yīng)用。

俄語語音識(shí)別是一個(gè)有巨大潛力的研究方向,不僅能夠?yàn)槿藗兊纳a(chǎn)生活、日常交往提供極大的便捷性和高效性,而且在政治、軍事、經(jīng)濟(jì)等各個(gè)領(lǐng)域都有著重要的研究價(jià)值和應(yīng)用前景。本文著重介紹語音識(shí)別發(fā)展歷程、闡述俄語語音識(shí)別關(guān)鍵技術(shù)、分析俄語語音識(shí)別未來的發(fā)展趨勢(shì)。

1 俄語語音識(shí)別的現(xiàn)狀

俄語連續(xù)語音識(shí)別取得快速發(fā)展,利益于技術(shù)的進(jìn)步。隨著語音識(shí)別在技術(shù)層面的不斷突破與創(chuàng)新,對(duì)英語的識(shí)別慢慢成熟,然后逐漸擴(kuò)展到其他語種如漢語、俄語等。

1.1語音識(shí)別技術(shù)的發(fā)展

20世紀(jì)50年代,語音識(shí)別的研究開始借助機(jī)器來實(shí)現(xiàn)。1952年,一個(gè)特定人獨(dú)立數(shù)字識(shí)別系統(tǒng)[3]由貝爾(Bell)實(shí)驗(yàn)室的Davis、Diddulph和Balashelk首次研制,該系統(tǒng)成功識(shí)別10個(gè)英語數(shù)字。1959年,英格蘭的Fry和Denes利用譜分析技術(shù)和模板匹配技術(shù),提高了音素的識(shí)別精度,建立了一個(gè)能夠識(shí)別9個(gè)輔音和4個(gè)元音的識(shí)別系統(tǒng)。20世紀(jì)60年代,經(jīng)過Faut和Stevens的努力,語音生成理論初步形成。動(dòng)態(tài)規(guī)劃方法[4]由蘇聯(lián)的Vintsyuk提出,并實(shí)現(xiàn)了對(duì)兩段語音進(jìn)行對(duì)齊。70年代取得一系列重大突破,基本實(shí)現(xiàn)孤立詞識(shí)別。俄羅斯推進(jìn)了模板匹配思想在語音識(shí)別中的應(yīng)用;利用動(dòng)態(tài)規(guī)劃方法實(shí)現(xiàn)語音識(shí)別也由日本的科學(xué)家實(shí)驗(yàn)成功。20世紀(jì)80年代,語音識(shí)別研究的一個(gè)主要特點(diǎn)是由模板匹配方法向統(tǒng)計(jì)建模方法的轉(zhuǎn)變,特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知,但是直到20世紀(jì)80年代中期HMM模型才廣泛被世界各地的語音識(shí)別實(shí)驗(yàn)室熟悉和采納。另一個(gè)新方向是利用神經(jīng)網(wǎng)絡(luò)解決語音識(shí)別問題,促進(jìn)了該技術(shù)在語音識(shí)別領(lǐng)域的應(yīng)用[7-9]。20世紀(jì)80年代后期,在DAPRA的支持下,對(duì)大詞匯連續(xù)語音識(shí)別系統(tǒng)的研制也取得了顯著的成果,研究機(jī)構(gòu)主要有CMU、BBN、林肯實(shí)驗(yàn)室、MIT、AT&T貝爾實(shí)驗(yàn)室。

20世紀(jì)90年代以來,語音識(shí)別開始實(shí)用化研究,并取得了突破性的進(jìn)展。其中算法的研究取得了非常明顯的效果,并提升了系統(tǒng)的性能,如最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR),最大后驗(yàn)概率準(zhǔn)則估計(jì)(MaximumA-Posteriori Estimation, MAP),以及用于模型參數(shù)綁定的決策樹狀態(tài)聚類等算法,這些算法的不斷優(yōu)化,也使得應(yīng)用于實(shí)際的語音識(shí)別不斷出現(xiàn)。最具有有代表性的系統(tǒng)有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform語音平臺(tái),IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美國國家標(biāo)準(zhǔn)和技術(shù)研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不斷推動(dòng)下,各個(gè)研究機(jī)構(gòu)不斷嘗試語音識(shí)別任務(wù),目的是不斷提高識(shí)別的性能。進(jìn)入21世紀(jì),在向廣度和深度兩方面,自動(dòng)語音識(shí)別得到了更為廣泛的研究。魯棒性語音識(shí)別,進(jìn)行了了細(xì)致的調(diào)研,特別是在置信度和句子確認(rèn)方面非常有效,尤其對(duì)處理病句。在21世紀(jì)的前10年,信息技術(shù)領(lǐng)域最重要的十大科技發(fā)展技術(shù)之一就有語音識(shí)別技術(shù)的一席之地,人機(jī)接口關(guān)鍵的語音識(shí)別技術(shù),已經(jīng)成為一個(gè)具有競爭性的新興高技術(shù)產(chǎn)業(yè),它的實(shí)用化研究將成為未來的方向。

1.2俄語語音識(shí)別技術(shù)的發(fā)展

語音技術(shù)的研究主要集中在幾個(gè)主要的語言,如英語,法語,西班牙語,漢語和西班牙語,一些其他語言尤其是東歐語言很少受到注意。但是近幾年在俄羅斯,捷克,波蘭,塞爾維亞,克羅地亞等俄語區(qū)對(duì)俄語語音技術(shù)的研究活動(dòng)正在穩(wěn)步上升。

俄羅斯科學(xué)院緊跟世界語音識(shí)別技術(shù)的發(fā)展,結(jié)合俄語自身的獨(dú)有發(fā)音特點(diǎn)進(jìn)行了卓有成效的研究并取得了一系列的成果。在開發(fā)聲學(xué),詞匯和語言模型時(shí)采取特別重視俄語的細(xì)節(jié),對(duì)于聲學(xué)模型,采用知識(shí)和基于統(tǒng)計(jì)的方法來創(chuàng)建幾個(gè)不同的音素集10。對(duì)于語言模型(LM),從不同網(wǎng)站自動(dòng)收集新聞文本語料,用統(tǒng)計(jì)分析的方法將訓(xùn)練文本數(shù)據(jù)和語法相結(jié)合,計(jì)算不同情況下n-gram中單詞的頻率,優(yōu)化n-gram模型,以建立更好的n-gram模型[11]。在基本語音識(shí)別單元的問題上采用距離最小信息不匹配的原則,建立語素級(jí)單元,顯著減少誤差概率[12]。

語料庫是語音識(shí)別最基本的支撐,文本語料和口語語料都是一個(gè)語料庫不可或缺的組成部分,任缺其一則語料庫就不能反映該語言的完整信息,也沒有辦法在此基礎(chǔ)上進(jìn)行大詞匯、非特定人連續(xù)俄語語音識(shí)別的研究[13]。俄羅斯對(duì)語料庫的研究起步比較晚,在20世紀(jì)一直落后于世界語料庫的發(fā)展,缺乏系統(tǒng)的理論研究和先進(jìn)的實(shí)踐成果。但近十年來,隨著俄羅斯國家語料庫建立和不斷完善,俄語語音技術(shù)的研究正在慢慢興起并取得了一些矚目的成就。

國內(nèi)對(duì)俄語語音的研究主要集中在教學(xué)方面。使用統(tǒng)計(jì)的方法,基于HMM對(duì)俄語語音進(jìn)行建模和識(shí)別研究,目前還沒有發(fā)現(xiàn)相關(guān)的文獻(xiàn)記錄。

2 語音識(shí)別技術(shù)

語音識(shí)別系統(tǒng)根據(jù)角度、范圍、性能等差別,有以下的分類。

根據(jù)詞匯量的大小分可為小詞匯量(10至100)、中詞匯量(100至500)和大詞匯量(大于500)。根據(jù)發(fā)音方式可分為孤立詞(isolated word)識(shí)別、連接詞(connected word)識(shí)別、連續(xù)語音(continuous word)識(shí)別等。根據(jù)說話人特征可分為特定(speaker-dependent)說話人和非特定(speaker-independent)說話人。根據(jù)語音識(shí)別的方法不同進(jìn)行了模板匹配、隨機(jī)模型和概率語法分析等分類方法。

2.1 語音識(shí)別基本原理

通過計(jì)算機(jī)的輔助功能把輸入的語音信號(hào)變換為對(duì)應(yīng)的文本和命令,并且能夠接受人類的語音、理解人類的意圖,是語音識(shí)別技術(shù)研究的根本目的。語音識(shí)別系統(tǒng)核心是一套語音取樣、識(shí)別、匹配的模式匹配系統(tǒng)[2],基本原理如圖1所示。

語音識(shí)別系統(tǒng)由三個(gè)基本單元組成,它包含特征提取、模式匹配和參考模式庫,雖然它是模式識(shí)別系統(tǒng),但它的結(jié)構(gòu)要比普通的模式識(shí)別系統(tǒng)要復(fù)雜,因?yàn)檎Z音所包含的信息是復(fù)雜多樣的語言信息,結(jié)構(gòu)也是多變的。首先對(duì)輸入的語音信號(hào)進(jìn)行預(yù)處理,預(yù)處理包括適當(dāng)放大信號(hào)功率并對(duì)增益進(jìn)行有效控制,之后進(jìn)行反混疊濾波以消除信號(hào)的干擾;然后將模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)即數(shù)字化處理,便于存儲(chǔ)和處理;然后進(jìn)行特征提取,并使用一些參數(shù)來表示的語音信號(hào)的特性;最后對(duì)其進(jìn)行識(shí)別。語音識(shí)別又分為兩階段:訓(xùn)練和識(shí)別。在訓(xùn)練階段,利用特征參數(shù)表示語音信號(hào)的相應(yīng)特征,得到標(biāo)準(zhǔn)數(shù)據(jù)即模板,將模板構(gòu)建成一個(gè)數(shù)據(jù)庫即模板庫;在識(shí)別階段,將語音特征與模板庫中的每一個(gè)模板進(jìn)行比較,找到了最相似的參考模板,這就是識(shí)別的結(jié)果。

2.2 HMM模型技術(shù)

語音識(shí)別早期采用的有矢量量化(Vector quantization, VQ)技術(shù)、動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping, DTW)技術(shù)等,從處理難度上看,最簡單的是小詞匯量、特定人、孤立詞的語音識(shí)別,最難解決的是大詞匯量、非特定人、連續(xù)語音識(shí)別。當(dāng)今語音識(shí)別系統(tǒng)采用的主流算法是HMM模型技術(shù)。

HMM模型的狀態(tài)不能被直接觀察到,但可以通過觀測(cè)向量序列來觀察到,這些向量都是通過某些特定的概率密度分布來表現(xiàn)為各種狀態(tài)的,每個(gè)觀測(cè)向量都是由一個(gè)狀態(tài)序列產(chǎn)生的,這些狀態(tài)序列具有相應(yīng)的概率密度分布。HMM是一個(gè)雙重隨機(jī)過程:具有一定狀態(tài)數(shù)量的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集。HMM的基本問題及解決算法6-9

1)評(píng)估問題(前向算法)。

現(xiàn)有觀測(cè)序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何計(jì)算觀測(cè)序列的概率,進(jìn)一步可對(duì)該HMM做出相關(guān)評(píng)估。利用forward算法分別以每個(gè)HMM產(chǎn)生給定觀測(cè)序列O的概率進(jìn)行計(jì)算,然后從其中選出最優(yōu)秀的HMM模型。

經(jīng)典應(yīng)用例子就是語音識(shí)別。在HMM的語音識(shí)別描述中,每個(gè)單詞對(duì)應(yīng)一個(gè)HMM,每個(gè)觀測(cè)序列全部由一個(gè)單詞的語音來構(gòu)成,單詞的識(shí)別可以通過評(píng)估而選出最可能的HMM,此HMM由產(chǎn)生觀測(cè)序列所代表的讀音實(shí)現(xiàn)。

2)解碼問題(Viterbi算法)

現(xiàn)有觀測(cè)序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何尋找最優(yōu)的隱含狀態(tài)序列。此類問題比較關(guān)注馬爾科夫模型中的隱含狀態(tài),在這些狀態(tài)中雖然不能直接觀測(cè),但價(jià)值更大,可以利用Viterbi算法來解決。

實(shí)際例子是進(jìn)行分詞,分詞問題可以用HMM來解決。這句話的分割方法可以看做是一個(gè)隱式的狀態(tài),而這句話可以被視為一個(gè)給定的條件,從而找出基于HMM的可能正確的分割方法。

3)訓(xùn)練問題(Baum-Welch算法即前向后向算法)

此時(shí)HMM的模型參數(shù)λ=(π,A,B)未知,對(duì)這些參數(shù)進(jìn)行調(diào)整,使得觀測(cè)序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解決。

2.3 大詞匯量連續(xù)語言識(shí)別

在語音識(shí)別研究中難度和挑戰(zhàn)性最大為課題應(yīng)該是基于大詞匯量的、非特定人的連續(xù)語音識(shí)別[13]。在詞匯量大于1000詞的時(shí)候,比較容易混淆的詞數(shù)量增加,誤識(shí)率約為基于小詞匯量的、特定人的孤立詞識(shí)別系統(tǒng)的50倍左右。而且還帶來兩個(gè)重要的、不易解決的問題:語流的切分和連續(xù)語音的發(fā)音變化。此時(shí)采用統(tǒng)一框架可以有效解決這個(gè)問題。大詞匯量連續(xù)語音識(shí)別總體框架[14]如圖2所示。

俄語語音信號(hào)分析后,形成特征向量,并通過字典識(shí)別模型,然后,根據(jù)語言模型的語法,將輸入的語音與模板匹配,在句子層面進(jìn)行組合。從俄語聲學(xué)模型、俄語語言模型敘述大詞匯量連續(xù)語音識(shí)別的過程。

2.3.1聲學(xué)模型

設(shè)計(jì)俄語語音識(shí)別系統(tǒng)底層相應(yīng)的HMM子詞單元模型,需要充分考慮俄語聲學(xué)和語音學(xué)的特征。俄語基本聲學(xué)單元的選擇是聲學(xué)建模過程中一個(gè)基本而重要的問題。在俄語連續(xù)語音識(shí)別中,可供選擇的基本單元包括詞、音節(jié)、元輔音等。識(shí)別基本單元的選擇一般基于語音學(xué)知識(shí)。

俄語字母是語音的書面形式,每個(gè)俄語字母都有自己的字母名稱。元音字母的名稱和讀音相同,輔音字母的名稱是在該輔音后加一個(gè)元音[15-16]。如字母с的名稱為эс,字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫詞。俄語字母共有33個(gè)字母如表1所示。

根據(jù)俄語詞的發(fā)音特征、音節(jié)的發(fā)音特征和字母的發(fā)音特征,選擇音素作為子詞單元,然后就可以進(jìn)行HMM訓(xùn)練,首先用一種很粗糙的方法進(jìn)行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自動(dòng)收斂到一個(gè)最佳的模型,并實(shí)現(xiàn)了一個(gè)合理的子詞分割。這樣就可以初步完成俄語的聲學(xué)建模,建設(shè)一個(gè)俄語語音參考模式庫。

2.3.2 統(tǒng)計(jì)語言模型

自然語言處理問題必然要乃至統(tǒng)計(jì)語言模型[17],如語音識(shí)別、機(jī)器翻譯、分詞、詞性標(biāo)注等等。統(tǒng)計(jì)語言模型是計(jì)算概率的模型,即。使用語言模型,可以確定一個(gè)單詞序列的概率,或給定一個(gè)單詞的數(shù)目,它可以預(yù)測(cè)下一個(gè)最有可能的單詞。

那么如何計(jì)算一個(gè)句子的概率呢?給定句子(詞語序列),它的概率可以表示為:

由于上式中的參數(shù)過多,因此需要近似的計(jì)算方法。下面介紹適用于俄語的n-gram統(tǒng)計(jì)語言模型。

n-gram模型即n-1階馬爾科夫模型,首先假設(shè):當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個(gè)詞相關(guān)。因此(1)式可以近似為:

當(dāng)n值為1、2、3時(shí),n-gram模型分別稱為unigram、bigram和trigram語言模型。n-gram模型的參數(shù)就是條件概率。N取值越大,模型越準(zhǔn)確但計(jì)算越復(fù)雜計(jì)算量越大。在俄語語言模型的建立過程中,采用最多是二元模型和三元模型。

2.3.3 連續(xù)語音識(shí)別系統(tǒng)的性能評(píng)測(cè)

評(píng)定連續(xù)語音識(shí)別系統(tǒng)的優(yōu)劣,觀測(cè)系統(tǒng)的性能,一般都是針對(duì)不同的識(shí)別任務(wù),不同的任務(wù)單詞庫和任務(wù)語句庫,需要不同的評(píng)價(jià)標(biāo)準(zhǔn)。如果要想粗略地評(píng)估某個(gè)系統(tǒng),可以從兩個(gè)方面去考慮,一是系統(tǒng)識(shí)別任務(wù)的難易程度即復(fù)雜性;另一個(gè)是采用該系統(tǒng)的識(shí)別系統(tǒng)的識(shí)別方法對(duì)該難度的識(shí)別任務(wù)的識(shí)別效果即識(shí)別率。在連續(xù)語音識(shí)別系統(tǒng)中,通過對(duì)音素、音節(jié)或詞的識(shí)別率進(jìn)行識(shí)別性能評(píng)價(jià),常用的系統(tǒng)參數(shù)是正確率(正確率),錯(cuò)誤率和識(shí)別準(zhǔn)確率。

其中的正確數(shù)、轉(zhuǎn)換數(shù)、插入數(shù)和脫落數(shù),采用主觀的方法來目測(cè),馬可以通過統(tǒng)計(jì)的方法來得到。

2.4 HTK工具

語音識(shí)別過程涉及的算法復(fù)雜,其中最為著名的HTK由劍橋大學(xué)研發(fā),主要用來建立基于HMM的大規(guī)模連續(xù)語音識(shí)別系統(tǒng)。該軟件集為開放源代碼,可以在UNIX/Linux和Windows環(huán)境下運(yùn)行。HTK提供了一系列命令函數(shù)用于語音識(shí)別,包括一系列的運(yùn)行庫和工具,使用基于ASNIC模塊化設(shè)計(jì),可以實(shí)現(xiàn)語音錄制、分析、標(biāo)示、HMM的訓(xùn)練、測(cè)試和結(jié)果分析。整個(gè)HTK的工作過程包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和識(shí)別過程。

3 語音識(shí)別的應(yīng)用

隨著計(jì)算機(jī)技術(shù)的進(jìn)步、算法的不斷優(yōu)化、信息處理技術(shù)的智能化,俄語語音識(shí)別技術(shù)的發(fā)展會(huì)越來越光明。應(yīng)用的范圍也會(huì)越來越廣,可能會(huì)出現(xiàn)一些新的應(yīng)用。

1)俄語語音信息檢索

網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的迅速發(fā)展,數(shù)據(jù)量急劇增多,如何在海量數(shù)據(jù)中挑選出有用的信息,并進(jìn)行相應(yīng)的分類和檢索,對(duì)合理地利用信息資源具有重要的意義。多媒體檢索技術(shù)應(yīng)運(yùn)而生。

2)俄語發(fā)音自學(xué)技術(shù)

非母語語言學(xué)習(xí)成為目前教育領(lǐng)域的一個(gè)熱點(diǎn),而自學(xué)是語言學(xué)習(xí)的一個(gè)有效途徑,它具有不受時(shí)間和空間限制、靈活方便的特點(diǎn),一種稱為計(jì)算機(jī)輔助語言學(xué)習(xí)的技術(shù)誕生了。有幾個(gè)普通問題和關(guān)鍵技術(shù)是必須要考慮和解決的:標(biāo)準(zhǔn)發(fā)音語料庫和非標(biāo)準(zhǔn)發(fā)音語料庫、學(xué)習(xí)者發(fā)音的分級(jí)標(biāo)準(zhǔn)、語音對(duì)齊、衡量發(fā)音質(zhì)量的評(píng)判標(biāo)準(zhǔn)和發(fā)音矯正。

3)基于俄語語音情感處理

人與人的交流,除了語言信息外,非語言信息也起著非常重要的作用,包含在語音信號(hào)中的情感因素[18],也反映了信息的一個(gè)方面。情感的分析和識(shí)別也是一個(gè)非常困難的研究方向。

4)嵌入式俄語語音識(shí)別技術(shù)

后PC時(shí)代智能終端的飛速發(fā)展,為人機(jī)之間的自然、快捷交互提供了可能。當(dāng)前嵌入式語音識(shí)別的應(yīng)用領(lǐng)域還比較有限,未來應(yīng)用可能會(huì)更加廣泛。

4 總結(jié)

語音識(shí)別技術(shù)的實(shí)用研究是一項(xiàng)極具挑戰(zhàn)性的工作,雖然經(jīng)歷了近半個(gè)世紀(jì)的發(fā)展,取得了一些突破性的進(jìn)展。語音識(shí)別技術(shù)在俄語方面的應(yīng)用更是如此,不僅要解決語音識(shí)別技術(shù)本身的問題,還要解決高質(zhì)量的俄語語音語料庫和文本語料庫的問題,同時(shí)還要解決各種算法與俄語適應(yīng)和匹配等其他問題,如俄語自然語言的識(shí)別與理解、俄語語音信息的變化范圍與幅度、俄語語音的清晰度、俄語語音發(fā)音與環(huán)境噪聲及上下文的影響等等。雖然面臨諸多困難,但是隨著人類文明的不斷發(fā)展與科技的不斷進(jìn)步,相信這些問題會(huì)在不久的將來逐一得到解決,展現(xiàn)在人們面前的是更加流暢、更加智能的人機(jī)交互界面。

參考文獻(xiàn)

[1] 趙力.語音信號(hào)處理 [M].北京:機(jī)械工業(yè)出版社,2011:191-215.

[2] 韓紀(jì)慶,張磊,鄭鐵然.語音信號(hào)處理[M].北京:清華大學(xué)出版社,2013:241-255.

[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.

[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.

[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.

[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.

[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.

[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.

[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.

[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.

[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.

[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.

[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.

[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.

[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.

[16] ДН Бабин,ИЛ Мазуренко,АБ Холоденко.О перспектив ах создания системы автоматического распознавания сли тной устной русской речи[J].Интеллектуальные системы,2004,8(1):45-70.

語音識(shí)別技術(shù)范文第4篇

【關(guān)鍵詞】最佳基;匹配追蹤;HMM;語音識(shí)別

1.引言

語音識(shí)別的研究工作始于20世紀(jì)50年代,1952年Bell實(shí)驗(yàn)室開發(fā)的Audry系統(tǒng)是第一個(gè)可以識(shí)別10個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。隱馬爾可夫模型是20世紀(jì)70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。目前大多數(shù)連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于HMM模型的。[1]

一般來說,語音識(shí)別的方法有三種:基于聲道模型和語音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法。語音識(shí)別一個(gè)根本的問題是合理的選用特征。特征參數(shù)提取的目的是對(duì)語音信號(hào)進(jìn)行分析處理,去掉與語音識(shí)別無關(guān)的冗余信息,獲得影響語音識(shí)別的重要信息,同時(shí)對(duì)語音信號(hào)進(jìn)行壓縮。非特定人語音識(shí)別系統(tǒng)一般側(cè)重提取反映語義的特征參數(shù),盡量去除說話人的個(gè)人信息;而特定人語音識(shí)別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時(shí),盡量也包含說話人的個(gè)人信息。

而隨著時(shí)頻技術(shù)的研究發(fā)展,使人們?cè)谶M(jìn)行信號(hào)處理時(shí),可以將語音信號(hào)分解在一組完備的正交基上。從而,語音信號(hào)的能量在分解以后將分散分布在不同的基上。但是,語音信號(hào)是一種典型的非平穩(wěn)信號(hào),其性質(zhì)隨時(shí)間快速變化,在兩個(gè)不同的時(shí)間瞬間,在同一個(gè)頻率鄰域內(nèi),信號(hào)可以有完全不同的能量分布。因此,有必要找到一種精確表示語音信號(hào)時(shí)頻結(jié)構(gòu),便于特征提取的方法。[2]

立足于此,本文提出,通過平移窗口,用余弦基乘以窗口函數(shù),構(gòu)造出局部余弦基,分離不同時(shí)間區(qū)間,很適合于逼近語音信號(hào)。本文使用這種具有活動(dòng)窗口特性的局部余弦基表示語音信號(hào)。為了減少計(jì)算量,并進(jìn)一步提高局部余弦基原子時(shí)頻分布的分辨率,采用匹配追蹤(MP)算法分解信號(hào),并結(jié)合時(shí)頻分析技術(shù)得到最優(yōu)局部余弦基原子的魏格納-維利分布(WVD)[2],從而得到信號(hào)精確的時(shí)頻結(jié)構(gòu)[3],進(jìn)行特征提取。此外,結(jié)合語音信號(hào)的美爾頻率倒譜系數(shù)(MFCC)一起作為該信號(hào)的特征向量,通過隱馬爾科夫(HMM)模型進(jìn)行識(shí)別。實(shí)驗(yàn)證明。這種多參數(shù)語音識(shí)別算法提高了識(shí)別的準(zhǔn)確度和速度。

2.局部余弦基建模

通過光滑地劃分時(shí)間序列為任意長度的子區(qū)間(如圖1),可使每一個(gè)時(shí)間段分別由重疊正交基表示,而整個(gè)時(shí)間序列的基函數(shù)又構(gòu)成時(shí)頻平面的正交鋪疊,因此局部余弦變換對(duì)在不同時(shí)間段有不同的波形的語音信號(hào)有很強(qiáng)的針對(duì)性。

圖1 重疊窗口劃分時(shí)間軸

Figure1 lapped window divides time axis

圖1中為重疊窗口函數(shù)[3]:

(1)

式中為單調(diào)遞增的輪廓函數(shù),定義為[3]:

(2)

局部余弦函數(shù)族構(gòu)成了實(shí)數(shù)軸上平方可積函數(shù)空間的規(guī)范正交基:

(3)

式中為窗口支集伸縮參數(shù);為第P段時(shí)間起點(diǎn);n()表示正交基序列號(hào)。

語音信號(hào)可表示為:

(4)

是余弦基原子,。其中是窗口支集邊界參數(shù),為窗口支集伸縮參數(shù),是輪廓函數(shù)的尺度參數(shù),這保證了窗口支集只與相鄰的具有適當(dāng)對(duì)稱性的窗口重合,達(dá)到局部余弦基精確覆蓋整個(gè)時(shí)頻平面的目的。

3.匹配追蹤法選取最佳基

由Mallat和Zhang引入的匹配追蹤算法運(yùn)用貪婪技巧減少了計(jì)算的復(fù)雜性。它從局部余弦基構(gòu)成的冗余字典中一個(gè)一個(gè)挑選向量,每一步都使信號(hào)的逼近更為優(yōu)化。

MP算法將信號(hào)分解成一簇時(shí)頻原子的線性表達(dá),這些原子選自高冗余度的函數(shù)字典中,且最好地符合內(nèi)在結(jié)構(gòu)。假設(shè)函數(shù)集是Hilbert空間中一個(gè)完備字典,滿足,最優(yōu)的M階近似為:

(5)

設(shè)由M個(gè)時(shí)頻函數(shù)近似的信號(hào)與的誤差最小,表達(dá)式如下:

(6)

其中代表所選函數(shù)的索引。

首先按照某個(gè)選擇函數(shù)(與的內(nèi)積最大)逐個(gè)挑選出時(shí)頻函數(shù),分解為:,設(shè)初始輸入信號(hào)為初始?xì)埐钚盘?hào),表示f(t)在方向上近似后的冗余部分。

假設(shè)已有表示經(jīng)過前M-1次迭代后,中未表達(dá)部分:選定為最匹配的時(shí)頻函數(shù),按如下公式分解為:

(7)

由于每步中與正交,如果字典是完備的,則迭代收斂于f,滿足:

(8)

這樣,可估算出(4)式中局部余弦基原子的參數(shù)。

文獻(xiàn)[4]中提出,選出最匹配信號(hào)的基,對(duì)每一個(gè)基求出其WVD分布,信號(hào)的WVD分布就表示其最優(yōu)基的WVD的線性組合,這樣就消除了交叉項(xiàng)的影響。由此得到的WVD分布:

(9)

是局部余弦基字典中被選中的最優(yōu)基的WVD分布。將等式左邊第二項(xiàng)交叉項(xiàng)組合去除,這樣在時(shí)頻面上就得到了干凈的時(shí)頻表示:

(10)

在語音信號(hào)稀疏分解過程中,每步分解都要從過完備原子庫中選出與待分解語音信號(hào)或語音信號(hào)分解殘余最為匹配的原子,原子是由參數(shù)公式(4)決定的。因此語音信號(hào)稀疏分解所得原子的參數(shù)可作為語音信號(hào)的特征。此外,根據(jù)公式(10),使用匹配追蹤法選取的最佳基的WVD分布,含有該語音信號(hào)重要且獨(dú)特的信息,也可作為該語音信號(hào)的特征。

4.基于HMM的語音識(shí)別算法

特征提取基于語音幀,即將語音信號(hào)分為有重疊的若干幀,對(duì)每一幀提取一次語音特片。由于語音特征的短時(shí)平穩(wěn)性,幀長一般選取20ms左右。在分幀時(shí),前一幀和后一幀的一部分是重疊的,用來體現(xiàn)相鄰兩幀數(shù)據(jù)之間的相關(guān)性,通常幀移為幀長1/2。本文為了方便做MP,采用的幀長為512點(diǎn)(32ms),幀移為256點(diǎn)(16ms)。特征的選擇需要綜合考慮存儲(chǔ)量的限制和識(shí)別性能的要求。通常的語音識(shí)別系統(tǒng)使用24維特征矢量,包括12維MFCC和12維一階差分MFCC。本文提出的多參數(shù)語音識(shí)別算法,在此基礎(chǔ)上增加了原子參數(shù)公式(4)和最佳基的WVD分布公式(10),這兩維特征,構(gòu)成26維特征矢量。對(duì)MFCC和語音信號(hào)能量的WVD分布分別使用了倒譜均值減CMS(Ceps-trum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性[5]。

在HMM模型中,首先定義了一系列有限的狀態(tài)S1,…,SN,系統(tǒng)在每一個(gè)離散時(shí)刻n只能處在這些狀態(tài)當(dāng)中的某一個(gè)Xn。在時(shí)間起點(diǎn)n=0時(shí)刻,系統(tǒng)依初始概率矢量π處在某一個(gè)狀態(tài)中,即:

(11)

以后的每一個(gè)時(shí)刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時(shí)刻系統(tǒng)的狀態(tài)有關(guān),并且依轉(zhuǎn)移概率矩陣A跳轉(zhuǎn),即:

(12)

且滿足:

(13)

系統(tǒng)在任何時(shí)刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內(nèi)部,并不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的一個(gè)Rq空間隨機(jī)觀察矢量On。On的分布P稱為輸出概率矩陣,只取決于On所處狀態(tài):

(14)

因?yàn)樵撓到y(tǒng)的狀態(tài)不為外界所見,因此稱之為“隱含馬爾科夫模型”,簡稱HMM。在識(shí)別中使用的隨機(jī)觀察矢量就是從信號(hào)中提取的特征矢量。按照隨機(jī)矢量Qn的概率分布形時(shí),其概率密度函數(shù)一般使用混合高斯分布擬合。

(15)

其中,M為使用的混合高斯分布的階數(shù);Cm為各階高斯分布的加權(quán)系數(shù)。此時(shí)的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡稱CHMM模型[6]。在本識(shí)別系統(tǒng)中,采用孤立詞模型,每個(gè)詞條7個(gè)狀態(tài),同時(shí)包括首尾各一個(gè)靜音狀態(tài);每個(gè)狀態(tài)使用3階混合高斯分布擬合。

5.仿真實(shí)驗(yàn)

5.1 提取最佳基的WVD分布特征矢量

構(gòu)建局部余弦基字典,使用MP算法選取語音信號(hào)“A”的最佳基。如圖2所示。得到的時(shí)頻圖既保留了余弦基原子高時(shí)頻聚集性的優(yōu)點(diǎn),又削弱了WVD作為二次型時(shí)頻表示所固有的交叉項(xiàng)的影響,得到了干凈的時(shí)頻面。其結(jié)果更精確的反映出語音信號(hào)在頻率、音強(qiáng)方面的特征,具有良好的時(shí)頻聚集性。

圖2 “A“信號(hào)的WVD分布

Figure2 WVD of“A”

5.2 孤立詞識(shí)別

在語音識(shí)別實(shí)驗(yàn)中,采用信號(hào)長度為1024的200個(gè)實(shí)際語音信號(hào)樣本,其中100個(gè)用于訓(xùn)練,100個(gè)用于測(cè)試。該實(shí)驗(yàn)用以識(shí)別出語音信號(hào)”A”。實(shí)驗(yàn)利用WaveCN2.0錄音系統(tǒng)進(jìn)行樣本采集,采樣率為8kHz。得到語音信號(hào)的有效部分后,提取樣本信號(hào)的MFCC參數(shù)作為語音信號(hào)的特征參數(shù)之一。Mel濾波器的階數(shù)為24,fft變換的長度為256,采樣頻率為8kHz。MFCC的相關(guān)波形見圖3。

圖3 “A“信號(hào)的MFCC波形

Figure3 MFCC Waveform of“A”

然后利用MP算法將樣本信號(hào)分解為300個(gè)原子,將所得原子的參數(shù)和最佳基的WVD分布,作為該語音信號(hào)的特征參數(shù)之二。見圖2。通過HMM進(jìn)行識(shí)別。

在實(shí)驗(yàn)中,設(shè)語音”A”類值為1,其他的語音類值為-1。HMM模型的狀態(tài)數(shù)為7,高斯混合數(shù)為3。由第4節(jié)HMM訓(xùn)練的定義可知,重估過程中的輸出概率是隨著重估次數(shù)的遞增而增加的,圖4列出了“A”模型訓(xùn)練期間重估次數(shù)與總和輸出概率的log值之間的關(guān)系。由圖可以看出,“A”模型重估20次算法收斂,并且,輸出概率與重估次數(shù)成正比趨勢(shì)。

圖4 重估次數(shù)與總和輸出概率

Figure4 Iterations of EM and output like lihood

對(duì)語音進(jìn)行上述HMM訓(xùn)練之后,將其模型參數(shù)存貯,獲得了識(shí)別的HMM模型庫。在識(shí)別階段,對(duì)100個(gè)測(cè)試用數(shù)據(jù)進(jìn)行語音識(shí)別,以檢驗(yàn)本文系統(tǒng)的識(shí)別效果。如表1所示識(shí)別精度為89%,平均識(shí)別時(shí)間約為1.313秒,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)識(shí)別率和運(yùn)算速度都比較理想。

表1 識(shí)別結(jié)果

語音類型 識(shí)別次數(shù) 識(shí)別結(jié)果 識(shí)別精度

A 其它

A 100 92 8 92%

增加了局部余弦基原子的參數(shù)和最佳基的WVD分布作為特征參數(shù),較單純的使用MFCC作為特征參數(shù)進(jìn)行HMM模型訓(xùn)練,識(shí)別率有一定提高,見表2。

表2 結(jié)果比較

特征參數(shù) 識(shí)別率%

MFCC、和特征參數(shù) 92

MFCC 89.5

6.結(jié)語

本文在傳統(tǒng)基于HMM模型的語音識(shí)別基礎(chǔ)上,通過匹配追蹤算法,提取出最佳基的原子參數(shù)和WVD分布。二者與MFCC一起,作為本文提出的多參數(shù)語音識(shí)別算法的特征向量。然后選擇了大量孤立詞樣本進(jìn)行仿真實(shí)驗(yàn),針對(duì)非特定人孤立詞進(jìn)行語音識(shí)別。結(jié)果表明,基于HMM和匹配追蹤的多參數(shù)語音識(shí)別算法,可提高語音識(shí)別的速度和準(zhǔn)確度,有一定的實(shí)用性。但是,由于算法的復(fù)雜性增加,運(yùn)算量相應(yīng)增大,簡化算法運(yùn)算量仍是需要深入研究的課題。

參考文獻(xiàn)

[1]何方偉,青木由直.DP動(dòng)態(tài)匹配算法實(shí)現(xiàn)語音的實(shí)時(shí)識(shí)別[J].數(shù)據(jù)采集與處理,vol.4,no.1,Mar,1989.

[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.

[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.

[4]R Gribonval.Fast matching pursuit with a multiscale dictionary of Gaussian Chirps[J].IEEE Trans.Signal Processing,2001,49(5):994-1001.

語音識(shí)別技術(shù)范文第5篇

關(guān)鍵詞:爆破;個(gè)別飛石;預(yù)防措施

中圖分類號(hào):TU 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16723198(2012)10017502

爆破個(gè)別飛石是爆破時(shí)從巖體脫離并從表面射出飛越很遠(yuǎn)的部分巖塊。個(gè)別飛石是因?yàn)檎ㄋ幈芷扑橥潦?,剩余的氣體能量繼續(xù)作用于碎石,使其獲得很大的初速和動(dòng)能,遇到巖體薄弱面,強(qiáng)大的氣體能量即從該處集中沖出,使碎石以極高的初速向外飛出而形成的。常造成人員傷亡、建筑物及設(shè)備的損壞。

1 個(gè)別飛石產(chǎn)生的原因

1.1 勘察環(huán)節(jié)

閔國清、穆大耀、廟延鋼、楊溢等學(xué)者在文獻(xiàn)中認(rèn)為地形測(cè)量誤差、地質(zhì)構(gòu)造調(diào)查不詳是飛石產(chǎn)生的重要原因之一。

爆破作業(yè)環(huán)境條件一般比較差,給地形和藥室測(cè)量帶來困難,不易測(cè)量準(zhǔn)確。測(cè)量誤差過大,設(shè)計(jì)的最小抵抗線可能會(huì)過大或過小。不能正確反映最小抵抗線方向、大小,就給爆破產(chǎn)生個(gè)別飛石提供了條件。

爆破是炸藥對(duì)被爆客體的作用過程,被爆客體的地質(zhì)條件直接影響爆破效果和爆破安全。地質(zhì)條件主要包括地形、巖性、地層產(chǎn)狀、構(gòu)造、巖石礦物成分、水文地質(zhì)條件等。斷層、褶皺、解理、裂隙、破碎帶、軟弱夾層等對(duì)爆破效果和安全影響很大,特別是當(dāng)藥包位于斷層、破碎帶或軟弱夾層附近時(shí)最容易產(chǎn)生飛石。

1.2 設(shè)計(jì)環(huán)節(jié)原因

爆破參數(shù)選擇和設(shè)計(jì)是爆破質(zhì)量好壞的關(guān)鍵,孔位設(shè)計(jì)、網(wǎng)路設(shè)計(jì)、微差時(shí)間、爆破安全設(shè)計(jì)參數(shù)不準(zhǔn)等也極為重要;最小抵抗線方向、單位炸藥消耗量、裝藥結(jié)構(gòu)形式、藥室間距和起爆時(shí)間間隔、孔位密集系數(shù)確定的不合理,就很可能導(dǎo)致爆破飛石的產(chǎn)生。

1.3 施工環(huán)節(jié)原因

孔位、孔距、孔深、堵塞長度、網(wǎng)路連接、起爆順序、裝藥量、裝藥結(jié)構(gòu)形式等都必須按設(shè)計(jì)進(jìn)行施工,鉆孔偏位、網(wǎng)路連接不當(dāng)、裝藥量控制的不精確都可能引起遠(yuǎn)距離的飛石。

藥室內(nèi)炸藥傳爆能力如果過低,爆破在巖體中未形成鼓包前,炸藥產(chǎn)生的高溫、高壓氣體會(huì)直接作用于堵塞物,堵塞物長度未按設(shè)計(jì)嚴(yán)格施工而過短的話,就會(huì)造成個(gè)別飛石大量出現(xiàn)。

2 硐室爆破防止個(gè)別飛石措施

2.1 準(zhǔn)確測(cè)量

準(zhǔn)確的勘察測(cè)量是爆破取得成功的基礎(chǔ)。設(shè)計(jì)和施工才有可靠的依據(jù)。測(cè)量技術(shù)人員在觀念上必須認(rèn)真重視,態(tài)度上必須一絲不茍,方法上必須講求科學(xué),采用先進(jìn)合理的測(cè)量方案,工作中可以采用多次測(cè)量、重復(fù)抽檢測(cè)量等方法保證測(cè)量的準(zhǔn)確與可靠。設(shè)計(jì)人員對(duì)測(cè)量數(shù)據(jù)結(jié)果應(yīng)該進(jìn)行必要的復(fù)核檢驗(yàn),避免數(shù)據(jù)不準(zhǔn)確而導(dǎo)致設(shè)計(jì)上的失誤。此外建立事故責(zé)任倒查追究制度也是不可或缺,它可以督促爆破作業(yè)參與人員繃緊安全這根弦。

2.2 弄清構(gòu)造

勘測(cè)資料是爆破初步設(shè)計(jì)的依據(jù),認(rèn)真做好地質(zhì)條件的勘察作業(yè),在爆破區(qū)域內(nèi),不僅要仔細(xì)踏勘地表情況還要對(duì)特殊區(qū)域進(jìn)行詳盡的地質(zhì)調(diào)查,開挖導(dǎo)洞、藥室時(shí),對(duì)巖土的構(gòu)造要進(jìn)行調(diào)查,尤其要搞清區(qū)域內(nèi)的墳洞、溶洞、斷層、褶皺、節(jié)理、裂隙、破碎帶、軟弱夾層和不穩(wěn)定巖體的分布、形狀等。

袁政文在文獻(xiàn)中提出了認(rèn)真搞好地質(zhì)勘查,針對(duì)地質(zhì)缺陷采取相應(yīng)措施。爆破作業(yè)地處環(huán)境復(fù)雜地域,爆破質(zhì)量要求高的工程,還要弄清爆破區(qū)巖土的巖性、性質(zhì)、成分、地層產(chǎn)狀、構(gòu)造、巖石礦物成分、物理力學(xué)指標(biāo)、水文地質(zhì)條件等情況。導(dǎo)洞開挖以后應(yīng)根據(jù)現(xiàn)場(chǎng)勘察到的地質(zhì)和巖性資料,適當(dāng)修改爆破設(shè)計(jì)參數(shù)。如調(diào)整最小抵抗線方向、大小,藥包間距大小對(duì)斷層、裂隙、溶洞可將條形藥包改為分集藥包或集中藥包,將薄弱部位裝藥段改為填塞段等辦法來避開薄弱部位。

2.3 正確設(shè)計(jì)

爆破設(shè)計(jì)是爆破作業(yè)取得成功的關(guān)鍵因素。爆破參數(shù)的選取是設(shè)計(jì)的核心。

使用不耦合炸藥,低爆速炸藥,擠壓爆破,毫秒起爆等措施可以起到控制飛石的作用。多排爆破時(shí)要選擇合理的延期時(shí)間,防止因前排帶炮(后沖),造成后排最小抵抗線大小和方向失控,應(yīng)等到前排藥包起爆形成爆破漏斗后,后排藥包再起爆,以保證最小抵抗線的方向、大小以及藥包的自由面與設(shè)計(jì)相符。

萬希嶺、李紅杰、許永勝等人在文獻(xiàn)中認(rèn)為爆破參數(shù)中,最小抵抗線、爆破作用指數(shù)和單耗是產(chǎn)生飛石的主要的影響因素,正確選取這三個(gè)參數(shù)不僅能預(yù)防飛石等爆破危害,也會(huì)取得理想的爆破效果。

合理確定最小抵抗線是減少飛石飛散距離的關(guān)鍵。最小抵抗線是爆破設(shè)計(jì)的重要參數(shù),要通過爆破試驗(yàn)科學(xué)地確定符合現(xiàn)場(chǎng)地質(zhì)和施工條件的最小抵抗線,才能獲得最優(yōu)的爆破設(shè)計(jì)方案,以準(zhǔn)確地進(jìn)行布孔和裝藥。集中藥包內(nèi)部爆破的個(gè)別飛石距離公式:

R=20K?n2?W

式中:R-個(gè)別飛石的安全距離,m;n-最大一個(gè)裝藥的爆破作用指數(shù);W-最大一個(gè)裝藥的最小抵抗線,m;K-安全系數(shù),一般取1.0-1.5。

炸藥消耗量的選取要符合爆破對(duì)象的實(shí)際要求。查表法、計(jì)算法、類比法等都是可以用于選取炸藥單位消耗量的方法。對(duì)爆破質(zhì)量要求比較高的爆破,須依據(jù)爆破漏斗試驗(yàn)選取炸藥單位消耗量,實(shí)際使用時(shí)依據(jù)被爆巖體地形地質(zhì)、爆破質(zhì)量和環(huán)保要求等情況適度微調(diào)。

確定爆破作用指數(shù)值要依據(jù)爆破目的、拋距、環(huán)境條件、經(jīng)濟(jì)效益等因素。爆破作用指數(shù)值過大,易產(chǎn)生飛石且也不經(jīng)濟(jì);爆破作用指數(shù)值過小,易發(fā)生沖炮且爆破的大塊率也較高。

2.4 嚴(yán)格施工

施工環(huán)節(jié)是實(shí)現(xiàn)工程爆破的決定性環(huán)節(jié)。再符合實(shí)際的設(shè)計(jì),都需要通過施工去實(shí)現(xiàn),因此通過提高施工質(zhì)量控制飛石是非常有效也十分可能的途徑。

操作失誤在爆破中應(yīng)該杜絕,加強(qiáng)管理,精心施工,要嚴(yán)格按照《爆破安全規(guī)程》等有關(guān)規(guī)范進(jìn)行。

藥室、炮孔位置的測(cè)量必須驗(yàn)收合格。

裝藥前應(yīng)認(rèn)真校核各藥包的最小抵抗線,如有變化必須修正裝藥量。要嚴(yán)格保證裝藥質(zhì)量,裝藥量要經(jīng)過專門清點(diǎn)和計(jì)量,不能裝多和裝少而要嚴(yán)格依據(jù)設(shè)計(jì)方案。

裝藥后的堵塞,控制要嚴(yán)格,杜絕偷工減料。堵塞長度要依據(jù)爆破設(shè)計(jì)的要求,精心施工,絕不能圖快而降低堵塞參數(shù)。堵塞要密實(shí),堵塞物中要避免夾雜碎石。堵塞質(zhì)量要經(jīng)過專門檢查和驗(yàn)收。施工中,對(duì)爆破體采取覆蓋或設(shè)置防護(hù),是有效控制飛石的手段。覆蓋爆破區(qū)的材料要便于固定、不易拋散和拆散且能防止細(xì)小碎塊的穿透。

施工時(shí)要在最小抵抗線方向創(chuàng)造好自由面,確保最小抵抗線方向和大小符合設(shè)計(jì)要求。

如果炸藥爆速高,爆炸產(chǎn)生的瞬間能量就高,相應(yīng)的炸藥利用率就越高。在炸藥單位消耗量較低的情況下,就需要提高炸藥利用率以避免從導(dǎo)洞等薄弱處首先突破,生成飛石。萬希嶺、李紅杰、許永勝等人在文獻(xiàn)中認(rèn)為保證藥室內(nèi)炸藥穩(wěn)定傳爆的措施,除選用質(zhì)量好、爆速高的炸藥外,在施工時(shí)還有保證炸藥堆放密度適中;選用防水炸藥或做好防水處理;適當(dāng)增加起爆藥包數(shù)量;用導(dǎo)爆索聯(lián)接藥室內(nèi)同段起爆的藥包,并在導(dǎo)爆索上間隔一定距離捆扎一個(gè)質(zhì)量好、爆速高的藥包等措施可以選用。

3 展望

學(xué)者們對(duì)于爆破個(gè)別飛石危害的論述,可以概括為勘察、設(shè)計(jì)和施工三個(gè)維度。依托當(dāng)前的爆破理論成果,對(duì)爆破飛石危害的治理取得了很大成果。但不時(shí)出現(xiàn)的飛石傷亡事故,說明對(duì)爆破飛石產(chǎn)生機(jī)理的研究仍需隨著爆破理論的發(fā)展而走向深入。尤其要指出的是爆破飛石事故的產(chǎn)生幾乎全部都與人的因素有關(guān),而不僅僅是技術(shù)原因。提高相關(guān)人員的職業(yè)安全責(zé)任意識(shí)和安全防護(hù)技能,健全制度和安全管理措施,甚屬必要。這方面的研究亟待加強(qiáng)。

參考文獻(xiàn)

[1]王德勝,龔敏.露天礦山臺(tái)階中深孔爆破開采技術(shù)[M].北京:冶金工業(yè)出版社,2007.

[2]閔國清,穆大耀,廟延鋼,楊溢.硐室爆破個(gè)別飛石產(chǎn)生原因及預(yù)防措施[J].云南冶金,2003,32(3):13.

[3]萬希嶺,李紅杰,許永勝.控制硐室爆破飛石安全問題措施探討[J].爆破,2003,20(4):101103.

牡丹江市| 新巴尔虎右旗| 白银市| 和顺县| 河东区| 庆阳市| 临澧县| 饶平县| 乡宁县| 平邑县| 上蔡县| 垣曲县| 棋牌| 肃宁县| 彰化县| 莱阳市| 普安县| 乌拉特中旗| 芦溪县| 宁远县| 武义县| 樟树市| 弥勒县| 社旗县| 饶河县| 红桥区| 景德镇市| 洪洞县| 施甸县| 江川县| 象州县| 荥经县| 原阳县| 临夏县| 扎赉特旗| 通州区| 临邑县| 开鲁县| 兰考县| 墨江| 旅游|