在线观看av毛片亚洲_伊人久久大香线蕉成人综合网_一级片黄色视频播放_日韩免费86av网址_亚洲av理论在线电影网_一区二区国产免费高清在线观看视频_亚洲国产精品久久99人人更爽_精品少妇人妻久久免费

首頁 > 文章中心 > 語音識別

語音識別

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇語音識別范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

語音識別

語音識別范文第1篇

【關(guān)鍵詞】語音識別 語言模型 聲學(xué)模型 人工智能

使用智能手機(jī)的朋友們都會對語音助手產(chǎn)生極大的興趣,不管是微軟的Cortana,還是蘋果的Siri,都是將語音識別融入現(xiàn)代技術(shù)的典范。Z音識別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù),也是人工智能重要部分。

語音識別技術(shù)(speech recognition),也被稱為自動語音識別 (ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而前者的目標(biāo)是語音中所包含的詞匯內(nèi)容。

探究語音識別技術(shù)的框架、應(yīng)用與發(fā)展有利于全面了解語音識別。本文將從語音識別簡介、主流語言識別框架以及語言識別近年來的發(fā)展三個(gè)方面探究語音識別。

1 語音識別簡介

1.1 傳統(tǒng)語言識別技術(shù)發(fā)展

對語音識別技術(shù)的研究可以追述到上世紀(jì)五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),開創(chuàng)了語音識別的先河。上世紀(jì)六十年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。上世紀(jì)七十年代以后,大規(guī)模的語音識別在小詞匯量、孤立詞的識別方面取得了實(shí)質(zhì)性的進(jìn)展。傳統(tǒng)語音識別技術(shù)最大突破是隱式馬爾可夫模型的應(yīng)用,這一模型極大提高了語音識別的準(zhǔn)確率[1]。

1.2 語言識別的應(yīng)用

作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識別一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識別技術(shù)的研究的突破,其對計(jì)算機(jī)發(fā)展和社會生活的重要性日益凸現(xiàn)出來。在現(xiàn)實(shí)生活中,語音識別技術(shù)的應(yīng)用相當(dāng)廣泛,它改變了人與計(jì)算機(jī)交互的方式,使計(jì)算機(jī)更加智能。和鍵盤輸入相比,語音識別更符合人的日常習(xí)慣;使用語言控制系統(tǒng),相比手動控制,語音識別更加方便快捷,可以用在工業(yè)控制、智能家電等設(shè)備;通過智能對話查詢系統(tǒng),企業(yè)可以根據(jù)用戶的語音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)檢索服務(wù)。

2 語音識別框架

目前主流的語音識別框架可以分為以下幾個(gè)模塊:信號處理,特征提取,聲學(xué)模型,語言模型,解碼器。

2.1 信號處理

信號處理模塊是對語音文件進(jìn)行預(yù)處理。聲音是一種縱波,在識別語音時(shí),輸入為WMV,MP3等格式的文件會被轉(zhuǎn)換成非壓縮的純波文件wav格式。然后在進(jìn)行語音識別前,需要檢測該文件中的語音信號,該技術(shù)被稱之為語音活性檢測[2]。使用語言活性檢測技術(shù)可以有效降低噪音,去除非語音片段,提高語音識別的準(zhǔn)確率。經(jīng)典的語音活性檢測算法由如下步驟組成:

(1)使用spectral subtraction等方法對語言序列進(jìn)行降噪。(2)將輸入信號的分成區(qū)塊并提取特征。(3)設(shè)計(jì)分類器判斷該區(qū)塊是否為語音信號。

2.2 特征提取

特征提取目的是提取出語音文件的特征,以一定的數(shù)學(xué)方式表達(dá),從而可以參與到后續(xù)模塊處理中。在這一模塊,首先要將連續(xù)的聲音分成離散的幀。每一幀的時(shí)間既要足夠長,使得我們能夠判斷它屬于哪個(gè)聲韻母的信息,若過短則包含信息過少;每一幀時(shí)間也要盡量短,語音信號需要足夠平穩(wěn),能夠通過短時(shí)傅里葉分析進(jìn)行特征提取,過長則會使信號不夠平穩(wěn)。分幀時(shí)使用如下改進(jìn)技術(shù)可以有效提高識別準(zhǔn)確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個(gè)語音幀堆疊起來。通過分幀處理,連續(xù)的語音被分為離散的小段,但還缺乏數(shù)學(xué)上的描述能力,因此需要對波形作特征提取。常見的方法是根據(jù)人耳的生理特征,把每一幀波形變換成一個(gè)多維向量。因此,這些向量包含了這些語音的內(nèi)容信息。該過程被稱為聲學(xué)特征提取,常見的聲學(xué)特征有MFCC、CPE、LPC等。

MFCC是目前最常用、最基本的聲學(xué)特征,提取MFCC特征可以分為如下四個(gè)步驟:首先對每一幀進(jìn)行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個(gè)三角形相乘并積分,求出頻譜在每一個(gè)三角形下的能量,這樣處理可以減少數(shù)據(jù)量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結(jié)果的對數(shù),這可以放大低能量處的能量差異。最后對得到的對數(shù)進(jìn)行離散余弦變換,并保留前12~20個(gè)點(diǎn)進(jìn)一步壓縮數(shù)據(jù)。通過特征提取,聲音序列就被轉(zhuǎn)換為有特征向量組成的矩陣。

2.3 聲學(xué)模型

聲學(xué)模型是語音識別中最重要的組成部分之一,其用于語音到音節(jié)概率的計(jì)算。目前主流的方法多數(shù)采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動機(jī)。

隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內(nèi)部狀態(tài)x1,x2,x3外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值y1,y2,y3。對語音識別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征,輸入是由特征提取模塊提取的特征。用HMM刻畫語音信號需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值Y只與當(dāng)前狀態(tài)X(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、維特比算法和前向后向算法。

早期的聲學(xué)模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對于連續(xù)取值的特征應(yīng)當(dāng)采用連續(xù)的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數(shù)過多的問題,可以使用某些聚類方法來減小模型中的參數(shù)數(shù)量,提高模型的可訓(xùn)練性。聚類可以在模型層次,狀態(tài)層次乃至混合高斯模型中每個(gè)混合的層次進(jìn)行。

2.4 語言模型

語言模型音節(jié)到字概率的計(jì)算。 語言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。相比于統(tǒng)計(jì)模型,規(guī)則模型魯棒性較差,對非本質(zhì)錯誤過于嚴(yán)苛,泛化能力較差,研究強(qiáng)度更大。因此主流語音識別技術(shù)多采用統(tǒng)計(jì)模型。統(tǒng)計(jì)模型采用概率統(tǒng)計(jì)的方法來揭示語言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡單有效,被廣泛使用。

N-Gram基于如下假設(shè):第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率即為各個(gè)詞出現(xiàn)概率的乘積。詞與詞之間的概率可以直接從語料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到??紤]計(jì)算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。

2.5 解碼器

解碼器是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入信號,根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。在實(shí)踐中較多采用維特比算法[3]搜索根據(jù)聲學(xué)、語言模型得出的最優(yōu)詞串。

基于動態(tài)規(guī)劃的維特比算法在每個(gè)時(shí)間點(diǎn)上的各個(gè)狀態(tài),計(jì)算解碼狀態(tài)序列對觀察序列的后驗(yàn)概率,保留概率最大的路徑,并在每個(gè)節(jié)點(diǎn)記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的條件下,同時(shí)解決了連續(xù)語音識別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時(shí)間對準(zhǔn)、詞邊界檢測和詞的識別,從而使這一算法成為語音識別搜索的基本策略。

維特比(Viterbi)算法的時(shí)齊特性使得同一時(shí)刻的各條路徑對應(yīng)于同樣的觀察序列,因而具有可比性,Beam搜索在每一時(shí)刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當(dāng)前語音識別搜索中最有效的算法。

3 語音識別技術(shù)的發(fā)展

近幾年來,特別是2009年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進(jìn)的發(fā)展。

在模型方面,傳統(tǒng)語音識別模型逐步被神經(jīng)網(wǎng)絡(luò)替代,使用神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,擬合曲線。使用人工神經(jīng)網(wǎng)絡(luò)來提高語音識別性能的概念最早在80年代就提出了,但當(dāng)時(shí)高斯混合模型在大詞匯語音識別上表現(xiàn)得更好,因此人工神經(jīng)網(wǎng)絡(luò)并沒有進(jìn)行商業(yè)應(yīng)用。隨著相關(guān)技術(shù)的進(jìn)一步發(fā)展,微軟研究院利用深度神經(jīng)網(wǎng)絡(luò)建立了數(shù)千個(gè)音素的模型,比傳統(tǒng)方法減少了16%的相對誤差。其在建立起有超過660萬神經(jīng)聯(lián)系的網(wǎng)絡(luò)后,將總的語音識別錯誤率降低了30%,實(shí)現(xiàn)了語音識別巨大的突破[4]。

同時(shí)目前多數(shù)主流語言識別解碼器采用了基于有限狀態(tài)機(jī)的解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)將語音模型、詞典、聲學(xué)共享音字集統(tǒng)一為大的解碼網(wǎng)絡(luò),大幅度提高了解碼速度。

在數(shù)據(jù)量上,由于移動互聯(lián)網(wǎng)的急速發(fā)展,從多個(gè)渠道獲取的海量語言原料為聲學(xué)模型和語言模型的訓(xùn)練提供了豐富的資源,不斷提升語音識別的準(zhǔn)確率。

4 結(jié)語

語音是人們工作生活中最自然的交流媒介,所以語音識別技術(shù)在人機(jī)交互中成為非常重要的方式,語音識別技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域和非常廣闊的市場前景。而隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)展,硬件計(jì)算能力的提高,以及海量數(shù)據(jù)積累,語音識別系統(tǒng)的準(zhǔn)確率和實(shí)用性將得到持續(xù)提高。

參考文獻(xiàn):

[1]S基百科編者.語音識別[G/OL].維基百科,2016(20160829)[2016-08-29].

[2]維基百科編者.語音活性檢測[G/OL].維基百科,2016(20160629)[2016-06-29].

[3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].

[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.

語音識別范文第2篇

>> Linux平臺下的ALSA聲音編程 基于Sphinx的機(jī)器人語音識別系統(tǒng)構(gòu)建與研究 linux平臺下智能卡的支持方案 Linux平臺下的MySQL存儲管理技術(shù)研究 Linux平臺下FTP客戶端的設(shè)計(jì)思路 自主學(xué)習(xí)平臺下英語語音教學(xué)模式的構(gòu)建 TensorFlow平臺下的手寫字符識別 Linux平臺下數(shù)據(jù)包過濾防火墻的研究與實(shí)踐 基于SkyEye的虛擬嵌式平臺下Linux內(nèi)核移植技術(shù)的研究 Windows和Linux平臺下的腰椎治療儀實(shí)時(shí)仿真 嵌入式Linux平臺下隨機(jī)序列算法的設(shè)計(jì) IP多播技術(shù)在Linux平臺下電子教室中的應(yīng)用與研究 基于ARM11在Linux平臺下網(wǎng)絡(luò)通信的設(shè)計(jì)與實(shí)現(xiàn) Linux系統(tǒng)平臺下會計(jì)軟件的發(fā)展前景展望 虛擬機(jī)linux平臺下基于Xshell的遠(yuǎn)程登錄服務(wù)的設(shè)計(jì)與實(shí)現(xiàn) 在Linux平臺下基于MPI的并行PC集群搭建的實(shí)現(xiàn) 基于Sphinx4的語音解碼模塊設(shè)計(jì) 云服務(wù)安全平臺研究開發(fā)與語音識別應(yīng)用 基于車聯(lián)網(wǎng)平臺下自然語音辨識系統(tǒng)的研發(fā) .NET平臺下中文語音合成技術(shù)的研究與實(shí)踐 常見問題解答 當(dāng)前所在位置:l。提交文件后,會產(chǎn)生由4個(gè)數(shù)字和后綴名組成的文件,假設(shè)其中包括的兩個(gè)文件為8521.dic字典文件和8521.lm語言模型文件即我們所需要的文件??梢杂脙蓚€(gè)線程處理這一過程,從而提高程序的性能:一個(gè)線程用來監(jiān)聽和處理語音命令,一個(gè)線程用來執(zhí)行命令對應(yīng)的應(yīng)用程序,如圖1所示。

假設(shè)C語言源程序名為hello_ps.c則可以編寫如下的Makefile文件:

#Makefile for hello_ps.c

obj=hello_ps

modeldir=$(shell pkg-config--variable=modeldir pocketsphinx)

flags=$(shell pkg-config--cflags--libs pocketsphinx sphinxbase)

$(obj):$(obj).c

gcc $(obj).c-o $(obj)-DMODELDIR=\"$(modeldir)\"$(flags)

運(yùn)行make命令編譯即可產(chǎn)生hello_ps文件。然后運(yùn)行./hello_ps-lm 8521.lm -dict 8521.dic就可以測試了。

五、結(jié)束語

本文介紹了語音識別引擎pocketsphinx在Linux環(huán)境下的應(yīng)用程序編程,語音識別有著廣泛的應(yīng)用。如我們常見的聲控?fù)芴栯娫挘Z音識別鎖等等。語音識別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用領(lǐng)域和市場前景色。

參考文獻(xiàn):

[1]Carnegie Mellon University./wiki/

[2]/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB

語音識別范文第3篇

關(guān)鍵詞:連續(xù)語音識別;關(guān)鍵技術(shù);創(chuàng)新

談到語音識別,就不得不提到李開復(fù)------前微軟研究院院長,他在哥倫比亞大學(xué)時(shí)主攻的就是語音識別,即通過機(jī)器來識別語音。語音識別是現(xiàn)代社會背景下的一門新興學(xué)科,它最主要的功能就是可以讓計(jì)算機(jī)聽懂人說的話,進(jìn)而為人們提供更高效且方便的服務(wù)。它是人類和計(jì)算機(jī)之間利用語言進(jìn)行交流 的橋梁,也是一門與多種學(xué)科緊密聯(lián)系的實(shí)用技術(shù)。現(xiàn)階段,人們對連續(xù)語音識別的研究已經(jīng)取得了一定的成就。目前,我們研究語音識別的重點(diǎn)正在向特定應(yīng)用領(lǐng)域口語的識別和理解方面轉(zhuǎn)變。在這個(gè)研究中,有幾種關(guān)鍵技術(shù),下面我們就對其中幾種關(guān)鍵技術(shù)進(jìn)行簡單的分析。

1、詞語定位技術(shù)

詞語定位技術(shù),在語音識別技術(shù)中非常重要的技術(shù)。主要通過對關(guān)鍵詞進(jìn)行定位,這種技術(shù)跟語言的語法特點(diǎn)有很大關(guān)系,是將語句中的關(guān)鍵詞語提取出來的一種定位技術(shù)。比如主語,謂語,賓語就是關(guān)鍵語素,先將這些語素定位對于完善整句話有著非常重要的意義,因?yàn)檫@些語素已經(jīng)勾勒出了語句的骨架。打個(gè)比方,蓋個(gè)房子要加鋼筋,來增加建筑物的強(qiáng)度和支撐作用,關(guān)鍵語素就是語句意群的鋼筋。通常詞語定位是通過設(shè)置并及時(shí)更新關(guān)鍵詞庫來實(shí)現(xiàn)的。

2、關(guān)聯(lián)搜索技術(shù)

在確定完基本語素后,就要根據(jù)語素之間的關(guān)聯(lián)性,進(jìn)行搜索,那些語素是一個(gè)意群,同在一個(gè)意群中的語素如何排列。利用相關(guān)性確定意群非常重要,因?yàn)樵~語詞之間不是任意搭配的,而是有規(guī)律的,這種規(guī)律就是語法,包括書面語語法和口語的語法。語法是語音識別的規(guī)則,因此是非常重要的。關(guān)聯(lián)的方式在語法的約束下主要有以下幾種:1.相關(guān)詞語出現(xiàn)的概率;2.相關(guān)詞語的詞性;3.相關(guān)詞語出現(xiàn)的語境的重復(fù)率等等。

連接詞識別就是說,系統(tǒng)中存儲的HMM針對的是孤立詞,但識別的語音是由這些詞組成的詞串。由于這一技術(shù)是一個(gè)連接序列,即根據(jù)給定發(fā)音序列來找到與其最匹配的參考模塊詞,所以,下面的問題必須得到解決:(1)在序列中,有些時(shí)候即使知道詞長度的大概范圍,也不知道詞的具體數(shù)量;(2)除整個(gè)序列的首末端點(diǎn)之外,序列之中每個(gè)詞的邊界位置并不知道。

3、抗阻礙性

在語音識別系統(tǒng)中,阻礙無處不在,具體說來,阻礙包括以下幾個(gè)方面:1.方言帶來的語音識別的阻礙;2.口音帶來的語音識別的阻礙;3.外界干擾(噪聲)帶來的語音識別的阻礙;4.系統(tǒng)設(shè)備局限性帶來的語音識別的阻礙等等。

一般情況下,在實(shí)驗(yàn)室(環(huán)境相對安靜)中訓(xùn)練合格的語音識別系統(tǒng)用在實(shí)際環(huán)境(環(huán)境與訓(xùn)練的實(shí)驗(yàn)室環(huán)境不相匹配)的時(shí)候性能就會明顯下降。所以,運(yùn)用頑健語音識別技術(shù)就是為了研究一些補(bǔ)償技術(shù)借以提高系統(tǒng)在不同環(huán)境中的性能。

根據(jù)語音系統(tǒng)中噪聲的特點(diǎn),我們研究出了一些抑制噪聲的方法,如根據(jù)信號與噪聲在各個(gè)尺度上的小波譜表現(xiàn)不一樣的特點(diǎn),可以運(yùn)用小波變換的噪聲抑制;根據(jù)含噪語音信號能量譜就是噪聲信號和語音信號能量譜之和這一特點(diǎn),可以運(yùn)用EVRC編碼噪聲抑制方法,等等。

4、搜索策略技術(shù)

在利用計(jì)算機(jī)來識別語音的時(shí)候,未知的模式,即從輸入語音中求出的特征參數(shù),與事前所定的標(biāo)準(zhǔn)模式是否一致,這個(gè)問題必須檢查。目前語音識別的實(shí)現(xiàn)主要是通過聲音識別芯片分析聲音的波形來實(shí)現(xiàn)的,人的說話聲音有音調(diào)、音色的不同,因而所形成的生意的波形也不同,芯片通過比對聲音圖譜來確定語音內(nèi)容,達(dá)到聲音識別的目的,這也就是聲音識別的原理。然而,在實(shí)際情況中,由于語音具有許多的不確定的因素,想達(dá)到完全一致比較困難。搜索策略是連續(xù)語音識別研究中的一個(gè)是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時(shí)刻對每一條路徑都假定當(dāng)前幀有可能是這一路徑的后續(xù),借此進(jìn)行一個(gè)完整的搜索。

總體來說,搜索策略技術(shù)受到容量的限制。所以,我們必須確定應(yīng)該保留哪些路徑,這就要求我們確定一定閥值,這個(gè)閥值既不能過嚴(yán)也不能過寬。對于這個(gè)問題,我們一定要采用合適的算法,如傳統(tǒng)的幀同步算法、基于統(tǒng)計(jì)知識的幀同步搜索算法原理和受詞法約束的詞搜索樹等算法都是比較適合這一部分的。

結(jié)論:

    本文總結(jié)了連續(xù)語音識別中幾種關(guān)鍵技術(shù),并對它們進(jìn)行了簡單的介紹和分析。目前連續(xù)語音識別技術(shù)的研究并不成熟,它要向正確的方向健康發(fā)展就必須把詞語定位技術(shù)、關(guān)聯(lián)搜索技術(shù)、抗阻礙性技術(shù)、搜索策略技術(shù)等技術(shù)都正確運(yùn)用于實(shí)際工作中。

參考文獻(xiàn):

[1]馮麗娟,吾守爾·斯拉木.維吾爾語連續(xù)語音識別技術(shù)研究[J].現(xiàn)代計(jì)算機(jī):下半月,2010,(1)

語音識別范文第4篇

2、進(jìn)入控制面板后,將查看的類別設(shè)置為大圖標(biāo)或者小圖標(biāo),語音識別功能就會顯現(xiàn)出來。

3、在所有控制面板項(xiàng)的最下方選擇語音識別功能,會進(jìn)入語音識別功能設(shè)置的頁面。

4、啟動語音識別,啟動的步驟按照電腦的提示走即可。

語音識別范文第5篇

調(diào)試不可少

連接好麥克風(fēng),然后打開“控制面板輕松訪問語音識別”,打開“語音識別設(shè)置”(如圖1)。在正式使用語音識別功能前,我們需要對相關(guān)設(shè)備進(jìn)行調(diào)試。

1.單擊“設(shè)置麥克風(fēng)”啟動麥克風(fēng)設(shè)置向?qū)В聪驅(qū)崾就瓿甥溈孙L(fēng)的設(shè)置,這里主要配置麥克風(fēng)的音量和靈敏度。

2.單擊“學(xué)習(xí)語音教程”啟動學(xué)習(xí)向?qū)А,F(xiàn)在按照屏幕的提示一步步使用語音操作電腦即可。比如屏幕提示“說出‘下一步’以繼續(xù)”,我們只要對著麥克風(fēng)說出“下一步”,向?qū)У牟僮骶蜁詣舆M(jìn)入下一步。這里可以對“聽寫”、“命令”和“操作Windows”進(jìn)行全方位的訓(xùn)練,整個(gè)教程也設(shè)計(jì)得十分漂亮(如圖2)。

系統(tǒng)操作,“聽”我的

完成上述設(shè)置后,返回圖1所示的窗口,單擊“啟動語音識別”。語音識別啟動后會在屏幕上方出現(xiàn)語音識別狀態(tài)欄?,F(xiàn)在對著麥克風(fēng)說出“開始聆聽”,語音識別顯示框會出現(xiàn)“正在聽”的字樣。接下來,我們就能用嘴給計(jì)算機(jī)下達(dá)命令了。

例如我們要啟動Vista的側(cè)邊欄,就需要依次說出“開始”“所有程序”“附件”“Windows邊欄”。不過很多時(shí)候,語音識別在初次使用時(shí)并不能準(zhǔn)確識別所有命令,比如在說出“Windows邊欄”時(shí),語音識別會將類似的識別項(xiàng)目全部標(biāo)注出來,只要按提示說出正確項(xiàng)目的序號并確定即可(說“4”,然后再說“確定”,如圖3)。

經(jīng)過一段時(shí)間試用,筆者發(fā)現(xiàn)無論是用普通話還是用筆者的本地方言(重慶話),系統(tǒng)都能做出比較準(zhǔn)確的判斷。但操作的效率還是不高,而且一些特定的指令也需要慢慢熟悉。

南宫市| 大姚县| 遂溪县| 肥西县| 铁力市| 孝义市| 永川市| 铁力市| 册亨县| 吕梁市| 宾阳县| 资阳市| 大同市| 尼勒克县| 徐水县| 额济纳旗| 垫江县| 沙坪坝区| 曲松县| 海晏县| 泗水县| 桦南县| 郓城县| 饶平县| 潮安县| 林州市| 邳州市| 大港区| 荥经县| 平谷区| 福泉市| 乐至县| 广安市| 夹江县| 南召县| 旬邑县| 平武县| 兴国县| 纳雍县| 泰来县| 易门县|