時間:2023-03-17 18:04:01
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇語音識別技術范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞: 語音識別; 識別原理; 聲學建模方法; 多維模式識別系統
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學表現,與機器進行語音交流是人類一直以來的夢想。隨著計算機技術的飛速發展,語音識別技術也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領域也發揮著極其重要的作用。它是信息社會朝著智能化和自動化發展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語音識別技術的發展
語音識別技術起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。
20世紀60年代,語音識別研究取得實質性進展。線性預測分析和動態規劃的提出較好地解決了語音信號模型的產生和語音信號不等長兩個問題,并通過語音信號的線性預測編碼,有效地解決了語音信號的特征提取。
20世紀70年代,語音識別技術取得突破性進展。基于動態規劃的動態時間規整(Dynamic Time Warping, DTW)技術基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續語音的識別,識別算法也從傳統的基于標準模板匹配的方法轉向基于統計模型的方法。在聲學模型方面,由于HMM能夠很好的描述語音時變性和平穩性,開始被廣泛應用于大詞匯量連續語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學建模[2?3];在語言模型方面,以N元文法為代表的統計語言模型開始廣泛應用于語音識別系統[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經網絡的語音建模方法開始廣泛應用于LVCSR系統,語音識別技術取得新突破。
20世紀90年代以后,伴隨著語音識別系統走向實用化,語音識別在細化模型的設計、參數提取和優化、系統的自適應方面取得較大進展[5]。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題[6]。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現語音識別技術的產品化。
2 語音識別基礎
2.1 語音識別概念
語音識別是將人類的聲音信號轉化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域[8]。
根據在不同限制條件下的研究任務,產生了不同的研究領域。這些領域包括:根據對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續語音識別系統;根據對說話人的依賴程度,可分為特定人和非特定人語音識別系統;根據詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統。
2.2 語音識別基本原理
從語音識別模型的角度講,主流的語音識別系統理論是建立在統計模式識別基礎之上的。語音識別的目標是利用語音學與語言學信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉化成詞序列[W=w1,w2,…,wN]并輸出。基于最大后驗概率的語音識別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應該使[P(X|W)]與[P(W)]的乘積達到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學模型決定。[P(W)]是[W]獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。[λ]是平衡聲學模型與語言模型的權重。從語音識別系統構成的角度講,一個完整的語音識別系統包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統本質上是一種多維模式識別系統,對于不同的語音識別系統,人們所采用的具體識別方法及技術不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數送入模型庫模塊,由聲音模式匹配模塊根據模型庫對該段語音進行識別,最后得出識別結果[9]。
語音識別系統基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動增益控制等處理過程,將語音信號數字化;特征提取模塊對語音的聲學參數進行分析后提取出語音特征參數,形成特征矢量序列。語音識別系統常用的特征參數有短時平均幅度、短時平均能量、線性預測編碼系數、短時頻譜等。特征提取和選擇是構建系統的關鍵,對識別效果極為重要。
圖1 語音識別基本原理框圖
由于語音信號本質上屬于非平穩信號,目前對語音信號的分析是建立在短時平穩性假設之上的。在對語音信號作短時平穩假設后,通過對語音信號進行加窗,實現短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統的輸入。由于梅爾倒譜系數及感知線性預測系數能夠從人耳聽覺特性的角度準確刻畫語音信號,已經成為目前主流的語音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數及感知線性預測系數時,通常加上它們的一階、二階差分,以引入信號特征的動態特征。
聲學模型是語音識別系統中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態聚類、模型參數估計等很多方面。在目前的LVCSR系統中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續語音的協同發音現象。在考慮了語境的影響后,聲學模型的數量急劇增加,LVCSR系統通常采用狀態聚類的方法壓縮聲學參數的數量,以簡化模型的訓練。在訓練過程中,系統對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。
搜索是在指定的空間當中,按照一定的優化準則,尋找最優詞序列的過程。搜索的本質是問題求解,廣泛應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(從高層至底層依次為詞、聲學模型、HMM狀態)空間中找到最優的狀態序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優描述。在識別階段,將輸入語音的特征矢量參數同訓練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。
2.3 聲學建模方法
常用的聲學建模方法包含以下三種:基于模式匹配的動態時間規整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經網絡識別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動態規劃的思想,解決孤立詞語音識別中的語音信號特征參數序列比較時長度不一的模板匹配問題。在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。
HMM是對語音信號的時間序列結構所建立的統計模型,是在馬爾可夫鏈的基礎上發展起來的,它是一種基于參數模型的統計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態數的馬爾可夫鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態相關聯的觀測序列的隨機過程[10]。
ANN以數學模型模擬神經元活動,將人工神經網絡中大量神經元并行分布運算的原理、高效的學習算法以及對人的認知系統的模仿能力充分運用到語音識別領域,并結合神經網絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態的后驗概率。2011年,微軟以深度神經網絡替代多層感知機形成的混合模型系統大大提高了語音識別的準確率。
3 語音識別的應用
語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控制系統中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統的反應時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統、聲控智能玩具、智能家電等領域。在智能對話查詢系統中,人們通過語音命令,可以方便地從遠端的數據庫系統中查詢與提取有關信息,享受自然、友好的數據庫檢索服務,例如信息網絡查詢、醫療服務、銀行服務等。語音識別技術還可以應用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現跨語言交流[11]。
語音識別技術在軍事斗爭領域里也有著極為重要的應用價值和極其廣闊的應用空間。一些語音識別技術就是著眼于軍事活動而研發,并在軍事領域首先應用、首獲成效的,軍事應用對語音識別系統的識別精度、響應時間、惡劣環境下的頑健性都提出了更高的要求。目前,語音識別技術已在軍事指揮和控制自動化方面得以應用。比如,將語音識別技術應用于航空飛行控制,可快速提高作戰效率和減輕飛行員的工作負擔,飛行員利用語音輸入來代替傳統的手動操作和控制各種開關和設備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標的判斷和完成其他操作上來,以便更快獲得信息來發揮戰術優勢。
4 結 語
語音識別的研究工作對于信息化社會的發展,人們生活水平的提高等方面有著深遠的意義。隨著計算機信息技術的不斷發展,語音識別技術將取得更多重大突破,語音識別系統的研究將會更加深入,有著更加廣闊的發展空間。
參考文獻
[1] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續語音識別系統研究進展[J].中文信息學報,2009,23(1):112?123.
[6] 顧亞強.非特定人語音識別關鍵技術研究[D].長沙:國防科學技術大學,2009.
[7] 中華人民共和國國家質量監督檢驗檢疫總局.GB/T21023?2007 中文語音識別系統通用技術規范[S].北京:中國標準出版社,2007.
[8] 王文慧.基于ARM的嵌入式語音識別系統研究[D].天津:天津大學,2008.
[9] 何湘智.語音識別的研究與發展[J].計算機與現代化,2002(3):3?6.
關鍵詞:嵌入式系統;語音識別;隱馬爾可夫;智能家居
中圖分類號:TP316.9
文獻標識碼:A
DOI:10.3969/j.issn.1003-6970.2015.07.021
0 引言
隨著計算機的發展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網絡技術實現家居設備集成,為用戶提供了更加舒適高效的環境。近幾年人們對智能家居的便利程度提出了更高的要求,同時語音識別技術也進一步的發展,但是語音在智能家居中的應用還是相對較少,一般還要依靠遙控、手機等中控設備。語言是信息交流的重要手段,語音識別可以用聲音來控制設備完成一些特定的命令,減少用戶如手機,遙控等中控設備的依賴,使生活更加方便。
本文通過對語音識別技術與嵌入式控制技術的研究,用語音命令實現直接管控從而可以取代以往利用手機或者遙控方式來控制的方法,方便操作而又能提高效率。本系統基于NL6621板與語音芯片VS1003實現語音采集,并采用當今語音識別領域的主流技術一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實現對人語音命令的識別主要是進行模型訓練和匹配。實驗證明在多個語音樣本對系統的訓練識別下,系統在非特定人、孤立詞語識別上具有良好的效果。
1 語音識別與智能家居
1.1 語音識別技術
語音識別技術本質上是一種模式匹配識別的過程,是機器通過識別和理解過程把語音信號轉變成相應的文本文件或命令的技術。根據模式匹配過程語音識別系統可以如下圖表示。語音識別系統可以分為:特定人和非特定人的識別、獨立詞和連續詞的識別等,無論哪種識別系統識別過程都主要包括了語音信號預處理、特征提取、訓練等。分別通過對信號的預處理分析和計算建立模板,當對語音進行識別時,需要將輸入的語音與系統中存放的語音進行比較從而得到識別結果。
1.2 語音識別算法
人的言語過程是一個雙重隨機過程。因為語音信號本身是一個可觀察的序列,而它又是由大腦里的不可觀察的、根據言語需要和語法知識狀態選擇所發出的音素(詞、句)的參數流,大量實驗表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號的產生過程。隱馬爾可夫模型是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程,采用HMM進行語音識別,實質上是一種概率運算,根據訓練集數據計算得出模型參數后,測試集數據只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。一階離散馬爾可夫模型可表示為:有N個狀態,Sl,S2... SN,存在一個離散的時間序列t=0,t=1…在每個時刻t,系統只能處于唯一一個狀態qt,下一個時刻所處的狀態是隨機出現的,當前狀態qt只與前面相鄰的一個狀態qt-l有關, 與其他狀態無關,用表達式
HMM語音識別的一般過程:
1.前向后向算法計算
已知觀測序列 和模型 ,如何有效的計算在給定模型條件下產生觀測序列O的概率
2.Baum-Welch算法求出最優解 :
(1)初始化
(2)迭代計算
(3)最后計算
3.Viterbi算法解出最佳狀態轉移序列:
已知觀測序列 和模型 ,如何選擇在某種意義上最佳的狀態序列。
(1)初始化
(2)迭代計算:
4.根據最佳狀態序列對應的九給出候選音節或聲韻母
5.通過語言模型形成詞和句子
2 基于NL6621嵌入式硬件設計
語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些設備,硬件體系結構如圖2所示。
主系統使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護設置以及WMM-PS和WPA/WPA2安全協議。codec芯片是vs1003,它與核心控制器NL6621的數據通信是通過SPI總線方式進行的。它集成了麥克風輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進行IMA ADPCM編碼,能有效的接受和播放音頻信息。
硬件電路實現:VS1003通過xCS、xDCS引腳的置高或低來確認是哪一個接口處于傳送狀態。通過串行命令接口(SCI)和串行數據接口(SDI)來接收NL6621的控制命令和數據,通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復位、暫停、音量控制、播放時間的讀取等,均是通過SCI口寫入特定寄存器實現的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。
3 基于NL6621嵌入式軟件設計
軟件設計主要包括兩部分實現軟件控制嵌入式系統和基于HMM技術的語音識別算法編寫,基本的軟件架構如圖3所示。
針對嵌入式系統控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發包,利用SDK編寫應用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉化、程序編寫完成后需要用燒寫工具進行燒寫。系統啟動后,先初始化硬件模塊。然后系統開始工作,通過語音輸入設備MIC采集語音,并通過聲卡VS1003輸入語音。當系統監聽到語音輸入,開始語音識別,判斷識別是否正確,若正確,將命令發送給執行設備,入耳不正確,給出相應
的錯誤提示,不執行語音命令。判斷識別是否結束,如果結束則退出,否則繼續下一輪的識別。基于HMM技術的語音識別算法編寫,還包括了語音預處理,特征值提取和匹配識別的部分。主要的原理如圖4所示,輸入語音經過預處理后,語音信號的特征被提取出來,首先在此基礎上建立所需的模板,這個建立模板的過程稱為訓練過程。根據語音識別整體模型,將輸入的語音信號特征與存在的語音模板(參考模式)進行比較,找出一系列最優的與輸入的語音相匹配的模板。然后,根據此模板號的定義,通過查表就可以給出計算機的識別結果。采用HMM進行語音識別,實質上是一種概率運算。根據訓練集數據計算得出模型參數后,測試集數據只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。除訓練時需運算量較大外,識別時的運算量僅有模式匹配法的幾分之一。
【關鍵詞】語音識別技術;語言實驗室
語音識別技術是使用計算機能識別和理解的語言,把語音信號轉變為相應的文本或命令的過程。語音識別是一門涉及到語音語言學、信號處理、模式識別、人工智能的多學科交叉技術,也是2000年至2010年間信息技術領域十大重要的科技發展技術之一。隨著語音識別技術的發展,在傳統的數字化語言實驗室中其可以作為一種新的外語輔助教學的手段,完善現有的數字化語音室的功能。
一、語音識別技術
語音識別技術是一種讓計算機能夠聽懂人的語音命令的技術。對使用者來說,這種人機交互的途徑是最自然的一種方式。早在三四十年前,美國的一些大學和實驗室就開始了語音識別技術的研究,50年代的AT&T Bell實驗室研發的Audry系統第一個實現了可識別十個英文數字。60和70年代,提出了線性預測分析技術(LP)等相關理論并深入研究,創造出可以實現特定人孤立語音識別系統;80 年代和90年代是語音識別技術應用研究方向的,HMM 模型和人工神經元網絡(ANN)的成功應用,使得語音識別系統的性能比以往更優異;伴隨著多媒體時代的來臨,微軟,Apple 等著名公司都研發出相當成功的商業應用語音識別系統,比如,Apple的Siri系統,微軟的Phone Query(電話語音識別)引擎等。近二三十年來,語音識別在交通、軍事、工業、醫學等諸多方面,特別是在計算機、通信與電子系統、信息處理、自動控制等領域中有著非常廣泛的應用。目前,語音識別技術產品在人機交互應用中己經占到越來越大的比例。例如,在聲控應用中,計算機可識別輸入的語音內容,并根據內容來執行相應的動作,這包括了聲控語音撥號系統、聲控智能玩具、醫療服務、賓館服務、家庭服務、股票查詢服務和工業控制等。也可用于基于微型機的辦公、教學、娛樂等智能多媒體軟件,如語言學習、教學軟件、語音玩具、語音書籍等。語音識別技術作為語音控制的主體,在應用領域中正成為一個具有競爭力的技術。
語音識別的開發平臺現已逐步成熟,在windows下有微軟的SAPI語音識別開發平臺,在Unix/Linux下有IBM的ViaVoice和開源的Xvoice開發平臺。它們都是相當優秀音識別開發系統,提供了良好的開發接口,使語音識別應用程序開發能夠不需要對現有系統做大規模的修改,以較少投入、較短周期、以組件方式加入到當前的語言實驗室中。
二、語音識別技術在語言實驗室中的應用
1.有聲圖書
可以將一些由外籍專家錄制的有聲圖書加入到語言實驗室的資料庫中。標準的美式或英式發音,結合文本,逐字逐句的朗讀,讓學生可以在閱讀英語圖書的同時聆聽到原汁原味的英語。所有圖書都支持自動播放,可以一次聽完整本書,學生也可以選擇單獨播放某個句子,并鼓勵學生模仿標準的語音語調朗讀圖書。從而對學生的閱讀、聽力、口語進行全方位的提高。
2.口述作文
影響語音識別系統輔助學生口述作文的最為關鍵技術是識別率和糾錯能力,從某種意義上說,只要這兩個關鍵的技術得到了提高,則其輔助寫作的有效性就會得到較大提高。近幾年,隨著多媒體技術和人工智能技術的進步,不僅語音識別系統的識別率得到很大提高,而且多語言的語音識別產品也大為豐富。目前國際商業機器(IBM)公司推出的語音識別軟件具有非特定人,無限詞匯量,連續語音識別,高識別率,專業文章智能分析、理解等強大的語音功能。該軟件通過對個人話語進行測試與分析來適應說話者,適應后的語音識別正確率可以達到95%以上。與過去相比,其識別率提高了很多,已經完全可以接受。語音識別系統除了識別率目前已有很大提高,其智能糾錯能力也大為提高。一是糾錯的操作更加方便和容易,目前的語音識別系統,可以有三種糾錯方式:①通過鍵盤輸入方式;②系統智化地產生錯誤詞的相近詞列出,供修改者選擇;③還可以通過重讀來糾錯。二是通過糾錯,可讓語音識別系統更進一步地熟悉說話者的聲音,而非常有效地提高系統識別率。隨著信息技術的迅速發展,今后的語音識別系統必將是功能更加強大,智能化程度更高,兼容性更強,抗噪音能力更強的系統,其輔助口述作文的有效性也會更強。
3.英語口語糾正系統
語音識別技術的應用使得軟件可以具有發音評測的功能,能夠幫助學習者及時發現和糾正發音的錯誤,避免重復錯誤形成習慣,從而極大提高了學習者的學習效率。英語口語學習中語音識別技術遇到的難點主要有:①語音識別選取基元的問題。一般地,欲識別的詞匯量比較多時,所用基元應該越小越好;②端點檢測。語音信號的端點檢測是語音識別的關鍵。據研究表明,即便是在安靜的環境下,語音識別系統也會有一半以上的識別錯誤源自端點檢測器。提高端點檢測技術的關鍵所在是尋找穩定的語音參數;③找出反映發音質量的性能指標。主要是對發音段(指一段發音的語速、韻律、語調以及重音等)的研究;④對給定的發音進行錯誤檢測和糾正,尋找合理的評分機制。
由于語音識別在理論與技術方面的復雜性,現有的口語糾正軟件仍有很大限制范圍,但隨著語音技術的發展相信其在外語語言學習中的應用會越來越廣泛。
三、結束語
語音識別技術作為一種逐漸成熟的計算機技術,是計算機輔助外語教學中的一種重要虛擬現實手段。而人機交互是數字語音室的一個發展方向,也是外語網絡教學的核心內容。所以,語音識別技術會是未來語言實驗室的建設中的一個重要方向。
參考文獻:
[1]夏晴.ARS和TTS技術在外語口語教學中的應用研究[J].外語電化教學,2006(2)
[2]周英.語音識別技術發展趨勢的分析[J].計算機光盤軟件與應用,2012(19)
[3]孔菊芳.基于語音識別技術的英語學習網站分析[J].哈爾濱職業技術學院學報,2012(5)
關鍵詞:英語口語;語音識別;英文朗讀;評分機制
語音識別技術使人與機器的交流成為現實,它開創了口語移動學習的全新教育方式,受到越來越多的關注。借助互聯網,移動學習以其學習時間靈活,學習內容豐富、精煉且片段化等特點,開辟了學習的新理念,讓口語學習真正擺脫了時間和空間的限制,使任何人在任何時間、任何地點根據需要進行自主學習成為可能。目前,已有的基于PC的智能英語學習軟件,能提供基于計算機的輔助技術,讓學習者及時得到發音質量評分的智能化功能,但是基于手機端的口語學習應用不多。
本終端是一款基于Android系統開發的,進行英語口語學習的安卓語音軟件。產品結合Google語音識別技術,使用GPRS或WiFi進行移動終端與Google云服務端之間的數據交流,并通過對語音識別結果的處理,最終設計成一個可以進行英語口語專線訓練和自主訓練的應用Oral Storm。
1 研究基礎
Android平臺自底層向上由四個層次組成:Linux內核層、Android運行時庫與其他庫層、應用框架層、應用程序層。它采用軟件堆層(software stack),又名軟件疊層的構架,主要分為3部分:底層以Linux內核工作為基礎,由C語言開發,只提供基本功能;中間層包括函數庫Library和虛擬機(virtual machine),用C++開發,最上層是各種應用軟件。
2 應用架構及功能說明
專項訓練模塊主要是對英語口語比較重要的四個發音類別進行系統訓練,這4個發音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進入訓練界面之前,有對各類發音方法和技巧的介紹,利于用戶方便快速地學習口語的正確發音。我們將每種發音訓練模式中的單詞都分成10個小組,這些單詞都是由學校專業英語教師挑選的有代表性的詞,適合用于英語口語基礎訓練。用戶在進行完每個小組的單詞訓練后,系統都會對用戶的發音作出評價和打分,對經常出現發音錯誤的單詞,用戶可以選擇保存,用于以后專門的訓練。
自主學習模塊是用戶根據自身實際需求進行訓練的板塊。用戶先輸入想要訓練的單詞或語句,如果不知道如何發音,可以求助于應用中的英文朗讀功能。英文朗讀功能是將文本轉換成語音信號,幫助用戶輕松方便地學習每一個英語發音。用戶還可以選擇性地保存輸入的學習內容,方便以后復習使用。
總之,專項訓練模塊針對學生英語學習中的四大類發音難題設計,通過專題式的學習、測試和智能評分,給用戶提供隨身的英語單詞學習和測試環境;自主訓練模塊則專注于為用戶提供可定制的英語單詞學習專題,通過學習內容的自定義給用戶最大限度的學習自由度。
3 研究技術
應用功能的實現主要使用了兩大技術,獲取語音識別技術和語音合成技術。
3.1 獲取語音識別技術
單詞發音練習需要使用Google語音搜索服務,因此必須判斷當前用戶手機是否支持該服務,所采用的方法是通過queryIntentActivities()方法,查詢Android系統所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應用程序,點擊后能啟動該應用。
在Android語音識別應用研究與開發的同時,Google語音服務需要網絡支持,所以也需要判斷當前用戶的網絡連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網絡是否連接正常。
3.2 語音合成技術
語音合成技術,是一種將文本轉換為語音輸出的技術,其主要工作是將文本按字或詞分解為音素,然后將音素生成的數字音頻用揚聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。
Android手機平臺,綁定了英文語音引擎,對英文語音提供內置的支持。要將文本轉換為語音,首先要檢查TTS數據可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結果為真,表明TTSEngine可以使用。除此之外,還有語音數據損壞和缺少發音數據等原因導致TTSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設置發音語言引擎setLanguage(Locale.US)、發音音量Len(Volume)等。在這個過程中,還需要檢測設置的發音語言類型是否可用。
4 結束語
我們開發的口語學習軟件Oral Storm,可為訓練單詞發音提供專業、智能及終端化的一體化學習和測試環境,專題分類科學、全面,涵蓋了爆破音、摩擦音等發音難點,可在專題學習后提供智能評分和語音糾正。用戶使用這款應用,可以方便快速地學習英語口語的正確發音。
參考文獻
[1] 邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協論壇:下半月,2010(3):62-63.
[2] 詹青龍,張靜然,邵銀娟.移動學習的理論研究和實踐探索[J].中國電化教育,2010(3):1-7.
[3] 周麗嫻,梁昌銀,沈澤.Android語音識別應用的研究與開發[J].廣東通信技術,2013,33(4):15-18.
[4] 涂惠燕,陳一寧.基于語音識別和手機平臺的英語口語發音學習系統[J].計算機應用與軟件,2011,28(9):64-66.
關鍵詞:Speech SDK;語音識別;Voyager-IIA旅行家二號;教學平臺
中圖分類號:TP319 文獻標識碼:A 文章編號:1672-7800(2013)005-0096-02
0、引言
教學技術的進步關鍵在于構建一個良好的輔助教學支撐平臺,通過該平臺教師可以方便地展示教學課程信息,學生利用該教學平臺可以進行科學實驗和工程實踐,以獲取真實的實驗數據。
機器人學作為一門綜合了機械、電子、計算機及人工智能、仿生等諸多專業的新興學科,在工程研究和應用領域得到了越來越廣泛的重視。我國各大高等院校也紛紛開設與機器人相關的課程,這對普及機器人知識和加強其產業化進程無疑會起到重要的作用。
基于這種理念,設計了基于ARM11的智能語音識別機器人教學平臺。
1、語音識別機器人教學平臺現狀
教學技術平臺是開展各科教學的必要條件,是現代教育教學開展的基礎。從近年發展的情況看,各種教學平臺的設計與運用在教學過程中起著越來越重要的作用。如何設計滿足現代學習者需要的教學平臺?如何將計算機技術、通信技術、機器人技術發展優勢同現代教學的需求結合起來?這是現在教學平臺發展至關重要的方面。現代教學平臺在技術發展驅動和現代教育應用形態發展需求下,出現了許多不同的個性化教學技術平臺。
隨著人們對現代教育認識的加深和對傳統教育的反思,人們的知識觀和教育觀發生了很大變化。高校課程改革大舉推進,高等教育更要突出實踐、突出創新。高校課程要突出沉浸感、交互性、自主性等特征。教學平臺本身將從以教學機構為中心逐步走向以學生為中心,教學平臺從提供教學內容、教學產品轉向為學習服務的功能。
國內外許多高等院校都已開展了機器人教學工作。麻省理工學院開設了認知機器人學、機器人學導論、自控機器人設計競賽和機器人編程競賽等課程,分別在航空航天學、機械工程學和電氣工程與計算機科學專業中開設;北京郵電大學為本科生開設了工業機器人技術,相應的實驗課為機器人系統綜合性試驗;浙江大學自動控制系為本科生開設了機器人學,在校內組織了多種形式的機器人競賽活動,包括FIRA小型足球機器人競賽、開放性公共目標機器人競賽等。總之,國內外高校廣泛開展了以機器人為對象的教學平臺建設,開設機器人技術課程、開展本科畢業設計的機器人實踐活動以及多層次機器人競賽活動。
2、語音識別技術基本方法
語音識別技術目前的主流算法,主要有傳統的基于動態時間規整(DynamicTimeWarping,簡稱DTW)算法、基于非參數模型的矢量量化(Vector Quantization,簡稱VQ)方法、基于參數模型的隱馬爾可夫模型(Hidden Markov Mod—els,簡稱HMM)方法和基于人工神經網絡(Artificial NeuralNetwork,簡稱ANN)等語音識別方法。
3、語音識別機器人教學平臺研究與設計
3.1 設計思路
語音識別機器人教學平臺,將Windows CE6.O系統定制和移植到以ARM11為處理器的核心板上,并且在Windows CE6.O系統上實現對機器人的語音控制,從而擺脫基于PC機控制的不便。在實現過程中,將應用微軟公司開發的Speech SDK5.1為平臺,通過調用微軟的SpeechSDK語音識別引擎,使用開發板串口連接并驅動機器人執行一些簡單的行為動作。
3.2 語音識別機器人教學平臺系統架構
本教學系統采用的$3C6410是一款基于ARM11內核的微控制器,其主頻達667MHz,并具有豐富的接口。本控制器(如圖1)的硬件主要包括采用ARM11內核的$3C6410微處理器、機器人驅動器、電源、串口、麥克風、揚聲器等。
本語音識別機器人,主要由開發板的麥克風接口進行語音信號的采集,通過控制器擴展板進行語音信號的處理,處理時調用微軟的語音識別引擎進行語音信號的識別與合成,然后通過內部編程由擴展板的串口向機器人發送相關的指令來驅動電機的轉動,從而實現機器人的左轉、右轉、前進、后退、停止等語音控制。
3.3 教學平臺系統移植模型
系統移植模型(如圖2)協助WindowsCE實現廣泛的硬件支持,同樣使用了工具和軟件接口技術整合的形式。這一層的可移植性主要在3個層面:CSP支持不同的處理器系統結構;BSP支持不同的硬件主機板(I/0、總線等等);驅動程序支持不同的。從工具的角度看,開發工具主要是以指導手冊的形式協助開發者配置修改一個具體的OAL。驅動模型被包括在Windows CE的類別驅動程序中,這些類別驅動程序一般由Windows CE操作系統提供。
3.4 語音識別類封裝及算法實現流程
語音識別過程是將自然語言轉換為數據信息的過程,語音識別技術也可以簡單描述成Speech-to-Text的識別。該語音識別系統的處理過程是:學習者通過語音輸入設備輸入語音信號,然后通過語音接收器接收語音數據轉化為數字信號,傳入語音識別引擎進行處理,語音識別引擎處理完成后傳遞給相關語音識別程序去處理相關應用,從而達到利用語音來實現某種控制的效果。本系統的語音識別類封裝和語音識別算法實現流程如圖3所示。
14年前,志在語音識別的科大訊飛在合肥悄然成立,當時還被外界譏笑為“草臺班子”的這家本土創業公司,如今已經發展成為亞太地區最大的語音上市公司。作為中國語音識別的“領頭羊”,科大訊飛的這個標簽還能貼多久?在科大訊飛副總裁兼創始人之一江濤看來,科大訊飛的突破點在于,提供語音識別的技術和服務,解放人們的雙手。
“草臺班子”的摸索
創業之初,科大訊飛希望改變人類使用電腦的方式。但事實證明,時候未到。
上世紀90年代末,語音識別技術已經在全球范圍內掀起了一波熱潮,科大訊飛也是順著這股熱潮成立的。“彼時,IBM、英特爾等幾大主流科技公司也早已開始語音識別技術的研發和商業探索。”江濤告訴《二十一世紀商業評論》(以下簡稱《21CBR》)。1998年IBM了第一個基于語音識別技術的產品。第二年全球科技十件大事之一便是IBM的語音識別技術,計算機第一次能夠進行語音輸入。除了IBM,英特爾、摩托羅拉、松下等很多國外巨頭也都開始在國內設立語音研發中心,希望在人機交互和信息錄入領域搶占先機。
“但是在后來證明,這個技術和產品在當時的條件下是不成熟的。”江濤認為有兩個方面原因:一個是當時的語音針對PC,而PC相對于鍵盤和鼠標這些交互設備比較成熟,語音的需求并不夠迫切。另外,“當時整個云計算、移動互聯網的環境和體系還沒有形成。全是單機,在一臺機器上安裝一個語音識別系統需要鍛煉很久,使用成本太高。”
即便如此,直到2000年前后,中國的語音技術基本都掌握在IBM等大公司手中。而像科大訊飛這樣的本土創業公司,空有實驗室技術,在當時的環境下不知道該如何面向市場,面向用戶。“我們一直到2004年才盈虧平衡,在這個過程中我們沒有錢,也不知道該怎么開拓市場,所有人都是技術出身,都沒有產業經驗。”江濤說。
創業之初,科大訊飛希望改變人類使用電腦的方式。“我們當時做了一個叫做‘暢言2000’的產品。口號是把鍵盤輸入的準確性、語音輸入的方便性、手寫輸入的隨意性融合在一起,它可以打開瀏覽器,打開Word,然后配合手寫板輸入內容。”這是科大訊飛的第一個產品,一套軟件當時的定價是1000多元人民幣。“但是去哪里推廣,怎么做推廣,我們完全不知道。”
隨著“暢言2000”以失敗告終,苦于推廣無門的科大訊飛第一次參加了當年的高交會。“當時華為等一些做電信設備的廠商公司發現了我們,在他們的呼叫中心智能網中間有需要使用語音的地方,比如說語音合成,呼叫中心的語音播報,智能網中間的信息播報等。”很快,迅飛便跟華為、中興等一些大的廠商對接上,成為它們的語音技術提供商。
“我們后來一想也是這樣,一個創業團隊沒有市場經驗,也沒有市場能力,沒有資金,不可能去做‘2C’的市場,那個時候的條件也不具備。做‘2B’的市場,做自己擅長的部分,把技術提供給合作伙伴,然后合作伙伴去做對應的應用更可行。”江濤說。這是科大迅飛的第一桶金,也是第一個商業模式。“依靠這個模式,我們實現了盈虧平衡。到2004年,我們已經是中國最大的語音技術提供商。”
在嘗到了做“技術提供商”的甜頭后,2004年,手機彩鈴被引進中國,“在沒有智能手機的時代,面對幾十萬首歌,用戶在電話里怎么選?”江濤說,為此,迅飛開發了針對音樂的語音搜索,“想下載誰的彩鈴,聽誰的歌,直接在電話里面語音搜索。”在這個基礎上,迅飛進一步把技術應用到跟音樂、彩鈴下載和搜索相關的其他領域。“現在聯通、電信,還有移動,相關于音樂的語音搜索技術全部由訊飛提供。”江濤說。
基于同樣的思路,迅飛開始把語音識別技術擴展到教育領域。“從技術上看,針對這兩個領域,迅飛所做的事情主要是語音合成,把語音轉換成文字。”江濤告訴《21CBR》,雖然在當時這個技術事實上已經沒有門檻,但迅飛的優勢在于做“技術提供商”的商業模式和針對細分領域提供的服務。目前,針對音樂和教育領域的收入依然是迅飛營收的主要來源之一。“現在音樂領域每年的收入大概在一個億左右。”
從技術到服務
語音識別不是完全靠算法能解決的,時間和數據積累才是最大的壁壘。
2008年前后,中國開始發放3G牌照,以蘋果、安卓為代表的智能機逐步興起。“我們覺得這個時候語音技術真正的機會才出現,因為智能手機相對于PC來說,屏幕更小,輸入更不方便,語音在人機交互過程中顯得更有價值。”江濤說。目前,訊飛所開發的手機應用訊飛語音已擁有超過2億用戶。
“我們現在最大的挑戰還是用戶的習慣,尤其是中國人覺得對著手機說話太傻了。”江濤說。好在隨著蘋果、谷歌加上騰訊的微信正在不斷地教育用戶的使用習慣,越來越多的人開始適應這種跟機器的交流方式。
科大訊飛在移動互聯網領域的另一個產品是訊飛輸入法。“我們從2011年開始做這個產品,當時訊飛沒有任何知名度,沒有品牌,完全靠用戶口碑來推廣。”江濤說。目前,訊飛輸入法的用戶超過8000萬。
盡管移動互聯網來勢洶洶,江濤和他的團隊還是希望把自己定位為“語音服務提供商”。“我們一方面還會持續面向電視機、汽車、地圖等合作伙伴提供語音技術,另外一方面也會以輸入法這些產品為代表,面向用戶提供直接的交互服務和終端產品。”江濤告訴《21CBR》記者。目前,康佳、海爾、創維、海信等電視廠商都采用了迅飛語音識別技術和開發平臺。訊飛也與國內主要汽車電子廠商及車廠等建立了合作,包括奇瑞、江淮、上汽、奧迪、德爾福、大陸電子、哈曼等,但這一領域對公司營收的貢獻微乎其微。
從技術的角度來看,語音識別在過去20年的發展和進化過程中早已不再擁有高門檻。在外界看來,科大訊飛缺乏足夠寬廣的護城河——掌握互聯網入口的企業百度、騰訊等巨頭,都在覬覦語音識別領域。而隨著3G網絡和智能終端的普及,這些條件又為語音識別打開了一扇新的大門。江濤也認為:“目前,就技術上的發展來講,語音識別的門檻的確不高,大數據云計算帶來了更加開闊的技術可能性和便利。”
上面這段并非筆者杜撰,而是著名的語音和圖像解決方案提供商Nuance公司研發工程總監張亞昕為大家描述的語音識別技術在車載系統中的應用情景。
其實,語音識別技術早已有之,1998年,飛利浦和摩托羅拉就將語音識別技術引入手機,但并沒有引起人們的關注,直到去年蘋果iphone 4里的Siri出現,才讓人們真正開始關注語音識別。張亞昕認為,這主要是因為以前的技術只能進行特定詞匯的語音識別,而如今的語音識別技術可以識別自然語言,真正讓用戶體會到了流暢自然的人機交互體驗。
也許是因為汽車內安全駕駛的重要性吧,語音識別技術特別受到了汽車市場的青睞。越來越多的汽車制造商開始在汽車中裝入語音識別接口,用于管理移動連接;同時提高駕駛安全系數。Strategy Analytics的統計表明,到2012年,中國原始設備制造商(OEM)所提供的具備語音人機接口的信息娛樂和車載信息通信系統(telematics)的出貨量將達到300萬臺,并預期在2018年達到20009萬臺。
但是,語音識別是非常耗費資源的一項工作,在目前的應用中,用戶接口依賴于通用型硬件和軟件,一般采用通用的應用處理器,語音識別只是眾多應用中的一個程序,系統硬件無法為語音處理做出優化,限制了處理速度和處理精度。例如,在車載GPS應用中,地圖軟件的運行就會占據處理器很多資源,這種情況下,啟用語音識別將會給CPU帶來很大負擔,處理能力上的不足會影響語音識別的速度和準確度,讓用戶體驗大打折扣。