欧美,日韩中文字幕在线,男女性杂交内射妇女bbwxz,久久99久久9国产精品免费看,久久久久无码精品国产app,免费无码成人片

a&s專業(yè)的自動化&安全生態(tài)服務平臺
公眾號
安全自動化

安全自動化

安防知識網(wǎng)

安防知識網(wǎng)

手機站
手機站

手機站

大安防供需平臺
大安防供需平臺

大安防供需平臺

資訊頻道橫幅A1
首頁 > 百科 > 正文

語音識別技術

  簡介  語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術與其他自然語言
  簡介

  語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,例如語音到語音的翻譯。

  語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

  歷史

  早在計算機發(fā)明之前,自動語音識別的設想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語音識別器,當這只狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統(tǒng)是由AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng),它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學院(College of London)的Denes已經(jīng)將語法概率加入語音識別中。

  1960年代,人工神經(jīng)網(wǎng)絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC), 及動態(tài)時間規(guī)整Dynamic Time Warp技術。

  語音識別技術的最重大突破是隱馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數(shù)學推理,經(jīng)過Labiner等人的研究,卡內基梅隆大學的李開復最終實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。此后嚴格來說語音識別技術并沒有脫離HMM框架。

  盡管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持無限領域,無限說話人的聽寫機應用。

  模型

  目前,主流的大詞匯量語音識別系統(tǒng)多采用統(tǒng)計模式識別技術。典型的基于統(tǒng)計模式識別方法的 語音識別系統(tǒng)由以下幾個基本模塊所構成

  信號處理及特征提取模塊。該模塊的主要任務是從輸入信號中提取特征,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。 統(tǒng)計聲學模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模。 發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。 語言模型。語言模型對系統(tǒng)所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。 解碼器。解碼器是語音識別系統(tǒng)的核心之一,其任務是對輸入的信號,根據(jù)聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。 從數(shù)學角度可以更加清楚的了解上述模塊之間的關系。首先,統(tǒng)計語音識別的最基本問題是,給定輸入信號或特征序列,符號集(詞典),求解符號串使得:

  W = argmaxP(W | O) 通過貝葉斯公式,上式可以改寫為

  由于對于確定的輸入串O,P(O)是確定的,因此省略它并不會影響上式的最終結果,因此,一般來說語音識別所討論的問題可以用下面的公式來表示,可以將它稱為語音識別的基本公式。 W = argmaxP(O | W)P(W)

  從這個角度來看,信號處理模塊提供了對輸入信號的預處理,也就是說,提供了從采集的語音信號(記為S)到 特征序列O的映射。而聲學模型本身定義了一些更具推廣性的聲學建模單元,并且提供了在給定輸入特征下,估計P(O | uk)的方法。

  為了將聲學模型建模單元串映射到符號集,就需要發(fā)音詞典發(fā)揮作用。它實際上定義了映射的映射。為了表示方便,也可以定義一個由到U的全集的笛卡爾積,而發(fā)音詞典則是這個笛卡爾積的一個子集。并且有:

  最后,語言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫成:

  對于解碼器來說,就是要在由,,ui以及時間標度t張成的搜索空間中,找到上式所指明的W。

  語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經(jīng)成為一個具有競爭性的新興高技術產(chǎn)業(yè)。

  與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等各個領域。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發(fā)展技術之一。

  原理

  語音識別系統(tǒng)提示客戶在新的場合使用新的口令密碼,這樣使用者不需要記住固定的口令,系統(tǒng)也不會被錄音欺騙。文本相關的聲音識別方法可以分為動態(tài)時間伸縮或隱馬爾可夫模型方法。文本無關聲音識別已經(jīng)被研究很長時間了,不一致環(huán)境造成的性能下降是應用中的一個很大的障礙。

  其工作原理:

  動態(tài)時間伸縮方法使用瞬間的、變動倒頻。1963年Bogert et al出版了《回聲的時序倒頻分析》。通過交換字母順序,他們用一個含義廣泛的詞匯定義了一個新的信號處理技術,倒頻譜的計算通常使用快速傅立葉變換。

  從1975年起,隱馬爾可夫模型變得很流行。運用隱馬爾可夫模型的方法,頻譜特征的統(tǒng)計變差得以測量。文本無關語音識別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。

  平均頻譜法使用有利的倒頻距離,語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語者的一套短期訓練的特征向量可以直接用來描繪語者的本質特征。但是,當訓練向量的數(shù)量很大時,這種直接的描繪是不切實際的,因為存儲和計算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來壓縮訓練數(shù)據(jù)。Montacie et al在倒頻向量的時序中應用多變量自回歸模式來確定語者特征,取得了很好的效果。

  想騙過語音識別系統(tǒng)要有高質量的錄音機,那不是很容易買到的。一般的錄音機不能記錄聲音的完整頻譜,錄音系統(tǒng)的質量損失也必須是非常低的。對于大多數(shù)的語音識別系統(tǒng),模仿的聲音都不會成功。用語音識別來辨認身份是非常復雜的,所以語音識別系統(tǒng)會結合個人身份號碼識別或芯片卡。

  語音識別系統(tǒng)得益于廉價的硬件設備,大多數(shù)的計算機都有聲卡和麥克風,也很容易使用。但語音識別還是有一些缺點的。語音隨時間而變化,所以必須使用生物識別模板。語音也會由于傷風、嗓音沙啞、情緒壓力或是青春期而變化。語音識別系統(tǒng)比指紋識別系統(tǒng)有著較高的誤識率,因為人們的聲音不像指紋那樣獨特和唯一。對快速傅立葉變換計算來說,系統(tǒng)需要協(xié)同處理器和比指紋系統(tǒng)更多的效能。目前語音識別系統(tǒng)不適合移動應用或以電池為電源的系統(tǒng)。

參與評論
回復:
0/300
文明上網(wǎng)理性發(fā)言,評論區(qū)僅供其表達個人看法,并不表明a&s觀點。
0
關于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺,自1994年品牌成立以來,一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術及市場趨勢的專業(yè)媒體傳播和品牌服務。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗,提供媒體、活動、展會等整合營銷服務。

免責聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實后將立即刪除!任何版權方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟賠償!敬請諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權所有 粵ICP備12072668號 粵公網(wǎng)安備 44030402000264號
用戶
反饋