欧美,日韩中文字幕在线,男女性杂交内射妇女bbwxz,久久99久久9国产精品免费看,久久久久无码精品国产app,免费无码成人片

a&s專業(yè)的自動化&安全生態(tài)服務平臺
公眾號
安全自動化

安全自動化

安防知識網

安防知識網

手機站
手機站

手機站

大安防供需平臺
大安防供需平臺

大安防供需平臺

資訊頻道橫幅A1
首頁 > 資訊 > 正文

關鍵詞識別技術及瑞士聯(lián)邦理工學院的關鍵詞識別系統(tǒng)

  本文對關鍵詞識別技術的研究內容、主要模塊、評價指標和應用范圍等進行了簡要介紹,提出了一種自然語音關鍵詞識別系統(tǒng)。首先通過用戶提供的一系列聲學樣本來對關鍵詞進行預定義,然后通過關鍵詞搜索和關鍵詞確認來實現關鍵詞識別。為了解決在關鍵詞模型和填料模型中都使用相同的音素模型這一問題,我們把填料模型中那些與關鍵詞模型中的音素模型相同的音素模型去除掉。為了減少在關鍵詞搜索中的虛警數,我們提出了兩種方法:基于動態(tài)時間規(guī)整的模板匹配方法和高斯混合模型。關鍵詞識別實驗結果表明

文/鐘鑫 公安部第一研究所 責任編輯/付留芳

  本文對關鍵詞識別技術的研究內容、主要模塊、評價指標和應用范圍等進行了簡要介紹,提出了一種自然語音關鍵詞識別系統(tǒng)。首先通過用戶提供的一系列聲學樣本來對關鍵詞進行預定義,然后通過關鍵詞搜索和關鍵詞確認來實現關鍵詞識別。為了解決在關鍵詞模型和填料模型中都使用相同的音素模型這一問題,我們把填料模型中那些與關鍵詞模型中的音素模型相同的音素模型去除掉。為了減少在關鍵詞搜索中的虛警數,我們提出了兩種方法:基于動態(tài)時間規(guī)整的模板匹配方法和高斯混合模型。關鍵詞識別實驗結果表明:與基準模型相比,本方法能夠達到更高的正確識別率,從而證明了該方法的有效性。

  關鍵詞識別技術介紹

  概述

  近年來,隨著聲學模型、語言模型和搜索算法的不斷改進,語音識別系統(tǒng)的性能得到了極大的提高。但是要真正完成一個能夠處理自然語音同時又不受領域限制的語音識別系統(tǒng),就現有的技術水平而言還是非常困難的。關鍵詞識別(Keyword Spotting, KWS)技術是從連續(xù)的、無限制的自然語音流中識別出一組給定詞的語音,降低了對識別系統(tǒng)的要求,由于用戶對關鍵部分的發(fā)音通常都是完整的和吐字清楚的,對非關鍵詞部分和語法不需要過多的要求,因此從語音流中識別關鍵詞比識別整個句子的發(fā)音要容易得多。所以,關鍵詞識別技術被看作是處理口語,跨越人機交流障礙的最有效解決方案之一,在近年來取得了長足的進步。

  國內外研究現狀

  國外關鍵詞識別的研究始于上世紀70年代。1973年,Bridle揭開了關鍵詞識別研究的序幕,但真正的關鍵詞識別研究應該說是在80年代。美國國際電話電報公司國防通訊部用模板連接的方法實現了關鍵詞識別,并提出了補白模板。此后,AT&T的BELL實驗室實現了基于隱馬爾科夫模型的5個電話用語的、可以實用的關鍵詞識別,這些成果標志著關鍵詞識別研究的崛起。到90年代以后,MIT的Lincoln實驗室、CMU的計算機科學學院、Dragon系統(tǒng)公司、東芝公司和IBM公司等也相繼報告了他們的研究成果。

  我國關鍵詞技術發(fā)展相對來說起步較晚,但發(fā)展較快。國內的一批科研單位,如中科院自動化所、中科院聲學所、清華大學、哈工大以及北京大學等都進行了這方面的研究,取得了許多研究成果。正是由于國內對該領域研究的重視,目前我國關鍵詞識別技術的研究水平己經接近國外領先水平。但是我們應該看到,盡管國內的關鍵詞技術取得了很大進展,但是對于復雜環(huán)境的音頻文檔內容檢測方面,許多技術尚處于探索階段。

  基本模塊

  如圖1所示。

  1、特征提取;

  2、建立聲學模型并進行訓練;

  3、搜索和識別;

  4、對識別結果進行后期處理;

  5、結合語言模型來提高系統(tǒng)性能。

  主要評價指標

  關鍵詞識別系統(tǒng)從理論上來說存在兩類錯誤:

  •類型1錯誤:錯誤拒絕(False Rejection),也稱漏報(Miss),即系統(tǒng)沒有識別出語音中應該出現的關鍵詞;

  •類型2錯誤:錯誤接受(False Alarm),也稱虛警,即系統(tǒng)識別出的關鍵詞在語音中沒有出現,是假冒的關鍵詞。

  關鍵詞識別系統(tǒng)中的詞分為詞表內詞(In Vocabulary)和詞表外詞(Out Of Vocabulary)。詞表內詞是指關鍵詞表內的關鍵詞;而詞表外詞是關鍵詞表以外的詞,即非關鍵詞。當系統(tǒng)識別到一個關鍵詞,稱此關鍵詞為一個假想命中(Putative Hit)。

  衡量關鍵詞識別系統(tǒng)性能的指標在表現形式上有不同,但實質是一樣的,都是圍繞著正確識別與否這個評價準則來進行計算。


圖2  關鍵詞識別系統(tǒng)

  •識別率(Detection Rate),又稱正確識別率(Accuracy Rate)、召回率(Callback Rate),它定義為系統(tǒng)正確識別到的關鍵詞數量與原始語音中實際出現的關鍵詞總數的百分比;

  •漏報率(Miss Rate),定義為1-識別率;

  •虛警率(False Alarm Rate),又叫誤警率,為每小時每個關鍵詞的虛警數,簡記為FA/KW/HR;

  •錯誤接受率(False Acceptance Rate),系統(tǒng)錯誤識別到的關鍵詞數量與原始語音中實際出現的關鍵詞總數的百分比;

  •查準率(Precision):對某一個查詢關鍵詞,識別出的正確關鍵詞個數占識別出的關鍵詞總數的比值。

  顯然,漏報減少就會導致虛警增加,反之亦然。在關鍵詞識別系統(tǒng)中,一般都是盡可能多地搜索出關鍵詞候選,然后通過置信度打分進行關鍵詞確認,高于置信度門限的候選接受,低于門限的拒絕。因此關鍵詞識別系統(tǒng)的性能除了取決于關鍵詞搜索模塊外,也嚴重依賴于置信度的評估方法。系統(tǒng)往往調整置信度門限,使關鍵詞識別系統(tǒng)的兩類錯誤之間有一個折衷,這個門限稱為系統(tǒng)的工作點。

  由于在不同的虛警率下,關鍵詞的識別率會不同,所以單看在某一虛警率下的識別率無法客觀衡量系統(tǒng)性能的好壞。目前常用的衡量方法是接收機工作特性曲線(Receiver Operating Characteristics Curve),記作ROC曲線,它描述了識別率和虛警率之間的關系。ROC曲線能夠全面、直觀地反應關鍵詞識別系統(tǒng)的性能,因此成為最常用的性能評價指標。

  在實際系統(tǒng)中,曲線在虛警率小于10的部分對于衡量系統(tǒng)性能才有意義。因為實際使用中,很少選擇虛警率大于10的點為工作點,品質因數(Figure Of Merit)定義為虛警率在0-10FA/KW/HR范圍內的關鍵詞平均識別率。

  應用范圍

  語音庫搜索:如對公安局的監(jiān)聽記錄、法院的庭審記錄、通信運營商的通訊內容等進行有目的的搜索。

  文本分類:從海量的語音郵件中挑選出自己感興趣的內容。

  語音監(jiān)聽:實時地從被監(jiān)聽的語音數據中定位并識別出那些含有敏感關鍵詞的語句。

  電話轉接:無需查找被叫用戶號碼,只需告知被叫的單位或姓名等常用的身份信息,就可以直接轉接到被叫人。

  信息查詢:只需從用戶語音中識別用戶關注的內容,然后查找出用戶所需信息,再播報給用戶。

  命令控制:如控制機器人等,一般是讓關鍵詞識別系統(tǒng)在后臺持續(xù)運行,通過語音指令實現一些類似于開燈、關燈等簡單的命令控制功能。

  密碼驗證:可將密碼語音的鑒別和說話人鑒別組合在一起,讓語音關鍵詞也成為聲紋鎖的一部分,來提高聲紋鎖的穩(wěn)健性。

  口語對話系統(tǒng):由于具有很多可應用于實際系統(tǒng)的優(yōu)點,因此關鍵詞識別技術更適用于實現口語對話系統(tǒng)。

  瑞士聯(lián)邦理工學院的自然語音關鍵詞識別系統(tǒng)

  介紹

  在過去的20年里,語音信息搜索受到了極大的關注。關鍵詞識別是連續(xù)語音識別中的一個特殊分支,它已經廣泛應用于電話語音數據、航空旅行信息和新聞廣播等多個方面。然而,目前這些先進的關鍵詞識別系統(tǒng)都面臨一個共同問題,那就是在許多應用場合中,相關的關鍵詞并不在詞庫中,在搜尋人名、地名和縮寫詞的時候,這個問題就尤為突出。而另一方面,在某些情況下,關鍵詞完全是由用戶提供的一系列聲學樣本來預定義的,那么,關鍵詞識別任務就轉化為對這些預定義的關鍵詞進行識別,并且尋找到該關鍵詞在測試語音中的位置。

  本文提出了我們在關鍵詞識別這個領域所進行的研究。我們相信:一個有效的關鍵詞識別系統(tǒng)必須能夠在第一時間識別出嵌入在一段語音中的關鍵詞,隨后能夠對不包含有效關鍵詞的語音區(qū)域進行拒識。所提出的關鍵詞識別系統(tǒng)如圖2所示:首先,在預處理階段提取特征參數;其次,通過將一系列音素模型作為填料模型,使用維特比(Viterbi)流搜索來完成關鍵詞搜索;最后,通過一系列由用戶提供的聲學樣本來建立關鍵詞模型,并用這個模型對關鍵詞候選(或稱關鍵詞假設)進行確認。

  關鍵詞搜索的方法之一是根據先驗知識引入有限狀態(tài)文法(FSG),從而在一個整句中檢測是否有關鍵詞的存在。通過向給定的FSG中加入某種語音結構,我們可以獲得優(yōu)異的檢測性能。然而,FSG的局限性在于它不能覆蓋所有可能的語音結構,因此,實際的關鍵詞識別系統(tǒng)的魯棒性很差。另一種方法是讓填料模型(也稱垃圾模型)來“吸收”非關鍵詞,已經證明這種方法在關鍵詞識別的應用中具有很高的效率,因此本文就采用這種方法。“吸收”非關鍵詞有三種方法:1、將所有語音區(qū)域聯(lián)合起來,用來訓練一個隱馬爾科夫模型(HMM),并將其作為一個填料模型;2、基于大詞匯量連續(xù)語音識別(LVCSR)的方法,其中垃圾模型只允許有來自于詞匯庫的有效詞;3、集合所有音素模型,用來建立填料模型。第一種方法的工作效果不好,因為所建立的填料模型不能涵蓋測試語音中的所有變化。第二種方法由于使用了額外的語言學限制條件,雖然提高了識別性能,但是它需要采集大量的標注數據來訓練LVCSR系統(tǒng),因此計算成本很高。第三種方法能自動適應測試語音中的突發(fā)語音,并且具有相對較低的計算成本。本文采用第三種方法。

  然而,基于音素的有填料模型的關鍵詞識別系統(tǒng)還有一個缺點,那就是由于在關鍵詞模型和填料模型中使用了相同的音素模型,因此可能會導致對一個關鍵詞進行識別的性能出現下降的現象。這個問題一般是通過應用更加精煉的垃圾模型或者在線垃圾模型來解決。我們在本文中提出另一種方法,即在解碼網絡中,把填料模型中那些與關鍵詞模型中的音素模型相同的音素模型去除掉。實驗結果表明:這樣簡單的一個方法可以很明顯的提高關鍵詞識別率。

  把填料模型中那些與關鍵詞模型中的音素模型相同的音素模型去除掉之后,虛警率可能會提高。為了減少由于關鍵詞搜索而導致的虛警,我們提出了兩種關鍵詞確認方法。一種是基于動態(tài)時間規(guī)整(DTW)的模板匹配方法,它能使孤立詞識別系統(tǒng)展示出優(yōu)異的性能。另一種方法基于高斯混合模型,這個模型已經成功的用來處理說話人確認和說話人識別等問題。我們的研究表明,這兩種方法能在降低虛警率的同時可以保持識別率幾乎完好無損。

  實驗設置

  本實驗中所采用的識別器是一個與說話人無關的HMM系統(tǒng)。我們將音素作為建模單元,其中每一個音素可以由一個3狀態(tài),嚴格自左向右的連續(xù)密度HMM來表示,那么一個單詞就可以由一系列音素模型的組合來表示。每種狀態(tài)下的概率密度函數的個數在訓練的過程中確定。我們使用來自于會談電話語音(CTS)的長達15小時的語音數據來訓練音素級的HMM。對于所有語音數據,我們使用8kHz的采樣率和16位采樣量化位數,采樣精度為16位,對采集到的信號以25ms為幀長進行分幀,幀移長度為10ms,預加重系數為0.97,加漢明窗。然后,采用24通道的分析,使用離散余弦變換(DCT)轉換為12維 mel頻率倒譜系數(MFCC)。最后,我們用倒譜均值減(CMS)來進行信道補償。因此,12維CMS歸一化MFCC加上相應的一階、二階系數的對數能量就共同形成了特征向量。在本文中,我們使用HMM工具箱(HTK)進行聲音處理、特征提取、聲音建模和解碼等。

  我們在辦公室環(huán)境下記錄了5個說話人的自然語音周期(有2位女性和3位男性),有5個關鍵詞,分別是“藍”、“紅”、“黃”、“綠”和“球”。關鍵詞總共出現189次,非關鍵詞共出現1038次。在每一個周期,5個關鍵詞分別出現10次,作為聲學樣本。每一個關鍵詞的時間域都用手工標注。

  關鍵詞搜索

  正如第一部分描述那樣,本系統(tǒng)采用基于填料模型的關鍵詞識別方法,其流程如圖3所示。


圖3  本系統(tǒng)采用基于填料模型的關鍵詞識別方法

  圖3 使用填料模型的關鍵詞解碼網絡,每個關鍵詞模型是一個自左向右的HMM,它來自于與關鍵詞音素序列相對應的一系列音素模型的組合。填料模型由非關鍵詞的音素模型組成。

  這種方法允許每一個關鍵詞在測試語音中多次出現,因為每個關鍵詞模型是一個自左向右的HMM,它來自于與關鍵詞音素序列相對應的一系列音素模型的組合。填料模型(非關鍵詞)也由音素模型(包含靜音模型)組成。音素識別器通過維特比(Viterbi)流搜索方法得到識別結果,而搜索過程則是以這個結果為基礎,也就是說,來源于連續(xù)語音流的最佳狀態(tài)序列可以表示為:

  其中,S是候選狀態(tài)序列,O是觀察向量序列,M和G分別表示聲學模型(HMM)和解碼網絡。對于每一幀,可以獲取相應的狀態(tài)和對數概率。通過把屬于同一個音素模型的相鄰幀結合起來,可以對一個音素進行識別,而通過一系列相應的音素模型的組合,可以識別出關鍵詞。因此,除了得到似然概率得分之外,每一個關鍵詞的起點和終點也能被記錄下來。

  導致關鍵詞識別性能退化的原因之一就是在關鍵詞模型和填料模型中使用了相同的音素模型。雖然已經有其他研究人員著手解決這個問題,但是出于簡約化和有效性的考慮,我們提出另外一種方法,即把填料模型中那些與關鍵詞模型中的音素模型相同的音素模型去除掉。本系統(tǒng)的性能還依賴于對音素HMM進行準確的訓練。通過使用來自于CTS的長達15小時的語音數據,我們訓練出兩種HMM(性別無關和性別相關)。

  圖4展現了在使用不同類別的HMM和填料模型時關鍵詞識別的性能(由ROC曲線表征)。GI-HMM和GD-HMM分別代表“性別無關HMM”和“性別相關HMM”,filter1和filter2分別表示“沒有”和“已經”把填料模型中那些與關鍵詞模型中的音素模型相同的音素模型去除掉。根據所搜索的關鍵詞假設的中間時間指數是否在真正的關鍵詞時域之內,分別得到正確識別和錯誤識別的結論。不出所料,無論是否有填料模型,“性別相關HMM”比“性別無關HMM”的識別性能都略微好一些。在移除音素模型之后,識別性能表現得到了顯著的提高。而每一個關鍵詞的識別性能有很大的差異,如圖5中的實線所示。


圖4  使用不同的HMM和填料模型的條件下的ROC曲線

  圖4中GI-HMM和GD-HMM分別代表“性別無關HMM”和“性別相關HMM”。filter1和filter2分別表示“沒有”和“已經”把填料模型中那些與關鍵詞模型中的音素模型相同的音素模型去除掉。


圖5  每一個關鍵詞對應的ROC曲線

  圖5中實線和虛線分別表示經過基于DTW的確認之前(圖4中的GD-HMM-filter2)和基于DTW的確認之后的效果

  出現錯誤的原因是自然語音數據的幾個特點造成的。第一,訓練數據(電話語音)和測試數據(由遠程麥克風記錄的語音)之間存在不匹配的問題。第二,背景噪音使語音質量下降,因而導致識別錯誤。第三,說話人的差異(其中3個是非母語說話者)和說話風格的差異(重音、語速和發(fā)音習慣等)也可能導致識別錯誤。

  關鍵詞確認

  前面描述的關鍵詞搜索方法提供了一系列關鍵詞假設(分段的語音),每一個關鍵詞假設可以由一個特征向量(或幀)的序列來表示,即 
    其中 代表第l幀的CMS歸一化MFCC特征向量。如圖4所示,GD-HMM-filter2的識別率最高(86.6%),而它付出的代價就是虛警數比GD-HMM-filter1的虛警數更高。關鍵詞確認是關鍵詞識別系統(tǒng)中的一個必要的后期處理過程,它的目的是為了拒絕錯誤的關鍵詞假設,同時又盡可能多的接受真正的關鍵詞。

  基于DTW的關鍵詞確認

 

區(qū)域將被接受為一個關鍵詞。這里我們假定向量序列X是獨立的而且服從同一分布的隨機變量。


圖6  經過關鍵詞確認后的ROC曲線,GD-HMM-filter2取自圖4,以

便進行比較
 

  實驗結果

  隨后進行關鍵詞確認實驗。我們將GMM的混合數設定為4,在實驗中優(yōu)化每一個關鍵詞對應的門限。圖6展示了關鍵詞識別的性能。可以看出,兩種關鍵詞確認方法的效果都不錯,它們都能夠降低錯誤接收率,同時保持正確識別率幾乎不受損害。另外,在減少虛警數方面,DTW(能拒識大約50%的錯誤關鍵詞)的性能優(yōu)于GMM,這是因為每個關鍵詞僅僅有10個樣本可供建模,而基于DTW的模式匹配比GMM所需要的訓練樣本要少。與基準系統(tǒng)(GI-HMM-filter1)比起來,最終的關鍵詞識別系統(tǒng)能將絕對正確識別率提高10%,同時大大降低虛警率。圖5中的虛線顯示的是針對每一個關鍵詞而言,使用基于DTW的關鍵詞確認方法時的關鍵詞識別性能表現。可以看出,每一個關鍵詞的識別性能大不相同,但是經過DTW的關鍵詞確認之后,錯誤接受率都大大降低,但是需要注意的是,有一些 “紅”和“綠”關鍵詞經過DTW確認之后不能被識別。

  結論

  本文提出了自然語音關鍵詞識別研究方法,利用一系列聲學樣本來對關鍵詞進行預定義。我們把填料模型中那些與關鍵詞模型中的音素模型相同的音素模型去除掉,以此來解決在填料模型與關鍵詞模型中使用相同音素模型的問題。同時,我們還提出了DTW和GMM來降低由關鍵詞搜索步驟引起的虛警率。本關鍵詞識別實驗表明:所提出的方法切實有效,與基準系統(tǒng)比起來,它可以提高識別性能。未來的工作主要在于將說話人自適應技術與先進的語音處理技術融合至本系統(tǒng)中,從而進一步提高正確識別率。

參與評論
回復:
0/300
文明上網理性發(fā)言,評論區(qū)僅供其表達個人看法,并不表明a&s觀點。
0
關于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺,自1994年品牌成立以來,一直專注于安全&自動化產業(yè)前沿產品、技術及市場趨勢的專業(yè)媒體傳播和品牌服務。從安全管理到產業(yè)數字化,a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經驗,提供媒體、活動、展會等整合營銷服務。

免責聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網共享平臺。如使用任何字體和圖片文字有冒犯其版權所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實后將立即刪除!任何版權方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網絡碰瓷及敲詐勒索,將不予任何的法律和經濟賠償!敬請諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權所有 粵ICP備12072668號 粵公網安備 44030402000264號
用戶
反饋