智能家居設備的技術應用,人機交互方面,語音識別是非常重要的技術。當前,出于市場需求,語音識別在智能家居中作為一個技術補充,正在提升用戶體驗發(fā)揮著重要的作用。以智能音箱為例,為了更好的進行定位、捕捉聲音、以及降低無關噪音的影響,開發(fā)者們會采用多麥克風的形式,不過,一旦處于人聲鼎沸的環(huán)境之中,智能音響的語音識別系統(tǒng)極有可能“罷工”,因為它很難從眾多聲音中準確的識別出下命令的用戶。在智能家居之中,大多家庭往往只買一個智能音箱。
打個比方,當語音識別技術發(fā)展較為成熟之時,若一位家庭成員呼喚音箱打開自己房間的燈,語音控制系統(tǒng)就能通過聲紋識別技術確認說話人的身份,從而準確的打開說話人房間的燈。由此,在體驗上,不管是從眾多人聲中準確辨認用戶,還是確認說話人的身份,聲紋識別都能讓用戶體驗進一步的提升。
搭載聲紋識別,提高家庭安全指數。由于不能確認說話人的身份,只要條件允許,當非用戶下達命令之時,語音控制系統(tǒng)極有可能會執(zhí)行。舉個例子,有人非法入侵住宅,若語音控制系統(tǒng)不限制說話人的身份,縱然有著智能監(jiān)控系統(tǒng),闖入者完全可以直接下命令關閉監(jiān)控系統(tǒng),如此一來,闖入者就成功的得到了住宅的臨時控制權。當搭載聲紋識別技術,基于聲紋的獨特性,再不能識別出闖入者身份的前提下,語音控制系統(tǒng)就能接著進行報警等一系列安防措施。
聲紋識別技術存在的“困擾”
在智能家居領域,語言識別已經充分的體現了自己的價值,緊接著,隨著語音識別熱潮的過去,聲紋識別又成為了新的熱門,被稱為智能家居未來發(fā)展的關鍵,或是語音交互的下一個風口。且不論它在智能家居領域的未來發(fā)展如何,就目前而言,其想在智能家居領域真正落地,還需解決一些困擾。
首先是聲紋的采集和特征的建立。不管是人工識別,還是依靠深度學習算法進行自動化識別,聲紋庫的建立都是進行一切行動的前提。當前,公安的聲紋鑒別庫應該是最全的,不過,企業(yè)要想研究聲紋識別,從公安處入手顯然行不通,因而,聲紋庫的建立就依賴于企業(yè)自行收集,這是一件相當艱難的任務。不同于人類的雙耳,機器的識別都是在數以百萬、千萬計的數據訓練中不斷改善的,可以說,如果沒有足夠的數據支持,就沒有如今的語音識別等人工智能技術的突破。對于企業(yè)而言,想要訓練聲紋識別算法,他們所需的不僅僅是語音數據,還需要特征多樣化的語音數據,像方言、口音等等,如此才能全方面的對聲紋識別算法進行訓練。
除了聲紋的采集,聲紋特征的建立也是當前聲紋識別進展的一個難題。理論上來講,聲紋就像指紋一樣,很少會有兩個人具有相同的聲紋特征。雖說如此,但正如雙胞胎一般,有些聲紋極其相似,可能只存在一丟丟的差異,這時,找出特征就成了一件相當具有難度的事。當然,你或許會說這部分可以由計算機完成,的確,依計算機的運算速度,該工作的完成還是相當不費吹灰之力的。不過,在特征建立工作中,這里又再次回到了上一個話題,沒有充足的聲紋庫,又如何建立足夠的聲紋特征?
其次,除了聲紋的采集和特征的建立,如何準確識別說話人也是當前一個急需解決的問題。不僅僅是靜態(tài)檢測,現在的聲紋識別更多的是被要求進行實時動態(tài)監(jiān)測,因而,說話環(huán)境、說話人身體狀況、情緒變化等都能對聲紋識別的結果造成影響。以說話人本身的狀況為例,用iPhone7上Siri的聲紋識別做實驗,在提前保存聲紋數據的基礎上,鎂客君的小伙伴分別以正常、加粗、尖細的聲音喚醒Siri,結果證明,只有正常的語音狀態(tài)下,Siri才能被喚醒,其他則是毫無反應。對照該結果,我們可以總結,只要說話人的聲音出現狀況,比如沙啞、情緒化等等,聲紋識別系統(tǒng)就不能將之與庫中的聲紋對上號,從而不能確認說話人的身份。