環(huán)顧現(xiàn)有的帶語音識別能力的系統(tǒng),無論是蘋果的 Siri、亞馬遜的 Alexa 還是微軟的 Cortana,用戶在使用起來多少還是經(jīng)常想砸手機,因為它們經(jīng)常擅自“自動糾正”用戶話,可見要簡單地做個好的“聽寫員”實在是不容易。
然而,10月17日的時候,微軟發(fā)布了一份名為《達到與人類具備同等交流對話水平》(Achieving Human Parity in Conversational Speech)的論文。該論文宣稱,他們在語音識別上的技術(shù)已經(jīng)高于專業(yè)的人工速記員了。
為了能夠進行比較,微軟的研究人員找來了一段它們具有正確腳本的音頻片段,并請來了一家第三方公司來進行語音轉(zhuǎn)文本處理。這個第三方公司的操作方式分為兩部分:一名謄寫員邊聽音頻邊將內(nèi)容打出來,而另一名則一邊聽音頻一邊修正第一人提供的文本。隨后,根據(jù)和標準的正確文本對比,第三方公司的錯誤率分別是 5.9% 和 11.3%。
而微軟的識別系統(tǒng),在經(jīng)過 2000 小時對人類交談素材的學習后,針對同一份音頻材料進行了語音識別,錯誤率分別為 5.9% 和 11.1%,數(shù)量上來看,比人類對照組少了十來個錯誤。
雖然這次測試的成績不錯,但畢竟處理的音頻材料與真實生活場景的貼近性還是比較遙遠。而微軟的研究人員也表明,下一步會將該系統(tǒng)放在帶有部分背景噪音的場景中,例如在派對或是在高速公路上行駛的汽車上。同時,人類對照組的可參考性也還需要考究。但無論如何,希望這次的針對語音識別的研究突破不會成為那種被報道一次之后就消失的信息。