以往,我們了解到一些世界領先的語音合成技術,它們研發(fā)出來的“語音合成助手”軟件可以完美的完成語音合成工作。而最近阿里也推出了一項新語音合成技術,錄音10分鐘即可定制專屬“AI聲音”。
7月10日,阿里巴巴發(fā)布新一代語音合成技術KAN-TTS,稱可大幅提高合成語音與真人發(fā)聲的相似度,并將語音合成定制成本降低10倍以上。該技術由達摩院機器智能實驗室自主研發(fā)。
阿里方面稱,當前業(yè)界商用系統(tǒng)的合成語音與原始音頻錄音的接近程度通常在85%-90%之間,而基于KAN-TTS技術的合成語音可將該數(shù)據(jù)提高到97%以上。
KAN-TTS深度融合了目前主流的端到端TTS技術和傳統(tǒng)TTS技術,從多個方面改進了語音合成,有望通過圖靈測試。阿里利用Multi-SpeakerModel與Speaker-awareAdvancedTransferLearning相結(jié)合的方法,將語音合成定制成本降低10倍以上,周期壓縮3倍以上。也就是說,用1小時有效錄音數(shù)據(jù)和不到兩個月制作周期,就能完成一次標準TTS定制。
此外,這使得普通用戶定制“AI聲音”的門檻更低。只需手機錄音十分鐘,就能獲得與錄制聲音高度相似的合成語音。
基于KAN-TTS的語音合成技術現(xiàn)在已經(jīng)向B端客戶開放商用,它能基于5大場景(通用、客服、童聲、英文和方言)、提供34種不同聲音,而且能夠讓企業(yè)與個人定制其專屬“AI聲音”,該技術目前已經(jīng)用在了高德地圖、天貓精靈、夸克瀏覽器等應用中。
語音合成是通過機械的、電子的方法產(chǎn)生人造語音的技術。TTS技術(又稱文語轉(zhuǎn)換技術)隸屬于語音合成,它是將計算機自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術。
和語音合成一樣,語音識別技術也是實現(xiàn)人機語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的關鍵技術,越來越多的公司和行業(yè)都在向這方面靠攏。2017年,全球的語音識別軟件市場規(guī)模就已經(jīng)達到11億美元,隨著AI等各種技術的成熟,對語音識別的市場需求也在逐年提升。預計到2025年,全球語音識別市場的整體規(guī)模將達到69億美元。