隨著語音識別、圖像識別和人臉識別等技術(shù)越來越精確和高效,智能終端、智能家居乃至機器人等“智能硬件”變得能聽、能說、能看,不斷提高著機器的“智商”,更好地為人們服務。
買個東西?刷臉就行
作為一個資深“智能手機控”,“90后”姑娘小夏當然會嘗鮮“智能生活”。
早上起床,小夏打開手機語音助手,說“今天我有哪些活動?”手機屏幕馬上自動出現(xiàn)小夏之前設定好的當天行程表。吃蘋果還是吃香蕉當早飯?用“拍照搜索”的手機APP(應用程序)拍張照片,兩種水果的熱量多少就一目了然。上班路上,看到不知名的花,小夏覺得好看,拍下來后仍舊用手機APP識別,就能知道花的品種名稱。
到了公司門口,小夏在門禁系統(tǒng)前一揚臉,嘟一聲,門就自動解鎖。午休時閑聊,小夏看到同事的裙子很漂亮,征得同意后給同事拍了個照,手機APP一識別,手機上馬上出現(xiàn)了相同款式的價格和可購買的電商渠道。收到男朋友的短信,小夏懶得打字,拿起手機說了一段話,說完自動轉(zhuǎn)換成文字回了過去。下班坐地鐵回家,小夏想起有首歌很好聽,想給男朋友發(fā)個鏈接,但一時間想不起歌名了,于是對著手機哼了一段旋律搜索歌曲,熟悉的歌名真的出現(xiàn)了。
對小夏來說,這些真實便利的“智能生活”,要感謝計算機識別技術(shù)的發(fā)展。隨著語音識別、圖像識別和人臉識別等技術(shù)越來越精確和高效,智能終端、智能家居乃至機器人等“智能硬件”變得能聽、能說、能看,不斷提高著“智商”,更好地為人們服務。
“人臉識別、圖像識別都屬于計算機視覺技術(shù)。”微軟亞洲研究院首席研究員孫劍說,計算機視覺就是讓機器可以像人一樣能夠看圖片或者看視頻,并能夠理解這個圖片的內(nèi)容,建造一個像人眼睛一樣的機器。比如,隨便一張圖,計算機可以識別圖里的物體,包括杯子、電腦、桌子等等。
“語音識別的目的,是讓人說的話能被機器聽清楚,之后還要聽明白。語音合成,目的是要讓機器能夠用最自然、最清晰的方式說話。”語音專家、微軟亞洲研究院首席研究員宋謌平認為,現(xiàn)在很多情況,機器只是“聽到”了,和“聽懂”還是有距離。就像去看抽象畫,每個顏色都認得,每個線條都知道,但可能還是不知道這個抽象畫是什么意思。
隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的崛起,這些計算機識別技術(shù)日益深入生活。馬云在前不久的德國漢諾威電子展上演示了在淘寶刷臉支付。最近火爆全球互聯(lián)網(wǎng)的“顏齡機器人”網(wǎng)站How-Old.net,能夠判斷用戶上傳照片中人物的性別和年齡。
語音識別應用方面,目前大部分的手機輸入法都已支持語音輸入轉(zhuǎn)文字功能,也出現(xiàn)了蘋果希瑞和微軟小娜等通過語音交互的智能助手。百度語音技術(shù)內(nèi)嵌在手機百度、百度輸入法、百度地圖、百度導航等一系列產(chǎn)品中,可以延伸應用到汽車、醫(yī)療、電商、家電和車載等許多方向。微軟即時通話軟件Skype也剛剛對所有用戶開放了Skype Translator中文預覽版實時語音翻譯技術(shù)。
報個菜名?手機就會
“長時間來,讓計算機能看、能聽、能說一直是我和計算機界同行們孜孜以求的目標。”孫劍說,但要研發(fā)出一個像科幻大片《星際穿越》里“Tars”一樣能看懂周圍世界、聽懂人類語言并和人類進行流暢對話的智能機器人,要走的路還有很長。
比如,對計算機而言,識別一個在不同環(huán)境下的人,還不如識別在同一環(huán)境下的兩個人來得簡單。這是因為,最初研究者試圖將人臉想象為一個模板,然而人臉雖然看起來是固定的,但角度、光線、打扮不同,樣子也有差別,這都令簡單的模板難以匹配所有人臉。如果單純識別面部,而不考慮發(fā)型和身體的其他部分,人類的正確率約為97.5%,計算機目前則能達到99%以上。
“這是否意味著計算機已經(jīng)勝過了人類?不是,因為人們不只觀察面部,身材和體態(tài)都有助于人們認出對方。在復雜光照的真實環(huán)境下,人能夠更智能地選擇這些分支幫助自己決策,而計算機在這方面則要遜色許多。”孫劍說。
幸運的是,在互聯(lián)網(wǎng)海量數(shù)據(jù)的幫助下,以及深層神經(jīng)網(wǎng)絡、深度學習、大數(shù)據(jù)處理等人工智能技術(shù)的另辟蹊徑,包括計算機在內(nèi)的智能機器有了大量的素材進行學習。以往學術(shù)界做語音識別通常是幾十小時的訓練語料,而互聯(lián)網(wǎng)公司有大量的服務器集群并行計算,可以處理成千上萬小時的訓練語料。同樣的,在用人工智能的深層神經(jīng)網(wǎng)絡訓練計算機圖形識別能力時,也能夠投入海量的圖像。
區(qū)別于現(xiàn)在的圖像識別技術(shù),還有一種叫做光學字符識別的技術(shù),已經(jīng)在把圖書館藏書掃描轉(zhuǎn)化為電子書過程中發(fā)揮關鍵作用。而結(jié)合其他的計算機識別技術(shù)和實時翻譯功能,這種技術(shù)又挖掘出新的應用:把手機攝像頭對準菜單上的法語菜名,屏幕上實時顯示出翻譯好的中文菜名,甚至能念給你聽;街景地圖采集車游走于大街小巷,拍攝街景的同時也從街景圖像中自動提取文字標識,讓地圖信息更豐富更準確。
此外,微軟亞洲研究院還與中國科學院計算技術(shù)研究所、北京聯(lián)合大學合作了一個項目,致力于通過姿勢捕捉設備,利用手勢識別和語音技術(shù),使得聽力障礙人士在觀眾面前用手語演講,每位觀眾都能不費吹灰之力聽懂他的演說。
過去幾年里,全球互聯(lián)網(wǎng)領域的幾大巨頭——谷歌、蘋果、微軟、臉書以及百度,都在積極進行人工智能方面的研發(fā),以改進其在圖像、視頻及語音信息處理方面的服務能力,因此,人工智能技術(shù)——企圖了解智能的實質(zhì),并生產(chǎn)出能以人類智能相似的方式做出反應的智能機器,也被認為是互聯(lián)網(wǎng)產(chǎn)業(yè)的下一個引爆點。
是敵是友?門禁知道
盡管目前智能手機上的語音助手已經(jīng)算是標配應用,但人與人交流并不只靠語音,還有手勢、眼神、視覺、環(huán)境等等。在人工智能技術(shù)的支持下,語音識別、圖像識別等技術(shù)歸根結(jié)底都是在做一個事情,讓機器更聰明,這樣就可以理解人,可以與人自然地交流,可以越來越多地幫助人類去執(zhí)行一些任務,未來是一個智能化的世界。像智能門禁、智能手機、智能手表和智能汽車都需要類似于語音助手的操控。智能家居要根據(jù)主人的生活規(guī)律、外部環(huán)境、階梯電價多個因素來提供最舒適最環(huán)保的方案,這些場景,都離不開圖像識別、語音識別等技術(shù)。
孫劍認為,除了人類自身也能做到的識別功能外,計算機視覺還可應用在那些人類能力所限,感覺器官不能及的領域和單調(diào)乏味的工作上:在微笑瞬間自動按下快門,幫助汽車駕駛員泊車入位,捕捉身體的姿態(tài)與電腦游戲互動,忙碌的購物季節(jié)幫助倉庫分揀商品,離開家時掃地機器人清潔房間,自動將數(shù)碼照片進行識別分類……
“或許在不久的將來,超市電子秤就能辨別出蔬菜的種類;門禁系統(tǒng)能分辨出帶著禮物的朋友,抑或手持撬棒的即將行竊的歹徒;可穿戴設備和手機幫助我們識別出鏡頭中的任何物體并搜索出相關信息。更奇妙的是,它還能超越人類雙眼的感官,用聲波、紅外線來感知這個世界,觀察云層的洶涌起伏預測天氣,監(jiān)測車輛的運行調(diào)度交通,甚至突破我們的想象,幫助理論物理學家分析超過三維的空間中物體運動。”孫劍說。
而在宋謌平想象中,智能語音技術(shù)的終極目標之一,是做出一個“全球翻譯器”的語音合成器,通過這個翻譯器,說中文的人,不懂英文也照樣能“說” 得標準,而且聲音就跟本人一樣,不同語種不同膚色的人們之間都可以無障礙溝通。“以后大家都可以像會多種語言的錢鍾書先生一樣,用法語、拉丁文、英文、中文夾雜著說一段話。”