講到計(jì)算機(jī)視覺、機(jī)器視覺還是很陌生的,雖然我們知道我們想用電腦或者計(jì)算機(jī)來改變現(xiàn)有的狀態(tài),機(jī)器人有眼睛,機(jī)器人可以理解,這部分的視覺到底包含什么內(nèi)容?從現(xiàn)在行業(yè)的內(nèi)容,以及學(xué)術(shù)上的理解給大家作一個(gè)簡單的介紹。機(jī)器視覺從整個(gè)的流程可以分為三大塊,第一塊就是可以模擬人的眼睛的部分,機(jī)器也是像人一樣,需要捕獲更高質(zhì)量的圖像,機(jī)器可以超越人,它得到的影像和內(nèi)容可能比人得到的更加清晰和完美。第二部分就是所謂的感知,感知這一層比較有意思,我們在看這個(gè)世界,世界不是2D的,這也是我們現(xiàn)在講的AR、VR的技術(shù),因?yàn)橐曈X是3D的,因?yàn)槭澜绮皇庆o態(tài)的,所以世界有運(yùn)動(dòng),這一類內(nèi)容被稱為感知層。最后是常規(guī)介紹的,對這個(gè)視頻輸入的一個(gè)真正的識(shí)別,這一層就對應(yīng)到人的感知系統(tǒng)。
成像所牽扯的問題非常多,比如說第一張照片講的是去模糊。比如出去吃飯,給女友拍照,拍完照是模糊的,我們可以用算法使它變得清晰。第二個(gè)是超分辨率,如果手機(jī)的分辨率小的話,可以通過算法使得分辨率變高,同時(shí)包括暗光的增強(qiáng)、霧霾的消除,甚至手機(jī)上常用的美顏,也是通過相機(jī)把照片的質(zhì)量變得更好。左邊這張圖是我在2008年的時(shí)候,在馬賽拍的一張照片,這是馬賽很重要的景點(diǎn)。當(dāng)時(shí)我來得比較匆忙,只拍了這么一張照片,回過頭來看就只有這一張照片,因?yàn)槲沂衷诨蝿?dòng),沒有把握好拍照的節(jié)奏,這張照片顯得比較模糊。計(jì)算機(jī)視覺,或者我們認(rèn)為遙不可及的人工智能的優(yōu)勢就是它可以通過算法把一張照片變成右邊這張清晰的照片。真正的操作是我們能夠看得見的,我們可以通過算法進(jìn)行視覺的增強(qiáng)。
這個(gè)技術(shù)是用在什么地方?這張照片是網(wǎng)上搜來的,搜索的關(guān)鍵字就是“硅谷”,搜到這張照片,其實(shí)它有一段文字描述,美國的重心從華爾街轉(zhuǎn)向硅谷。這張照片體現(xiàn)的是硅谷的速度,一輛車開過,上面的車牌變得很模糊,用運(yùn)動(dòng)的模糊感可以告訴別人什么樣的,體現(xiàn)出來真正的奔跑的感覺。雖然可以看到右上角寫的是什么字,但是具體的細(xì)節(jié),比如說這條道路的道號(hào),這條道路是朝哪個(gè)方向的并不能看清楚。有一個(gè)實(shí)際的例子,我們可以通過算法的操作,把上面這張照片變成下面這樣子,雖然照片不是很完美,但是可以看到這是101國道,這條路是南北的。可以用在安防、監(jiān)控的行業(yè)當(dāng)中,比如說用攝像頭拍的照片是模糊的,完全可以用算法把清晰的內(nèi)容還原出來。
我們說的機(jī)器視覺、人工智能除了做這部分的恢復(fù)之外,還可以解決什么樣的問題呢?再看一張用手機(jī)拍攝的照片,這張照片是用三星手機(jī)拍攝的,但是已經(jīng)調(diào)用了夜景的模式,當(dāng)時(shí)的情況是這個(gè)房間非常黑暗,所以拍出來的照片幾乎是看不清楚這張照片里有什么樣的內(nèi)容。我們的算法進(jìn)行調(diào)整之后,就可以把一張極暗光下拍攝的照片變得比較完美,變得人能夠識(shí)別出來發(fā)生的內(nèi)容,有書、有瓶子、有禮物,包括書上的文字也能看得一清二楚,是一本教女性讀者怎么說話的書,很有意思的書。這告訴我們,機(jī)器視覺這一塊的智能模式除了可以奉獻(xiàn)人對這個(gè)世界的,對圖像的捕捉能力之外,可以在一定程度上超越人。
2015年拍攝的北京的照片,我相信去年這一年或者上半年,拍攝北京照片產(chǎn)生這樣的問題不在少數(shù),大部分的攝像機(jī)拍出來的照片其實(shí)沒有辦法把真正的我們認(rèn)為PM2.0或者霧霾消除掉,北京的天就是這樣的。算法可以做到什么樣呢?可能我們沒有辦法從真正的根本上改變霧霾的天氣,但是算法可以把藍(lán)天還給你,可以做到把霧霾層從照片中去除。所以大家不用去發(fā)朋友圈,如果朋友從哪地方轉(zhuǎn)來沒有霧霾的照片其實(shí)完全可以通過算法來生成。除了把霧霾消除的過程當(dāng)中,我們也可以讓計(jì)算機(jī)變得更聰明、更美好,比如它可以通過這樣一張霧霾照片,假如看上去很無聊、很沒有意思,可以進(jìn)行轉(zhuǎn)換,生成藝術(shù)性的照片,雖然是霧蒙蒙的,但是可以模擬一種藝術(shù)家的畫風(fēng),可以把線條化,以及畫的背景描述出來,使得大家可以更清晰地人知道到樓的細(xì)節(jié),比起左邊這張圖,顯然右邊這張圖更生動(dòng),也更樂意拿來分享。帶來一個(gè)問題,計(jì)算機(jī)或者人工智能到底懂不懂美?這件事情不好回答,但是看另外一個(gè)例子,這是另外一張北京霧霾的照片,也是我們北京辦公室的門口,可以看到前后有各種各樣的深度,遠(yuǎn)處還有人在騎自行車,這張照片看上去并不是很精彩,我們可以用計(jì)算機(jī)學(xué)習(xí)出一種變化的方案,變成右邊這張可以適合于海報(bào)以及適合于各類雜志的圖片。好不好其實(shí)是比較主觀的問題,但是計(jì)算機(jī)至少可以在某種程度上學(xué)習(xí)人的認(rèn)知和人的風(fēng)格。
另外一張照片埃菲爾鐵塔,這是去年拍的,基本上都是找去年拍攝的照片進(jìn)行處理。右邊這張是通過機(jī)器輸入來形成這個(gè)畫感,機(jī)器可以通過這樣的輸入,假如是一個(gè)機(jī)器人的話可以看到這樣的場景,給出右邊這幅畫,這幅畫的細(xì)節(jié)比較有意思,可以看到鐵塔的欄桿,畫是用線圈表示,并不是寫實(shí)的方式,但是帶來的是比較抽象的風(fēng)格,在中國轉(zhuǎn)化成黑白可能是水墨的感覺,所以機(jī)器人其實(shí)也可以做到藝術(shù)感。這幅畫也比較有意思,我是比較喜歡這幅畫,因?yàn)檫@朵花是中國南部比較常見的花。有了照片之后,我們讓機(jī)器學(xué)習(xí)照片的輸入輸出,想要生成更好的藝術(shù)效果,得到右邊這幅畫,我非常喜歡,感覺又能體現(xiàn)花的色彩,又能讓我們感覺有無窮的想象力,比左邊的照片來得給豐富,這是機(jī)器視覺能做到的事情,不僅能真實(shí)還原真實(shí)的狀態(tài),還可以做延伸。如果大家對剛才的應(yīng)用感興趣,也可以下載微博相機(jī)。微博相機(jī)出的照片很有可能不會(huì)有霧霾的效果,真正地解決了圖片當(dāng)中的視覺的問題。
回到流程當(dāng)中的第二塊,剛才講的都是2D的,并不生動(dòng),現(xiàn)在VR/AR非常生動(dòng),講3D的視覺。有了深度以后,對整個(gè)現(xiàn)實(shí)情況的感知就會(huì)來得更好。感知層其實(shí)做的事情就是通過各種各樣的輸入,比如人是通過雙眼的輸入,叫立體視覺,還可以通過各種其他的視覺的方法來生成深度。利用深度的感知,利用運(yùn)動(dòng)的感知可以做各種類型的識(shí)別,包括手勢、包括運(yùn)動(dòng)的操作。這是機(jī)器視覺非常大的領(lǐng)域,在現(xiàn)實(shí)當(dāng)中也有很大的應(yīng)用。
開始講了拍照的例子,我繼續(xù)以拍照的例子來講,我拿出這張照片,我想讓大家看看是拿什么設(shè)備拍的,單反、卡片機(jī)還是手機(jī)?我覺得大家對這個(gè)行業(yè)的認(rèn)知漸漸在往前,我第一次跟別人講的時(shí)候,毫無疑問說的都是單反拍的,這末大的光圈、前景深,強(qiáng)顏色對比,比較好的我們稱之為郊外的感覺,其實(shí)明顯是單反相機(jī)。不錯(cuò),確實(shí)看上去非常像單反的相機(jī),但是這一類照片生成的原因是因?yàn)槲覀冊谂臄z照片的時(shí)候,除了2D的信息之外我們還得到了三維的信息,因?yàn)橛腥S的信息可以產(chǎn)生景深,這就是感知的具體的例子。怎么求取并不重要,我們可以通過雙目,四個(gè)陣列或者其他的設(shè)備來獲得這樣一個(gè)深度的照片。利用深度的照片完全可以得到一個(gè)類似于單反的效果,現(xiàn)在很多手機(jī)上有這樣的功能,叫先拍照后對焦,先拍照,通過光圈的變化,就是利用視覺里面很重要的點(diǎn),就是深度感知。用先拍照后對焦的概念,原始的圖看上去是比較清晰的斜面,但是當(dāng)我們用深度求取之后可以做什么?可以把焦點(diǎn)點(diǎn)在前面,背后的酒可以是變成比較模糊的,可以看出層次感。前后兩部分的照片就變得比較模糊,在最后其實(shí)可以感覺得到遠(yuǎn)處的圖片是成為拍照者的焦點(diǎn)。有了這樣的算法和設(shè)備之后,其實(shí)用手機(jī)也可以拍出來一些理想的照片。
普通的商店的照片,如果這張照片是純粹的景深比較大的,沒有辦法顯示出前后變化,看上去比較粗糙,沒有什么意義。但是做了景深調(diào)整,這張照片就會(huì)比較有生命力,把場景深度帶回到大家的感知當(dāng)中。這個(gè)是我們感知層能做的一件事情,前面的那個(gè)圖形、圖像,因?yàn)槌上駥?,以及現(xiàn)在講的感知層帶來的是大量的信息的輸入。有了輸入之后,就是可以做識(shí)別,這是我們常常說的人工智能的范疇,什么意思呢?圖像智能。前面兩部分我都寫了字,理解這一層只秀了圖,但是大家會(huì)發(fā)現(xiàn),其實(shí)做識(shí)別理解更接近于人的思維。這些照片自己就講出了自己在做什么,第一、第二張是講人臉的檢測,第三張是講一些人的屬性和一些人的特征。比如說我可以判斷人的年齡、性別,甚至是他的顏值。不知道大家有沒有在門口試過簽到的機(jī)器,可以通過一張非常簡單的照片可以判斷你是不是和庫內(nèi)的人是吻合的,來進(jìn)行現(xiàn)場的簽到。下面包括人的分析、車輛的分析,以及文字的分析。這一切是我們理解這個(gè)世界的過程,機(jī)器在這里面起到的作用是在一些垂直領(lǐng)域,利用大量的數(shù)據(jù)來幫助人們更好地完成這樣的任務(wù)。
這是我們一個(gè)比較標(biāo)志性的技術(shù),是人臉的技術(shù),我們有比較好的人臉識(shí)別,我們也是第一支團(tuán)隊(duì)在數(shù)據(jù)庫上超過人眼睛的準(zhǔn)確率。這個(gè)可以作為工業(yè)界識(shí)別的標(biāo)準(zhǔn)。下面我簡單講一下應(yīng)用場景,有了比較好的人臉識(shí)別的話,可以做身份的確認(rèn)。這是一個(gè)比較有意思的娛樂場景,這段視頻是講我們一個(gè)員工想要模擬成左邊人的照片,他經(jīng)常做換臉的操作?;谶@些內(nèi)容可以生成更好的內(nèi)容來分享也好,來輔助大家做一些社交性的活動(dòng),也可以模仿其他的人和內(nèi)容,基于時(shí)間關(guān)系,我就跳過這一段內(nèi)容。
最后講一個(gè)簡單的事情,我們通過這樣的一個(gè)人臉識(shí)別和操作,我們也可以在大規(guī)模的場景當(dāng)中精準(zhǔn)地找出我們需要的人,譬如說用來做監(jiān)控,也可以過濾出重要的內(nèi)容,比如我來做內(nèi)容的識(shí)別。商湯其實(shí)是人工智能、機(jī)器視覺的使能者(音)的地位,我們也來幫助行業(yè)的上下游客戶,使得他們的產(chǎn)品能夠更快地進(jìn)入到各種設(shè)備當(dāng)中,使得他們的技術(shù)能夠更快地去改變整個(gè)的生態(tài)圈。