欧美,日韩中文字幕在线,男女性杂交内射妇女bbwxz,久久99久久9国产精品免费看,久久久久无码精品国产app,免费无码成人片

a&s專業(yè)的自動化&安全生態(tài)服務(wù)平臺
公眾號
安全自動化

安全自動化

安防知識網(wǎng)

安防知識網(wǎng)

手機站
手機站

手機站

大安防供需平臺
大安防供需平臺

大安防供需平臺

資訊頻道橫幅A1
首頁 > 資訊 > 正文

商湯科技徐立 機器視覺技術(shù)在人工智能的應(yīng)用

商湯科技CEO徐立表示,機器視覺從流程上來說分三大部分:第一部分,成像;第二部分,感知;第三部分,識別。機器視覺能解決什么問題?除了復(fù)現(xiàn)人對圖像的識別,還可以超越人?!盎ヂ?lián)網(wǎng)上超過70%的內(nèi)容是視覺內(nèi)容,我們希望幫助上下游企業(yè)打通人工智能的視覺。”

  講到計算機視覺、機器視覺還是很陌生的,雖然我們知道我們想用電腦或者計算機來改變現(xiàn)有的狀態(tài),機器人有眼睛,機器人可以理解,這部分的視覺到底包含什么內(nèi)容?從現(xiàn)在行業(yè)的內(nèi)容,以及學(xué)術(shù)上的理解給大家作一個簡單的介紹。機器視覺從整個的流程可以分為三大塊,第一塊就是可以模擬人的眼睛的部分,機器也是像人一樣,需要捕獲更高質(zhì)量的圖像,機器可以超越人,它得到的影像和內(nèi)容可能比人得到的更加清晰和完美。第二部分就是所謂的感知,感知這一層比較有意思,我們在看這個世界,世界不是2D的,這也是我們現(xiàn)在講的AR、VR的技術(shù),因為視覺是3D的,因為世界不是靜態(tài)的,所以世界有運動,這一類內(nèi)容被稱為感知層。最后是常規(guī)介紹的,對這個視頻輸入的一個真正的識別,這一層就對應(yīng)到人的感知系統(tǒng)。

  成像所牽扯的問題非常多,比如說第一張照片講的是去模糊。比如出去吃飯,給女友拍照,拍完照是模糊的,我們可以用算法使它變得清晰。第二個是超分辨率,如果手機的分辨率小的話,可以通過算法使得分辨率變高,同時包括暗光的增強、霧霾的消除,甚至手機上常用的美顏,也是通過相機把照片的質(zhì)量變得更好。左邊這張圖是我在2008年的時候,在馬賽拍的一張照片,這是馬賽很重要的景點。當(dāng)時我來得比較匆忙,只拍了這么一張照片,回過頭來看就只有這一張照片,因為我手在晃動,沒有把握好拍照的節(jié)奏,這張照片顯得比較模糊。計算機視覺,或者我們認為遙不可及的人工智能的優(yōu)勢就是它可以通過算法把一張照片變成右邊這張清晰的照片。真正的操作是我們能夠看得見的,我們可以通過算法進行視覺的增強。

  這個技術(shù)是用在什么地方?這張照片是網(wǎng)上搜來的,搜索的關(guān)鍵字就是“硅谷”,搜到這張照片,其實它有一段文字描述,美國的重心從華爾街轉(zhuǎn)向硅谷。這張照片體現(xiàn)的是硅谷的速度,一輛車開過,上面的車牌變得很模糊,用運動的模糊感可以告訴別人什么樣的,體現(xiàn)出來真正的奔跑的感覺。雖然可以看到右上角寫的是什么字,但是具體的細節(jié),比如說這條道路的道號,這條道路是朝哪個方向的并不能看清楚。有一個實際的例子,我們可以通過算法的操作,把上面這張照片變成下面這樣子,雖然照片不是很完美,但是可以看到這是101國道,這條路是南北的??梢杂迷诎卜?、監(jiān)控的行業(yè)當(dāng)中,比如說用攝像頭拍的照片是模糊的,完全可以用算法把清晰的內(nèi)容還原出來。

  我們說的機器視覺、人工智能除了做這部分的恢復(fù)之外,還可以解決什么樣的問題呢?再看一張用手機拍攝的照片,這張照片是用三星手機拍攝的,但是已經(jīng)調(diào)用了夜景的模式,當(dāng)時的情況是這個房間非常黑暗,所以拍出來的照片幾乎是看不清楚這張照片里有什么樣的內(nèi)容。我們的算法進行調(diào)整之后,就可以把一張極暗光下拍攝的照片變得比較完美,變得人能夠識別出來發(fā)生的內(nèi)容,有書、有瓶子、有禮物,包括書上的文字也能看得一清二楚,是一本教女性讀者怎么說話的書,很有意思的書。這告訴我們,機器視覺這一塊的智能模式除了可以奉獻人對這個世界的,對圖像的捕捉能力之外,可以在一定程度上超越人。

  2015年拍攝的北京的照片,我相信去年這一年或者上半年,拍攝北京照片產(chǎn)生這樣的問題不在少數(shù),大部分的攝像機拍出來的照片其實沒有辦法把真正的我們認為PM2.0或者霧霾消除掉,北京的天就是這樣的。算法可以做到什么樣呢?可能我們沒有辦法從真正的根本上改變霧霾的天氣,但是算法可以把藍天還給你,可以做到把霧霾層從照片中去除。所以大家不用去發(fā)朋友圈,如果朋友從哪地方轉(zhuǎn)來沒有霧霾的照片其實完全可以通過算法來生成。除了把霧霾消除的過程當(dāng)中,我們也可以讓計算機變得更聰明、更美好,比如它可以通過這樣一張霧霾照片,假如看上去很無聊、很沒有意思,可以進行轉(zhuǎn)換,生成藝術(shù)性的照片,雖然是霧蒙蒙的,但是可以模擬一種藝術(shù)家的畫風(fēng),可以把線條化,以及畫的背景描述出來,使得大家可以更清晰地人知道到樓的細節(jié),比起左邊這張圖,顯然右邊這張圖更生動,也更樂意拿來分享。帶來一個問題,計算機或者人工智能到底懂不懂美?這件事情不好回答,但是看另外一個例子,這是另外一張北京霧霾的照片,也是我們北京辦公室的門口,可以看到前后有各種各樣的深度,遠處還有人在騎自行車,這張照片看上去并不是很精彩,我們可以用計算機學(xué)習(xí)出一種變化的方案,變成右邊這張可以適合于海報以及適合于各類雜志的圖片。好不好其實是比較主觀的問題,但是計算機至少可以在某種程度上學(xué)習(xí)人的認知和人的風(fēng)格。

  另外一張照片埃菲爾鐵塔,這是去年拍的,基本上都是找去年拍攝的照片進行處理。右邊這張是通過機器輸入來形成這個畫感,機器可以通過這樣的輸入,假如是一個機器人的話可以看到這樣的場景,給出右邊這幅畫,這幅畫的細節(jié)比較有意思,可以看到鐵塔的欄桿,畫是用線圈表示,并不是寫實的方式,但是帶來的是比較抽象的風(fēng)格,在中國轉(zhuǎn)化成黑白可能是水墨的感覺,所以機器人其實也可以做到藝術(shù)感。這幅畫也比較有意思,我是比較喜歡這幅畫,因為這朵花是中國南部比較常見的花。有了照片之后,我們讓機器學(xué)習(xí)照片的輸入輸出,想要生成更好的藝術(shù)效果,得到右邊這幅畫,我非常喜歡,感覺又能體現(xiàn)花的色彩,又能讓我們感覺有無窮的想象力,比左邊的照片來得給豐富,這是機器視覺能做到的事情,不僅能真實還原真實的狀態(tài),還可以做延伸。如果大家對剛才的應(yīng)用感興趣,也可以下載微博相機。微博相機出的照片很有可能不會有霧霾的效果,真正地解決了圖片當(dāng)中的視覺的問題。

  回到流程當(dāng)中的第二塊,剛才講的都是2D的,并不生動,現(xiàn)在VR/AR非常生動,講3D的視覺。有了深度以后,對整個現(xiàn)實情況的感知就會來得更好。感知層其實做的事情就是通過各種各樣的輸入,比如人是通過雙眼的輸入,叫立體視覺,還可以通過各種其他的視覺的方法來生成深度。利用深度的感知,利用運動的感知可以做各種類型的識別,包括手勢、包括運動的操作。這是機器視覺非常大的領(lǐng)域,在現(xiàn)實當(dāng)中也有很大的應(yīng)用。

  開始講了拍照的例子,我繼續(xù)以拍照的例子來講,我拿出這張照片,我想讓大家看看是拿什么設(shè)備拍的,單反、卡片機還是手機?我覺得大家對這個行業(yè)的認知漸漸在往前,我第一次跟別人講的時候,毫無疑問說的都是單反拍的,這末大的光圈、前景深,強顏色對比,比較好的我們稱之為郊外的感覺,其實明顯是單反相機。不錯,確實看上去非常像單反的相機,但是這一類照片生成的原因是因為我們在拍攝照片的時候,除了2D的信息之外我們還得到了三維的信息,因為有三維的信息可以產(chǎn)生景深,這就是感知的具體的例子。怎么求取并不重要,我們可以通過雙目,四個陣列或者其他的設(shè)備來獲得這樣一個深度的照片。利用深度的照片完全可以得到一個類似于單反的效果,現(xiàn)在很多手機上有這樣的功能,叫先拍照后對焦,先拍照,通過光圈的變化,就是利用視覺里面很重要的點,就是深度感知。用先拍照后對焦的概念,原始的圖看上去是比較清晰的斜面,但是當(dāng)我們用深度求取之后可以做什么?可以把焦點點在前面,背后的酒可以是變成比較模糊的,可以看出層次感。前后兩部分的照片就變得比較模糊,在最后其實可以感覺得到遠處的圖片是成為拍照者的焦點。有了這樣的算法和設(shè)備之后,其實用手機也可以拍出來一些理想的照片。

  普通的商店的照片,如果這張照片是純粹的景深比較大的,沒有辦法顯示出前后變化,看上去比較粗糙,沒有什么意義。但是做了景深調(diào)整,這張照片就會比較有生命力,把場景深度帶回到大家的感知當(dāng)中。這個是我們感知層能做的一件事情,前面的那個圖形、圖像,因為成像層,以及現(xiàn)在講的感知層帶來的是大量的信息的輸入。有了輸入之后,就是可以做識別,這是我們常常說的人工智能的范疇,什么意思呢?圖像智能。前面兩部分我都寫了字,理解這一層只秀了圖,但是大家會發(fā)現(xiàn),其實做識別理解更接近于人的思維。這些照片自己就講出了自己在做什么,第一、第二張是講人臉的檢測,第三張是講一些人的屬性和一些人的特征。比如說我可以判斷人的年齡、性別,甚至是他的顏值。不知道大家有沒有在門口試過簽到的機器,可以通過一張非常簡單的照片可以判斷你是不是和庫內(nèi)的人是吻合的,來進行現(xiàn)場的簽到。下面包括人的分析、車輛的分析,以及文字的分析。這一切是我們理解這個世界的過程,機器在這里面起到的作用是在一些垂直領(lǐng)域,利用大量的數(shù)據(jù)來幫助人們更好地完成這樣的任務(wù)。

  這是我們一個比較標(biāo)志性的技術(shù),是人臉的技術(shù),我們有比較好的人臉識別,我們也是第一支團隊在數(shù)據(jù)庫上超過人眼睛的準(zhǔn)確率。這個可以作為工業(yè)界識別的標(biāo)準(zhǔn)。下面我簡單講一下應(yīng)用場景,有了比較好的人臉識別的話,可以做身份的確認。這是一個比較有意思的娛樂場景,這段視頻是講我們一個員工想要模擬成左邊人的照片,他經(jīng)常做換臉的操作?;谶@些內(nèi)容可以生成更好的內(nèi)容來分享也好,來輔助大家做一些社交性的活動,也可以模仿其他的人和內(nèi)容,基于時間關(guān)系,我就跳過這一段內(nèi)容。

  最后講一個簡單的事情,我們通過這樣的一個人臉識別和操作,我們也可以在大規(guī)模的場景當(dāng)中精準(zhǔn)地找出我們需要的人,譬如說用來做監(jiān)控,也可以過濾出重要的內(nèi)容,比如我來做內(nèi)容的識別。商湯其實是人工智能、機器視覺的使能者(音)的地位,我們也來幫助行業(yè)的上下游客戶,使得他們的產(chǎn)品能夠更快地進入到各種設(shè)備當(dāng)中,使得他們的技術(shù)能夠更快地去改變整個的生態(tài)圈。

 

參與評論
回復(fù):
0/300
文明上網(wǎng)理性發(fā)言,評論區(qū)僅供其表達個人看法,并不表明a&s觀點。
0
關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺,自1994年品牌成立以來,一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗,提供媒體、活動、展會等整合營銷服務(wù)。

免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟賠償!敬請諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權(quán)所有 粵ICP備12072668號 粵公網(wǎng)安備 44030402000264號
用戶
反饋