何為視覺大數(shù)據(jù)?
簡而言之可稱之為為計算機配上一對“眼睛”,讓它可以看懂世界,但可惜的是,機器視覺發(fā)展這么多年,目前世界上最聰明的機器如阿爾法go等雖然都取得了很不錯的成績,但令人遺憾的是它們都有一個共同的致命缺陷——瞎的,這其中最主要的問題在于看與看懂,如何讓機器看懂也是擺在科技界的一道難題。
對此,發(fā)展視覺大數(shù)據(jù)就變得尤為重要,全宇暉教授表示,視覺大數(shù)據(jù)存在的前提是它要能夠被人的視覺系統(tǒng)感知到,而現(xiàn)如今最主要的視覺大數(shù)據(jù)便是圖像與視頻。值得注意的是以上所提都需滿足大數(shù)據(jù)的必備條件。
視覺大數(shù)據(jù)的核心內(nèi)涵
一、視覺大數(shù)據(jù)的“大”,表現(xiàn)在數(shù)量、尺寸、維度三個方面,即數(shù)據(jù)的體積足夠大。
二、視覺大數(shù)據(jù)的“數(shù)”傳達的內(nèi)涵是指我們接觸到的數(shù)據(jù)是量化過,或者離散過的數(shù)字,人類肉眼觀察到的圖像,對于計算機來說其實是一種數(shù)字矩陣。
三、視覺大數(shù)據(jù)的“據(jù)”則表明這些數(shù)字不是純粹的數(shù)字,它可以提供客觀依據(jù)來進行行為決策。人們獲取了視覺線索之后,需要對其進行信息提取、內(nèi)容分析、知識學(xué)習(xí)、理解決策四個步驟,其核心是利用到數(shù)學(xué)工具與模型算法。
這三個方面表明,在以往人類的生活生產(chǎn)中,存在一些固定模式和變化方向,這些固定模式通過科學(xué)無法解釋并存留至今;但變化方向則可通過大數(shù)據(jù)進行挖掘,找到適合人類發(fā)展、方便人類生活的方向,而由于應(yīng)用方向的不同,因而在大數(shù)據(jù)挖掘本身也存在著不同,比如今天所談的視覺大數(shù)據(jù)分析。
全宇暉教授進一步指出,視覺大數(shù)據(jù)的工作內(nèi)容主要集中在三方面:分析識別、質(zhì)量評估和質(zhì)量提升。而在分析識別方面,全教授提出了三個工作案例,來幫助進一步了解視覺大數(shù)據(jù)的工作機理:一是靜態(tài)紋理圖像識別。它利用的是計算機的一種基本運行能力,在開展這一工作時,研究者提供給計算機不同的紋理圖像,從而得到計算機對其識別處理后的反饋結(jié)果。二是動態(tài)紋理視頻識別。全宇暉教授介紹到,具有特定紋理的物體,在運動時,會表現(xiàn)出特有的周期性運動規(guī)律,而研究者讓計算機利用這些額外的信息,對不同的視頻信息進行分析與分類。三是物體的識別。計算機根據(jù)形狀與輪廓特征,對物體進行目標識別,可以實現(xiàn)原有工作方法在精度上的提升。
在質(zhì)量評估工作方面,研究者主要是通過給予計算機一定的運行程序,使計算機能夠給出符合人的認知的評價結(jié)果。質(zhì)量提升工作的目標是,提出一些新的方法,來實現(xiàn)圖像的質(zhì)量提升,使得被外因干擾的圖像得到最好的呈現(xiàn)效果。
視覺數(shù)據(jù)表征工作是視覺大數(shù)據(jù)核心
全宇暉教授表示,目前視覺大數(shù)據(jù)的工作是分開進行的,但最終的目的只有一個,就是把分析識別、質(zhì)量評估和質(zhì)量提升三方聯(lián)合起來,要想連接這三塊就需要進行視覺數(shù)據(jù)表征工作,這也是視覺大數(shù)據(jù)工作的核心。視覺大數(shù)據(jù)表征過程可以分為三個框架:局部特征提取、全局特征整合和高層特征優(yōu)化。為了便于理解,現(xiàn)場全教授以貓為例,通俗易懂地介紹了視覺數(shù)據(jù)表征工作的內(nèi)容:每一只貓都有不同的表征,就是說同一只貓也有不同的pose,所以這就需要建立一個三維空間,來幫助系統(tǒng)分析識別,而不是在原圖上進行操作。 視覺數(shù)據(jù)表征工作目前有兩種路線:一是物理驅(qū)動,研究者會考慮一些數(shù)學(xué)模型,或者圖形本身的面積等物理屬性,進而利用分形等數(shù)學(xué)工具,進行數(shù)學(xué)建模與算法設(shè)計;二是數(shù)據(jù)驅(qū)動,可以依據(jù)大數(shù)據(jù),得到較好的視覺數(shù)據(jù)表征。
最后,全宇暉教授表示,視覺大數(shù)據(jù)工作的下一個重心就是建立有機聯(lián)動框架,并引入多元多模態(tài)數(shù)據(jù)融合,進行變尺度視覺數(shù)據(jù)分析進而根據(jù)數(shù)據(jù)本身進行高階視覺關(guān)聯(lián)信息挖掘。