一、什么是大數(shù)據(jù)?
關于大數(shù)據(jù)的定義,當前不同的行業(yè)有不同的聲音。有人說,大數(shù)據(jù)是量特別大的數(shù)據(jù),以前是TB級別,現(xiàn)在是PB級別;也有人說,大數(shù)據(jù)是以Hadoop為代表的新技術,它能夠處理海量的數(shù)據(jù)。這幾種說法都顯得有些片面,一個強調數(shù)據(jù),一個強調技術。麥肯錫對大數(shù)據(jù)定義了“4V”特征,同時對大數(shù)據(jù)作出定義:“大數(shù)據(jù)是指數(shù)據(jù)集的大小超過了現(xiàn)有典型的數(shù)據(jù)庫軟件和工具的處理能力,與此同時,及時捕捉、存儲、聚合、管理這些大數(shù)據(jù)以及對數(shù)據(jù)的深度分析的新技術和新能力,正在快速增長,就像預測計算芯片增長速度的摩爾定律一樣。”麥肯錫的定義涵蓋了數(shù)據(jù)和技術,然而,隨著大數(shù)據(jù)的發(fā)展,這樣的定義也無法完全詮釋大數(shù)據(jù)的內涵。我們說,大數(shù)據(jù)不僅有數(shù)據(jù),有技術,更重要的是它能夠提供更好的服務。大數(shù)據(jù)能夠對海量的數(shù)據(jù)進行深度關聯(lián)分析,進而對事物的發(fā)展趨勢作出預測,這也是大數(shù)據(jù)的核心所在,大數(shù)據(jù)能夠將數(shù)學算法運用到海量的數(shù)據(jù)上來預測事情發(fā)生的可能性。
《大數(shù)據(jù)時代》一書指出:大數(shù)據(jù)的精髓在于我們分析數(shù)據(jù)時的三個轉變,這些轉變將有助于我們對大數(shù)據(jù)的深入理解。
1、在大數(shù)據(jù)時代,我們可以分析數(shù)據(jù)的全集,而非數(shù)據(jù)的采樣。數(shù)據(jù)的量變可以產(chǎn)生質變,同時可以彌補算法帶來的不足。且看以下案例,在Word程序的語法檢查中,有一種簡單的算法,當數(shù)據(jù)量只有500萬時,該算法表現(xiàn)很差,但當數(shù)據(jù)量達到10億級別時,該算法的表現(xiàn)最優(yōu)異;相反,有一種復雜的算法,在500萬數(shù)據(jù)量時表現(xiàn)最好,但在10億級別數(shù)據(jù)量時效果不如簡單的算法。
2、大數(shù)據(jù)下的數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度。在信息缺乏的時代,我們往往追求數(shù)據(jù)的精確度;在大數(shù)據(jù)時代,數(shù)據(jù)量如此之大,數(shù)據(jù)種類如此繁多,我們無法保證每個數(shù)據(jù)都是精確的,然而只要保證大部分的數(shù)據(jù)是精確的,就不會影響分析結果的可靠性。
3、在大數(shù)據(jù)時代,我們更加關心相關關系,而非因果關系。沃爾瑪?shù)姆治鱿到y(tǒng)發(fā)現(xiàn),啤酒與尿布的銷售量存在一定的相關關系。根據(jù)分析結果,沃爾瑪將尿布和啤酒這兩種風馬牛不相及的商品擺在一起,結果神奇地發(fā)現(xiàn)尿布和啤酒的銷量都增加了。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。在這個案例中,我們找到了它的原因,但更多時候,我們找不到原因,而實際上我們也無需去關心它的原因,因為從相關關系的分析結果中,我們就能從中獲益。
二、大數(shù)據(jù)發(fā)展現(xiàn)狀
大數(shù)據(jù)是時下最熱的一門技術,2012年,科技部的《中國云科技發(fā)展“十二五”專項規(guī)劃》和工信部的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》都將大數(shù)據(jù)技術作為一項重點予以支持。
在IT領域,大數(shù)據(jù)的發(fā)展已相當成熟。如Google公司利用超過30億條用戶的指令成功預測流感的傳播,利用上萬億的語料庫為用戶提供相對精確的翻譯;亞馬遜根據(jù)以往的信息預測用戶感興趣的書籍;淘寶根據(jù)用戶的購物行為精確地推送廣告;等等。
然而,在安防領域,大數(shù)據(jù)還處于萌芽和探索階段。
首先,安防行業(yè)正在逐漸進入大數(shù)據(jù)時代。隨著城市進程的不斷發(fā)展,信息化建設的不斷深入,數(shù)據(jù)正在以幾何級的速度快速增長,傳統(tǒng)的系統(tǒng)或工具已無法有效處理如此海量的數(shù)據(jù)。比如,交通卡口數(shù)據(jù),以前是千萬條級別,現(xiàn)在的情況是:一個區(qū)縣一年的卡口數(shù)據(jù)能夠達到十億級別,一個地級市一年的卡口數(shù)據(jù)甚至能夠達到百億級別,一個省的數(shù)據(jù)就更大了,面對如此龐大的數(shù)據(jù),傳統(tǒng)的系統(tǒng)顯得束手無策,即使一條簡單的查詢命令,響應時間也會變得非常慢,更不要說分析、統(tǒng)計等功能了。同時,越來越多的用戶對大數(shù)據(jù)提出了更高的要求,比如公安用戶,他們掌握了大量的數(shù)據(jù),類型繁多,數(shù)據(jù)量大,他們要求能夠通過海量數(shù)據(jù)的分析,達到預測預警的作用,進而能夠將公安業(yè)務從事后分析向事前預測轉變。
其次,一些安防企業(yè)正在接觸大數(shù)據(jù),并有了初步的探索和應用。早在2012年,??低暰蜕孀愦髷?shù)據(jù),基于Hadoop進行開發(fā)優(yōu)化并推行大數(shù)據(jù)解決方案,滿足海量數(shù)據(jù)高效處理的要求。當前,??低暬诖髷?shù)據(jù)技術的產(chǎn)品有:視頻云存儲,能夠滿足100PB數(shù)據(jù)的存儲;視頻圖像信息數(shù)據(jù)庫,能夠針對海量的案事件數(shù)據(jù)進行快速檢索;交通卡口大數(shù)據(jù)平臺,能夠針對海量的卡口數(shù)據(jù)進行快速檢索、智能研判、統(tǒng)計分析,部分研判功能可用于刑事案件的偵察及預警。此外,像博康、宇視等安防企業(yè),也在迎頭趕上大數(shù)據(jù)的發(fā)展步伐。
三、安防大數(shù)據(jù)核心技術分析
IT領域的大數(shù)據(jù)發(fā)展已相當成熟,其中的許多技術可以借鑒運用到安防領域中。但是,安防行業(yè)存在與IT行業(yè)不一樣的地方,主要是數(shù)據(jù)的類型。在IT行業(yè)中,大數(shù)據(jù)的分析對象往往是日志、用戶行為信息、網(wǎng)頁索引等數(shù)據(jù),是計算機可以識別的結構化數(shù)據(jù);而安防行業(yè)中,大數(shù)據(jù)需要分析的對象主要是視頻、圖片、音頻等非結構化數(shù)據(jù),計算機無法直接對這些數(shù)據(jù)進行分析,而是需要先提取出其中的結構化信息,再進行分析。
大數(shù)據(jù)的基礎技術可以從IT領域借鑒到安防領域,具體包括如下這些技術:一、分布式文件系統(tǒng),負責海量數(shù)據(jù)存儲,將數(shù)據(jù)分散存儲在多臺獨立的設備上,系統(tǒng)采用可擴展的體系結構,利用多臺存儲服務器分擔存儲負荷,利用元數(shù)據(jù)服務器定位存儲信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴展;二、分布式數(shù)據(jù)庫,面向列的實時分布式數(shù)據(jù)庫,適合構建高并發(fā)低延時的在線數(shù)據(jù)服務系統(tǒng),用于存儲粗粒度的結構化數(shù)據(jù);三、分布式計算,負責將一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然后分配給許多計算機進行處理,最后把這些計算結果綜合起來得到最終的結果;四、全文檢索引擎,負責對海量數(shù)據(jù)進行穩(wěn)定、可靠、快速實時檢索;五、內存計算,通過分布式的內存計算,能夠對海量數(shù)據(jù)更加快速地分析處理;六、流計算,負責對流媒體數(shù)據(jù)進行分析處理。基于以上這些技術,能夠對已結構化的數(shù)據(jù)進行快速處理,解決對海量數(shù)據(jù)處理效率上的問題。
然而,正如上面所說,安防行業(yè)中最多的數(shù)據(jù)不是結構化數(shù)據(jù),而是非結構化數(shù)據(jù),如何從這些非結構化數(shù)據(jù)中提取出結構化信息,是首先需要解決的關鍵點。在視頻圖像中可以提取的結構化信息包括如下內容:一、人、車、物的特征信息,人的特征信息包括性別、年齡段、身高、體型、膚色、是否佩戴眼鏡、發(fā)型、服飾特征、攜帶物等,車的特征信息包括車牌號碼、車牌顏色、車牌類型、車輛類型、車身顏色、車標、車上人員信息等,物體的特征信息包括物品顏色、形狀、大小、紋理特征等;二、行為信息,如穿越警戒面、進入/離開區(qū)域、區(qū)域入侵、人員徘徊、人員聚集等。
當提取出這些數(shù)據(jù)后,就可以進一步進行深入分析,如對車輛的軌跡分析,對人的異常行為分析。所以,智能分析技術在安防大數(shù)據(jù)中顯得格外重要,是實現(xiàn)安防大數(shù)據(jù)的基礎。
整合了大量的數(shù)據(jù)之后,就需要挖掘數(shù)據(jù)的深度價值。數(shù)據(jù)的真實價值就像海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則是隱藏于表面之下。預測是大數(shù)據(jù)的核心價值所在,深度關聯(lián)分析算法便是實現(xiàn)大數(shù)據(jù)價值的必要手段。數(shù)據(jù)分析算法就像是鉆頭,需要從大數(shù)據(jù)這座神奇的鉆石礦中挖掘出真正的鉆石。
四、安防大數(shù)據(jù)面臨的問題
隨著大數(shù)據(jù)的發(fā)展,許多問題逐漸暴露出來,主要表現(xiàn)在以下幾點:
(1)智能分析技術不夠成熟。視頻圖像數(shù)據(jù)的結構化是實現(xiàn)安防大數(shù)據(jù)基礎,當前,交通卡口的車輛信息提取技術較為成熟,但是,像人體信息提取、人臉比對等技術還不夠成熟。
(2)數(shù)據(jù)應用不夠深入。當整合足夠多的數(shù)據(jù)后,如何利用這些數(shù)據(jù)進行預測分析、趨勢分析,幾乎是當前應用模式上的空白。當然,其中也有一些可以借鑒的例子,比如卡口大數(shù)據(jù)系統(tǒng),它可以對過車數(shù)據(jù)進行深度的智能研判:區(qū)域碰撞、軌跡分析、跟車研判等,這有助于刑偵破案效率的大幅提升。
(3)數(shù)據(jù)共享不夠廣泛。特別是政府、公安、交通等部門中,信息孤島普遍存在,這主要是由于體制問題造成的,并不是技術上的問題,很難由企業(yè)來改變這個現(xiàn)狀,只能由相關部門貫徹推行并作出改變。
(4)標準化建設不夠全面。這主要是由于大數(shù)據(jù)還處于起步階段,還需要更深入的探索和嘗試。在標準化建設方面,如數(shù)據(jù)標準規(guī)范、互聯(lián)互通標準規(guī)范、數(shù)據(jù)應用模式標準規(guī)范等,需要不斷進行總結,并逐漸標準化。
五、安防大數(shù)據(jù)發(fā)展趨勢
在安防行業(yè)未來的發(fā)展中,大數(shù)據(jù)勢必會占據(jù)越來越重要的地位。面對發(fā)展過程中出現(xiàn)的問題,當前的首要任務是能夠逐步解決這些問題,并不斷完善安防大數(shù)據(jù)方案。
(1)技術創(chuàng)新。首先,視頻數(shù)據(jù)的結構化,通過智能化技術,能夠從視頻圖像中提取出人、車、物等特征信息,通過提取并整合這些信息,能夠方便的對視頻數(shù)據(jù)進行檢索、以圖搜圖、深度關聯(lián)分析。當這些技術得以實現(xiàn),視頻數(shù)據(jù)的應用效率會大幅提升,而且可以為視頻數(shù)據(jù)的深入應用奠定基礎。其次,大數(shù)據(jù)處理技術。視頻數(shù)據(jù)結構化后,成為可以被計算機識別的數(shù)據(jù),當越來越多的數(shù)據(jù)匯集之后,傳統(tǒng)的技術或系統(tǒng)已無法進行有效處理,此時,必須采用大數(shù)據(jù)技術才能對這些海量的數(shù)據(jù)進行處理。大數(shù)據(jù)技術包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、全文搜索引擎、分布式計算、內存計算、流計算等,具備優(yōu)異的可靠性、擴展性及處理性能,能夠針對海量數(shù)據(jù)進行快速分析、挖掘,為用戶提供更好的服務。
(2)業(yè)務創(chuàng)新。有了經(jīng)過結構化后的海量視頻數(shù)據(jù),通過大數(shù)據(jù)技術,可以對這些海量數(shù)據(jù)進行深度挖掘,可以做到預測及趨勢分析,但是相關的業(yè)務模型還需要不斷探索和創(chuàng)新。如公安部門,視頻偵查在當前來說只能是一種輔助手段,如果采用大數(shù)據(jù)技術后能夠進行預測預警,那么視頻偵查將會成為一種非常重要的手段,通過視偵技術,能夠減少案件發(fā)生率、提高破案率。
(3)體制改善。更多的數(shù)據(jù)能夠產(chǎn)生更大的價值,為了能夠整合更多的數(shù)據(jù),必須消除信息孤島,而這在政府部門是客觀存在的一個難題。當然,在智慧城市的推動下,這一局面已有所改觀,越來越多的政府部門意識到數(shù)據(jù)共享的重要性。但是,要真正實現(xiàn)大數(shù)據(jù)的集中和共享,還有很長的路要走。
(4)標準完善。海量數(shù)據(jù)的整合離不開標準化的過程,在標準化過程中,需要重點考慮以下幾點:一、數(shù)據(jù)結構化標準規(guī)范,包括哪些數(shù)據(jù)需要結構化、結構化的數(shù)據(jù)如何表示、如何設計字典規(guī)范、如何設計數(shù)據(jù)庫表等等,通過標準的結構化數(shù)據(jù),所有系統(tǒng)都能夠識別并處理;二、數(shù)據(jù)互聯(lián)互通標準規(guī)范,包括平臺與前端之間如何互聯(lián)互通、平臺與平臺之間如何互聯(lián)互通等。前端可以對視頻數(shù)據(jù)進行結構化,后臺也可以對視頻數(shù)據(jù)進行結構化,前端和后臺需要相互協(xié)作,那么前端如何告知后臺哪些數(shù)據(jù)已經(jīng)結構化了,哪些數(shù)據(jù)還需進一步結構化,就需要標準來規(guī)范;三、數(shù)據(jù)應用的標準規(guī)范,包括數(shù)據(jù)的服務模式、類型、規(guī)則等等。如大數(shù)據(jù)平臺對海量數(shù)據(jù)進行清洗分類、深度挖掘之后,需要對上層的業(yè)務應用提供服務,這種服務就需要通過標準化的接口提供出去。
六、大數(shù)據(jù)助力安防行業(yè)的發(fā)展
大數(shù)據(jù)在安防行業(yè)中會有一個從起步,到發(fā)展并成熟的過程。當前處于起步階段,有部分智能分析技術,并通過大數(shù)據(jù)技術解決了海量數(shù)據(jù)的處理效率問題;在發(fā)展階段,智能分析技術會不斷成熟,并會不斷出現(xiàn)創(chuàng)新的數(shù)據(jù)應用;在成熟階段,智能分析技術相當成熟,并有系統(tǒng)的數(shù)據(jù)深度應用。大數(shù)據(jù)助力安防行業(yè)的發(fā)展,主要體現(xiàn)在以下幾個方面:
一、數(shù)據(jù)應用效率不斷提升。通過智能分析技術、大數(shù)據(jù)技術,能夠使視頻數(shù)據(jù)的應用效率不斷提升,解決以往應用效率低下的問題。應用效率的提升能夠使視頻數(shù)據(jù)產(chǎn)生更大的價值。
二、數(shù)據(jù)深度應用。數(shù)據(jù)的深度應用能夠體現(xiàn)大數(shù)據(jù)的真正價值,而這也更能提升安防系統(tǒng)的整體實力,使視頻數(shù)據(jù)的邊緣地位向核心地位靠攏,使安防行業(yè)的競爭力得到提升。
三、體制及標準的完善。標準和體制的完善能夠進一步促進大數(shù)據(jù)的發(fā)展,而掌握標準的安防企業(yè)將會有更強大的話語權。
大數(shù)據(jù)能夠構建更加智慧的系統(tǒng),能夠轉變我國安防系統(tǒng)建設中“重建設、輕應用”的現(xiàn)狀,有助于進一步提升公共安全部門的核心戰(zhàn)斗力,進一步夯實社會穩(wěn)定基礎。
七、結語
大數(shù)據(jù)能夠為用戶構建更加智慧的系統(tǒng),提供更具價值的服務。在安防行業(yè),快速增長的數(shù)據(jù)、不斷涌現(xiàn)的用戶需求,預示著對大數(shù)據(jù)的訴求越來越強烈,同時,也有越來越多的安防企業(yè)涉足大數(shù)據(jù),有了了初步的探索和應用。安防領域的大數(shù)據(jù)不同于IT領域的大數(shù)據(jù),它對智能分析技術有著更高的要求,智能分析技術是實現(xiàn)安防大數(shù)據(jù)的基礎,此外,它對大數(shù)據(jù)基礎技術、數(shù)據(jù)深度分析算法等也有著同樣的高要求。當然,大數(shù)據(jù)目前在安防行業(yè)還處于起步階段,不夠成熟的大數(shù)據(jù)還面臨著諸多問題,包括智能分析技術不夠成熟、數(shù)據(jù)應用不夠深入、數(shù)據(jù)共享不夠廣泛、標準化建設不夠全面等。在未來的發(fā)展中,首先要解決這些問題,并不斷完善安防大數(shù)據(jù)方案,包括技術創(chuàng)新、業(yè)務創(chuàng)新、體制改善、標準完善。只有更加完善的安防大數(shù)據(jù),才能體現(xiàn)出更加明顯的優(yōu)勢,發(fā)揮更大的價值。隨著大數(shù)據(jù)的不斷發(fā)展成熟,它必將給安防行業(yè)帶來質的提升。大數(shù)據(jù)是未來的發(fā)展趨勢,它將引領下一個安防時代,讓我們拭目以待。