安防監(jiān)控,僅僅將畫面記錄下來只是第一步。當事件發(fā)生后,準確而快速地找到所需監(jiān)控工來完成,浪費了檢索人的大量精力。治安管理者迫切需要一種能
夠快速查找視頻信息的方式,加快辦案速度。在基于內容的視頻檢索技術、存儲技術以及智能分析技術共同提升的環(huán)境下,海量視頻檢索離安防漸行漸近。
2011年6月16日,南京一騎電動車年輕女子被一輛貨車超越時刮倒,22天后,在對事故地點附近學校、商場、網吧等單位的監(jiān)控錄像進行分析, 并調取附近街區(qū)5萬多張監(jiān)控照片比對后,警方鎖定肇事車輛;2011年7月13日,福州何先生乘坐出租車時,將自己的LV旅行包遺落在出租車上,內有現(xiàn)金 2.1萬元。派出所民警接警后,通過視頻查到何先生乘坐的出租車,并于15日幫他找回了丟失的名牌旅行包;2011年7月27日凌晨,遵義一駕駛員駕車撞 死行人后逃逸,警方調取了沿途視頻監(jiān)控錄像,并在長達144小時的錄像中,通過查找、分析和判斷,鎖定逃逸車輛……短短一月有余,諸多案件的偵破都利用了 監(jiān)控視頻,可見查找監(jiān)控視頻已經成為警方破案不可或缺的一個手段。
隨著平安城市等工程的推進,監(jiān)控攝像頭已經遍布大街小巷,這為大多數(shù)案件留下了影像資料,給警方破案帶來了很大的便利。但是,有了相關視頻不等于就找到了目標信息,查找視頻、分析視頻的工作常常會耗用警方大量的時間和人力。
視頻檢索技術當前的發(fā)展
檢索技術源于互聯(lián)網發(fā)展需求?;谖谋舅饕姆椒ㄟM行檢索是當今最成熟的信息檢索技術。各類搜索引擎,如Baidu、Google、
Bing以及Yahoo等都是以此技術為基礎的。隨著網絡帶寬不斷的提高,人們可以更加快捷地將自己采集到的各種多媒體信息進行共享,或者進行多媒體信息
的交互,越來越多的信息通過視頻等多媒體的形式展現(xiàn)在互聯(lián)網中,這對以圖像、視頻為代表的多媒體信息檢索技術提出了越來越高的要求。20世紀90年代初,
國際上開始了對視頻方面的檢索研究。區(qū)別于文字信息檢索,圖像視頻的檢索是建立在圖像視頻內容分析的基礎上,所以常稱之為基于內容的圖像視頻檢索。
1992年,“基于內容的視頻檢索”一詞開始使用。十多年來,視頻數(shù)據(jù)在獲取、存儲、操作及傳輸技術方面取得了重大的理論突破和技術進步。
基于內容的視頻檢索技術是針對音視頻這類非結構化數(shù)據(jù),使用了視頻分割、自動數(shù)字化、語音識別、鏡頭檢測、關鍵幀抽取、內容自動關聯(lián)、
視頻結構化等技術,以圖像處理、模式識別、計算機視覺、圖像理解等領域的知識為基礎,從認知科學、人工智能、數(shù)據(jù)庫管理系統(tǒng)及人機交互、信息檢索等領域引
入新的媒體數(shù)據(jù)表示和數(shù)據(jù)模型,從而設計出可靠、有效的檢索算法、系統(tǒng)結構以及友好的人機界面。
基于內容視頻檢索技術原理
視頻數(shù)據(jù)按照由粗到細的順序可以劃分為四個層次結構:視頻(Video)、場景(Scene)、鏡頭(Shot)和圖像幀
(Frame)。由于一個鏡頭內的相鄰幀間的變化不是很大,它們之間的特征差值會限定在某個閾值范圍內。而在鏡頭突變時,突變點前后兩個相鄰幀在內容上顯
示會有很大的變化,如果特征差值超過了給定的閾值,則意味著出現(xiàn)一個分割邊界。鏡頭的關鍵幀就是反映該鏡頭中主要信息內容的幀圖像。將各鏡頭檢測出來后,
對每個鏡頭可提取關鍵幀,并用關鍵幀簡潔地表達鏡頭。關鍵幀數(shù)目的確定是關鍵幀提取中的一個重要問題,其確定方法可以根據(jù)鏡頭內幀的差異進行統(tǒng)計,求出其
方差,用方差來衡量鏡頭視覺內容的復雜程度。方差越大,該鏡頭提取的關鍵幀數(shù)就越多。
從內容上對視頻進行搜索,其特點包括:第一,直接從媒體內容中提取信息線索;第二,基于內容的檢索是一種近似匹配,這一點與常規(guī)數(shù)據(jù)庫
檢索的精確匹配方法有明顯的不同;第三,動態(tài)特征提取和索引建立可由計算機自動實現(xiàn),這避免了人工描述的主觀性,也大大減少了工作量。基于內容檢索時,根
據(jù)媒體特征進行相似性匹配檢索的媒體特征有:顏色、紋理、輪廓、形狀、空間約束、動態(tài)、概念、結構描述及其他的圖像信息。