文/中國國家博物館 安全保衛(wèi)部 高級工程師 楊延京
近年來,隨著博物館的快速建設(shè),大量新理念、新技術(shù)、新設(shè)備的使用,推動博物館運營進入到高技術(shù)、高標(biāo)準(zhǔn)和高安全性的全新時代。隨之而來的安全風(fēng)險和隱患也逐漸增多,其中博物館的監(jiān)控視頻存儲信息容量大、監(jiān)控點位數(shù)量多,如何有效地管理這些資源,實現(xiàn)視頻資源的高效應(yīng)用是博物館安全管理與應(yīng)急指揮建設(shè)領(lǐng)域亟待解決的問題。
目前許多博物館依賴于視頻監(jiān)控系統(tǒng)來實現(xiàn)日常安全運行管理,分鏡頭模式已成為日常管理水平進一步提升的瓶頸之一。采用三維全景數(shù)字智能視頻融合系統(tǒng)可以有效地關(guān)聯(lián)融合海量監(jiān)控視頻資源,提供超越傳統(tǒng)分鏡頭監(jiān)控的全景立體可視化監(jiān)控的同時,支持快速精準(zhǔn)地捕獲現(xiàn)場細(xì)節(jié),有效地解決一些在單鏡頭視頻分析中所不能解決或不易解決的問題,如跨鏡頭的盯控、人員徘徊檢測、人群匯聚、交通擁堵檢測、事故隱患等。實現(xiàn)視頻監(jiān)控從“看得清”到“看的懂”的跨越式提升,有助于切實提高博物館安全運行管理的效率和快速應(yīng)對突發(fā)事件的綜合管控能力。
三維全景數(shù)字智能視頻融合系統(tǒng)功能特點:
?。?)基于博物館實現(xiàn)大規(guī)模廣域視頻三維場景重構(gòu),還原真實場景,解決視頻割裂、瀏覽不直觀等問題。
?。?)基于三維地理信息的室內(nèi)室外視頻實景拼接,提高了博物館環(huán)境態(tài)勢無縫掌控、分層瀏覽和信息綜合運用水平。
?。?)基于全景畫面的高速球機關(guān)聯(lián)細(xì)節(jié)追視,實現(xiàn)博物館室內(nèi)外全景和細(xì)節(jié)協(xié)同把控。
?。?)基于博物館真實三維場景的視頻回放拼接還原,實現(xiàn)博物館三維場景拼接時空回放,提升事件回溯研判能力。
?。?)基于三維空間信息的機器視覺分析,實現(xiàn)攝像機三維場景中拌線、禁區(qū)闖入等行為數(shù)據(jù)提取和分析,提升博物館采集的智能監(jiān)控價值和告警處置判斷力。
(6)基于三維空間信息的全景機器視覺分析,實現(xiàn)跨越攝像機全景人流密度視覺大數(shù)據(jù)提取和分析,提升博物館采集的數(shù)據(jù)價值和決策判斷力。
系統(tǒng)拓?fù)鋱D
三維全景數(shù)字智能視頻融合系統(tǒng)實現(xiàn)監(jiān)控視頻與三維模型的融合展示,將視頻監(jiān)控與其周邊環(huán)境進行實時融合展示,解決傳統(tǒng)監(jiān)控方式分鏡頭畫面之間相互孤立的缺陷,實現(xiàn)了分鏡頭與分鏡頭之間,分鏡頭與模塊之間的空間位置對應(yīng)。系統(tǒng)通過對物理世界中安裝的監(jiān)控攝像視頻進行自動的多尺度分析,選擇出幾何突出點,進而通過采用有約束條件下二/三維共形幾何映射的算法分析,把這些幾何突出點映射到三維模型中對應(yīng)的幾何點。利用先進的算法對所有固定分鏡頭視頻進行分析,檢測分離出前景目標(biāo),根據(jù)自動相機標(biāo)定技術(shù)精確計算出其空間位置,按照其對應(yīng)的時間序列信息,經(jīng)三維重建后融合顯示至三維全真場景中,實現(xiàn)融合后的系統(tǒng)圖像無形變、不失真。此外,將視頻場景內(nèi)球機關(guān)聯(lián)于全景立體監(jiān)控中,無需以球機為操作對象,系統(tǒng)自動地調(diào)度事件目標(biāo)周邊的多個球機協(xié)同追視,實現(xiàn)縱覽全局和細(xì)節(jié)把控的有機結(jié)合。
三維全景數(shù)字智能視頻融合系統(tǒng)核心技術(shù)包含以下幾部分:
1.前景目標(biāo)檢測
在運動目標(biāo)檢測提取中,背景對于前景目標(biāo)的識別、重建融合和跟蹤至關(guān)重要。這里前景是指在假設(shè)背景為靜止的情況下,任何有意義的運動目標(biāo)。在全景立體視頻監(jiān)控系統(tǒng)中,將運動目標(biāo)準(zhǔn)確重建融合到三維場景中,實現(xiàn)全方位、無失真、無變形的監(jiān)控尤為重要。為此,將首先進行對前景運動目標(biāo)的檢測,主要包括多層次前景背景建模和運動陰影抑制、噪音消除、目標(biāo)缺失補償兩部分。
(1)多層次前景背景建模:
背景建模是前景目標(biāo)提取的一個重要環(huán)節(jié)。建模的基本思路是從當(dāng)前視頻幀中提取前景,其目的是使背景更接近當(dāng)前視頻幀的背景。即利用當(dāng)前幀和視頻序列中的當(dāng)前背景幀進行加權(quán)平均來更新背景,但是由于光照突變以及其他外界環(huán)境的影響,一般建模后的背景并非十分干凈清晰。而且,在公共場所上的行人和車輛眾多,行進速度隨時變化,很有可能出現(xiàn)完全靜止,如果將它們更新為背景,會造成對重要目標(biāo)的遺漏?;诖颂岢鼋⒁粋€多層次混合高斯模型,用于實時的、魯棒的檢測各種速度(包括從運動到靜止)的目標(biāo)。利用多層次混合高斯模型來抽取背景的方法,不僅可以魯棒的克服光線、樹枝搖動等造成的影響,而且可以克服運動物體長期靜止時的失效狀況。
該方法在有復(fù)雜視頻中構(gòu)建的背景具有很好的自適應(yīng)性,能迅速響應(yīng)實際場景的變化,為智能監(jiān)控打下良好的基礎(chǔ)。
?。?)運動陰影抑制、噪音消除、目標(biāo)缺失補償:
運動陰影常被誤劃為目標(biāo)造成錯誤的目標(biāo)分割,綜合考慮顏色信息、空間信息和紋理信息,利用陰影的顏色、空間和紋理屬性在關(guān)注區(qū)域中確定其造成的顏色形變,通過使用顏色形變補償和紋理校正進行陰影抑制。對于產(chǎn)生的噪音和小部分目標(biāo)缺失,將利用基于數(shù)學(xué)形態(tài)學(xué)的圖像處理方法,快速的濾除和補償。
2.三維重建融合
三維重建融合就是將二維視頻信息實時的重建到三維模型之上,通過三維虛擬觀測,實現(xiàn)對真實場景多角度、全方位的實時立體監(jiān)控。要實現(xiàn)這一目標(biāo),需要首先計算視頻參數(shù),然后進行圖像重建,從而實現(xiàn)無形變、不失真的全景融合。
在計算機圖形學(xué)中,物理相機或攝像機可以用透視投影模型描述,借用相機投影矩陣可以算出世界坐標(biāo)中任意點在最終投影圖像上的像素坐標(biāo),現(xiàn)實相機或攝像機也是通過投影矩陣的變換將真實場景拍攝成圖像和視頻的。反之,如果已有圖像和視頻數(shù)據(jù),也可以通過投影矩陣反向投影回三維場景模型上,從而實現(xiàn)不失真的實時三維渲染。通常相機的投影矩陣是未知的,而已知的是視頻數(shù)據(jù)和三維場景模型。
首先,檢測出二維視頻和三維場景模型的特征點,實時拼接融合就是要選用自動準(zhǔn)確的計算算法實現(xiàn)實時圖像配準(zhǔn)。在基于特征的圖像配準(zhǔn)中,特征描述符用來對兩幅圖像的特征進行相似性度量,合適的特征描述符對于建立圖像之間的配準(zhǔn)映射關(guān)系和提高配準(zhǔn)精度具有重要意義。為了適應(yīng)圖像的尺度變化,提高配準(zhǔn)算法的精度,引入多尺度匹配算法。
其次,通過自動或半自動的特征匹配,反算從三維場景模型到二維視頻的投影變化矩陣以及精確三維物理相機參數(shù)。在三維場景中虛擬出投影相機,再將視頻動態(tài)投射到場景的表面從而完成時空的融合。
最后,通過對視頻數(shù)據(jù)進行分析,檢測分離出前景目標(biāo)。借用相機參數(shù),目標(biāo)的像素坐標(biāo)可以轉(zhuǎn)化成三維位置信息,從而能在三維位置上對動態(tài)目標(biāo)實施實時動態(tài)三維建模。在融合過程中,背景信息只需投影在靜態(tài)的三維場景模型上,而前景目標(biāo)投影在三維動態(tài)重建的目標(biāo)模型上,即實現(xiàn)無形變、不失真的全時空融合。該項技術(shù)可以實現(xiàn)任意多路的實時視頻處理。
3.視頻圖像歸一化
通過上述步驟實現(xiàn)了大規(guī)模攝像機視頻數(shù)據(jù)在空間和時間上拼接融合。由于視頻數(shù)據(jù)可能來自于不同品牌的攝像機,或是使用不同的光度參數(shù),例如,曝光時間、白色平衡、伽馬校正、傳感器的靈敏度等,這些將直接產(chǎn)生不一致的顏色數(shù)據(jù)。此外,由于視頻監(jiān)控建設(shè)時間的不同,必然造成視頻圖像在色彩、亮度、飽和度和對比度等方面的情況也不同。為了達到更好的視覺拼接融合效果,需要將攝像機圖像進行歸一化處理,提高視頻畫面的一致性。具體分以下兩個步驟:
?。?)視頻色彩校準(zhǔn)
將Macbeth彩色影像板放置在監(jiān)控區(qū)域內(nèi),對每個攝像機的標(biāo)定參數(shù)進行增益和偏移,最大限度地減少對比度和黑度,并確保線性響應(yīng)和白場景的平衡。
?。?)視頻的色彩傳遞
歸一化目標(biāo)是一致的色彩反應(yīng),而不是絕對的色彩精確度。因此,無需將每個攝像機視頻匹配成標(biāo)準(zhǔn)色彩,而是通過色彩傳遞對攝像視頻進行兩兩色彩匹配。具體的說,是將一幅視頻圖像的顏色特征傳遞給另一幅視頻圖像,使目標(biāo)圖像具有與源圖像相似的色彩。假設(shè)兩個視頻取自不同視角,但有固定的光照和不同的光度參數(shù)。在Lambertian假設(shè)場景中,兩個視頻圖像之間存在全局一致顏色映射。由于兩幅圖像中有不同區(qū)域,采用自動采集樣本的圖像顏色傳遞方法,利用特征點的方法把目標(biāo)圖像和源圖像分別分成對應(yīng)的子塊,根據(jù)對應(yīng)的子塊顏色直方圖匹配,計算出最優(yōu)的色彩傳遞函數(shù)。對于不同視角、不同光照和光度參數(shù)的視頻,由于攝像視頻之間不存在全局一致顏色映射,給出一組色彩傳遞函數(shù),以人工輔助的目測方法,選取最優(yōu)結(jié)果。在全局一致顏色映射存在的情況下,在RGB三個色彩通道中,RMS誤差預(yù)計不超過5%。在全局一致顏色映射不存在的情況下,到達肉眼觀察沒有明顯色差。
4.全時空立體可視化展示
支持重點區(qū)域大場景監(jiān)控、關(guān)鍵路徑自動巡航、二維和三維信息關(guān)聯(lián)顯示、攝像機反向關(guān)聯(lián)、球機協(xié)同追視和歷史事件大場景回溯。
?。?)重點區(qū)域大場景監(jiān)控:重點區(qū)域大場景指不少于兩個分鏡頭視頻覆蓋區(qū)域?qū)?yīng)的場景,用戶通過預(yù)設(shè)觀測點監(jiān)控重點區(qū)域的大場景,以全局視角觀察重點區(qū)域動態(tài)。通過在三維場景中虛擬投影相機,任意設(shè)置觀察視點,以當(dāng)前視角監(jiān)控重點區(qū)域大場景動態(tài)。對于同一場景中高低攝像機同時存在的情況,自動將高點攝像機和低點攝像機統(tǒng)一拼接融合顯示,針對不同的視點采用不同的視頻源進行拼接和顯示:一是對于高視點、大視野的情況,采用高點攝像機進行拼接融合顯示;二是當(dāng)視點降低的時候,采用低點攝像機進行拼融合顯示;三是支持放大鏡功能,對局部區(qū)域進行數(shù)字變焦顯示。
?。?)關(guān)鍵路徑自動巡航:支持自定義巡航軌跡,并按照設(shè)定好的視角、速度進行自動巡航。巡航路徑由多個路徑控制點組成,通過設(shè)置路徑控制點,組成直線路徑、弧線路徑、圓路徑或復(fù)合路徑,系統(tǒng)按照設(shè)定好的路徑和速度依次進行自動巡航。
?。?)二維和三維信息關(guān)聯(lián)顯示:全景立體視頻與二維地圖同步顯示,攝像機的位置和覆蓋區(qū)域以及用戶當(dāng)前觀察點的位置均可以顯示在二維地圖中。
?。?)攝像機反向關(guān)聯(lián):在全景立體視頻上選擇所需要觀測的目標(biāo)或地理位置,根據(jù)目標(biāo)或地理位置自動關(guān)聯(lián)到所有照射到該目標(biāo)或地理位置的攝像機。
(5)球機協(xié)同追視:在全景立體視頻中通過靶標(biāo)交互選擇觀測目標(biāo)或地理位置,根據(jù)該目標(biāo)或地理位置調(diào)用周邊的多個攝像機照射到該區(qū)域,且靶標(biāo)大小可調(diào),通過調(diào)整靶標(biāo)大小實現(xiàn)攝像機的光學(xué)變焦,全方位、多角度快速捕捉細(xì)節(jié)信息。對于有槍機和球機的監(jiān)控區(qū)域,統(tǒng)一用槍機的視頻進行拼接融合顯示,當(dāng)用戶交互選擇觀測目標(biāo)或地理位置時,自動將槍機和球機協(xié)同關(guān)聯(lián),調(diào)用關(guān)聯(lián)的多個球機鎖定該目標(biāo)區(qū)域。
?。?)歷史事件大場景回溯:從存儲裝置中讀入多個攝像機采集的歷史視頻數(shù)據(jù)和多維傳感數(shù)據(jù),將歷史視頻數(shù)據(jù)和多維傳感數(shù)據(jù)可視化到三維模型中,在全時空環(huán)境下正向或反向播放搜索,即設(shè)置回溯的時間段和區(qū)域、提供逐幀正播、逐幀倒播、停止播放、快進、快退和隨機定位播放,以提升歷史事件的查詢效率。
5.大場景、多攝像機的時空關(guān)聯(lián)關(guān)系
為實現(xiàn)多路監(jiān)控視頻在三維全場景下的關(guān)聯(lián)分析,首先,基于靜態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建攝像機之間的空間拓?fù)潢P(guān)系,然后,利用動態(tài)貝葉斯網(wǎng)絡(luò)推理和預(yù)測多種行為模式之間的語義關(guān)聯(lián)結(jié)構(gòu)。
貝葉斯網(wǎng)絡(luò)方法是基于概率分析、圖論的一種不確定性知識表達和推理模型,是一種將因果知識和概率知識相結(jié)合的信息表示框架。從直觀上講,貝葉斯網(wǎng)絡(luò)表現(xiàn)為一種賦值的復(fù)雜因果關(guān)系網(wǎng)絡(luò)圖,網(wǎng)絡(luò)中每一個節(jié)點表示一個攝像機,各攝像機之間的有向弧表示事件發(fā)生的直接因果關(guān)系。在貝葉斯網(wǎng)絡(luò)中,定性信息主要通過網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)表達,而定量信息主要通過節(jié)點的聯(lián)合概率密度表示。在貝葉斯網(wǎng)絡(luò)中,沒有有向弧輸入的節(jié)點稱為根節(jié)點,對于根節(jié)點需要確定其先驗概率;有有向弧輸入的節(jié)點為子節(jié)點,對于每個子節(jié)點要確定其在父節(jié)點不同狀態(tài)下的條件概率。作為貝葉斯網(wǎng)絡(luò)推理的基礎(chǔ),根據(jù)攝像機之間的空間關(guān)系和安保實戰(zhàn)經(jīng)驗,對貝葉斯網(wǎng)絡(luò)參數(shù)(先驗概率和條件概率)進行賦值。
動態(tài)貝葉斯網(wǎng)絡(luò)是貝葉斯網(wǎng)絡(luò)隨時間變化的一個動態(tài)擴展,可以反映各攝像機之間一系列行為模式間的概率依賴關(guān)系。由于攝像機網(wǎng)絡(luò)空間拓?fù)浣Y(jié)構(gòu)不隨時間改變,可以假設(shè)各攝像機之間滿足一階馬爾可夫性,從而對其中行為模式的時間連續(xù)性進行建模。基本思路是全局行為模式是由一系列局部行為構(gòu)成的。通過對局部行為及其關(guān)系的識別,可以有效的預(yù)測全局場景和行為。在一個攝像機發(fā)現(xiàn)異常行為的情況下,利用動態(tài)貝葉斯網(wǎng)絡(luò),迅速對相關(guān)攝像機和行為模式進行預(yù)判,在三維全場景下顯示相關(guān)視頻和信息。
針對博物館這種人員密集,環(huán)境復(fù)雜的特殊場合,應(yīng)以預(yù)防為主,打防并舉為導(dǎo)向。利用三維全景數(shù)字智能視頻融合系統(tǒng)實現(xiàn)基于全場景視頻智能分析的自動預(yù)警功能,對各種異?,F(xiàn)象進行預(yù)警。在異常報警的情況下,依據(jù)目標(biāo)參數(shù)與預(yù)定模式進行匹配,對異常行為進行識別和確定優(yōu)先級別,實時跨鏡頭智能報警和結(jié)果顯示。同時,根據(jù)異常報警的優(yōu)先級,選取和該報警信息有時空關(guān)聯(lián)的所有攝像機數(shù)據(jù),自動調(diào)用球機鎖定該區(qū)域協(xié)同追視,實現(xiàn)全景立體視頻自動聚焦顯示,從而極大的提高了對視頻資源的高效應(yīng)用和應(yīng)急指揮效能。