傳統(tǒng)監(jiān)控系統(tǒng)能實(shí)時再現(xiàn)本地或遠(yuǎn)程視頻畫面,使安保人員能進(jìn)行實(shí)時監(jiān)視。借助實(shí)時再現(xiàn)監(jiān)控系統(tǒng)還能實(shí)時記錄監(jiān)控圖像,這樣極大地方便了事后追溯回放查看,為案例分析提供了有力的證據(jù)。
固然,圖像監(jiān)控系統(tǒng)是安防系統(tǒng)中最常用也是最重要的系統(tǒng),但不管是實(shí)時監(jiān)視和回放查看都無法將對“人”的分析和處理,比如身份識別辨認(rèn),自動完成,而都是通過人工肉眼的方式來完成,區(qū)別只是在于實(shí)時還是事后。除了密碼口令、IC卡外,真正的對人的識別目前只有通過生物識別技術(shù)來完成,而長期以來的生物識別技術(shù)如DNA識別、指紋識別、掌形識別、虹膜識別等,都似乎和監(jiān)控系統(tǒng)是完全不沾邊的,原因很簡單:目前的監(jiān)控系統(tǒng)根本無法支持對這些生物特征的采集。因此生物識別技術(shù)和監(jiān)控系統(tǒng)似乎從來就沒有交叉的可能,監(jiān)控系統(tǒng)似乎也從沒奢望過識別人的身份。但隨著一種新的生物識別技術(shù)——人臉識別技術(shù)的出現(xiàn),這一切都有了可能,并且迅速成為現(xiàn)實(shí)。
實(shí)時人臉監(jiān)控的原理\r\n人臉識別的基本原理是對數(shù)字圖像中的人臉進(jìn)行分析和處理,提取出人臉特征信息,建立人臉模板,并與實(shí)時采集的人臉進(jìn)行識別對比。監(jiān)控系統(tǒng)中的數(shù)字視頻是由一幀一幀的數(shù)字圖像組成,因此只需事先存儲監(jiān)控對象的照片,同時將實(shí)時的數(shù)字視頻作為輸入交給后臺服務(wù)器上的人臉識別系統(tǒng),即可進(jìn)行實(shí)時的人臉識別和監(jiān)控。而人臉識別系統(tǒng)處理過程如下:
1、人臉檢測:按照設(shè)定的窗口大小對畫面進(jìn)行地毯式的掃描,并根據(jù)像素的灰度分布與人臉拓補(bǔ)結(jié)構(gòu)進(jìn)行模式匹配,看畫面中是否有人臉,有幾個人臉。
2、人臉定位:發(fā)現(xiàn)畫面中有人臉出現(xiàn)后,立即對每一張人臉按照雙眼瞳孔位置進(jìn)行定位,位置信息通過瞳孔所對應(yīng)的象素的二維坐標(biāo)數(shù)據(jù)表示。
3、人臉捕捉:定位每張人臉之后,按照算法約定的標(biāo)準(zhǔn)尺寸大小將人臉部分從原有畫面中切割下來,得到一張張類似于數(shù)碼證件照片那樣的人臉圖片,后續(xù)的分析處理以人臉為單位在這些人臉圖片上進(jìn)行。
4、人臉分析:對每張人臉圖片進(jìn)行特征分析和提取,根據(jù)像素灰度等信息定位特征點(diǎn)并計算相應(yīng)的特征數(shù)值信息(不同的人臉識別算法處理方式各有不同),最終得到的是表示該人臉具有的特征的一組數(shù)據(jù),即人臉模板。
5、人臉比對:事先存儲在系統(tǒng)數(shù)據(jù)庫中的監(jiān)控對象的人臉照片(即黑名單),在導(dǎo)入的時候往往已經(jīng)進(jìn)行了上述分析處理,生成了對應(yīng)的人臉模板。將每一張現(xiàn)場采集到的人臉的模板與黑名單中所有的人臉模板進(jìn)行比對運(yùn)算,以得出與每個黑名單人員之間的匹配程度,當(dāng)與任何一人的匹配程度滿足了設(shè)定的報警門檻(如相似程度在70%以上),系統(tǒng)立即進(jìn)行報警提示,并給出匹配雙方的照片以供值班人員參考。
實(shí)時人臉監(jiān)控的難點(diǎn)
人臉識別技術(shù)是最近幾年才出現(xiàn)的全新科技,但是人臉監(jiān)控直到現(xiàn)在才得以實(shí)現(xiàn),除了人臉識別技術(shù)自身需要不斷發(fā)展和成熟之外,可以說,在人臉識別技術(shù)的所有應(yīng)用中,實(shí)時監(jiān)控是實(shí)現(xiàn)難度最大的。到目前為止,基本成熟的人臉識別技術(shù)有很多,但是真正能做到實(shí)時監(jiān)控的,卻鳳毛麟角。
之所以困難,主要有兩個原因,一要求實(shí)時,即要求處理速度非常之快;二是配合,被監(jiān)控人員不會主動等著采集他的人臉信息。再從技術(shù)角度細(xì)分,實(shí)時人臉監(jiān)控實(shí)現(xiàn)的難點(diǎn)有如下幾點(diǎn):[nextpage]
1、動態(tài)人臉檢測:不同于人臉門禁等人員主動配合的應(yīng)用,而人臉監(jiān)控是人員在不知情不配合、以各種步行或跑動的速度經(jīng)過畫面。很明顯,對動態(tài)人臉進(jìn)行檢測和采集,要遠(yuǎn)遠(yuǎn)難于捕捉靜態(tài)人臉;
2、多人臉檢測:大部分監(jiān)控場合,人員也不會像門禁系統(tǒng)那樣,一個一個地按順序走過來讓你識別,保證每次只需采集和處理一張人臉。而人臉監(jiān)控是面對處理人臉,可能同時出現(xiàn)在同一個實(shí)時監(jiān)控畫面中的人臉可能有多個。同時采集到多張移動中的人臉而不影響處理速度,顯然難度大幅攀升;
3、多角度人臉檢測:另一個和主動配合式應(yīng)用不同的是,任何被監(jiān)控黑名單不會直盯著攝像機(jī)讓你逮個正臉,攝像機(jī)的安裝高度也普遍高于身高,加上監(jiān)控對象出現(xiàn)的時候可能在低頭沉思,可能在東張西望,可能在看書打手機(jī),還可能在扭頭后別人說話,因此系統(tǒng)能捕捉到的人臉將會從各個不同的角度,而且與數(shù)據(jù)庫中黑名單照片的角度不同。此外,人員的面部還可能會被帽子、手機(jī),以及前面的行人遮擋。在這種情況下進(jìn)行準(zhǔn)確識別,難度自然遠(yuǎn)遠(yuǎn)大過主動配合時的正臉;
4、實(shí)時速度要求:實(shí)時監(jiān)控,就是要求在黑名單人員出現(xiàn)的時候立即報警;
5、工作量驚人:那么這一瞬間到底要完成多少工作呢?不妨以5萬人的監(jiān)控黑名單為例進(jìn)行粗略計算。假設(shè)只有一路監(jiān)控攝像機(jī),每秒鐘25幀,每幀畫面里只出現(xiàn)一張人臉,假設(shè)系統(tǒng)進(jìn)行人臉采集的速度只有每秒20幀,那么每秒鐘將有20張人臉需要逐一被分析提取特征,然后這20個人臉模板的每一個都要和5萬個黑名單人臉進(jìn)行逐一對比,如有匹配則進(jìn)行報警。所有這些工作都需要在一秒鐘內(nèi)完成,即:20次人臉檢測定位和特征提取,以及20×5萬=100萬次人臉比對。而實(shí)際情況是每一幀畫面的人臉數(shù)量遠(yuǎn)不止一個、監(jiān)控攝像機(jī)也不止一路,每增加一個人臉每多一路攝像機(jī),上面統(tǒng)計的工作量都要翻一倍。實(shí)現(xiàn)的難度和對識別技術(shù)的要求顯而易見;
6、人臉變化因素不可控:此外人臉變化因素在監(jiān)控應(yīng)用中完全難以控制,進(jìn)一步增加處理難度。如現(xiàn)場人員出現(xiàn)時的表情變化、佩戴眼鏡、現(xiàn)場的光線條件與黑名單照片的光線差別很大(光線是對人臉識別影響最大的因素),以及黑名單照片的圖片質(zhì)量,以及年齡跨度人臉變化等等,統(tǒng)統(tǒng)都會對識別帶來非常大的影響。
所以說,實(shí)時人臉監(jiān)控是人臉識別技術(shù)最難的一種應(yīng)用,是實(shí)現(xiàn)難度的集大成者。一般來講,為了保證整個系統(tǒng)的響應(yīng)速度,實(shí)時人臉監(jiān)控系統(tǒng)都分成采集和搜索兩大部分。采集服務(wù)器與搜索服務(wù)器之間通過網(wǎng)絡(luò)進(jìn)行通訊。
采集服務(wù)器\r\n直接與監(jiān)控攝像機(jī)相連,需要對每秒25幀的視頻畫面不停地進(jìn)行多人臉檢測定位和捕捉處理。一個采集服務(wù)器可以同時接收1-4路甚至更多的攝像機(jī)視頻輸入。采集服務(wù)器對每幀實(shí)時視頻圖像進(jìn)行分析處理后,將采集得到的一張張人臉圖片通過網(wǎng)絡(luò)送給搜索服務(wù)器。
搜索服務(wù)器每接到一張人臉圖片,立即對其進(jìn)行分析并提取人臉特征,得到人臉模板,然后與黑名單人臉進(jìn)行快速的逐一比對,如有匹配的立即發(fā)出報警信息。攝像機(jī)的數(shù)量、攝像機(jī)的幀速、現(xiàn)場的人流密度、黑名單的大小,都決定了搜索服務(wù)器的在一秒之內(nèi)要完成的工作量,視具體應(yīng)用情況及服務(wù)器性能不同,可以配備多臺搜索服務(wù)器進(jìn)行并行處理,以保證實(shí)時的響應(yīng)速度。[nextpage]
與現(xiàn)有監(jiān)控系統(tǒng)進(jìn)行集成,主要是如何提供實(shí)時視頻的輸入輸出接口。因此從理論上講任何能夠?qū)F(xiàn)場畫面的數(shù)字圖像傳送給識別系統(tǒng)的方式均為可行。如:模擬攝像機(jī)的模擬視頻線可直接接到采集服務(wù)器的視頻采集卡;如是網(wǎng)絡(luò)攝像機(jī)則給出視頻URL地址,如是監(jiān)控系統(tǒng)軟件則給出的數(shù)字視頻流或者數(shù)字圖片,等等。之后的事情就是人臉監(jiān)控系統(tǒng)完成采集處理和識別報警。
如之前所述,實(shí)時人臉監(jiān)控面臨的難度很大,而且有很多不可控的因素,雖然速度要求可以通過算法效率和諸多輔助途徑加以保證,但是會導(dǎo)致很多非常不理想甚至極端的情況導(dǎo)致無法準(zhǔn)確識別,如:現(xiàn)場人臉完全被遮擋,現(xiàn)場光線過暗無法看清人臉,畫面中人臉過小信息不足,黑名單照片年代過久或者圖片質(zhì)量過差,等等。因此不可能像門禁類應(yīng)用那樣作過高的標(biāo)準(zhǔn)的量化要求,而只能在一定的特定條件下討論系統(tǒng)的性能指標(biāo)。在如表1所述的正常情況下,一個好的實(shí)時人臉識別系統(tǒng)應(yīng)當(dāng)能實(shí)現(xiàn)超過95%的識別報警率,同時誤報率在10%以下:
光線條件 沒有過強(qiáng)的背光曝光側(cè)光,面部部位基本清晰可辨\r\n人臉角度 上下左右30度以內(nèi)的角度,雙眼均可見\r\n人臉分辨率 雙眼瞳孔之間距離不少于90像素\r\n圖片質(zhì)量 壓縮比小于15:1,8位灰度\r\n時間跨度 盡量提供近期照片,早期照片不可有過大的相貌變化\r\n佩戴眼鏡 保證雙眼可見可辨,墨鏡略有影響\r\n遮擋物 帽沿、頭發(fā)等沒有遮擋眼鼻顴骨等重要特征部位\r\n典型應(yīng)用及其延伸\r\n實(shí)時人臉監(jiān)控最典型的應(yīng)用當(dāng)屬通道式的實(shí)時黑名單布控,因為通道及出入口型的場合,人流集中且具有方向性,在正對人流方向的適當(dāng)位置安裝攝像機(jī)很容易采集到理想角度的人臉。
適合實(shí)時人臉監(jiān)控應(yīng)用的典型的通道出入口及類似場所有:\r\n·機(jī)場柜臺、安檢通道、人行電梯通道、登機(jī)口等;\r\n·機(jī)場、車站、港口、地鐵的驗票通道和出入口;\r\n·海關(guān)過境通道、公路卡口;\r\n·體育場館、賓館酒店、娛樂場所的電梯、出入口;\r\n·銀行大廳入口、銀行柜臺、ATM自助取款機(jī)。\r\n實(shí)時監(jiān)控按照報警提示的模式還可以分為正向報警和逆向報警,前者只對與監(jiān)控名單匹配的對象報警,而后者只對不在名單上的人報警。此外按照監(jiān)控對象的不同還可以分為黑名單監(jiān)控和白名單監(jiān)控,前者主要針對罪犯和危險分子,后者則可用于VIP會員及其他需要針對性提高服務(wù)質(zhì)量的尊貴用戶。
應(yīng)用局限性及前景\r\n由于生物識別和視頻監(jiān)控本來是獨(dú)立發(fā)展的毫無關(guān)聯(lián)的應(yīng)用技術(shù),彼此發(fā)展過程中并沒有事先為與對方結(jié)合做專門的準(zhǔn)備。因此在結(jié)合過程中必然存在一些不夠理想的環(huán)節(jié),應(yīng)用中也存在一定的局限性和限制,現(xiàn)列舉如下:[nextpage]
1、視頻圖像的格式。視頻監(jiān)控中的一個重要關(guān)鍵詞就是“壓縮”,為了盡量節(jié)省錄像空間和提高傳輸速度,必須以犧牲圖像質(zhì)量為代價。而人臉識別是基于圖像中隱含的信息進(jìn)行分析處理,圖像質(zhì)量越高效果越好。因此這就形成了一個矛盾,目前監(jiān)控系統(tǒng)很多通行的視頻格式(如H.264)的分辨率和壓縮比大多都會影響人臉識別發(fā)揮最佳性能。
2、監(jiān)控場所和方式。最理想的應(yīng)用方式當(dāng)然是天羅地網(wǎng)式的所有攝像機(jī)全部應(yīng)用實(shí)時人臉監(jiān)控,并且監(jiān)控所有存在的黑名單(如全國近40萬人的追逃數(shù)據(jù)庫)。但是一來很多攝像機(jī)的位置和角度和焦距都很難采集到合適角度和大小的人臉,二來很多黑名單人員在一些場合出現(xiàn)的幾率幾乎為零,全部監(jiān)控會浪費(fèi)資源而且降低效率,此外,很多現(xiàn)有的黑名單照片本身的質(zhì)量基本上不足以用于人臉識別,因此有針對性地選擇監(jiān)控場所和監(jiān)控對象進(jìn)行重點(diǎn)布控才是最佳應(yīng)用方式。
3、監(jiān)控系統(tǒng)的規(guī)模。首先,從工作量上看,如上所述,實(shí)時人臉監(jiān)控工作量非常之大,5萬人10路監(jiān)控的系統(tǒng)就已經(jīng)屬于大系統(tǒng)之列,需要配置大量的服務(wù)器進(jìn)行采集和搜索處理才能滿足實(shí)時要求。因此很多試圖一個系統(tǒng)支持幾百上千路攝像機(jī)進(jìn)行實(shí)時監(jiān)控的設(shè)想本身有欠斟酌;其次,目前的遠(yuǎn)程監(jiān)控網(wǎng)絡(luò)的傳輸帶寬和速度都是針對經(jīng)過壓縮后的視頻圖像和碼率進(jìn)行配置的,如果按照滿足人臉識別要求的高清晰畫面去傳輸,路數(shù)一多網(wǎng)絡(luò)延遲和塞車本身就是一個巨大的瓶頸。
人臉識別技術(shù)和監(jiān)控系統(tǒng)的這一結(jié)合,如上文所述,兩個互無干系的技術(shù)和應(yīng)用偶然走到一起,誰都沒有事先為對方留有支持的余地,而且又都不大可能去為對方改變,因為彼此發(fā)展的方向本來不同,對方又不足以構(gòu)成自己的全部。因此人臉識別和視頻監(jiān)控就像兩個不平行的直線,在這一點(diǎn)相交后仍然會繼續(xù)前行互相偏離。人臉識別技術(shù)確實(shí)是有待成熟和完善,會越來越精確,但是基于普通二維數(shù)字圖像的人臉識別技術(shù)已經(jīng)走到極致,全世界關(guān)注的新方向是視頻監(jiān)控設(shè)備無法支持也不會刻意去支持的三維人臉取像和建模,此外三維識別將意味著更大的數(shù)據(jù)量和運(yùn)算量。
所以說人臉識別技術(shù)是會進(jìn)一步成熟和改善,但是這個進(jìn)程卻基本上不會改善上面提到的那些應(yīng)用限制。實(shí)時人臉監(jiān)控的應(yīng)用時機(jī)就是現(xiàn)在,等待無益,不然這次前無古人后無來者的科技結(jié)合就會被奢侈的浪費(fèi)。當(dāng)然,在目前的基礎(chǔ)上如何更好的對兩者進(jìn)行無縫集成,還是需要人臉識別和視頻監(jiān)控業(yè)界共同努力,讓這支高科技之花借著“平安城市”的監(jiān)控大潮精彩綻放。