圖1 RobustReading競(jìng)賽的三項(xiàng)主要任務(wù)
這些任務(wù)中待識(shí)別的文字位于復(fù)雜圖像背景中,成像存在噪聲、模糊、透視、傾斜以及排列隨意等不利因素,甚至字體格式種類(lèi)繁多。海康威視的OCR技術(shù),克服種種困難,在三項(xiàng)文字識(shí)別任務(wù)中均取得了世界第一,分別在Web and Email Born-Digital Images任務(wù)中以5.6%的優(yōu)勢(shì)超越第二名,在FocusedScene Text和Incidental Scene Text任務(wù)中超越第二名3.4%和3.1%。
圖2 Born-Digital Images識(shí)別評(píng)測(cè)結(jié)果顯示HIK_OCR排名第一
圖3 Focused Scene Text識(shí)別評(píng)測(cè)結(jié)果顯示HIK_OCR排名第一
圖4 Incidental Scene Text識(shí)別評(píng)測(cè)結(jié)果顯示HIK_OCR排名第一
近年來(lái)文字識(shí)別技術(shù)的突破,很大程度上依賴于深度學(xué)習(xí)的發(fā)展。??低曨A(yù)研團(tuán)隊(duì)設(shè)計(jì)了一個(gè)數(shù)十層的卷積神經(jīng)網(wǎng)絡(luò)來(lái)完成圖像的信息編碼,然后使用啟發(fā)式的注意力模型,實(shí)現(xiàn)從特征到文字的解碼。其中,專(zhuān)為文本識(shí)別設(shè)計(jì)的啟發(fā)式機(jī)制,能夠?qū)ψ⒁饬δP吞崛〉奶卣鬟M(jìn)行合理性評(píng)估,使注意力模型在復(fù)雜場(chǎng)景中,具有強(qiáng)大的穩(wěn)定性。
圖5 海康威視文字識(shí)別技術(shù)原理示意
借助先進(jìn)的OCR技術(shù),??低暤奈淖肿R(shí)別系統(tǒng)能夠應(yīng)對(duì)更為復(fù)雜文字識(shí)別場(chǎng)景,如污損及模糊、背景干擾及形變、惡劣天氣等。目前,基于全新OCR技術(shù)的??低曑?chē)牌識(shí)別系統(tǒng)已經(jīng)覆蓋全球六十余個(gè)國(guó)家和地區(qū)?;谲?chē)牌識(shí)別技術(shù)的卡口、電子警察、出入口控制、停車(chē)系統(tǒng)等應(yīng)用也已經(jīng)全面鋪開(kāi)。
圖6 通用車(chē)牌識(shí)別的典型應(yīng)用場(chǎng)景
除此之外,此次競(jìng)賽成果還可以應(yīng)用到機(jī)器視覺(jué)領(lǐng)域的標(biāo)簽表單識(shí)別、民生領(lǐng)域的卡證執(zhí)照識(shí)別、互聯(lián)網(wǎng)領(lǐng)域的惡意圖片識(shí)別、汽車(chē)輔助駕駛領(lǐng)域的路牌識(shí)別、城市管理領(lǐng)域的橫幅標(biāo)語(yǔ)和街景識(shí)別等產(chǎn)品中,大幅提升產(chǎn)品性能與應(yīng)用效果。
在如今人工智能的浪潮里,??低晫⒊浞掷米陨泶髷?shù)據(jù)的積累及人工智能技術(shù)優(yōu)勢(shì),快速提升OCR技術(shù)性能,并不斷推動(dòng)機(jī)器的智能化和自動(dòng)化水平的提高,在視頻監(jiān)控、智能感知和場(chǎng)景理解等方面為客戶持續(xù)創(chuàng)造價(jià)值。