2024年上海進(jìn)博會(huì)上,依圖科技發(fā)布了天問(wèn)大模型4.0版本,引起業(yè)界廣泛關(guān)注。作為AI落地的重要場(chǎng)景,天問(wèn)大模型在安防領(lǐng)域的應(yīng)用,實(shí)現(xiàn)了視頻理解的細(xì)微化、語(yǔ)義檢索的豐富化,支持多條件組合場(chǎng)景布控,實(shí)現(xiàn)精細(xì)化布控和風(fēng)險(xiǎn)管理,并且通過(guò)極少樣本的冷啟動(dòng)和Agent代理輔助訓(xùn)練,實(shí)現(xiàn)了“想法既算法”的智能飛躍。
這無(wú)疑標(biāo)志著依圖科技在AI安防領(lǐng)域的技術(shù)實(shí)力達(dá)到了新的高度,有力推動(dòng)了安防行業(yè)向更高層次的智慧化轉(zhuǎn)型,為安防行業(yè)創(chuàng)新發(fā)展帶來(lái)了革命性的變革,而本文筆者將進(jìn)一步詳細(xì)介紹天問(wèn)大模型4大技術(shù)亮點(diǎn)和優(yōu)勢(shì):
一、安防領(lǐng)域?qū)S枚嗄B(tài)大模型訓(xùn)練及構(gòu)建
雖然行業(yè)內(nèi)出現(xiàn)大量開源的多模態(tài)大模型,但其對(duì)于視頻監(jiān)控場(chǎng)景來(lái)說(shuō),它們距離實(shí)戰(zhàn)都有明顯距離,主要有如下原因:
視覺(jué)數(shù)據(jù)分布缺陷:差異點(diǎn)來(lái)自拍攝視角、場(chǎng)景和關(guān)注點(diǎn)。有無(wú)對(duì)應(yīng)分布的領(lǐng)域數(shù)據(jù),誤報(bào)差距有 2個(gè)量級(jí),是可用和不可用的區(qū)別。
精度目標(biāo)不同:通用模態(tài)大模型主要應(yīng)用場(chǎng)景是對(duì)話、圖文問(wèn)答等,更強(qiáng)調(diào)全面性,也就是能處理任務(wù)多,但對(duì)精度要求低,錯(cuò)誤率到 1%基本滿足訴求;對(duì)于監(jiān)控場(chǎng)景而言,誤報(bào)率通常要求到百萬(wàn)分之一甚至更高。
領(lǐng)域知識(shí)缺失:對(duì)于不同場(chǎng)景 (如小區(qū)、工廠、交通等),對(duì)于安全隱患定義是有明顯差異的;通用多模態(tài)大模型通常會(huì)欠缺這部分知識(shí)
上述問(wèn)題的解決重點(diǎn)在于領(lǐng)域數(shù)據(jù)的積累,特別是低概率出現(xiàn)的數(shù)據(jù),針對(duì)性的解決方案是數(shù)據(jù)飛輪。其主要挑戰(zhàn)在于:
1、對(duì)應(yīng)用場(chǎng)景的深刻理解,開發(fā)出針對(duì)特定場(chǎng)景的可落地的應(yīng)用;
2、標(biāo)注標(biāo)注效率,確認(rèn)大規(guī)模訓(xùn)練的可行性;
3、技術(shù)水平的先進(jìn)性,保證對(duì)領(lǐng)域數(shù)據(jù)的充分利用,提升整體迭代效率。
二、少樣本學(xué)習(xí)解決視覺(jué)基礎(chǔ)任務(wù)
在現(xiàn)實(shí)世界中,許多視覺(jué)識(shí)別任務(wù)屬于長(zhǎng)尾分布,即大部分類別的樣本數(shù)量非常有限。特別是針對(duì)特定領(lǐng)域的應(yīng)用落地,領(lǐng)域數(shù)據(jù)往往稀缺且難以獲取。這些所謂的“冷啟動(dòng)”問(wèn)題對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),因?yàn)樗鼈冃枰罅康臉?biāo)注數(shù)據(jù)來(lái)訓(xùn)練。少樣本學(xué)習(xí)技術(shù)通過(guò)從少量樣本中快速學(xué)習(xí),使得機(jī)器能夠識(shí)別這些長(zhǎng)尾類別,從而極大地?cái)U(kuò)展了機(jī)器視覺(jué)的應(yīng)用范圍。在制造業(yè)中,新產(chǎn)品的設(shè)計(jì)和生產(chǎn)周期越來(lái)越短。少樣本學(xué)習(xí)技術(shù)可以幫助快速部署視覺(jué)識(shí)別系統(tǒng),以識(shí)別和處理新產(chǎn)品,無(wú)需等待大量數(shù)據(jù)的積累。在安全監(jiān)控領(lǐng)域,需要檢測(cè)的異常行為往往是罕見(jiàn)的。少樣本學(xué)習(xí)技術(shù)能夠快速適應(yīng)這些罕見(jiàn)事件的檢測(cè),提高系統(tǒng)的響應(yīng)速度和準(zhǔn)確性。
獲取大量高質(zhì)量的標(biāo)注數(shù)據(jù)通常需要耗費(fèi)大量的時(shí)間和資源。在某些領(lǐng)域,如工業(yè)圖像分析,獲取標(biāo)注數(shù)據(jù)可能涉及到專業(yè)知識(shí),使得數(shù)據(jù)采集更加困難。少樣本學(xué)習(xí)技術(shù)減少了對(duì)大量標(biāo)注數(shù)據(jù)的依賴,從而降低了數(shù)據(jù)采集和標(biāo)注的成本。企業(yè)可以減少在數(shù)據(jù)采集和標(biāo)注上的投入,將資源更多地用于產(chǎn)品開發(fā)和市場(chǎng)推廣等其它方面,同時(shí)也有助于適應(yīng)快速變化的市場(chǎng)。在快速變化的市場(chǎng)中,企業(yè)需要快速推出新的產(chǎn)品和服務(wù)。少樣本學(xué)習(xí)技術(shù)使得視覺(jué)識(shí)別系統(tǒng)能夠快速適應(yīng)新的市場(chǎng)需求,加速產(chǎn)品創(chuàng)新。
傳統(tǒng)的機(jī)器學(xué)習(xí)模型在面對(duì)新任務(wù)時(shí),通常需要重新收集數(shù)據(jù)、訓(xùn)練模型,這一過(guò)程可能非常耗時(shí)。少樣本學(xué)習(xí)技術(shù)通過(guò)快速?gòu)纳倭繕颖局袑W(xué)習(xí),顯著縮短了模型的迭代周期。一是體現(xiàn)在研發(fā)效率的提升??s短模型迭代周期意味著研發(fā)團(tuán)隊(duì)可以更快地測(cè)試和優(yōu)化他們的產(chǎn)品,提高研發(fā)效率。二是有助于快速適應(yīng)客戶需求。在客戶提出新的需求時(shí),可以迅速調(diào)整視覺(jué)識(shí)別系統(tǒng),快速響應(yīng)客戶需求,提高客戶滿意度。
三、2D向3D視覺(jué)大模型的范式升級(jí)
在治安監(jiān)控領(lǐng)域,精確的深度信息可以顯著提升視頻監(jiān)控系統(tǒng)的智能分析能力。通過(guò)精確的深度信息,系統(tǒng)能夠更準(zhǔn)確地識(shí)別和追蹤嫌疑人或可疑行為,從而提高公共安全。例如,在擁擠的公共場(chǎng)所,深度估計(jì)可以幫助監(jiān)控系統(tǒng)區(qū)分人群中的個(gè)體,即使在視角受限或光照條件不理想的情況下也能進(jìn)行有效監(jiān)控。此外,深度信息還可以用于自動(dòng)計(jì)算安全距離,當(dāng)檢測(cè)到有人過(guò)于接近關(guān)鍵設(shè)施或禁區(qū)時(shí),系統(tǒng)可以及時(shí)發(fā)出警報(bào)。在建筑工地,單目深度估計(jì)技術(shù)可以用于提高工地安全監(jiān)控的效率和效果。工地環(huán)境復(fù)雜多變,存在許多潛在的安全風(fēng)險(xiǎn)。利用深度估計(jì)技術(shù),監(jiān)控系統(tǒng)可以精確識(shí)別工人與危險(xiǎn)區(qū)域之間的距離,當(dāng)工人過(guò)于接近危險(xiǎn)機(jī)械或邊緣時(shí),系統(tǒng)可以發(fā)出警告,防止事故發(fā)生。
四、基于視覺(jué)語(yǔ)言大模型的視覺(jué)搜索
基于視覺(jué)語(yǔ)言大模型的視覺(jué)搜索技術(shù)是安防領(lǐng)域的核心訴求,它通過(guò)結(jié)合視覺(jué)和語(yǔ)言信息處理的能力,為各種應(yīng)用場(chǎng)景提供了強(qiáng)大的技術(shù)支持。它的技術(shù)應(yīng)用價(jià)值主要體現(xiàn)在如下方面:
1.支持長(zhǎng)尾物體和屬性的解析:傳統(tǒng)的視覺(jué)搜索算法往往在處理常見(jiàn)物體和場(chǎng)景時(shí)表現(xiàn)良好,但在面對(duì)長(zhǎng)尾(即不常見(jiàn)或罕見(jiàn))物體和屬性時(shí),其性能會(huì)顯著下降?;谝曈X(jué)語(yǔ)言大模型的視覺(jué)搜索技術(shù)通過(guò)融合語(yǔ)言模型的深度語(yǔ)義理解能力,能夠更好地理解和識(shí)別這些長(zhǎng)尾物體。這種能力在安防監(jiān)控、生物多樣性研究、文化遺產(chǎn)保護(hù)等領(lǐng)域尤為重要,因?yàn)檫@些領(lǐng)域經(jīng)常需要識(shí)別和分析不常見(jiàn)的物體或行為。
2.接受不同模態(tài)的輸入并在相同特征空間中進(jìn)行搜索:多模態(tài)視覺(jué)搜索技術(shù)能夠處理多種類型的輸入,包括圖像、視頻和文本。通過(guò)將這些不同模態(tài)的信息映射到一個(gè)統(tǒng)一的特征空間中,該技術(shù)能夠?qū)崿F(xiàn)跨模態(tài)的搜索和匹配。這種跨模態(tài)的能力在電子商務(wù)、內(nèi)容推薦、社交媒體分析等領(lǐng)域具有廣泛的應(yīng)用前景。例如,用戶可以通過(guò)上傳一張圖片或輸入一段描述,快速找到相關(guān)的商品或信息,極大地提升了用戶體驗(yàn)。
3.理解圖片的上下文信息:除了識(shí)別圖像中的物體,多模態(tài)視覺(jué)搜索技術(shù)還能夠理解圖像的上下文信息,包括場(chǎng)景的背景、物體間的關(guān)系以及可能的情境。這種上下文理解能力使得該技術(shù)在城市管理、環(huán)境監(jiān)測(cè)、公共安全等領(lǐng)域具有重要價(jià)值。例如,通過(guò)分析街道的圖片,可以識(shí)別交通擁堵、非法占道等城市問(wèn)題,為城市管理提供決策支持。
4. 理解復(fù)雜的語(yǔ)義描述:多模態(tài)視覺(jué)搜索技術(shù)通過(guò)結(jié)合自然語(yǔ)言處理技術(shù),能夠理解和處理復(fù)雜的語(yǔ)義描述。這意味著用戶可以使用自然語(yǔ)言來(lái)表達(dá)他們的搜索需求,而系統(tǒng)能夠準(zhǔn)確理解這些描述并返回相關(guān)的搜索結(jié)果。這種能力在公安、政府、教育等領(lǐng)域尤為重要,因?yàn)檫@些領(lǐng)域經(jīng)常需要處理復(fù)雜的查詢和分析任務(wù)。
依圖科技的天問(wèn)大模型4.0版本,以其先進(jìn)的技術(shù)實(shí)力和創(chuàng)新能力,為安防行業(yè)提供了一個(gè)更加智能、高效和靈活的解決方案。我們有理由相信,隨著技術(shù)的不斷進(jìn)步和應(yīng)用的深入,天問(wèn)大模型將在更多細(xì)分市場(chǎng)和復(fù)雜場(chǎng)景中發(fā)揮關(guān)鍵作用,為社會(huì)的安全與穩(wěn)定提供更為堅(jiān)實(shí)的保障,并引領(lǐng)安防行業(yè)進(jìn)入一個(gè)全新的智能化時(shí)代。