意圖搜索最早起源于互聯(lián)網(wǎng)行業(yè)搜索引擎工具,隨著互聯(lián)網(wǎng)信息量的不斷增加,能夠快速、準(zhǔn)確地查找信息越來越困難,主要原因是搜索引擎不能理解用戶的真實(shí)查詢意圖,因而機(jī)器學(xué)習(xí)如遺傳算法、BP神經(jīng)網(wǎng)絡(luò)法等在這方面的應(yīng)用研究快速地被引起關(guān)注。
LamWai 就利用基于事例的機(jī)器學(xué)習(xí)和查詢反饋技術(shù)實(shí)現(xiàn)了文本的自動(dòng)分類并用于文本檢索,實(shí)驗(yàn)證明了其優(yōu)越性。Mandala Rila 采用加權(quán)方法從多類信息中實(shí)現(xiàn)查詢擴(kuò)展,以及Chakrabarti 探討的基于矩陣代數(shù)的主題提取算法、組合詞匯和索引文本等特征提取都是這方面的努力。但目前最有前景的是Doug Lenat 研制的搜索系統(tǒng), 通過建立常識庫和推理機(jī)來與用戶交談, 進(jìn)而實(shí)現(xiàn)對用戶真正意圖的理解。
知識工程之父Feigenbaum稱贊他開創(chuàng)了查詢的“語義時(shí)代”(TheAge of Semantics)。但前提是要建立一個(gè)龐大的百科全書常識庫,這是非常困難的,而且也不分析用戶的潛在意圖。構(gòu)造龐大知識庫的一種方法是從網(wǎng)絡(luò)上自動(dòng)構(gòu)造, Craven 和Lesser 提出了信息獲取的系統(tǒng)原理, 知識庫的結(jié)構(gòu)和實(shí)現(xiàn)方法。Choi 則實(shí)現(xiàn)了一種具體的自動(dòng)構(gòu)造系統(tǒng),其可從網(wǎng)上發(fā)現(xiàn)文本并歸入本地?cái)?shù)據(jù)庫供查詢, 它相當(dāng)于智能代理。Alsaffa 做了類似的探索, 利用專家系統(tǒng)在用戶喜歡的表達(dá)和系統(tǒng)要求的表達(dá)之間實(shí)現(xiàn)自動(dòng)轉(zhuǎn)換。意圖搜索正在基于這些技術(shù)之上實(shí)現(xiàn)了智能化的自動(dòng)搜索。雖然意圖搜索起源于互聯(lián)網(wǎng)行業(yè),但是目前已經(jīng)被廣泛用于其它行業(yè),例如在安防行業(yè)與物聯(lián)網(wǎng)技術(shù)緊密結(jié)合。
意圖搜索與安防行業(yè)的結(jié)合
2014年發(fā)生的震驚全球的“馬航失聯(lián)”事件牽動(dòng)了無數(shù)中國人的心,泛太平洋各國均提供了大量幫助用于搜索失聯(lián)航班,但是由于搜索方式千奇萬種、信息達(dá)到海量級別、信息來源不連續(xù)性等多種問題,導(dǎo)致搜索遲遲沒有結(jié)果。仔細(xì)分析搜索方式,可以發(fā)覺這類型的搜索形式其實(shí)與互聯(lián)網(wǎng)行業(yè)的搜索引擎意圖搜索有相似之處,相似點(diǎn)在于都需要對數(shù)據(jù)進(jìn)行收集、甄別、過濾、分類、整合,都不是一個(gè)單一的行動(dòng),而是一整套連貫的過程。
物聯(lián)網(wǎng)行業(yè)本身由于傳感器的多種多樣導(dǎo)致數(shù)據(jù)形式多樣性、信息海量性等特征,如果大數(shù)據(jù)環(huán)境下還是采用過去的全文檢索方式進(jìn)行單一化搜索,未來一定無法滿足用戶的智能化需求。針對這一挑戰(zhàn),2014中國大數(shù)據(jù)峰會(huì)上中國工程院吳曼青院士發(fā)表了名為“存在就有痕跡,聯(lián)系就有信息,反恐環(huán)境下大數(shù)據(jù)的意圖搜索”的專題演講,吳院士以眾多美國案例為引,描述了新時(shí)代反恐行動(dòng)應(yīng)用的特性:法律保障、以人為核心、高技術(shù)手段、國際合作,通過構(gòu)建虛擬空間信息社會(huì)雷達(dá)的方式將意圖搜索引用到反恐活動(dòng)中,提升反恐能力。
基于“存在就有痕跡,聯(lián)系就有信息”的基本理念,構(gòu)建網(wǎng)絡(luò)空間中行為事件、思想事件等模型,在實(shí)體空間和虛擬空間中全面收集人的存在痕跡和聯(lián)系信息,關(guān)注人物或事件間聯(lián)系鏈,從而實(shí)現(xiàn)網(wǎng)絡(luò)空間中存在的各種意圖,完成對意圖產(chǎn)生源頭、傳播途徑和發(fā)展趨勢的全方位描述,達(dá)到對個(gè)人和組織的所思所想行為所在的全面搜索和分析。物聯(lián)網(wǎng)行業(yè)擁有海量的視頻、音頻、圖片數(shù)據(jù),通過相應(yīng)智能算法可以從中提取出可供分類的結(jié)構(gòu)化信息,通過這些結(jié)構(gòu)化信息與意圖搜索技術(shù)相結(jié)合可以幫助用戶快速預(yù)判事物、事件發(fā)生概率和趨勢。
因國內(nèi)反恐形勢嚴(yán)峻,大數(shù)據(jù)搜索需要積極應(yīng)對新時(shí)期恐怖主義威脅,立足恐怖主義存在和意圖特征,運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行深入關(guān)聯(lián)分析,實(shí)現(xiàn)對恐怖分子的準(zhǔn)確識別和暴恐事件的提前預(yù)警,有力提升反恐維穩(wěn)核心能力。??低曌鳛榘卜佬袠I(yè)的龍頭,物聯(lián)網(wǎng)概念提出之處就已經(jīng)開始涉及其中,相信在不遠(yuǎn)的將來,意圖搜索應(yīng)用可能落地。