龍年春節(jié)之際,OpenAI旗下的AI視頻模型Sora爆火。Sora可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。相較于初代的生成式AI產品,Sora以其“以假亂真”的視覺效果帶給科技界新一輪震撼。
伴隨著Sora的火爆,主流的AI視頻、AI大模型公司在春節(jié)期間也收獲了一大波關注度,尤其資本市場異常火熱。
不少投資機構快速拉出一串AI視頻或AI大模型概念股進行宣傳,盡管有些個股業(yè)務和Sora存在較大差異,只是業(yè)務關鍵詞中帶有AI、大模型或生成式視頻,也被機構推薦在列,比如被多家投資機構提及的??低?、大華股份等企業(yè)。
對于熱議,上述企業(yè)近期也在公共平臺發(fā)出回應,說明了公司視頻大模型產品和Sora的區(qū)別。
???、大華:解析式和生成式方向相反
2月19日,對于??低暿欠裼蓄愃芐ora的產品,有記者以投資者身份致電??低暎嚓P人士表示,公司的產品與Sora不是同一個范疇的人工智能,公司專注在感知智能方面。公司的視頻大模型主要用在智能物聯(lián)行業(yè),主要用來幫助企業(yè)降本增效,“比方說拍了一段視頻,然后再去判斷視頻內有沒有發(fā)生一些什么事情,是有明確規(guī)則的,按照規(guī)定去識別某一項東西。Sora是生成式的,其實跟我們的方向是相反的?!?/p>
大華股份相關人士也表示,公司擁有視頻大模型的能力,目前在兩個行業(yè)做研發(fā)。不一樣的點是Sora是生成式的,大華做的是解析式的,方向剛好是反過來的。大華主要拿既有的素材或者客戶內容去做解析,告訴客戶視頻里發(fā)生了什么,根據(jù)這個發(fā)生的事情來做行為判斷。
a&s認為,兩家企業(yè)的回應明確指出了生成式視頻和視頻解析的差異,嚴格意義上講,兩者正好相反。
Sora這類生成式視頻產品的亮點在于“無中生有”,即脫離實際拍攝,僅靠AI工具生成一段段符合文本描述的視頻畫面,重要的是這些畫面都是虛擬出來,非實物;
而AI視頻解析,則是先有一段段真實的視頻內容,然后通過AI功能對視頻畫面內容進行目標(人、車、物)解析。
值得一提的是,兩者所需要的底層技術共通,都需要依賴大算力支持,同時需要海量的素材實現(xiàn)對算法的訓練,才能實現(xiàn)高精準度的“畫面復刻”和“畫面解析”。
簡而言之,兩者底層技術相通,而主要的應用目的和應用場景則大不同。
從發(fā)展時間線來看,AI視頻解析是伴隨著安防進入到智能化時代就已發(fā)展起來,其應用早于生成式視頻。自2019年開始,因AI落地應用逐漸凸顯出的“需求碎片化難題”是催生AI大模型誕生的關鍵,那個時候,業(yè)內還沒有構成AI大模型這樣的概念,多以AI開放平臺命名。2022年,chatGPT的橫空出世,掀起了AI大模型熱潮,由此,各領域里AI大模型產品隨之涌現(xiàn),文本類、圖片類、語音類大模型產品在過去兩年時間里成為AI大模型的主流類別。
Sora生成式視頻,AI領域新的 “沖擊波”
Sora之所以引起科技領域的震撼,有一個點在于它突破了生成式AI當下的極限,如果說2023年是圖文生成式AI的元年, 那么2024年應該是視頻生成式AI的主題年。當我們還在為chatGPT類產品能夠和人類圖文互動感到精彩的時候,Sora直接推出逼真的生成式視頻,這本身就值得驚嘆。
對于 Sora 的出現(xiàn),大家普遍認為將極大的改變視頻制作領域的人工制作模式,比如影視行業(yè),有業(yè)內人士表示,一旦視頻的準確度、連貫性問題被解決,群演、布景、特效等大量內容則都可以用AI去幫助完成。
其次是廣告和短視頻行業(yè),如果未來大量的廣告和短視頻由AI生成,視頻創(chuàng)作的門檻和經費會大大降低,對設計師、攝影師、后期制作崗位的需求也會大量減少。
還有游戲行業(yè),有游戲業(yè)管理層人士認為Sora將開啟AI發(fā)展的“牛頓時代”。
當然也有很多AI大模型企業(yè)從Sora身上看到了新的機會,比如在視頻生成領域,國內公司可以借鑒Sora的技術原理,開發(fā)適用于不同場景和需求的視頻生成模型,提升視頻制作的效率和質量。在自然語言處理領域,國內企業(yè)可以借鑒谷歌新模型的處理能力,開發(fā)更高效、更智能的自然語言處理系統(tǒng),為智能客服、智能教育等領域提供更強有力的支持。
解析式大模型,適用To B市場,助力企業(yè)降本增效
和生成式視頻不同的是,解析式大模型主要面向的是To B 的用戶,更偏向實用主義。
如海康威視在公共平臺談到的,“我們的目的是幫助客戶解決問題,客戶并不太關心我們具體是借助軟件、硬件或是算法,對他來說更重要的是結果。從結果的角度來說,我們需要借助什么樣的方法,在整體解決方案中都是靈活運用的?!?/p>
大華近日也在投資者關系平臺上強調,公司結合自身業(yè)務理解和實戰(zhàn)技術優(yōu)勢,打造面向行業(yè)的解析式大模型。以場景化應用為導向,重點專注于視覺解析為核心的多模態(tài)行業(yè)視覺大模型,持續(xù)推進AI產業(yè)化和商業(yè)成功。
視頻解析早期主要應用于安防監(jiān)控領域,通過對監(jiān)控中關鍵目標的識別捕捉分析,助力公共安全預警、交通管理。
自2016年之后,伴隨著AI在安防領域應用的逐步深化,視頻解析也開始從安防監(jiān)控拓展到其他應用領域,比如工業(yè)領域的AI視覺檢測、農業(yè)場景中農作物生長監(jiān)管等等。
AI賦能的工業(yè)質檢是利用基于深度學習、大模型等AI技術的視覺檢測技術,在工業(yè)生產過程中對產品圖像進行視覺檢測,從而幫助發(fā)現(xiàn)和消除缺陷。行業(yè)用戶可以通過大模型技術實現(xiàn)對產品質量問題的實時預測和處理,提高產品質量的檢測效率;
人工智能在輔助農作物生長、畜禽養(yǎng)殖過程中發(fā)揮著越來越重要的作用。比如在作物病蟲害識別方面,可根據(jù)植物的葉片等狀態(tài),分析出植物的生長情況,通過智能監(jiān)控設備檢測并識別作物病蟲害情況;在生豬養(yǎng)殖場,通過“豬臉識別”技術,從而幫助養(yǎng)殖戶隨時隨地對動物的健康狀態(tài)進行管理。
通過監(jiān)控+AI算法模型,人工智能可作用于智慧農業(yè)多個場景,除動植物生長監(jiān)測外,還可實現(xiàn)智慧灌溉AI水肥一體化,機械智能采收,農產品分揀過程中果蔬識別等諸多創(chuàng)新應用,可有效替代人力作業(yè),解放人力,提高農業(yè)生產作業(yè)效率。
可以明顯看出,近兩年來,智慧物聯(lián)企業(yè)發(fā)布的視覺大模型產品,都在持續(xù)強化AI大模型的泛化能力,提升大模型產品針對碎片化、多元化場景的適用性,對企業(yè)用戶而言,采用AI視覺大模型工具的也主要是基于數(shù)字化轉型,降低生產運營成本、提升管理效率的角度考慮。
結語
伴隨著Sora的爆火,關于解析式和生成式AI視頻的討論在智能物聯(lián)領域或將會成為一個長期的話題,這里我們也嘗試分析一下,為什么我們在談到AI視頻、大模型的時候,總是能看到以??低?、大華股份等為代表的智能物聯(lián)企業(yè)的影子呢?
這主要是因為視覺技術是一個天然跟AI結合的領域。視頻監(jiān)控逐步從安防發(fā)展到運用于城市治理、企業(yè)管理、社會生活的方方面面,不同場景下也會派生出各種不同應用需求,而技術的進步,特別是大模型算力的爆發(fā)式增長,給了這些原本可能還無法實現(xiàn)的需求產生的可能性。伴隨著高度差異化、碎片化、個性化的場景需求推動技術變革與演進,AI大模型的出現(xiàn),也讓產業(yè)智能更為精準和深入,同時具備很高的泛化性。
近兩年來,國內有大批玩家涌入AI大模型賽道,試圖在風口之上長出幾家“獨角獸”企業(yè),但從目前市場情況來看,能夠在AI大模型領域站穩(wěn)腳跟的企業(yè)無一例外都在應用市場沉淀多時。因為AI本質就是一項技術工具,脫離了實際應用場景就會變得很難落地。我們在感嘆AI技術創(chuàng)新的同時,也需要更多的思考AI產業(yè)化和商業(yè)化發(fā)展演進。