Sora 停滯于已公開的 60 秒 demo,國內(nèi)視頻生成模型的發(fā)展卻頻頻給產(chǎn)業(yè)界帶來驚喜。CogVideoX 是智譜AI視頻生成模型的開源版本,與智譜清影同源,架構(gòu)為DiT。截至今日,已在Github 攬獲5.4k Star,被譽(yù)為是國內(nèi)首個(gè)人人可用的 Sora。
現(xiàn)無問芯穹Infini-AI異構(gòu)云平臺(tái)的GenStudio大模型服務(wù)平臺(tái)已上架CogVideoX 2B。通過使用申請(qǐng)的開發(fā)者已可通過GenStudio體驗(yàn)和使用CogVideoX 2B文生視頻模型能力。
無問芯穹GenStudio模型筆記
模型能力概覽:CogVideoX支持固定720*480分辨率和8fp/s幀率視頻生成,每次生成視頻長度為6秒共48幀,是目前效果最好的開源視頻生成模型之一,生成視頻在動(dòng)作細(xì)節(jié)和視頻流暢度等方面相比以往公開模型有較大的提升,對(duì)文本Prompt的感知能力較強(qiáng),能有效支持可控生成。
未來應(yīng)用潛力:我們認(rèn)為在當(dāng)前多媒體類工作流程中,視頻生成模型已可以應(yīng)用于劇本背景設(shè)定、畫面風(fēng)格、劇情走向等內(nèi)容的生產(chǎn)與快速效果驗(yàn)證,結(jié)合專業(yè)人員的圖像處理和視頻編輯工作,能更高效地產(chǎn)出Demo內(nèi)容。文生視頻類的模型,使得概念從想象和文字,到可視化效果驗(yàn)證的路徑大幅度縮短了。
CogVideoX 2B 性能與效果
智譜AI使用了 VBench 中的多個(gè)指標(biāo),如人類動(dòng)作、場(chǎng)景、動(dòng)態(tài)程度等,以及Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score兩個(gè)專注于視頻的動(dòng)態(tài)特性的視頻評(píng)估工具來評(píng)估CogVideoX的文生視頻性能。
針對(duì)CogVideoX 2B主要理解內(nèi)容為英文Prompt的情況,無問芯穹提供了一鍵翻譯和潤色Prompt能力。基于平臺(tái)預(yù)置的大語言模型,將用戶的中文描述內(nèi)容自動(dòng)轉(zhuǎn)為英文,并進(jìn)行相應(yīng)的視頻細(xì)節(jié)補(bǔ)充,使得模型可以在更豐富描述詞的基礎(chǔ)上生成相應(yīng)的內(nèi)容。
GenStudio大模型服務(wù)平臺(tái)
GenStudio內(nèi)置于無問芯穹Infini-AI異構(gòu)云平臺(tái),現(xiàn)已上架包括CogVideoX 2B、Llama 3.1 70B、Qwen2 72B、GLM4 9B、Stable Diffusion在內(nèi)的多種大語言模型、文生圖及文生視頻模型。GenStudio針對(duì)生成式大模型的應(yīng)用落地的多種場(chǎng)景需求,為應(yīng)用開發(fā)者提供高性能、易上手、安全可靠的大模型服務(wù),覆蓋從大模型開發(fā)到大模型服務(wù)化部署的全流程。
使用GenStudio時(shí),大模型應(yīng)用開發(fā)團(tuán)隊(duì)無需關(guān)注機(jī)器、開發(fā)環(huán)境等大模型開發(fā)要素,可以直接在這個(gè)平臺(tái)上體驗(yàn)、對(duì)比各種模型能力和芯片效果,通過簡(jiǎn)單拖拽各種參數(shù)按鈕的動(dòng)作,精調(diào)出更貼合業(yè)務(wù)的大模型并完成部署,最快三天就可開發(fā)一個(gè)大模型應(yīng)用。GenStudio已成功幫助多個(gè)團(tuán)隊(duì)有效降低技術(shù)負(fù)擔(dān)、提高了調(diào)試效率并簡(jiǎn)化了開發(fā)流程。