NVIDIA 的研究人員日前研發(fā)出一個基于深度學習的系統(tǒng),能夠將每秒30幀的視頻轉換為高清慢鏡視頻,其效果優(yōu)于其它同類方法當前能夠實現(xiàn)的最佳效果。
研究人員在其研究論文中寫道,“生活中有許多難忘時刻單憑肉眼很難看清,這時你可能想要用慢鏡頭記錄下來,例如嬰兒第一次蹣跚學步、高難度的滑板技巧、愛犬成功接球等?!薄半m然可以用手機拍攝每秒240幀視頻,但用手機以高幀率完成所有拍攝的做法也并不實際,因為這需要很大的內存空間,而且功耗很大。”
而基于這項新的研發(fā)成果,用戶則可以在拍攝視頻后制作慢鏡視頻。
研究團隊利用NVIDIA Tesla V100 GPU和cuDNN加速的PyTorch深度學習框架,基于1.1萬多個日常和體育活動視頻,以每秒240幀的速率對系統(tǒng)進行了訓練。訓練完成后,卷積神經網絡便能對更多的視頻幀進行預測。
團隊采用了另一套數(shù)據(jù)集來驗證系統(tǒng)的精確度。結果表明系統(tǒng)能夠使以較低幀率拍攝的視頻看起來更加流暢且清晰。
研究人員表示:“NVIDIA采用的方法能夠生成多個時空連貫的中間幀。我們的多幀法始終優(yōu)于當前最佳的單幀法?!?/p>
為展示研究成果,研究團隊從著名的在線科技系列視頻《The Slow Mo Guys》中截取了多個片段,并進一步放緩了視頻速度。以每秒30幀的速率拍攝,之后轉換為每秒240幀的視頻。
這種方法可用于記錄日常生活中彌足珍貴的時刻,然后將其速度放緩,就像電影慢鏡頭場景一樣,起到增添懸念、突出重點、更加引人入勝的效果。
Huaizu Jiang、Deqing Sun、Varun Jampani、Ming-Hsuan Yang、Erik Learned-Mille和Jan Kautz等研究人員將于6月21日(星期四)下午2:50 – 4:30在猶他州鹽湖城舉辦的年度計算機視覺與模式識別(CVPR)大會上展示其研究成果。