今年AI行業(yè)最熱鬧的領(lǐng)域,便是視頻生成賽道。國內(nèi)各家大廠激情開戰(zhàn),產(chǎn)品迭代目不暇接。
從年初開始,快手可靈2.0、字節(jié)即夢3.0、阿里萬相2.1、騰訊HunyuanCustom、生數(shù)科技Vidu2.0、MiniMax旗下Hailuo 02等模型先后登場,紛紛將去年先聲奪人的Sora甩在身后。
激戰(zhàn)之下,AI視頻模型的語義響應(yīng)、畫面質(zhì)量、動態(tài)質(zhì)量、真實度、美感都有了質(zhì)的飛躍,商業(yè)化前景也肉眼可見。
5月27日,快手公布了2025年第一季度財報。其中,第一季度內(nèi)收入超過1.5億元的可靈AI被單獨拎出,重點提及。5月28日,快手在港股市場高開6.46%,并在數(shù)日內(nèi)接續(xù)上漲,截至7月15日,漲幅已超過30%。
在公開場合,字節(jié)跳動Seed圖像與視頻生成負責人黃偉林也將2025年“蓋章”為圖像生成商業(yè)化元年。據(jù)公開數(shù)據(jù),愛詩科技旗下視頻生成平臺Pixverse的月訂閱收入,也已達到了千萬元水平。
不過,模型廠商競逐雖然熱鬧,但距離真正“解放”創(chuàng)作者生產(chǎn)力的距離還很遙遠。
多位視頻生產(chǎn)者對《財經(jīng)天下》表示,AI視頻輸出的“一致性”“運動性”對各家都還是個難題,當下想用AI省錢不容易——而視頻模型廠商們,也明顯有點“卷不動”了。
01、視頻模型內(nèi)卷升級
今年4月,快手旗下的可靈AI升級到了2.0版本?!拔逡弧奔倨谇?,快手專設(shè)了可靈AI事業(yè)部,部?負責人直接向快手CEO程一笑匯報。
根據(jù)全球大模型整合應(yīng)用平臺Poe發(fā)布的數(shù)據(jù),今年1月~5月,快手可靈系列視頻生成大模型的合計使用份額已超過30%,超越了Runway(23.6%)和Veo-2(16.6%)。
這距離可靈AI上線僅僅過去了一年。去年春節(jié)期間,OpenAI旗下視頻應(yīng)用Sora點燃了AI視頻生成賽道,引來國內(nèi)眾多企業(yè)跟進。成立于2024年6月6日的可靈AI,與其他大廠相比入局并不算早。但其后來居上,創(chuàng)造了上線三個月便服務(wù)超260萬用戶的紀錄。
一年后,快手可靈已積攢了2200萬的全球用戶,并曾作為國產(chǎn)大模型代表,在官方場合與DeepSeek被并列提及。
從事AI視頻領(lǐng)域軟件研發(fā)的陳典對《財經(jīng)天下》表示,可靈之所以能搶占先機,關(guān)鍵在于產(chǎn)品化的速度。
“可靈上線時缺少同類競品,快手率先實現(xiàn)了商業(yè)落地。這種先發(fā)優(yōu)勢給可靈帶來了明顯的紅利,早期用戶習(xí)慣養(yǎng)成后,往往會產(chǎn)生較強的平臺黏性。”
作為第一個脫穎而出的視頻生成模型,可靈的技術(shù)水平曾獨領(lǐng)風(fēng)騷。AI視頻廣告導(dǎo)演六六表示: “去年,可靈的視頻生成清晰度能達到1080P。國內(nèi)其他廠商都沒達到,其視頻出品效果也更穩(wěn)定?!?/p>
但隨著技術(shù)迭代,競爭者層出不窮,可靈的“霸主”地位正在被后來者們步步追趕。
可靈AI發(fā)布后,短時間內(nèi)騰訊混元、阿里通義萬相便加入戰(zhàn)局,MiniMax旗下的海螺視頻App也在全球上線。同時,與基座大模型多被實力雄厚的大廠包攬不同,AI視頻生成領(lǐng)域中,不少創(chuàng)企們表現(xiàn)不俗。
2024年4月,生數(shù)科技發(fā)布了對標Sora的視頻大模型Vidu 1.0,并于今年1月更新至2.0版本。愛詩科技旗下的PixVerse則從2024年7月開始,以近2個月一次的速度進行迭代。
今年5月,一度在大模型混戰(zhàn)中“掉隊”的谷歌,憑借Veo 3視頻模型震驚四座。該模型首次讓視頻實現(xiàn)了音畫同步,一舉打破了AI視頻的“無聲尷尬”,劃定了行業(yè)新標準,也讓谷歌回歸能完成重大技術(shù)突破的頭號玩家。
當然,快手最重要的對手仍是字節(jié)。去年,可靈“斷崖式領(lǐng)先”曾讓字節(jié)頗為被動,今年其身位也被即夢AI悄悄追上。
2024年11月,字節(jié)將視頻生成模型Seaweed和PixelDance上線即夢平臺,又在今年4月將Seaweed上線到官網(wǎng)。即夢隨之更新了3.0、3.0 Pro新版本,并迅速在創(chuàng)作者群體中圈了一波好感。
今年5月中旬,字節(jié)對即夢App加大了投放力度,在蘋果應(yīng)用商店排行榜上,即夢App一度躥升到了國內(nèi)免費App下載頭名,超越了豆包和紅果短劇。
“現(xiàn)在各大平臺在視頻生成風(fēng)格上都有自己的優(yōu)勢,且不少都開始支持1080P。比如即夢最新版上線后,在聽從指令、運鏡方面取得了很大提升,甚至說某些方面已經(jīng)超過了可靈?!绷f。
陳典認為,當前國內(nèi)廠商在各自擅長的技術(shù)領(lǐng)域持續(xù)突破,各個模型的性能上限趨于相近,并沒有哪家真的強出很多?!半m然即夢起步稍晚,但某些能力已經(jīng)可以對標可靈。本質(zhì)上講,行業(yè)競爭格局并非源于技術(shù)落差,而是產(chǎn)品推出時機的差異所致。比如,即夢在畫面一致性這個關(guān)鍵指標上表現(xiàn)最為突出;海螺則重點提升了生成內(nèi)容中人物的真實感。”
02、用AI省錢,還是個夢想
在商業(yè)模式層面,目前即夢和可靈大同小異,均提供免費版和會員版。即夢免費版生成視頻時長包括5秒和10秒兩種,生成1秒視頻需耗費2個積分。
用戶想要獲取積分,既可以用1元購買10積分,也可以開通會員。即夢連續(xù)包月69元,每月贈送1080積分,可靈連續(xù)包月66元,每月贈送660積分。
各家也將重點放在了爭奪創(chuàng)作者上。多位創(chuàng)作者向《財經(jīng)天下》透露,即夢背后的支持和投入力度更大。
以前即夢生成一條AI視頻只需要花20多個積分,現(xiàn)在要消耗50多個積分?!暗诩磯舻某瑒?chuàng)欄目里發(fā)作品,普通作品一個會給888個積分,被選中為優(yōu)質(zhì)作品的話會給到3000個積分。不需要太高發(fā)布頻率,就能積累非常多的積分,根本用不完?!绷f。
相比之下,“可靈發(fā)作品去年松一點,日常發(fā)一個視頻作品給到680個積分。今年在積分激勵方面變得非常嚴格,經(jīng)常不給通過”。
這種策略差異或與即夢與可靈的發(fā)展策略有關(guān)。QuestMobile數(shù)據(jù)顯示,截至2025年3月,即夢AI月活用戶數(shù)達到893萬,可靈AI則為180萬。相比而言,即夢更傾向于追求用戶規(guī)模,開拓普通用戶??伸`則更看重在專業(yè)用戶中的滲透,優(yōu)先追求收入增長。
關(guān)注AI行業(yè)的投資人張漢對《財經(jīng)天下》說,“AI視頻投資在早期孵化階段主要看團隊,現(xiàn)在是既要看技術(shù),又要看商業(yè)化”。
為了提升商業(yè)化能力,今年不少視頻生成模型都在新一輪模型更新后,來了一輪漲價。目前,AI視頻生成下游的付費群體包含to B及to C兩端。從各大廠商的探索方向來看,核心的付費群體依然集中在影視、短劇、廣告、游戲等專業(yè)創(chuàng)作者們。
要想讓創(chuàng)作者持續(xù)付費,必然需要有相應(yīng)的收益入賬。但對于創(chuàng)作者來說,想要用AI省錢并不容易。
雖然從成本來看,AI生成視頻遠低于傳統(tǒng)視頻的制作成本。據(jù)量子位智庫數(shù)據(jù),頂級動畫電影(迪士尼、皮克斯等制作)每分鐘的制作成本約達200萬美元,而AI視頻生成的內(nèi)容成本每分鐘約300美元,降本效果明顯。
但AI視頻生成實用性差、成本不可控的痛點還未解決。AI視頻按使用次數(shù)付費,但輸出效果不夠穩(wěn)定,“并不是說你輸出幾次就能直接用,想要達到理想效果要不斷試,其實成本并不可控?!绷f。
在從事AI影視廣告制作的閃靈AI平臺創(chuàng)始人李明琪看來,AI視頻生成能降低制作成本毋庸置疑?!氨热缭谌S動畫領(lǐng)域,制作都是按秒報價。傳統(tǒng)三維動畫制作一秒中等價位要5000元一秒。如果用AI的話,一分鐘的片子能報個10萬元就不錯了?!?/p>
但到底能降低多少成本,性價比與視頻類型有強關(guān)聯(lián)?!叭绻煽苹么笃?,制作成本很高,AI視頻的性價比就很好。如果用AI來生成文藝片、紀錄片,性價比就會極低?!崩蠲麋髡f。
陳典也有相似的困擾?!艾F(xiàn)在不管是‘AI小白’的甲方,還是稍微懂一點AI的甲方,都會有這樣的認知:覺得用AI生成視頻便宜,但不是這樣的?!?/p>
在他看來,AI視頻生成最大的問題是難以解決“一致性”。例如,給定相同的提示詞、參考圖片或視頻輸入,模型需要能輸出一致的場景和風(fēng)格。但在實際使用中,AI的輸出效果很不穩(wěn)定。
“比如在辦公室、會議室的場景中,AI多次生成應(yīng)該保持相同的環(huán)境和人物特征,才能實現(xiàn)視頻片段的自然銜接。但現(xiàn)實中經(jīng)常出現(xiàn)輸入條件完全相同,卻生成截然不同內(nèi)容的情況?!?/p>
原因在于,相比靜態(tài)圖像生成,動態(tài)視頻生成復(fù)雜度提升了不止一個量級。靜態(tài)圖像只需要關(guān)注空間一致性,視頻生成除了空間維度,還要在時間維度上維持連貫性。
陳典遇到的第二個難點是如何生成電影級、具備強交互感的運動鏡頭。
陳典嘗試過將AI工具與傳統(tǒng)攝像機方式作對比,分別拍攝跟隨一個人的運動畫面。用傳統(tǒng)鏡頭拍攝,需要鏡頭從后面跟隨,一直向前走,鏡頭需要一會兒變成側(cè)跟隨,一會兒變成前跟隨的推進。
想要用AI生成類似的鏡頭效果,卻是難上加難?!按蠓秶囊苿隅R頭,AI當下是做不到的。所以現(xiàn)在我們看到的所有市面的AI視頻,其實都是動態(tài)PPT,鏡頭固定在那兒不動,用AI去生成一些酷炫的效果?!标惖湔f。
即便在時下火熱的短劇行業(yè),AI視頻生成也無法解決全部問題。AI短劇導(dǎo)演、杭州極光心智文化科技有限公司創(chuàng)始人郭璞對比傳統(tǒng)真人拍攝的方式,給《財經(jīng)天下》算了一筆賬。他介紹,“以1集1分鐘的短劇為例,傳統(tǒng)拍攝成本包括演員片酬、場地租賃、服裝化妝等,算下來整體成本在1萬~2萬元左右?!?/p>
采用AI視頻生成技術(shù),則需要考慮兩個主要成本維度:人力成本和算力成本。使用可靈或谷歌的Veo 3,生成5秒視頻約需4元,10秒視頻則需8元。
看似便宜,“但我們需要反復(fù)嘗試、碰運氣,才能生成理想結(jié)果。所需的試錯成本,1集1分鐘的短劇光是算力支出,就要數(shù)千元的賬號充值,還不包括人力、時間成本投入。”郭璞說。
在郭璞看來,AI短劇市場是否真正通過市場驗證,目前仍存在疑問。2023至2024年,雖然業(yè)內(nèi)出現(xiàn)過一些嘗試性的作品,比如陳坤帶領(lǐng)團隊制作的《上海奇境》,以及博納影業(yè)推出的AI生成式連續(xù)性敘事科幻短劇《三星堆:未來啟示錄》,但這些項目更多是作為行業(yè)話題引發(fā)討論,在票房收益上表現(xiàn)平平。
因此,盡管AI視頻生成關(guān)注度很高,但郭璞接觸到的投資方普遍更傾向于在可控范圍內(nèi)進行投資試探?!氨热缤秱€20萬元左右,小步試水即可,不會大規(guī)模投入?!?/p>
03、技術(shù)升級進入瓶頸期
在創(chuàng)作者看來,視頻模型的能力限制,關(guān)鍵還在于技術(shù)突破遇到了瓶頸。
“現(xiàn)在模型就是卷不動了”,某視頻生成領(lǐng)域算法從業(yè)人員王蒙對《財經(jīng)天下》說。去年,各大廠商還在集中精力提升模型生成能力,現(xiàn)在提升遇到明顯的瓶頸,“很難說哪家有絕對領(lǐng)先優(yōu)勢”。
視頻生成為什么這么難?總體來看,架構(gòu)局限、算力限制、優(yōu)質(zhì)視頻數(shù)據(jù)的稀缺,這“三座大山”共同制約著視頻生成技術(shù)的發(fā)展。尤其是20~30秒視頻生成困難,背后是模型的底層架構(gòu)限制。
視頻生成模型與文本生成模型的結(jié)構(gòu)類似,都受到長度限制。視頻隨著生成的幀數(shù)增加,模型會逐漸“遺忘”前面生成的歷史幀信息,陷入記憶錯亂。
王蒙介紹道,“目前市面上的視頻生成模型最多只能生成5~10秒的片段。即使理論上能達到1分鐘的模型,實際上我也從未見過真能完整生成長達1分鐘的視頻?!?/p>
另一個關(guān)鍵限制因素是算力。保持視頻一致性需要追蹤海量信息,既要追蹤空間信息,也要記住視頻敘事,這需要鏡頭切換保持邏輯性、故事連貫性,也讓視頻模型成為各大廠商的“算力黑洞”。
王蒙介紹道,“以1920*1080的分辨率為例,每幀都包含數(shù)百萬個像素點,每個像素點都附帶復(fù)雜的物理屬性數(shù)據(jù)。隨著時長增加,這些數(shù)據(jù)會呈現(xiàn)指數(shù)級增長。就算把現(xiàn)有計算資源都堆疊起來,也不足以處理如此龐大的數(shù)據(jù)量”。
第三個制約因素是訓(xùn)練數(shù)據(jù)不足。視頻質(zhì)量對訓(xùn)練效果影響很大——畫質(zhì)越好的素材,訓(xùn)練效果就越好。但在短視頻垃圾信息轟炸下,高質(zhì)量長視頻的獲取難度要大得多。
這些都讓視頻生成模型逐步進入發(fā)展平臺期,各大廠商紛紛將重心轉(zhuǎn)向應(yīng)用落地,競爭重點也從追求技術(shù)突破,逐漸轉(zhuǎn)變?yōu)楦⒅卮蚰ビ脩趔w驗,將資源更多地投入到多模態(tài)的產(chǎn)品易用性、工作流優(yōu)化等環(huán)節(jié)。
以可靈和即夢最新發(fā)布的模型產(chǎn)品為例,可靈更新了最新的3.0版本后,開始全力拓展多模態(tài)支持能力,不再局限于基礎(chǔ)的視頻和圖片參考輸入,而是計劃引入更多形式的控制信號。
即夢也采取了類似路線,今年6月,即夢3.0圖像生成模型上線后,同樣將重點放在了提升AI多模態(tài)內(nèi)容生成上。
目前來看,哪一家大廠將最終成為AI視頻“新王”,難以輕言定論。郭璞表示,目前他更看好可靈。但長遠來看,即夢倚靠著字節(jié)生態(tài),擁有抖音和TikTok兩大流量平臺,旗下又有紅果短劇,內(nèi)容分發(fā)能力強大。
在技術(shù)支撐方面,字節(jié)的火山引擎大模型也將為即夢提供全方位的能力支持。例如,通過大語言模型可以賦能劇本創(chuàng)作,聲音克隆技術(shù)將簡化配音流程,視頻渲染與分鏡渲染將進一步提升等,這種生態(tài)協(xié)同效應(yīng)都將顯著提升內(nèi)容創(chuàng)作者的效率。
快手則選擇重點在創(chuàng)作者生態(tài)方面發(fā)力。近期,可靈連續(xù)舉辦了多屆全國性創(chuàng)作大賽,通過獎金激勵和作品征集的方式發(fā)掘人才,從參賽選手中篩選出優(yōu)質(zhì)創(chuàng)作者重點扶持。
郭璞透露,“近期快手平臺投資的幾個短劇項目都是S級,比如已經(jīng)上線的《末日進行時》,以及《黑神話:悟空》團隊最新推出的《太陽墜落之時》,就是快手通過‘賽事選拔+資源扶持+平臺投放’的模式,激發(fā)創(chuàng)作者活力”。
(文中六六、陳典、張漢、王蒙均為化名)
(作者 |豆蔻,編輯 |李不清,圖片來源 | 視覺中國,本內(nèi)容來自財經(jīng)天下WEEKLY)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.