靠視頻大模型賺錢，還是個夢

2025-07-15 18:34:26　來源: 財天COVER

北京舉報

分享至

今年AI行業(yè)最熱鬧的領(lǐng)域，便是視頻生成賽道。國內(nèi)各家大廠激情開戰(zhàn)，產(chǎn)品迭代目不暇接。

從年初開始，快手可靈2.0、字節(jié)即夢3.0、阿里萬相2.1、騰訊HunyuanCustom、生數(shù)科技Vidu2.0、MiniMax旗下Hailuo 02等模型先后登場，紛紛將去年先聲奪人的Sora甩在身后。

激戰(zhàn)之下，AI視頻模型的語義響應(yīng)、畫面質(zhì)量、動態(tài)質(zhì)量、真實度、美感都有了質(zhì)的飛躍，商業(yè)化前景也肉眼可見。

5月27日，快手公布了2025年第一季度財報。其中，第一季度內(nèi)收入超過1.5億元的可靈AI被單獨拎出，重點提及。5月28日，快手在港股市場高開6.46%，并在數(shù)日內(nèi)接續(xù)上漲，截至7月15日，漲幅已超過30%。

在公開場合，字節(jié)跳動Seed圖像與視頻生成負責人黃偉林也將2025年“蓋章”為圖像生成商業(yè)化元年。據(jù)公開數(shù)據(jù)，愛詩科技旗下視頻生成平臺Pixverse的月訂閱收入，也已達到了千萬元水平。

不過，模型廠商競逐雖然熱鬧，但距離真正“解放”創(chuàng)作者生產(chǎn)力的距離還很遙遠。

多位視頻生產(chǎn)者對《財經(jīng)天下》表示，AI視頻輸出的“一致性”“運動性”對各家都還是個難題，當下想用AI省錢不容易——而視頻模型廠商們，也明顯有點“卷不動”了。

01、視頻模型內(nèi)卷升級

今年4月，快手旗下的可靈AI升級到了2.0版本?！拔逡弧奔倨谇?，快手專設(shè)了可靈AI事業(yè)部，部?負責人直接向快手CEO程一笑匯報。

根據(jù)全球大模型整合應(yīng)用平臺Poe發(fā)布的數(shù)據(jù)，今年1月~5月，快手可靈系列視頻生成大模型的合計使用份額已超過30%，超越了Runway（23.6%）和Veo-2（16.6%）。

這距離可靈AI上線僅僅過去了一年。去年春節(jié)期間，OpenAI旗下視頻應(yīng)用Sora點燃了AI視頻生成賽道，引來國內(nèi)眾多企業(yè)跟進。成立于2024年6月6日的可靈AI，與其他大廠相比入局并不算早。但其后來居上，創(chuàng)造了上線三個月便服務(wù)超260萬用戶的紀錄。

一年后，快手可靈已積攢了2200萬的全球用戶，并曾作為國產(chǎn)大模型代表，在官方場合與DeepSeek被并列提及。

從事AI視頻領(lǐng)域軟件研發(fā)的陳典對《財經(jīng)天下》表示，可靈之所以能搶占先機，關(guān)鍵在于產(chǎn)品化的速度。

“可靈上線時缺少同類競品，快手率先實現(xiàn)了商業(yè)落地。這種先發(fā)優(yōu)勢給可靈帶來了明顯的紅利，早期用戶習(xí)慣養(yǎng)成后，往往會產(chǎn)生較強的平臺黏性。”

作為第一個脫穎而出的視頻生成模型，可靈的技術(shù)水平曾獨領(lǐng)風(fēng)騷。AI視頻廣告導(dǎo)演六六表示： “去年，可靈的視頻生成清晰度能達到1080P。國內(nèi)其他廠商都沒達到，其視頻出品效果也更穩(wěn)定?！?/p>

但隨著技術(shù)迭代，競爭者層出不窮，可靈的“霸主”地位正在被后來者們步步追趕。

可靈AI發(fā)布后，短時間內(nèi)騰訊混元、阿里通義萬相便加入戰(zhàn)局，MiniMax旗下的海螺視頻App也在全球上線。同時，與基座大模型多被實力雄厚的大廠包攬不同，AI視頻生成領(lǐng)域中，不少創(chuàng)企們表現(xiàn)不俗。

2024年4月，生數(shù)科技發(fā)布了對標Sora的視頻大模型Vidu 1.0，并于今年1月更新至2.0版本。愛詩科技旗下的PixVerse則從2024年7月開始，以近2個月一次的速度進行迭代。

今年5月，一度在大模型混戰(zhàn)中“掉隊”的谷歌，憑借Veo 3視頻模型震驚四座。該模型首次讓視頻實現(xiàn)了音畫同步，一舉打破了AI視頻的“無聲尷尬”，劃定了行業(yè)新標準，也讓谷歌回歸能完成重大技術(shù)突破的頭號玩家。

當然，快手最重要的對手仍是字節(jié)。去年，可靈“斷崖式領(lǐng)先”曾讓字節(jié)頗為被動，今年其身位也被即夢AI悄悄追上。

2024年11月，字節(jié)將視頻生成模型Seaweed和PixelDance上線即夢平臺，又在今年4月將Seaweed上線到官網(wǎng)。即夢隨之更新了3.0、3.0 Pro新版本，并迅速在創(chuàng)作者群體中圈了一波好感。

今年5月中旬，字節(jié)對即夢App加大了投放力度，在蘋果應(yīng)用商店排行榜上，即夢App一度躥升到了國內(nèi)免費App下載頭名，超越了豆包和紅果短劇。

“現(xiàn)在各大平臺在視頻生成風(fēng)格上都有自己的優(yōu)勢，且不少都開始支持1080P。比如即夢最新版上線后，在聽從指令、運鏡方面取得了很大提升，甚至說某些方面已經(jīng)超過了可靈?！绷f。

陳典認為，當前國內(nèi)廠商在各自擅長的技術(shù)領(lǐng)域持續(xù)突破，各個模型的性能上限趨于相近，并沒有哪家真的強出很多?！半m然即夢起步稍晚，但某些能力已經(jīng)可以對標可靈。本質(zhì)上講，行業(yè)競爭格局并非源于技術(shù)落差，而是產(chǎn)品推出時機的差異所致。比如，即夢在畫面一致性這個關(guān)鍵指標上表現(xiàn)最為突出；海螺則重點提升了生成內(nèi)容中人物的真實感。”

02、用AI省錢，還是個夢想

在商業(yè)模式層面，目前即夢和可靈大同小異，均提供免費版和會員版。即夢免費版生成視頻時長包括5秒和10秒兩種，生成1秒視頻需耗費2個積分。

用戶想要獲取積分，既可以用1元購買10積分，也可以開通會員。即夢連續(xù)包月69元，每月贈送1080積分，可靈連續(xù)包月66元，每月贈送660積分。

各家也將重點放在了爭奪創(chuàng)作者上。多位創(chuàng)作者向《財經(jīng)天下》透露，即夢背后的支持和投入力度更大。

以前即夢生成一條AI視頻只需要花20多個積分，現(xiàn)在要消耗50多個積分?！暗诩磯舻某瑒?chuàng)欄目里發(fā)作品，普通作品一個會給888個積分，被選中為優(yōu)質(zhì)作品的話會給到3000個積分。不需要太高發(fā)布頻率，就能積累非常多的積分，根本用不完?！绷f。

相比之下，“可靈發(fā)作品去年松一點，日常發(fā)一個視頻作品給到680個積分。今年在積分激勵方面變得非常嚴格，經(jīng)常不給通過”。

這種策略差異或與即夢與可靈的發(fā)展策略有關(guān)。QuestMobile數(shù)據(jù)顯示，截至2025年3月，即夢AI月活用戶數(shù)達到893萬，可靈AI則為180萬。相比而言，即夢更傾向于追求用戶規(guī)模，開拓普通用戶?？伸`則更看重在專業(yè)用戶中的滲透，優(yōu)先追求收入增長。

關(guān)注AI行業(yè)的投資人張漢對《財經(jīng)天下》說，“AI視頻投資在早期孵化階段主要看團隊，現(xiàn)在是既要看技術(shù)，又要看商業(yè)化”。

為了提升商業(yè)化能力，今年不少視頻生成模型都在新一輪模型更新后，來了一輪漲價。目前，AI視頻生成下游的付費群體包含to B及to C兩端。從各大廠商的探索方向來看，核心的付費群體依然集中在影視、短劇、廣告、游戲等專業(yè)創(chuàng)作者們。

要想讓創(chuàng)作者持續(xù)付費，必然需要有相應(yīng)的收益入賬。但對于創(chuàng)作者來說，想要用AI省錢并不容易。

雖然從成本來看，AI生成視頻遠低于傳統(tǒng)視頻的制作成本。據(jù)量子位智庫數(shù)據(jù)，頂級動畫電影（迪士尼、皮克斯等制作）每分鐘的制作成本約達200萬美元，而AI視頻生成的內(nèi)容成本每分鐘約300美元，降本效果明顯。

但AI視頻生成實用性差、成本不可控的痛點還未解決。AI視頻按使用次數(shù)付費，但輸出效果不夠穩(wěn)定，“并不是說你輸出幾次就能直接用，想要達到理想效果要不斷試，其實成本并不可控?！绷f。

在從事AI影視廣告制作的閃靈AI平臺創(chuàng)始人李明琪看來，AI視頻生成能降低制作成本毋庸置疑?！氨热缭谌S動畫領(lǐng)域，制作都是按秒報價。傳統(tǒng)三維動畫制作一秒中等價位要5000元一秒。如果用AI的話，一分鐘的片子能報個10萬元就不錯了?！?/p>

但到底能降低多少成本，性價比與視頻類型有強關(guān)聯(lián)?！叭绻煽苹么笃?，制作成本很高，AI視頻的性價比就很好。如果用AI來生成文藝片、紀錄片，性價比就會極低?！崩蠲麋髡f。

陳典也有相似的困擾?！艾F(xiàn)在不管是‘AI小白’的甲方，還是稍微懂一點AI的甲方，都會有這樣的認知：覺得用AI生成視頻便宜，但不是這樣的?！?/p>

在他看來，AI視頻生成最大的問題是難以解決“一致性”。例如，給定相同的提示詞、參考圖片或視頻輸入，模型需要能輸出一致的場景和風(fēng)格。但在實際使用中，AI的輸出效果很不穩(wěn)定。

“比如在辦公室、會議室的場景中，AI多次生成應(yīng)該保持相同的環(huán)境和人物特征，才能實現(xiàn)視頻片段的自然銜接。但現(xiàn)實中經(jīng)常出現(xiàn)輸入條件完全相同，卻生成截然不同內(nèi)容的情況?！?/p>

原因在于，相比靜態(tài)圖像生成，動態(tài)視頻生成復(fù)雜度提升了不止一個量級。靜態(tài)圖像只需要關(guān)注空間一致性，視頻生成除了空間維度，還要在時間維度上維持連貫性。

陳典遇到的第二個難點是如何生成電影級、具備強交互感的運動鏡頭。

陳典嘗試過將AI工具與傳統(tǒng)攝像機方式作對比，分別拍攝跟隨一個人的運動畫面。用傳統(tǒng)鏡頭拍攝，需要鏡頭從后面跟隨，一直向前走，鏡頭需要一會兒變成側(cè)跟隨，一會兒變成前跟隨的推進。

想要用AI生成類似的鏡頭效果，卻是難上加難?！按蠓秶囊苿隅R頭，AI當下是做不到的。所以現(xiàn)在我們看到的所有市面的AI視頻，其實都是動態(tài)PPT，鏡頭固定在那兒不動，用AI去生成一些酷炫的效果?！标惖湔f。

即便在時下火熱的短劇行業(yè)，AI視頻生成也無法解決全部問題。AI短劇導(dǎo)演、杭州極光心智文化科技有限公司創(chuàng)始人郭璞對比傳統(tǒng)真人拍攝的方式，給《財經(jīng)天下》算了一筆賬。他介紹，“以1集1分鐘的短劇為例，傳統(tǒng)拍攝成本包括演員片酬、場地租賃、服裝化妝等，算下來整體成本在1萬~2萬元左右?！?/p>

采用AI視頻生成技術(shù)，則需要考慮兩個主要成本維度：人力成本和算力成本。使用可靈或谷歌的Veo 3，生成5秒視頻約需4元，10秒視頻則需8元。

看似便宜，“但我們需要反復(fù)嘗試、碰運氣，才能生成理想結(jié)果。所需的試錯成本，1集1分鐘的短劇光是算力支出，就要數(shù)千元的賬號充值，還不包括人力、時間成本投入。”郭璞說。

在郭璞看來，AI短劇市場是否真正通過市場驗證，目前仍存在疑問。2023至2024年，雖然業(yè)內(nèi)出現(xiàn)過一些嘗試性的作品，比如陳坤帶領(lǐng)團隊制作的《上海奇境》，以及博納影業(yè)推出的AI生成式連續(xù)性敘事科幻短劇《三星堆：未來啟示錄》，但這些項目更多是作為行業(yè)話題引發(fā)討論，在票房收益上表現(xiàn)平平。

因此，盡管AI視頻生成關(guān)注度很高，但郭璞接觸到的投資方普遍更傾向于在可控范圍內(nèi)進行投資試探?！氨热缤秱€20萬元左右，小步試水即可，不會大規(guī)模投入?！?/p>

03、技術(shù)升級進入瓶頸期

在創(chuàng)作者看來，視頻模型的能力限制，關(guān)鍵還在于技術(shù)突破遇到了瓶頸。

“現(xiàn)在模型就是卷不動了”，某視頻生成領(lǐng)域算法從業(yè)人員王蒙對《財經(jīng)天下》說。去年，各大廠商還在集中精力提升模型生成能力，現(xiàn)在提升遇到明顯的瓶頸，“很難說哪家有絕對領(lǐng)先優(yōu)勢”。

視頻生成為什么這么難？總體來看，架構(gòu)局限、算力限制、優(yōu)質(zhì)視頻數(shù)據(jù)的稀缺，這“三座大山”共同制約著視頻生成技術(shù)的發(fā)展。尤其是20~30秒視頻生成困難，背后是模型的底層架構(gòu)限制。

視頻生成模型與文本生成模型的結(jié)構(gòu)類似，都受到長度限制。視頻隨著生成的幀數(shù)增加，模型會逐漸“遺忘”前面生成的歷史幀信息，陷入記憶錯亂。

王蒙介紹道，“目前市面上的視頻生成模型最多只能生成5~10秒的片段。即使理論上能達到1分鐘的模型，實際上我也從未見過真能完整生成長達1分鐘的視頻?！?/p>

另一個關(guān)鍵限制因素是算力。保持視頻一致性需要追蹤海量信息，既要追蹤空間信息，也要記住視頻敘事，這需要鏡頭切換保持邏輯性、故事連貫性，也讓視頻模型成為各大廠商的“算力黑洞”。

王蒙介紹道，“以1920*1080的分辨率為例，每幀都包含數(shù)百萬個像素點，每個像素點都附帶復(fù)雜的物理屬性數(shù)據(jù)。隨著時長增加，這些數(shù)據(jù)會呈現(xiàn)指數(shù)級增長。就算把現(xiàn)有計算資源都堆疊起來，也不足以處理如此龐大的數(shù)據(jù)量”。

第三個制約因素是訓(xùn)練數(shù)據(jù)不足。視頻質(zhì)量對訓(xùn)練效果影響很大——畫質(zhì)越好的素材，訓(xùn)練效果就越好。但在短視頻垃圾信息轟炸下，高質(zhì)量長視頻的獲取難度要大得多。

這些都讓視頻生成模型逐步進入發(fā)展平臺期，各大廠商紛紛將重心轉(zhuǎn)向應(yīng)用落地，競爭重點也從追求技術(shù)突破，逐漸轉(zhuǎn)變?yōu)楦⒅卮蚰ビ脩趔w驗，將資源更多地投入到多模態(tài)的產(chǎn)品易用性、工作流優(yōu)化等環(huán)節(jié)。

以可靈和即夢最新發(fā)布的模型產(chǎn)品為例，可靈更新了最新的3.0版本后，開始全力拓展多模態(tài)支持能力，不再局限于基礎(chǔ)的視頻和圖片參考輸入，而是計劃引入更多形式的控制信號。

即夢也采取了類似路線，今年6月，即夢3.0圖像生成模型上線后，同樣將重點放在了提升AI多模態(tài)內(nèi)容生成上。

目前來看，哪一家大廠將最終成為AI視頻“新王”，難以輕言定論。郭璞表示，目前他更看好可靈。但長遠來看，即夢倚靠著字節(jié)生態(tài)，擁有抖音和TikTok兩大流量平臺，旗下又有紅果短劇，內(nèi)容分發(fā)能力強大。

在技術(shù)支撐方面，字節(jié)的火山引擎大模型也將為即夢提供全方位的能力支持。例如，通過大語言模型可以賦能劇本創(chuàng)作，聲音克隆技術(shù)將簡化配音流程，視頻渲染與分鏡渲染將進一步提升等，這種生態(tài)協(xié)同效應(yīng)都將顯著提升內(nèi)容創(chuàng)作者的效率。

快手則選擇重點在創(chuàng)作者生態(tài)方面發(fā)力。近期，可靈連續(xù)舉辦了多屆全國性創(chuàng)作大賽，通過獎金激勵和作品征集的方式發(fā)掘人才，從參賽選手中篩選出優(yōu)質(zhì)創(chuàng)作者重點扶持。

郭璞透露，“近期快手平臺投資的幾個短劇項目都是S級，比如已經(jīng)上線的《末日進行時》，以及《黑神話：悟空》團隊最新推出的《太陽墜落之時》，就是快手通過‘賽事選拔+資源扶持+平臺投放’的模式，激發(fā)創(chuàng)作者活力”。

（文中六六、陳典、張漢、王蒙均為化名）

(作者 |豆蔻，編輯 |李不清，圖片來源 | 視覺中國，本內(nèi)容來自財經(jīng)天下WEEKLY）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.