網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬斯克奧特曼中文對(duì)噴， AI 視頻終于從「玩具」變成「工具」

2025-08-21 20:52:11　來源: 愛范兒

廣東舉報(bào)

分享至

現(xiàn)在刷社交媒體，你會(huì)發(fā)現(xiàn)一些畫面精良的爆款視頻，其實(shí)已經(jīng)是 AI 制作的。但作為一個(gè)創(chuàng)作者，除了要像「抽卡」，在畫面之外，有一個(gè)問題一直沒有得到很好的解決。

這個(gè)問題就是對(duì)白。

比如我讓 AI 生成一段「唯美雨景」，這不難。但要讓 AI 生成一段有情節(jié)、有對(duì)話的「雨中分手戲」，對(duì)白還得是地道的中文，這就很棘手了。

AI 生成的要么是完全的「啞劇」，需要?jiǎng)?chuàng)作者后期對(duì)口型、配音；要么是能開口說話，但語音語調(diào)不自然，充滿了「人機(jī)感」和「翻譯腔」，讓本該感傷的劇情瞬間出戲。

這也是當(dāng)下 AI 視頻生成最大的挑戰(zhàn)之一：如何處理包含對(duì)白，尤其是帶有復(fù)雜情緒的中文對(duì)白。

可以說，能否搞定自然流暢的中文對(duì)話，是 AI 視頻能否從一個(gè)「看個(gè)樂子」的玩具，變成真正生產(chǎn)力工具的關(guān)鍵。

百度今天發(fā)布的蒸汽機(jī)（MuseSteamer）視頻模型2.0，似乎就是沖著這個(gè)核心痛點(diǎn)來的。它最讓我關(guān)注的一個(gè)點(diǎn)，是全球首個(gè)中文音視頻一體化生成技術(shù)，號(hào)稱是吃「中文語料」長(zhǎng)大的，能夠一步到位地生成音畫同步、口型精準(zhǔn)、情感自然的中文對(duì)話視頻。

為了驗(yàn)證它到底是真正解決了創(chuàng)作者的難題，還是又一次停留在宣傳片里的技術(shù)展示，我決定繞開那些官方的精選案例（Demo），設(shè)計(jì)幾個(gè)更接近普通人日常創(chuàng)作需求的「刁鉆」場(chǎng)景，親自探探它的虛實(shí)。

體驗(yàn)地址：https://huixiang.baidu.com/

從一張圖，到一場(chǎng)有聲的對(duì)手戲

百度蒸汽機(jī)這次提供了 4 款生成模型，都是從一張圖生成一個(gè)視頻，分別是蒸汽機(jī) 2.0 turbo、pro、lite、以及有聲版；不同的模型會(huì)消耗不同數(shù)量的積分，免費(fèi)用戶每月登錄可以獲得有限額度的想象力值（積分）。

有聲版可以生成 5s 或者 10s 的視頻，而 Turbo 等三個(gè)版本是 5s，像素方面除了 Pro 版本支持 1080p，其他三個(gè)版本都是 720p 高清畫質(zhì)。

我們直接給他一張圖，然后按照視頻生成頁(yè)面的提示，輸入想要生成的視頻內(nèi)容和主題臺(tái)詞；5s 的視頻，將臺(tái)詞控制在 20 字以內(nèi)，10s 的視頻字?jǐn)?shù)控制在 35 字以內(nèi)。

▲ 我們上傳了一張馬斯克和奧特曼的合照，配上提示詞：兩個(gè)人針鋒相對(duì)，左邊的人先說，「你做的AI毫無底線」；右邊的人說，「你的營(yíng)銷才是沒有底線」；由蒸汽機(jī) 2.0 有聲版生成。

首先，靜態(tài)照片里的馬斯克和奧特曼被自然地驅(qū)動(dòng)了起來，面部表情和肢體動(dòng)作都相當(dāng)流暢，并且和上傳的圖片基本保持一致，圖生視頻的基礎(chǔ)能力還是很扎實(shí)的。

更關(guān)鍵的是對(duì)話部分，這個(gè)表現(xiàn)，必須承認(rèn)，在中文口型同步上，百度蒸汽機(jī)確實(shí)做到了目前的第一梯隊(duì)。嘴唇的開合，與「底線」、「營(yíng)銷」等一些詞語的發(fā)音匹配度很高，沒有明顯的延遲或錯(cuò)位。

▲ 一張浪浪山小妖怪的首幀圖，配合提示詞：畫面中，手持干草叉的野豬小妖抬頭，滿懷期待地看向身邊身材魁梧的熊教頭。臺(tái)詞：（第0-5秒）手持干草叉的野豬小妖說：「教頭，咱們把盔甲擦亮點(diǎn)，打起來更有氣勢(shì)！」（第5-10秒）身材魁梧的熊教頭向下瞥了他一眼，不耐煩地打斷道：「有那工夫？先給我削一千支箭出來！」

在發(fā)布會(huì)上，百度特別提到，這是來自「音視頻一體化」的底層生成邏輯，聲音和畫面是同步構(gòu)思的，而非后期匹配，他們?cè)谟?xùn)練時(shí)就把畫面和聲音放在一個(gè)模型里同步學(xué)習(xí)。

此外，還有一個(gè)「多模態(tài)潛在空間規(guī)劃器」（Latent Multi Modal Planner）的首創(chuàng)技術(shù)；多模態(tài)很好理解，就是文本、畫面、音頻，Latent 是深度學(xué)習(xí)里面術(shù)語，主要是學(xué)習(xí)潛在的特征，這個(gè)技術(shù)能夠自主地規(guī)劃潛在生成空間里的多個(gè)角色身份、臺(tái)詞、以及互動(dòng)邏輯等。

通俗來講，我們可以把它想象成一個(gè)內(nèi)置在 AI 里的導(dǎo)演，當(dāng)給出「讓兩個(gè)人吵架」的指令時(shí)，它不會(huì)傻傻地讓兩人同時(shí)說話，而是會(huì)自主規(guī)劃吵架劇本。

我們還嘗試了一些東北話這樣的方言，想看看在多人對(duì)話里，是不是也完全沒有問題。

▲ 提示詞：畫面左邊的藍(lán)衣女子耳語急促而冰冷，用東北話說：「姐姐，真心是咱們的炭，也是燒死咱們的火」；畫面右邊的紫粉衣女子決絕地用東北話回應(yīng)：「那不如，就燒得干凈些」；由蒸汽機(jī) 2.0 有聲版生成。

讓甄嬛和沈眉莊在音視頻一體化生產(chǎn)的模型里，說東北話確實(shí)為難了點(diǎn)，但是人物表情，嘴唇的動(dòng)作，耳環(huán)、頭飾等運(yùn)動(dòng)都非常自然。中文語音的細(xì)節(jié)還原度也很高，我覺得是真正做到了中文語境的深度適配。

還有這張經(jīng)典的梗圖，終于不是「快來品嘗我新鮮的肉體」了。

▲ 一張萬萬沒想到短片截圖，提示詞：畫面左邊帶著紅色帽子的唐僧，用手指著牛角的人的鼻子，非常生氣的說:「還想品嘗我新鮮的肉體，沒門！」

百度蒸汽機(jī)確實(shí)精準(zhǔn)地?fù)糁辛?，讓一張圖開口說話演一出對(duì)手戲，這個(gè)創(chuàng)作痛點(diǎn)。它將過去繁瑣的多工具流程，簡(jiǎn)化為「一張圖+一句話」的一步操作，這對(duì)于 Meme 二創(chuàng)、虛擬人對(duì)話、知識(shí)講解、短劇制作等場(chǎng)景來說，無疑是一次生產(chǎn)力的解放。

如果說要真正做到前段時(shí)間流行的《甄嬛傳》和《讓子彈飛》的視頻配音演示效果，還是有些差距。但看現(xiàn)在的 AI 視頻生成技術(shù)發(fā)展，AI 能表達(dá)更細(xì)膩、更矛盾的人類情感，我想也只是時(shí)間上的問題，畢竟蒸汽機(jī) 1.0 模型還是上個(gè)月初發(fā)布的。

運(yùn)鏡和大場(chǎng)面，它能駕馭嗎？

除了在中文場(chǎng)景下，雙人有聲的音視頻一體化生成首創(chuàng)，百度蒸汽機(jī) 2.0 的另一項(xiàng)升級(jí)是電影級(jí)的畫質(zhì)和大師級(jí)的復(fù)雜運(yùn)鏡。

之前的對(duì)話視頻里，情緒、表情以及 3D 面部生成，都算得上展示了真實(shí)細(xì)膩的人物表現(xiàn)力。我們繼續(xù)測(cè)試了廣告和短劇中常見的轉(zhuǎn)場(chǎng)、空鏡，這些可以說是 AI 視頻，除了對(duì)話的另一個(gè)剛需。

▲ 提供首幀圖，并附上提示詞：一個(gè)鏡頭，從書桌上的翻開的書本特寫開始，慢慢向上拉起，最終定格在窗外下著雨的街景上；由蒸汽機(jī) 2.0 Pro 生成。

從生成的視頻效果來看，蒸汽機(jī)把指令的遵循做得非常好。整個(gè)運(yùn)鏡過程，特寫、向上拉、定格，執(zhí)行得相當(dāng)流暢，沒有出現(xiàn)鏡頭亂晃或指令理解錯(cuò)誤的問題。這也說明它對(duì)攝影術(shù)語的理解是到位的。

當(dāng) AI 學(xué)會(huì)地道中文，視頻創(chuàng)作新的轉(zhuǎn)折點(diǎn)來了

經(jīng)過這番測(cè)試，我認(rèn)為百度蒸汽機(jī) 2.0 的定位非常清晰：它并非要成為一個(gè)無所不包的 Sora 式模型，而是選擇了一條更務(wù)實(shí)的路徑：以「中文對(duì)話」為核心突破口，將 AI 視頻從一個(gè)有趣的「玩具」，推進(jìn)到了一個(gè)可以交付成片的「工具」。

它繞開了單純比拼畫質(zhì)和時(shí)長(zhǎng)的內(nèi)卷，把更多力氣都花在了解決一個(gè)最要命、也最本土化的問題上——讓 AI 視頻真正「開口說中國(guó)話」，而且說得比真人還溜。

這種從「玩具」到「工具」的轉(zhuǎn)變，已經(jīng)在真實(shí)的創(chuàng)作和商業(yè)領(lǐng)域得到了驗(yàn)證。

好萊塢級(jí)視效指導(dǎo)姚騏，曾參與《2012》、《黑客帝國(guó)3》、《變形金剛3》等影視作品的視效工作，在國(guó)產(chǎn)科幻劇《三體》中打造了經(jīng)典的古箏行動(dòng)畫面特效。這次，他就用百度蒸汽機(jī)創(chuàng)作了一支高品質(zhì)科幻短片，其中包含 40 多個(gè)宏大復(fù)雜的特效鏡頭，每個(gè)鏡頭生成 3 次，總計(jì)生成了 120 多個(gè)片段素材，累計(jì)僅花費(fèi)了 330.6 元。

▲ 發(fā)布會(huì)視頻《歸途》

當(dāng)一個(gè)過去需要百萬元級(jí)別預(yù)算的短片，其視覺生成成本被壓縮到難以想象的低位時(shí)，被顛覆的不僅僅是預(yù)算，更是創(chuàng)作的門檻和權(quán)利。

這背后，解決的不僅是成本的問題，更是從生成一個(gè)酷炫片段到講述一個(gè)完整故事的轉(zhuǎn)變。當(dāng)宏大視效可以與敘事和對(duì)白無縫結(jié)合時(shí)，AI 才真正從一個(gè)特效插件，升級(jí)為創(chuàng)作者手里的高效率工具。

在品牌營(yíng)銷場(chǎng)景，這種模式也打破了常規(guī)的視頻制作流程。比如伊利倍暢需要為一款羊奶粉制作宣傳片《漂「羊」過海來看你》，傳統(tǒng)方式不僅周期一般需要 4-6 周，而且要用實(shí)拍呈現(xiàn)「小羊莎莎」坐熱氣球環(huán)游荷蘭草原和高科技工廠的奇幻之旅，成本和難度都極高。

但這次制作團(tuán)隊(duì)利用蒸汽機(jī)，將這些實(shí)拍難以完成的奇幻場(chǎng)景，通過風(fēng)格化的 AI 渲染來實(shí)現(xiàn) 。更重要的是，AI 將荷蘭奶源、益生菌配方等硬核賣點(diǎn)，流暢融入了敘事中，制作周期縮短到了幾天之內(nèi)，畫面不違和，同時(shí)表達(dá)了品牌的理念。

無論是專業(yè)大神，還是無數(shù)中小創(chuàng)作者與品牌方，相當(dāng)于都獲得了「賽博神筆」。你只需要「一張圖+一句話」，就能讓靜態(tài)的兵馬俑活過來打電話，或者讓張飛一邊繡花一邊跟你嘮嗑。這種創(chuàng)作門檻的消失，正在重塑內(nèi)容行業(yè)的成本公式和競(jìng)爭(zhēng)規(guī)則。

當(dāng)然，它也不是完美的瑞士軍刀。目前它在非對(duì)話的純視覺特效上，生成視頻的時(shí)長(zhǎng)也還有限制，音色風(fēng)格的選擇也可以更豐富。

但在快速迭代 AI 產(chǎn)品浪潮中，也沒有真正完美的產(chǎn)品，反而能更快落地解決用戶的實(shí)際需求，才更有意義。百度蒸汽機(jī)沒有陷入技術(shù)軍備競(jìng)賽的虛榮，而是選擇了一條更務(wù)實(shí)、更貼近市場(chǎng)的路。它就像一個(gè)專注于把釘子敲好的錘子，雖然不能刨木頭，但在「敲釘子」這件事上，它做到了極致。

看著 AI 生成的角色在我面前侃侃而談，卻沒什么「人機(jī)感」，那種奇妙還是會(huì)忍不住涌上來。工具終將隱形，而創(chuàng)意永遠(yuǎn)閃耀。蒸汽機(jī)所做的，就是把那個(gè)曾經(jīng)無比昂貴、屬于少數(shù)人的導(dǎo)演夢(mèng)，還給了每一個(gè)有話想說的人。

現(xiàn)在，我們已經(jīng)不缺好的工具，只是缺少新鮮的創(chuàng)意；而與眾不同的創(chuàng)意，來自一次次的嘗試。

文｜李超凡、張子豪

文章內(nèi)視頻瀏覽點(diǎn)擊此鏈接訪問：https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.