現(xiàn)在刷社交媒體,你會(huì)發(fā)現(xiàn)一些畫面精良的爆款視頻,其實(shí)已經(jīng)是 AI 制作的。但作為一個(gè)創(chuàng)作者,除了要像「抽卡」,在畫面之外,有一個(gè)問題一直沒有得到很好的解決。
這個(gè)問題就是對(duì)白。
比如我讓 AI 生成一段「唯美雨景」,這不難。但要讓 AI 生成一段有情節(jié)、有對(duì)話的「雨中分手戲」,對(duì)白還得是地道的中文,這就很棘手了。
AI 生成的要么是完全的「啞劇」,需要?jiǎng)?chuàng)作者后期對(duì)口型、配音;要么是能開口說話,但語音語調(diào)不自然,充滿了「人機(jī)感」和「翻譯腔」,讓本該感傷的劇情瞬間出戲。
這也是當(dāng)下 AI 視頻生成最大的挑戰(zhàn)之一:如何處理包含對(duì)白,尤其是帶有復(fù)雜情緒的中文對(duì)白。
可以說,能否搞定自然流暢的中文對(duì)話,是 AI 視頻能否從一個(gè)「看個(gè)樂子」的玩具,變成真正生產(chǎn)力工具的關(guān)鍵。
百度今天發(fā)布的蒸汽機(jī)(MuseSteamer)視頻模型2.0,似乎就是沖著這個(gè)核心痛點(diǎn)來的。它最讓我關(guān)注的一個(gè)點(diǎn),是全球首個(gè)中文音視頻一體化生成技術(shù),號(hào)稱是吃「中文語料」長(zhǎng)大的,能夠一步到位地生成音畫同步、口型精準(zhǔn)、情感自然的中文對(duì)話視頻。
為了驗(yàn)證它到底是真正解決了創(chuàng)作者的難題,還是又一次停留在宣傳片里的技術(shù)展示,我決定繞開那些官方的精選案例(Demo),設(shè)計(jì)幾個(gè)更接近普通人日常創(chuàng)作需求的「刁鉆」場(chǎng)景,親自探探它的虛實(shí)。
體驗(yàn)地址:https://huixiang.baidu.com/
從一張圖,到一場(chǎng)有聲的對(duì)手戲
百度蒸汽機(jī)這次提供了 4 款生成模型,都是從一張圖生成一個(gè)視頻,分別是蒸汽機(jī) 2.0 turbo、pro、lite、以及有聲版;不同的模型會(huì)消耗不同數(shù)量的積分,免費(fèi)用戶每月登錄可以獲得有限額度的想象力值(積分)。
有聲版可以生成 5s 或者 10s 的視頻,而 Turbo 等三個(gè)版本是 5s,像素方面除了 Pro 版本支持 1080p,其他三個(gè)版本都是 720p 高清畫質(zhì)。
我們直接給他一張圖,然后按照視頻生成頁(yè)面的提示,輸入想要生成的視頻內(nèi)容和主題臺(tái)詞;5s 的視頻,將臺(tái)詞控制在 20 字以內(nèi),10s 的視頻字?jǐn)?shù)控制在 35 字以內(nèi)。
▲ 我們上傳了一張馬斯克和奧特曼的合照,配上提示詞:兩個(gè)人針鋒相對(duì),左邊的人先說,「你做的AI毫無底線」;右邊的人說,「你的營(yíng)銷才是沒有底線」;由蒸汽機(jī) 2.0 有聲版生成。
首先,靜態(tài)照片里的馬斯克和奧特曼被自然地驅(qū)動(dòng)了起來,面部表情和肢體動(dòng)作都相當(dāng)流暢,并且和上傳的圖片基本保持一致,圖生視頻的基礎(chǔ)能力還是很扎實(shí)的。
更關(guān)鍵的是對(duì)話部分,這個(gè)表現(xiàn),必須承認(rèn),在中文口型同步上,百度蒸汽機(jī)確實(shí)做到了目前的第一梯隊(duì)。嘴唇的開合,與「底線」、「營(yíng)銷」等一些詞語的發(fā)音匹配度很高,沒有明顯的延遲或錯(cuò)位。
▲ 一張浪浪山小妖怪的首幀圖,配合提示詞:畫面中,手持干草叉的野豬小妖抬頭,滿懷期待地看向身邊身材魁梧的熊教頭。 臺(tái)詞: (第0-5秒)手持干草叉的野豬小妖說: 「教頭,咱們把盔甲擦亮點(diǎn),打起來更有氣勢(shì)!」 (第5-10秒)身材魁梧的熊教頭向下瞥了他一眼,不耐煩地打斷道: 「有那工夫?先給我削一千支箭出來!」
在發(fā)布會(huì)上,百度特別提到,這是來自「音視頻一體化」的底層生成邏輯,聲音和畫面是同步構(gòu)思的,而非后期匹配,他們?cè)谟?xùn)練時(shí)就把畫面和聲音放在一個(gè)模型里同步學(xué)習(xí)。
此外,還有一個(gè)「多模態(tài)潛在空間規(guī)劃器」(Latent Multi Modal Planner)的首創(chuàng)技術(shù);多模態(tài)很好理解,就是文本、畫面、音頻,Latent 是深度學(xué)習(xí)里面術(shù)語,主要是學(xué)習(xí)潛在的特征,這個(gè)技術(shù)能夠自主地規(guī)劃潛在生成空間里的多個(gè)角色身份、臺(tái)詞、以及互動(dòng)邏輯等。
通俗來講,我們可以把它想象成一個(gè)內(nèi)置在 AI 里的導(dǎo)演,當(dāng)給出「讓兩個(gè)人吵架」的指令時(shí),它不會(huì)傻傻地讓兩人同時(shí)說話,而是會(huì)自主規(guī)劃吵架劇本。
我們還嘗試了一些東北話這樣的方言,想看看在多人對(duì)話里,是不是也完全沒有問題。
▲ 提示詞:畫面左邊的藍(lán)衣女子耳語急促而冰冷,用東北話說:「姐姐,真心是咱們的炭,也是燒死咱們的火」;畫面右邊的紫粉衣女子決絕地用東北話回應(yīng):「那不如,就燒得干凈些」;由蒸汽機(jī) 2.0 有聲版生成。
讓甄嬛和沈眉莊在音視頻一體化生產(chǎn)的模型里,說東北話確實(shí)為難了點(diǎn),但是人物表情,嘴唇的動(dòng)作,耳環(huán)、頭飾等運(yùn)動(dòng)都非常自然。中文語音的細(xì)節(jié)還原度也很高,我覺得是真正做到了中文語境的深度適配。
還有這張經(jīng)典的梗圖,終于不是「快來品嘗我新鮮的肉體」了。
▲ 一張萬萬沒想到短片截圖,提示詞:畫面左邊帶著紅色帽子的唐僧,用手指著牛角的人的鼻子,非常生氣的說:「還想品嘗我新鮮的肉體,沒門!」
百度蒸汽機(jī)確實(shí)精準(zhǔn)地?fù)糁辛?,讓一張圖開口說話演一出對(duì)手戲,這個(gè)創(chuàng)作痛點(diǎn)。它將過去繁瑣的多工具流程,簡(jiǎn)化為「一張圖+一句話」的一步操作,這對(duì)于 Meme 二創(chuàng)、虛擬人對(duì)話、知識(shí)講解、短劇制作等場(chǎng)景來說,無疑是一次生產(chǎn)力的解放。
如果說要真正做到前段時(shí)間流行的《甄嬛傳》和《讓子彈飛》的視頻配音演示效果,還是有些差距。但看現(xiàn)在的 AI 視頻生成技術(shù)發(fā)展,AI 能表達(dá)更細(xì)膩、更矛盾的人類情感,我想也只是時(shí)間上的問題,畢竟蒸汽機(jī) 1.0 模型還是上個(gè)月初發(fā)布的。
運(yùn)鏡和大場(chǎng)面,它能駕馭嗎?
除了在中文場(chǎng)景下,雙人有聲的音視頻一體化生成首創(chuàng),百度蒸汽機(jī) 2.0 的另一項(xiàng)升級(jí)是電影級(jí)的畫質(zhì)和大師級(jí)的復(fù)雜運(yùn)鏡。
之前的對(duì)話視頻里,情緒、表情以及 3D 面部生成,都算得上展示了真實(shí)細(xì)膩的人物表現(xiàn)力。我們繼續(xù)測(cè)試了廣告和短劇中常見的轉(zhuǎn)場(chǎng)、空鏡,這些可以說是 AI 視頻,除了對(duì)話的另一個(gè)剛需。
▲ 提供首幀圖,并附上提示詞:一個(gè)鏡頭,從書桌上的翻開的書本特寫開始,慢慢向上拉起,最終定格在窗外下著雨的街景上;由蒸汽機(jī) 2.0 Pro 生成。
從生成的視頻效果來看,蒸汽機(jī)把指令的遵循做得非常好。整個(gè)運(yùn)鏡過程,特寫、向上拉、定格,執(zhí)行得相當(dāng)流暢,沒有出現(xiàn)鏡頭亂晃或指令理解錯(cuò)誤的問題。這也說明它對(duì)攝影術(shù)語的理解是到位的。
當(dāng) AI 學(xué)會(huì)地道中文,視頻創(chuàng)作新的轉(zhuǎn)折點(diǎn)來了
經(jīng)過這番測(cè)試,我認(rèn)為百度蒸汽機(jī) 2.0 的定位非常清晰:它并非要成為一個(gè)無所不包的 Sora 式模型,而是選擇了一條更務(wù)實(shí)的路徑:以「中文對(duì)話」為核心突破口,將 AI 視頻從一個(gè)有趣的「玩具」,推進(jìn)到了一個(gè)可以交付成片的「工具」。
它繞開了單純比拼畫質(zhì)和時(shí)長(zhǎng)的內(nèi)卷,把更多力氣都花在了解決一個(gè)最要命、也最本土化的問題上——讓 AI 視頻真正「開口說中國(guó)話」,而且說得比真人還溜。
這種從「玩具」到「工具」的轉(zhuǎn)變,已經(jīng)在真實(shí)的創(chuàng)作和商業(yè)領(lǐng)域得到了驗(yàn)證。
好萊塢級(jí)視效指導(dǎo)姚騏,曾參與《2012》、《黑客帝國(guó)3》、《變形金剛3》等影視作品的視效工作,在國(guó)產(chǎn)科幻劇《三體》中打造了經(jīng)典的古箏行動(dòng)畫面特效。這次,他就用百度蒸汽機(jī)創(chuàng)作了一支高品質(zhì)科幻短片,其中包含 40 多個(gè)宏大復(fù)雜的特效鏡頭,每個(gè)鏡頭生成 3 次,總計(jì)生成了 120 多個(gè)片段素材,累計(jì)僅花費(fèi)了 330.6 元。
▲ 發(fā)布會(huì)視頻《歸途》
當(dāng)一個(gè)過去需要百萬元級(jí)別預(yù)算的短片,其視覺生成成本被壓縮到難以想象的低位時(shí),被顛覆的不僅僅是預(yù)算,更是創(chuàng)作的門檻和權(quán)利。
這背后,解決的不僅是成本的問題,更是從生成一個(gè)酷炫片段到講述一個(gè)完整故事的轉(zhuǎn)變。當(dāng)宏大視效可以與敘事和對(duì)白無縫結(jié)合時(shí),AI 才真正從一個(gè)特效插件,升級(jí)為創(chuàng)作者手里的高效率工具。
在品牌營(yíng)銷場(chǎng)景,這種模式也打破了常規(guī)的視頻制作流程。比如伊利倍暢需要為一款羊奶粉制作宣傳片《漂「羊」過海來看你》,傳統(tǒng)方式不僅周期一般需要 4-6 周,而且要用實(shí)拍呈現(xiàn)「小羊莎莎」坐熱氣球環(huán)游荷蘭草原和高科技工廠的奇幻之旅,成本和難度都極高。
但這次制作團(tuán)隊(duì)利用蒸汽機(jī),將這些實(shí)拍難以完成的奇幻場(chǎng)景,通過風(fēng)格化的 AI 渲染來實(shí)現(xiàn) 。更重要的是,AI 將荷蘭奶源、益生菌配方等硬核賣點(diǎn),流暢融入了敘事中,制作周期縮短到了幾天之內(nèi),畫面不違和,同時(shí)表達(dá)了品牌的理念。
無論是專業(yè)大神,還是無數(shù)中小創(chuàng)作者與品牌方,相當(dāng)于都獲得了「賽博神筆」 。你只需要「一張圖+一句話」,就能讓靜態(tài)的兵馬俑活過來打電話,或者讓張飛一邊繡花一邊跟你嘮嗑。這種創(chuàng)作門檻的消失,正在重塑內(nèi)容行業(yè)的成本公式和競(jìng)爭(zhēng)規(guī)則。
當(dāng)然,它也不是完美的瑞士軍刀。目前它在非對(duì)話的純視覺特效上,生成視頻的時(shí)長(zhǎng)也還有限制,音色風(fēng)格的選擇也可以更豐富。
但在快速迭代 AI 產(chǎn)品浪潮中,也沒有真正完美的產(chǎn)品,反而能更快落地解決用戶的實(shí)際需求,才更有意義。 百度蒸汽機(jī)沒有陷入技術(shù)軍備競(jìng)賽的虛榮,而是選擇了一條更務(wù)實(shí)、更貼近市場(chǎng)的路。它就像一個(gè)專注于把釘子敲好的錘子,雖然不能刨木頭,但在「敲釘子」這件事上,它做到了極致。
看著 AI 生成的角色在我面前侃侃而談,卻沒什么「人機(jī)感」,那種奇妙還是會(huì)忍不住涌上來。工具終將隱形,而創(chuàng)意永遠(yuǎn)閃耀。蒸汽機(jī)所做的,就是把那個(gè)曾經(jīng)無比昂貴、屬于少數(shù)人的導(dǎo)演夢(mèng),還給了每一個(gè)有話想說的人。
現(xiàn)在,我們已經(jīng)不缺好的工具,只是缺少新鮮的創(chuàng)意;而與眾不同的創(chuàng)意,來自一次次的嘗試。
文|李超凡、張子豪
文章內(nèi)視頻瀏覽點(diǎn)擊此鏈接訪問:https://mp.weixin.qq.com/s/cy7m7e97AVVo5VqUcnS0_w
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.