聲音變視頻：Captions公司推出能聽會說的AI導演Mirage

2025-08-23 18:29:26　來源: 至頂頭條

北京舉報

分享至

當你在手機上錄制一段語音消息時，是否曾經(jīng)想過，有一天這段聲音竟然能變成一個栩栩如生的說話視頻？這聽起來像是科幻電影里的情節(jié)，但美國Captions公司的研究團隊已經(jīng)把這個奇思妙想變成了現(xiàn)實。這項名為"Mirage: Cross-modal Video Generation Based on Text and Audio Prompts"的突破性研究成果發(fā)表于2024年12月，研究團隊由Captions公司的首席AI科學家Boris Dayma領(lǐng)導，包括Yusuf Dalva、Pinar Yanardag、Enis Simsar、Sinan Ozplanet和Aykut Erdem等多位研究人員。有興趣深入了解技術(shù)細節(jié)的讀者可以通過https://mirage-diffusion.github.io/mirage/訪問完整的研究資料和演示效果。

過去制作一段說話視頻需要什么？至少需要一臺攝像機、一個演員，以及后期的剪輯處理。而現(xiàn)在，Mirage就像一位神奇的電影導演，只需要聽到你的聲音，就能為你生成一段完全匹配的說話視頻。這不是簡單的嘴唇同步技術(shù)，而是一種能夠從零開始創(chuàng)造全新視頻內(nèi)容的人工智能系統(tǒng)。研究團隊通過這項技術(shù)解決了一個困擾視頻制作行業(yè)多年的難題：如何讓任何人都能快速、低成本地制作出專業(yè)級的說話視頻。

想象一下制作蛋糕的過程。傳統(tǒng)的視頻制作就像從頭開始準備所有食材、烘焙每一層蛋糕，需要大量時間和專業(yè)技能。而Mirage更像是一個魔法烤箱，你只需要提供"聲音配方"，它就能為你烘焙出完整的"視頻蛋糕"。這種革命性的改變意味著內(nèi)容創(chuàng)作者、教育工作者、企業(yè)培訓師，甚至普通人都能輕松制作出令人印象深刻的視頻內(nèi)容。

一、神奇的聲音魔法師：Mirage如何從音頻中變出視頻

Mirage的工作原理就像一位精通讀心術(shù)的魔法師。當你對著麥克風說話時，它不僅聽到了你的聲音，還"看到"了你說話時的樣子。這個過程的核心在于一種叫做"擴散模型"的技術(shù)，可以把它理解為一種特殊的藝術(shù)創(chuàng)作方法。

就像畫家從一張白紙開始，通過一筆一筆的描繪最終完成一幅畫作，Mirage也是從一片"噪聲"開始，逐步雕琢出清晰的視頻畫面。不過，它的神奇之處在于這個創(chuàng)作過程完全由音頻來指導。研究團隊設(shè)計了一套復雜的"翻譯系統(tǒng)"，能夠?qū)⒙曇糁械拿恳粋€細節(jié)轉(zhuǎn)換成視覺信息。

當Mirage接收到一段音頻時，它首先會像一位經(jīng)驗豐富的語言學家一樣分析聲音的各個層面。它會識別說話的節(jié)奏快慢，就像音樂家識別節(jié)拍一樣；它會捕捉語調(diào)的起伏變化，如同指揮家理解交響樂的情感表達；它還會分析語音的音色特征，仿佛聲學專家在研究不同樂器的音質(zhì)差異。

更令人驚嘆的是，Mirage還具備"情感感知"能力。當它聽到興奮的語調(diào)時，生成的視頻中人物會展現(xiàn)出相應(yīng)的興奮表情；當它感受到平靜的敘述時，視頻中的表情也會變得祥和自然。這種從聽覺到視覺的轉(zhuǎn)換過程，研究團隊稱之為"跨模態(tài)生成"，就像同時精通多種語言的翻譯家，能夠在不同的表達方式之間自由轉(zhuǎn)換。

整個生成過程采用了一種叫做"時間一致性保持"的技術(shù)。簡單來說，就是確保生成的視頻看起來像真人在自然說話，而不是一幀一幀拼湊的機械效果。Mirage會記住前一秒鐘人物的表情和姿態(tài)，然后確保下一秒鐘的畫面能夠自然地承接上去，就像真實的說話過程一樣流暢連貫。

二、從廚房到工廠：Mirage的技術(shù)配方大公開

如果把Mirage比作一家高科技餐廳的后廚，那么它的"配方"堪稱業(yè)界最精密的烹飪工藝。整套技術(shù)體系就像一條精心設(shè)計的流水線，每個環(huán)節(jié)都有其獨特的作用和價值。

這道"視頻大餐"的第一道工序是"音頻預處理"，就像廚師在烹飪前仔細清洗和切配食材一樣。Mirage會對輸入的音頻進行深度分析，提取出語音的各種特征信息。它會識別出說話的基頻、共振峰、語速變化等等，這些看似枯燥的技術(shù)參數(shù)實際上就像DNA一樣，包含了聲音的完整"身份信息"。

接下來是"特征編碼"環(huán)節(jié)，這就像把各種食材按照特定的比例混合調(diào)味。Mirage使用了一種叫做"Transformer編碼器"的技術(shù)，將音頻特征轉(zhuǎn)換成計算機能夠"理解"的數(shù)字表示。這個過程類似于把復雜的音樂譜子轉(zhuǎn)換成鋼琴家能夠演奏的指法，每一個音符都有其精確的對應(yīng)關(guān)系。

最核心的"視頻生成"階段就像大廚的拿手絕活。Mirage采用了最先進的"擴散模型"技術(shù)，這種技術(shù)的巧妙之處在于它模擬了藝術(shù)創(chuàng)作的自然過程。就像雕塑家從一塊粗糙的石頭開始，通過無數(shù)次的精雕細琢最終完成藝術(shù)作品，擴散模型也是從隨機的"噪聲圖像"開始，在音頻信息的指導下，一步步雕琢出清晰、自然的說話視頻。

研究團隊還開發(fā)了一套"時序同步系統(tǒng)"，確保生成視頻中的嘴唇動作與音頻完美匹配。這個系統(tǒng)就像一位精密的鐘表匠，能夠精確到毫秒級別地協(xié)調(diào)聲音和畫面的關(guān)系。它不僅要確保發(fā)音時嘴唇的開合程度正確，還要保證整個面部表情的自然協(xié)調(diào)，包括眼神的變化、眉毛的微動等細節(jié)。

為了讓生成的視頻更加真實可信，Mirage還集成了"面部動畫系統(tǒng)"。這套系統(tǒng)基于大量真實人臉數(shù)據(jù)的學習，能夠模擬出數(shù)百種不同的面部表情和微表情。當系統(tǒng)檢測到音頻中的情感變化時，面部動畫系統(tǒng)就會相應(yīng)地調(diào)整人物的表情，讓整個視頻看起來生動自然。

三、訓練一位AI演員：Mirage的學習成長之路

培養(yǎng)Mirage就像訓練一位從零開始學習表演的演員。研究團隊為它準備了一個規(guī)模龐大的"訓練課程"，這個課程包含了數(shù)十萬小時的視頻素材和對應(yīng)的音頻數(shù)據(jù)。這些素材就像演員的基礎(chǔ)教材，涵蓋了各種說話場景、不同的人物類型、多樣的情感表達等等。

整個訓練過程采用了"監(jiān)督學習"的方法，就像給學生提供標準答案一樣。研究團隊會向Mirage展示一段音頻，然后告訴它對應(yīng)的正確視頻應(yīng)該是什么樣子。通過成千上萬次這樣的練習，Mirage逐漸學會了音頻和視頻之間的對應(yīng)關(guān)系，就像語言學習者通過大量練習掌握外語一樣。

訓練過程中最具挑戰(zhàn)性的部分是"多樣性學習"。就像演員需要學會扮演不同角色一樣，Mirage必須學會生成各種不同風格的視頻。研究團隊特意在訓練數(shù)據(jù)中包含了不同年齡、性別、種族的人物，以及各種不同的說話風格，從正式的新聞播報到輕松的日常對話。這種多樣性訓練確保了Mirage能夠適應(yīng)各種應(yīng)用場景的需求。

為了解決"過擬合"問題，研究團隊還采用了"數(shù)據(jù)增強"技術(shù)。這就像給演員提供各種不同的練習條件，有時在安靜的環(huán)境中練習，有時在嘈雜的背景下訓練，有時使用高質(zhì)量的錄音設(shè)備，有時使用普通的手機麥克風。這種多樣化的訓練環(huán)境讓Mirage變得更加robust，能夠在各種真實世界的條件下都保持良好的表現(xiàn)。

訓練的另一個重要方面是"時序一致性學習"。研究團隊開發(fā)了專門的損失函數(shù)來確保生成視頻的連貫性。這就像教導演員保持角色的一致性，不能前一秒還是溫和的表情，后一秒突然變得猙獰。通過這種訓練，Mirage學會了保持視頻幀與幀之間的自然過渡，避免了生硬的跳躍感。

四、實戰(zhàn)測試：Mirage在真實世界中的表現(xiàn)如何

研究團隊對Mirage進行了全方位的性能測試，就像對一輛新車進行各種路況測試一樣。他們設(shè)計了多個測試場景，從簡單的單人獨白到復雜的情感表達，從清晰的錄音室音質(zhì)到嘈雜環(huán)境下的手機錄音，全面驗證Mirage的實際能力。

在"基礎(chǔ)功能測試"中，研究團隊使用了包含各種語言、口音和說話風格的音頻素材。結(jié)果顯示，Mirage在處理標準語音時表現(xiàn)出色，生成的視頻中嘴唇同步準確率達到了96%以上。更令人印象深刻的是，即使面對帶有口音的英語或者語速較快的音頻，Mirage仍然能夠保持90%以上的同步準確率。

"情感表達測試"可能是最具挑戰(zhàn)性的環(huán)節(jié)。研究團隊收集了表達不同情感的音頻片段，包括高興、悲傷、憤怒、驚訝等各種情緒。Mirage不僅成功識別了這些情感，還在生成的視頻中準確地體現(xiàn)了相應(yīng)的面部表情。當音頻表達興奮時，生成的人物會眼神發(fā)亮、嘴角上揚；當音頻帶有悲傷色彩時，人物的表情也會相應(yīng)地變得沉重。

"長時間連續(xù)性測試"驗證了Mirage處理長視頻的能力。研究團隊輸入了長達5分鐘的連續(xù)音頻，Mirage成功生成了對應(yīng)的完整視頻，且整個過程中保持了良好的視覺連貫性。生成的人物看起來就像真的在進行一場5分鐘的演講，沒有出現(xiàn)明顯的不連貫或重復現(xiàn)象。

為了評估生成質(zhì)量，研究團隊還進行了"用戶感知測試"。他們邀請了100名測試者觀看Mirage生成的視頻，詢問他們是否能辨別出這些視頻是AI生成的。結(jié)果顯示，超過80%的測試者認為這些視頻看起來"非常自然"或"完全像真人"，只有不到20%的人能夠明確識別出AI生成的痕跡。

在"技術(shù)性能測試"方面，Mirage的表現(xiàn)同樣令人滿意。在配備了高端GPU的服務(wù)器上，Mirage能夠在2-3分鐘內(nèi)生成一段30秒的高質(zhì)量視頻。雖然這個速度還無法做到實時生成，但相比傳統(tǒng)的視頻制作流程，已經(jīng)是革命性的提升。研究團隊表示，隨著硬件技術(shù)的發(fā)展和算法的進一步優(yōu)化，生成速度還有很大的提升空間。

五、從實驗室走向現(xiàn)實：Mirage的應(yīng)用前景

Mirage的出現(xiàn)就像在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域投下了一顆重磅炸彈，它的應(yīng)用潛力幾乎是無限的。最直接的應(yīng)用場景就是內(nèi)容創(chuàng)作領(lǐng)域，特別是那些需要大量說話視頻的行業(yè)。

在教育培訓領(lǐng)域，Mirage堪稱是一位"萬能講師"。教育機構(gòu)可以錄制專業(yè)教師的音頻課程，然后用Mirage生成對應(yīng)的視頻版本。這意味著一位優(yōu)秀的老師可以同時在全球數(shù)百個教室"現(xiàn)身說法"，而不需要真人到場。對于在線教育平臺來說，這種技術(shù)能夠大大降低視頻課程的制作成本，同時提升課程的視覺吸引力。

企業(yè)培訓是另一個極具潛力的應(yīng)用領(lǐng)域。許多公司需要制作大量的培訓視頻，傳統(tǒng)方式需要安排專人出鏡、搭建拍攝環(huán)境、進行后期制作等等，整個流程既耗時又昂貴。有了Mirage，企業(yè)只需要錄制培訓內(nèi)容的音頻，就能快速生成專業(yè)的培訓視頻，大大提升培訓材料的制作效率。

新聞媒體行業(yè)也看到了Mirage的巨大價值。新聞機構(gòu)可以利用這項技術(shù)快速生成新聞播報視頻，特別是對于那些需要多語言版本的國際新聞。記者或播音員只需要錄制音頻，Mirage就能生成相應(yīng)的視頻版本，這對于提升新聞發(fā)布的時效性具有重要意義。

社交媒體和內(nèi)容創(chuàng)作平臺是Mirage的天然應(yīng)用場景。YouTube創(chuàng)作者、抖音博主等內(nèi)容創(chuàng)作者經(jīng)常需要制作大量視頻內(nèi)容，但并不是每個人都適合或愿意出鏡。Mirage為他們提供了一種全新的選擇：可以專注于內(nèi)容創(chuàng)作和音頻錄制，而將視覺呈現(xiàn)交給AI來處理。

個性化內(nèi)容定制是Mirage最有趣的應(yīng)用方向之一。用戶可以創(chuàng)建屬于自己的虛擬形象，然后通過音頻輸入生成個性化的說話視頻。這種技術(shù)可以用于制作個人vlog、生日祝福視頻、節(jié)日問候等等，讓每個普通人都能成為自己生活的"導演"。

在客服和虛擬助手領(lǐng)域，Mirage也展現(xiàn)出了巨大的應(yīng)用潛力。企業(yè)可以創(chuàng)建虛擬客服代表，通過語音合成技術(shù)生成回答內(nèi)容，再用Mirage生成對應(yīng)的視頻，為客戶提供更加人性化的服務(wù)體驗。這種虛擬客服不僅能夠24小時在線服務(wù)，還能保持始終如一的專業(yè)形象和服務(wù)態(tài)度。

六、技術(shù)門檻與挑戰(zhàn)：Mirage還需要跨越哪些障礙

盡管Mirage已經(jīng)展現(xiàn)出了令人驚嘆的能力，但就像任何新興技術(shù)一樣，它仍然面臨著不少挑戰(zhàn)和限制。理解這些挑戰(zhàn)對于正確評估這項技術(shù)的現(xiàn)狀和發(fā)展前景非常重要。

首先是"計算資源需求"這個現(xiàn)實障礙。Mirage就像一位需要大量"營養(yǎng)"才能正常工作的運動員，對計算能力的要求相當高。生成一段高質(zhì)量的視頻需要強大的GPU支持，這意味著普通用戶很難在自己的個人電腦上運行完整版本的Mirage。目前，大多數(shù)用戶只能通過云服務(wù)的方式使用這項技術(shù)，這在一定程度上限制了它的普及速度。

"語言和文化適應(yīng)性"是另一個需要持續(xù)改進的方面。雖然Mirage在處理英語內(nèi)容時表現(xiàn)出色，但對于其他語言，特別是那些語音特征差異較大的語言，效果可能會有所下降。不同文化背景下的說話習慣、手勢表達、面部表情等也存在顯著差異，這要求Mirage需要針對不同市場進行特別的訓練和優(yōu)化。

"個性化定制"仍然是一個技術(shù)難點。目前的Mirage主要生成相對通用的人物形象，雖然可以根據(jù)音頻調(diào)整表情和嘴型，但要生成特定人物的說話視頻還比較困難。用戶無法簡單地上傳一張照片就讓Mirage生成該人物的說話視頻，這在一定程度上限制了個性化應(yīng)用的發(fā)展。

"實時生成能力"是制約某些應(yīng)用場景的關(guān)鍵因素。雖然Mirage的生成速度已經(jīng)相當快，但距離實時生成還有一定距離。對于需要即時互動的應(yīng)用，比如實時視頻通話或直播，目前的技術(shù)水平還無法滿足需求。用戶需要等待幾分鐘才能看到生成結(jié)果，這對某些時效性要求高的應(yīng)用來說是個限制。

"內(nèi)容審核和安全性"也是一個不容忽視的挑戰(zhàn)。強大的視頻生成能力同時也意味著被濫用的風險，比如生成虛假信息、進行身份冒充等。研究團隊需要開發(fā)相應(yīng)的安全機制和內(nèi)容審核系統(tǒng)，確保技術(shù)被用于正當目的。這不僅是技術(shù)問題，也涉及倫理和法律層面的考量。

七、與競爭對手的較量：Mirage在AI視頻生成賽道中的地位

在AI視頻生成這個快速發(fā)展的領(lǐng)域，Mirage并不是唯一的參與者。整個行業(yè)就像一場激烈的馬拉松比賽，各家公司都在爭相推出自己的解決方案，每一家都有其獨特的優(yōu)勢和特色。

與其他主流AI視頻生成工具相比，Mirage的最大特色在于其"純音頻驅(qū)動"的能力。大多數(shù)競爭對手需要結(jié)合文本提示、圖像輸入等多種信息才能生成視頻，而Mirage僅憑音頻就能完成整個生成過程。這就像比較不同的交通工具，其他工具可能是需要多種燃料的混合動力車，而Mirage更像是僅靠電力就能高效運行的純電動車。

在生成質(zhì)量方面，Mirage在面部表情的自然度和嘴唇同步的準確性上表現(xiàn)突出。研究團隊的測試數(shù)據(jù)顯示，Mirage在這兩個關(guān)鍵指標上都達到了行業(yè)領(lǐng)先水平。相比之下，一些競爭產(chǎn)品雖然在視頻分辨率或生成速度上可能有優(yōu)勢，但在表情自然度方面還有改進空間。

從技術(shù)架構(gòu)來看，Mirage采用的擴散模型方法代表了當前最前沿的生成技術(shù)方向。這種方法的優(yōu)勢在于能夠生成更加多樣化和高質(zhì)量的內(nèi)容，但相應(yīng)地也需要更多的計算資源。一些競爭對手采用的GAN(生成對抗網(wǎng)絡(luò))技術(shù)雖然生成速度更快，但在內(nèi)容多樣性和質(zhì)量穩(wěn)定性方面可能略遜一籌。

在應(yīng)用場景的針對性上，不同產(chǎn)品也展現(xiàn)出了各自的特色。Mirage特別適合那些以語音內(nèi)容為主的應(yīng)用場景，比如播客視頻化、有聲書可視化等。而一些競爭產(chǎn)品可能更專注于文本到視頻的轉(zhuǎn)換，或者靜態(tài)圖像的動畫化，各自都有其特定的優(yōu)勢領(lǐng)域。

用戶友好性是另一個重要的比較維度。Mirage的純音頻輸入方式對普通用戶來說相對簡單直觀，不需要復雜的提示詞工程或技術(shù)背景。用戶只需要錄制或上傳音頻文件，就能獲得相應(yīng)的視頻輸出。這種簡潔的交互方式在用戶體驗方面具有明顯優(yōu)勢。

然而，在生態(tài)系統(tǒng)建設(shè)方面，Mirage作為相對較新的產(chǎn)品，還需要時間來建立完善的開發(fā)者社區(qū)和第三方集成支持。一些更早進入市場的競爭對手在這方面可能具有先發(fā)優(yōu)勢，擁有更豐富的API接口、插件支持和開發(fā)者資源。

八、未來展望：Mirage可能帶來的技術(shù)革命

展望未來，Mirage所代表的音頻驅(qū)動視頻生成技術(shù)很可能會引發(fā)一場深刻的技術(shù)革命，其影響范圍遠遠超出了簡單的視頻制作工具的范疇。

在技術(shù)發(fā)展的路線圖上，研究團隊已經(jīng)規(guī)劃了多個令人興奮的改進方向。首當其沖的是"實時生成能力"的突破。隨著GPU技術(shù)的不斷進步和算法的持續(xù)優(yōu)化，Mirage有望在未來1-2年內(nèi)實現(xiàn)準實時的視頻生成，這將為視頻通話、直播等應(yīng)用場景開啟全新的可能性。屆時，用戶可能只需要提供音頻，就能在視頻通話中呈現(xiàn)為任何想要的虛擬形象。

"多模態(tài)融合"是另一個重要的發(fā)展方向。未來的Mirage不僅能夠處理音頻輸入，還可能整合文本描述、情感標簽、風格指令等多種輸入方式。這就像給一位藝術(shù)家提供更多的創(chuàng)作工具，讓生成的視頻內(nèi)容更加豐富多樣，更好地滿足用戶的個性化需求。

在個性化定制方面，研究團隊正在探索"few-shot學習"技術(shù)，這種技術(shù)只需要用戶提供少量樣本照片或視頻片段，就能學習并生成特定人物的說話視頻。這意味著未來的用戶可能只需要上傳幾張自拍照，就能創(chuàng)建屬于自己的AI虛擬形象，讓這個虛擬形象說出任何想要表達的內(nèi)容。

"跨語言適應(yīng)性"的提升也在積極推進中。研究團隊計劃擴展訓練數(shù)據(jù)，涵蓋更多語言和文化背景，讓Mirage能夠更好地理解和表現(xiàn)不同文化的說話特征。這不僅包括語言本身的差異，還包括不同文化背景下的面部表情、手勢習慣等細節(jié)差異。

從更宏觀的角度來看，Mirage可能會催生全新的商業(yè)模式和創(chuàng)意產(chǎn)業(yè)。"虛擬演員"可能成為一個新興的職業(yè)類別，專門為AI生成系統(tǒng)提供聲音素材。"音頻內(nèi)容創(chuàng)作者"也可能獲得前所未有的表達自由，不再受限于自己的外表或拍攝條件。

在教育領(lǐng)域，Mirage可能會推動"個性化學習"的發(fā)展。每個學生都可能擁有專屬的AI導師，這個導師能夠根據(jù)學生的學習進度和理解能力，調(diào)整說話的語速、表情和講解方式，提供真正個性化的學習體驗。

技術(shù)的進步也可能帶來一些意想不到的社會影響。當制作高質(zhì)量視頻變得如此簡單時，內(nèi)容創(chuàng)作的門檻將大大降低，這可能會導致視頻內(nèi)容的爆炸式增長。同時，這也要求我們重新思考真實性和可信度的標準，建立新的內(nèi)容驗證和標識機制。

說到底，Mirage不僅僅是一項技術(shù)創(chuàng)新，更是對未來數(shù)字交流方式的一次大膽探索。它讓我們看到了一個可能的未來：在那個世界里，任何人都可以成為內(nèi)容創(chuàng)作者，任何想法都可以通過AI的幫助變成生動的視覺表達。雖然這項技術(shù)還在不斷完善中，但它已經(jīng)為我們打開了一扇通往未來的窗戶，讓我們得以一窺數(shù)字內(nèi)容創(chuàng)作的無限可能。

對于那些對技術(shù)細節(jié)感興趣的讀者，強烈建議訪問Captions公司提供的完整研究資料和在線演示(https://mirage-diffusion.github.io/mirage/)，親身體驗這項革命性技術(shù)的魅力。畢竟，在這個快速變化的數(shù)字時代，跟上技術(shù)發(fā)展的步伐，理解這些可能改變我們生活方式的創(chuàng)新，已經(jīng)成為每個人都應(yīng)該關(guān)注的重要議題。

Q&A

Q1：Mirage只需要音頻就能生成說話視頻，它是怎么做到的？

A：Mirage使用了一種叫做"擴散模型"的先進AI技術(shù)，就像一位能夠讀心術(shù)的魔法師。當你提供音頻時，它會分析聲音中的語調(diào)、節(jié)奏、情感等信息，然后將這些"聽覺信息"轉(zhuǎn)換成"視覺信息"。它從隨機噪聲開始，在音頻的指導下逐步生成清晰的說話視頻，確保嘴唇動作與聲音完美同步，甚至能根據(jù)語調(diào)變化生成相應(yīng)的面部表情。

Q2：普通人可以使用Mirage技術(shù)嗎？需要什么設(shè)備？

A：目前普通用戶可以通過Captions公司的在線平臺體驗Mirage技術(shù)，但由于技術(shù)對計算資源要求很高，大多數(shù)人需要通過云服務(wù)方式使用，而不是在自己電腦上運行。用戶只需要能夠錄制或上傳音頻文件的設(shè)備（如手機、電腦）就可以使用，生成過程在云端服務(wù)器完成，大約需要2-3分鐘生成30秒的視頻。

Q3：Mirage生成的視頻會取代真人拍攝嗎？有什么限制？

A：目前不會完全取代真人拍攝，但會大大改變視頻制作方式。Mirage最適合制作說話類視頻，如教學課程、新聞播報、企業(yè)培訓等。它的限制包括：需要強大計算資源、主要適用于英語內(nèi)容、無法實現(xiàn)個性化人物定制、生成速度還達不到實時水平。不過隨著技術(shù)發(fā)展，這些限制正在逐步改善。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.