當你在手機上錄制一段語音消息時,是否曾經(jīng)想過,有一天這段聲音竟然能變成一個栩栩如生的說話視頻?這聽起來像是科幻電影里的情節(jié),但美國Captions公司的研究團隊已經(jīng)把這個奇思妙想變成了現(xiàn)實。這項名為"Mirage: Cross-modal Video Generation Based on Text and Audio Prompts"的突破性研究成果發(fā)表于2024年12月,研究團隊由Captions公司的首席AI科學家Boris Dayma領(lǐng)導,包括Yusuf Dalva、Pinar Yanardag、Enis Simsar、Sinan Ozplanet和Aykut Erdem等多位研究人員。有興趣深入了解技術(shù)細節(jié)的讀者可以通過https://mirage-diffusion.github.io/mirage/訪問完整的研究資料和演示效果。
過去制作一段說話視頻需要什么?至少需要一臺攝像機、一個演員,以及后期的剪輯處理。而現(xiàn)在,Mirage就像一位神奇的電影導演,只需要聽到你的聲音,就能為你生成一段完全匹配的說話視頻。這不是簡單的嘴唇同步技術(shù),而是一種能夠從零開始創(chuàng)造全新視頻內(nèi)容的人工智能系統(tǒng)。研究團隊通過這項技術(shù)解決了一個困擾視頻制作行業(yè)多年的難題:如何讓任何人都能快速、低成本地制作出專業(yè)級的說話視頻。
想象一下制作蛋糕的過程。傳統(tǒng)的視頻制作就像從頭開始準備所有食材、烘焙每一層蛋糕,需要大量時間和專業(yè)技能。而Mirage更像是一個魔法烤箱,你只需要提供"聲音配方",它就能為你烘焙出完整的"視頻蛋糕"。這種革命性的改變意味著內(nèi)容創(chuàng)作者、教育工作者、企業(yè)培訓師,甚至普通人都能輕松制作出令人印象深刻的視頻內(nèi)容。
一、神奇的聲音魔法師:Mirage如何從音頻中變出視頻
Mirage的工作原理就像一位精通讀心術(shù)的魔法師。當你對著麥克風說話時,它不僅聽到了你的聲音,還"看到"了你說話時的樣子。這個過程的核心在于一種叫做"擴散模型"的技術(shù),可以把它理解為一種特殊的藝術(shù)創(chuàng)作方法。
就像畫家從一張白紙開始,通過一筆一筆的描繪最終完成一幅畫作,Mirage也是從一片"噪聲"開始,逐步雕琢出清晰的視頻畫面。不過,它的神奇之處在于這個創(chuàng)作過程完全由音頻來指導。研究團隊設(shè)計了一套復雜的"翻譯系統(tǒng)",能夠?qū)⒙曇糁械拿恳粋€細節(jié)轉(zhuǎn)換成視覺信息。
當Mirage接收到一段音頻時,它首先會像一位經(jīng)驗豐富的語言學家一樣分析聲音的各個層面。它會識別說話的節(jié)奏快慢,就像音樂家識別節(jié)拍一樣;它會捕捉語調(diào)的起伏變化,如同指揮家理解交響樂的情感表達;它還會分析語音的音色特征,仿佛聲學專家在研究不同樂器的音質(zhì)差異。
更令人驚嘆的是,Mirage還具備"情感感知"能力。當它聽到興奮的語調(diào)時,生成的視頻中人物會展現(xiàn)出相應(yīng)的興奮表情;當它感受到平靜的敘述時,視頻中的表情也會變得祥和自然。這種從聽覺到視覺的轉(zhuǎn)換過程,研究團隊稱之為"跨模態(tài)生成",就像同時精通多種語言的翻譯家,能夠在不同的表達方式之間自由轉(zhuǎn)換。
整個生成過程采用了一種叫做"時間一致性保持"的技術(shù)。簡單來說,就是確保生成的視頻看起來像真人在自然說話,而不是一幀一幀拼湊的機械效果。Mirage會記住前一秒鐘人物的表情和姿態(tài),然后確保下一秒鐘的畫面能夠自然地承接上去,就像真實的說話過程一樣流暢連貫。
二、從廚房到工廠:Mirage的技術(shù)配方大公開
如果把Mirage比作一家高科技餐廳的后廚,那么它的"配方"堪稱業(yè)界最精密的烹飪工藝。整套技術(shù)體系就像一條精心設(shè)計的流水線,每個環(huán)節(jié)都有其獨特的作用和價值。
這道"視頻大餐"的第一道工序是"音頻預處理",就像廚師在烹飪前仔細清洗和切配食材一樣。Mirage會對輸入的音頻進行深度分析,提取出語音的各種特征信息。它會識別出說話的基頻、共振峰、語速變化等等,這些看似枯燥的技術(shù)參數(shù)實際上就像DNA一樣,包含了聲音的完整"身份信息"。
接下來是"特征編碼"環(huán)節(jié),這就像把各種食材按照特定的比例混合調(diào)味。Mirage使用了一種叫做"Transformer編碼器"的技術(shù),將音頻特征轉(zhuǎn)換成計算機能夠"理解"的數(shù)字表示。這個過程類似于把復雜的音樂譜子轉(zhuǎn)換成鋼琴家能夠演奏的指法,每一個音符都有其精確的對應(yīng)關(guān)系。
最核心的"視頻生成"階段就像大廚的拿手絕活。Mirage采用了最先進的"擴散模型"技術(shù),這種技術(shù)的巧妙之處在于它模擬了藝術(shù)創(chuàng)作的自然過程。就像雕塑家從一塊粗糙的石頭開始,通過無數(shù)次的精雕細琢最終完成藝術(shù)作品,擴散模型也是從隨機的"噪聲圖像"開始,在音頻信息的指導下,一步步雕琢出清晰、自然的說話視頻。
研究團隊還開發(fā)了一套"時序同步系統(tǒng)",確保生成視頻中的嘴唇動作與音頻完美匹配。這個系統(tǒng)就像一位精密的鐘表匠,能夠精確到毫秒級別地協(xié)調(diào)聲音和畫面的關(guān)系。它不僅要確保發(fā)音時嘴唇的開合程度正確,還要保證整個面部表情的自然協(xié)調(diào),包括眼神的變化、眉毛的微動等細節(jié)。
為了讓生成的視頻更加真實可信,Mirage還集成了"面部動畫系統(tǒng)"。這套系統(tǒng)基于大量真實人臉數(shù)據(jù)的學習,能夠模擬出數(shù)百種不同的面部表情和微表情。當系統(tǒng)檢測到音頻中的情感變化時,面部動畫系統(tǒng)就會相應(yīng)地調(diào)整人物的表情,讓整個視頻看起來生動自然。
三、訓練一位AI演員:Mirage的學習成長之路
培養(yǎng)Mirage就像訓練一位從零開始學習表演的演員。研究團隊為它準備了一個規(guī)模龐大的"訓練課程",這個課程包含了數(shù)十萬小時的視頻素材和對應(yīng)的音頻數(shù)據(jù)。這些素材就像演員的基礎(chǔ)教材,涵蓋了各種說話場景、不同的人物類型、多樣的情感表達等等。
整個訓練過程采用了"監(jiān)督學習"的方法,就像給學生提供標準答案一樣。研究團隊會向Mirage展示一段音頻,然后告訴它對應(yīng)的正確視頻應(yīng)該是什么樣子。通過成千上萬次這樣的練習,Mirage逐漸學會了音頻和視頻之間的對應(yīng)關(guān)系,就像語言學習者通過大量練習掌握外語一樣。
訓練過程中最具挑戰(zhàn)性的部分是"多樣性學習"。就像演員需要學會扮演不同角色一樣,Mirage必須學會生成各種不同風格的視頻。研究團隊特意在訓練數(shù)據(jù)中包含了不同年齡、性別、種族的人物,以及各種不同的說話風格,從正式的新聞播報到輕松的日常對話。這種多樣性訓練確保了Mirage能夠適應(yīng)各種應(yīng)用場景的需求。
為了解決"過擬合"問題,研究團隊還采用了"數(shù)據(jù)增強"技術(shù)。這就像給演員提供各種不同的練習條件,有時在安靜的環(huán)境中練習,有時在嘈雜的背景下訓練,有時使用高質(zhì)量的錄音設(shè)備,有時使用普通的手機麥克風。這種多樣化的訓練環(huán)境讓Mirage變得更加robust,能夠在各種真實世界的條件下都保持良好的表現(xiàn)。
訓練的另一個重要方面是"時序一致性學習"。研究團隊開發(fā)了專門的損失函數(shù)來確保生成視頻的連貫性。這就像教導演員保持角色的一致性,不能前一秒還是溫和的表情,后一秒突然變得猙獰。通過這種訓練,Mirage學會了保持視頻幀與幀之間的自然過渡,避免了生硬的跳躍感。
四、實戰(zhàn)測試:Mirage在真實世界中的表現(xiàn)如何
研究團隊對Mirage進行了全方位的性能測試,就像對一輛新車進行各種路況測試一樣。他們設(shè)計了多個測試場景,從簡單的單人獨白到復雜的情感表達,從清晰的錄音室音質(zhì)到嘈雜環(huán)境下的手機錄音,全面驗證Mirage的實際能力。
在"基礎(chǔ)功能測試"中,研究團隊使用了包含各種語言、口音和說話風格的音頻素材。結(jié)果顯示,Mirage在處理標準語音時表現(xiàn)出色,生成的視頻中嘴唇同步準確率達到了96%以上。更令人印象深刻的是,即使面對帶有口音的英語或者語速較快的音頻,Mirage仍然能夠保持90%以上的同步準確率。
"情感表達測試"可能是最具挑戰(zhàn)性的環(huán)節(jié)。研究團隊收集了表達不同情感的音頻片段,包括高興、悲傷、憤怒、驚訝等各種情緒。Mirage不僅成功識別了這些情感,還在生成的視頻中準確地體現(xiàn)了相應(yīng)的面部表情。當音頻表達興奮時,生成的人物會眼神發(fā)亮、嘴角上揚;當音頻帶有悲傷色彩時,人物的表情也會相應(yīng)地變得沉重。
"長時間連續(xù)性測試"驗證了Mirage處理長視頻的能力。研究團隊輸入了長達5分鐘的連續(xù)音頻,Mirage成功生成了對應(yīng)的完整視頻,且整個過程中保持了良好的視覺連貫性。生成的人物看起來就像真的在進行一場5分鐘的演講,沒有出現(xiàn)明顯的不連貫或重復現(xiàn)象。
為了評估生成質(zhì)量,研究團隊還進行了"用戶感知測試"。他們邀請了100名測試者觀看Mirage生成的視頻,詢問他們是否能辨別出這些視頻是AI生成的。結(jié)果顯示,超過80%的測試者認為這些視頻看起來"非常自然"或"完全像真人",只有不到20%的人能夠明確識別出AI生成的痕跡。
在"技術(shù)性能測試"方面,Mirage的表現(xiàn)同樣令人滿意。在配備了高端GPU的服務(wù)器上,Mirage能夠在2-3分鐘內(nèi)生成一段30秒的高質(zhì)量視頻。雖然這個速度還無法做到實時生成,但相比傳統(tǒng)的視頻制作流程,已經(jīng)是革命性的提升。研究團隊表示,隨著硬件技術(shù)的發(fā)展和算法的進一步優(yōu)化,生成速度還有很大的提升空間。
五、從實驗室走向現(xiàn)實:Mirage的應(yīng)用前景
Mirage的出現(xiàn)就像在數(shù)字內(nèi)容創(chuàng)作領(lǐng)域投下了一顆重磅炸彈,它的應(yīng)用潛力幾乎是無限的。最直接的應(yīng)用場景就是內(nèi)容創(chuàng)作領(lǐng)域,特別是那些需要大量說話視頻的行業(yè)。
在教育培訓領(lǐng)域,Mirage堪稱是一位"萬能講師"。教育機構(gòu)可以錄制專業(yè)教師的音頻課程,然后用Mirage生成對應(yīng)的視頻版本。這意味著一位優(yōu)秀的老師可以同時在全球數(shù)百個教室"現(xiàn)身說法",而不需要真人到場。對于在線教育平臺來說,這種技術(shù)能夠大大降低視頻課程的制作成本,同時提升課程的視覺吸引力。
企業(yè)培訓是另一個極具潛力的應(yīng)用領(lǐng)域。許多公司需要制作大量的培訓視頻,傳統(tǒng)方式需要安排專人出鏡、搭建拍攝環(huán)境、進行后期制作等等,整個流程既耗時又昂貴。有了Mirage,企業(yè)只需要錄制培訓內(nèi)容的音頻,就能快速生成專業(yè)的培訓視頻,大大提升培訓材料的制作效率。
新聞媒體行業(yè)也看到了Mirage的巨大價值。新聞機構(gòu)可以利用這項技術(shù)快速生成新聞播報視頻,特別是對于那些需要多語言版本的國際新聞。記者或播音員只需要錄制音頻,Mirage就能生成相應(yīng)的視頻版本,這對于提升新聞發(fā)布的時效性具有重要意義。
社交媒體和內(nèi)容創(chuàng)作平臺是Mirage的天然應(yīng)用場景。YouTube創(chuàng)作者、抖音博主等內(nèi)容創(chuàng)作者經(jīng)常需要制作大量視頻內(nèi)容,但并不是每個人都適合或愿意出鏡。Mirage為他們提供了一種全新的選擇:可以專注于內(nèi)容創(chuàng)作和音頻錄制,而將視覺呈現(xiàn)交給AI來處理。
個性化內(nèi)容定制是Mirage最有趣的應(yīng)用方向之一。用戶可以創(chuàng)建屬于自己的虛擬形象,然后通過音頻輸入生成個性化的說話視頻。這種技術(shù)可以用于制作個人vlog、生日祝福視頻、節(jié)日問候等等,讓每個普通人都能成為自己生活的"導演"。
在客服和虛擬助手領(lǐng)域,Mirage也展現(xiàn)出了巨大的應(yīng)用潛力。企業(yè)可以創(chuàng)建虛擬客服代表,通過語音合成技術(shù)生成回答內(nèi)容,再用Mirage生成對應(yīng)的視頻,為客戶提供更加人性化的服務(wù)體驗。這種虛擬客服不僅能夠24小時在線服務(wù),還能保持始終如一的專業(yè)形象和服務(wù)態(tài)度。
六、技術(shù)門檻與挑戰(zhàn):Mirage還需要跨越哪些障礙
盡管Mirage已經(jīng)展現(xiàn)出了令人驚嘆的能力,但就像任何新興技術(shù)一樣,它仍然面臨著不少挑戰(zhàn)和限制。理解這些挑戰(zhàn)對于正確評估這項技術(shù)的現(xiàn)狀和發(fā)展前景非常重要。
首先是"計算資源需求"這個現(xiàn)實障礙。Mirage就像一位需要大量"營養(yǎng)"才能正常工作的運動員,對計算能力的要求相當高。生成一段高質(zhì)量的視頻需要強大的GPU支持,這意味著普通用戶很難在自己的個人電腦上運行完整版本的Mirage。目前,大多數(shù)用戶只能通過云服務(wù)的方式使用這項技術(shù),這在一定程度上限制了它的普及速度。
"語言和文化適應(yīng)性"是另一個需要持續(xù)改進的方面。雖然Mirage在處理英語內(nèi)容時表現(xiàn)出色,但對于其他語言,特別是那些語音特征差異較大的語言,效果可能會有所下降。不同文化背景下的說話習慣、手勢表達、面部表情等也存在顯著差異,這要求Mirage需要針對不同市場進行特別的訓練和優(yōu)化。
"個性化定制"仍然是一個技術(shù)難點。目前的Mirage主要生成相對通用的人物形象,雖然可以根據(jù)音頻調(diào)整表情和嘴型,但要生成特定人物的說話視頻還比較困難。用戶無法簡單地上傳一張照片就讓Mirage生成該人物的說話視頻,這在一定程度上限制了個性化應(yīng)用的發(fā)展。
"實時生成能力"是制約某些應(yīng)用場景的關(guān)鍵因素。雖然Mirage的生成速度已經(jīng)相當快,但距離實時生成還有一定距離。對于需要即時互動的應(yīng)用,比如實時視頻通話或直播,目前的技術(shù)水平還無法滿足需求。用戶需要等待幾分鐘才能看到生成結(jié)果,這對某些時效性要求高的應(yīng)用來說是個限制。
"內(nèi)容審核和安全性"也是一個不容忽視的挑戰(zhàn)。強大的視頻生成能力同時也意味著被濫用的風險,比如生成虛假信息、進行身份冒充等。研究團隊需要開發(fā)相應(yīng)的安全機制和內(nèi)容審核系統(tǒng),確保技術(shù)被用于正當目的。這不僅是技術(shù)問題,也涉及倫理和法律層面的考量。
七、與競爭對手的較量:Mirage在AI視頻生成賽道中的地位
在AI視頻生成這個快速發(fā)展的領(lǐng)域,Mirage并不是唯一的參與者。整個行業(yè)就像一場激烈的馬拉松比賽,各家公司都在爭相推出自己的解決方案,每一家都有其獨特的優(yōu)勢和特色。
與其他主流AI視頻生成工具相比,Mirage的最大特色在于其"純音頻驅(qū)動"的能力。大多數(shù)競爭對手需要結(jié)合文本提示、圖像輸入等多種信息才能生成視頻,而Mirage僅憑音頻就能完成整個生成過程。這就像比較不同的交通工具,其他工具可能是需要多種燃料的混合動力車,而Mirage更像是僅靠電力就能高效運行的純電動車。
在生成質(zhì)量方面,Mirage在面部表情的自然度和嘴唇同步的準確性上表現(xiàn)突出。研究團隊的測試數(shù)據(jù)顯示,Mirage在這兩個關(guān)鍵指標上都達到了行業(yè)領(lǐng)先水平。相比之下,一些競爭產(chǎn)品雖然在視頻分辨率或生成速度上可能有優(yōu)勢,但在表情自然度方面還有改進空間。
從技術(shù)架構(gòu)來看,Mirage采用的擴散模型方法代表了當前最前沿的生成技術(shù)方向。這種方法的優(yōu)勢在于能夠生成更加多樣化和高質(zhì)量的內(nèi)容,但相應(yīng)地也需要更多的計算資源。一些競爭對手采用的GAN(生成對抗網(wǎng)絡(luò))技術(shù)雖然生成速度更快,但在內(nèi)容多樣性和質(zhì)量穩(wěn)定性方面可能略遜一籌。
在應(yīng)用場景的針對性上,不同產(chǎn)品也展現(xiàn)出了各自的特色。Mirage特別適合那些以語音內(nèi)容為主的應(yīng)用場景,比如播客視頻化、有聲書可視化等。而一些競爭產(chǎn)品可能更專注于文本到視頻的轉(zhuǎn)換,或者靜態(tài)圖像的動畫化,各自都有其特定的優(yōu)勢領(lǐng)域。
用戶友好性是另一個重要的比較維度。Mirage的純音頻輸入方式對普通用戶來說相對簡單直觀,不需要復雜的提示詞工程或技術(shù)背景。用戶只需要錄制或上傳音頻文件,就能獲得相應(yīng)的視頻輸出。這種簡潔的交互方式在用戶體驗方面具有明顯優(yōu)勢。
然而,在生態(tài)系統(tǒng)建設(shè)方面,Mirage作為相對較新的產(chǎn)品,還需要時間來建立完善的開發(fā)者社區(qū)和第三方集成支持。一些更早進入市場的競爭對手在這方面可能具有先發(fā)優(yōu)勢,擁有更豐富的API接口、插件支持和開發(fā)者資源。
八、未來展望:Mirage可能帶來的技術(shù)革命
展望未來,Mirage所代表的音頻驅(qū)動視頻生成技術(shù)很可能會引發(fā)一場深刻的技術(shù)革命,其影響范圍遠遠超出了簡單的視頻制作工具的范疇。
在技術(shù)發(fā)展的路線圖上,研究團隊已經(jīng)規(guī)劃了多個令人興奮的改進方向。首當其沖的是"實時生成能力"的突破。隨著GPU技術(shù)的不斷進步和算法的持續(xù)優(yōu)化,Mirage有望在未來1-2年內(nèi)實現(xiàn)準實時的視頻生成,這將為視頻通話、直播等應(yīng)用場景開啟全新的可能性。屆時,用戶可能只需要提供音頻,就能在視頻通話中呈現(xiàn)為任何想要的虛擬形象。
"多模態(tài)融合"是另一個重要的發(fā)展方向。未來的Mirage不僅能夠處理音頻輸入,還可能整合文本描述、情感標簽、風格指令等多種輸入方式。這就像給一位藝術(shù)家提供更多的創(chuàng)作工具,讓生成的視頻內(nèi)容更加豐富多樣,更好地滿足用戶的個性化需求。
在個性化定制方面,研究團隊正在探索"few-shot學習"技術(shù),這種技術(shù)只需要用戶提供少量樣本照片或視頻片段,就能學習并生成特定人物的說話視頻。這意味著未來的用戶可能只需要上傳幾張自拍照,就能創(chuàng)建屬于自己的AI虛擬形象,讓這個虛擬形象說出任何想要表達的內(nèi)容。
"跨語言適應(yīng)性"的提升也在積極推進中。研究團隊計劃擴展訓練數(shù)據(jù),涵蓋更多語言和文化背景,讓Mirage能夠更好地理解和表現(xiàn)不同文化的說話特征。這不僅包括語言本身的差異,還包括不同文化背景下的面部表情、手勢習慣等細節(jié)差異。
從更宏觀的角度來看,Mirage可能會催生全新的商業(yè)模式和創(chuàng)意產(chǎn)業(yè)。"虛擬演員"可能成為一個新興的職業(yè)類別,專門為AI生成系統(tǒng)提供聲音素材。"音頻內(nèi)容創(chuàng)作者"也可能獲得前所未有的表達自由,不再受限于自己的外表或拍攝條件。
在教育領(lǐng)域,Mirage可能會推動"個性化學習"的發(fā)展。每個學生都可能擁有專屬的AI導師,這個導師能夠根據(jù)學生的學習進度和理解能力,調(diào)整說話的語速、表情和講解方式,提供真正個性化的學習體驗。
技術(shù)的進步也可能帶來一些意想不到的社會影響。當制作高質(zhì)量視頻變得如此簡單時,內(nèi)容創(chuàng)作的門檻將大大降低,這可能會導致視頻內(nèi)容的爆炸式增長。同時,這也要求我們重新思考真實性和可信度的標準,建立新的內(nèi)容驗證和標識機制。
說到底,Mirage不僅僅是一項技術(shù)創(chuàng)新,更是對未來數(shù)字交流方式的一次大膽探索。它讓我們看到了一個可能的未來:在那個世界里,任何人都可以成為內(nèi)容創(chuàng)作者,任何想法都可以通過AI的幫助變成生動的視覺表達。雖然這項技術(shù)還在不斷完善中,但它已經(jīng)為我們打開了一扇通往未來的窗戶,讓我們得以一窺數(shù)字內(nèi)容創(chuàng)作的無限可能。
對于那些對技術(shù)細節(jié)感興趣的讀者,強烈建議訪問Captions公司提供的完整研究資料和在線演示(https://mirage-diffusion.github.io/mirage/),親身體驗這項革命性技術(shù)的魅力。畢竟,在這個快速變化的數(shù)字時代,跟上技術(shù)發(fā)展的步伐,理解這些可能改變我們生活方式的創(chuàng)新,已經(jīng)成為每個人都應(yīng)該關(guān)注的重要議題。
Q&A
Q1:Mirage只需要音頻就能生成說話視頻,它是怎么做到的?
A:Mirage使用了一種叫做"擴散模型"的先進AI技術(shù),就像一位能夠讀心術(shù)的魔法師。當你提供音頻時,它會分析聲音中的語調(diào)、節(jié)奏、情感等信息,然后將這些"聽覺信息"轉(zhuǎn)換成"視覺信息"。它從隨機噪聲開始,在音頻的指導下逐步生成清晰的說話視頻,確保嘴唇動作與聲音完美同步,甚至能根據(jù)語調(diào)變化生成相應(yīng)的面部表情。
Q2:普通人可以使用Mirage技術(shù)嗎?需要什么設(shè)備?
A:目前普通用戶可以通過Captions公司的在線平臺體驗Mirage技術(shù),但由于技術(shù)對計算資源要求很高,大多數(shù)人需要通過云服務(wù)方式使用,而不是在自己電腦上運行。用戶只需要能夠錄制或上傳音頻文件的設(shè)備(如手機、電腦)就可以使用,生成過程在云端服務(wù)器完成,大約需要2-3分鐘生成30秒的視頻。
Q3:Mirage生成的視頻會取代真人拍攝嗎?有什么限制?
A:目前不會完全取代真人拍攝,但會大大改變視頻制作方式。Mirage最適合制作說話類視頻,如教學課程、新聞播報、企業(yè)培訓等。它的限制包括:需要強大計算資源、主要適用于英語內(nèi)容、無法實現(xiàn)個性化人物定制、生成速度還達不到實時水平。不過隨著技術(shù)發(fā)展,這些限制正在逐步改善。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.