成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

豆包上新同聲傳譯,順便狙擊阿里AI眼鏡?

0
分享至



打開字節(jié)、阿里們的多模態(tài)能力地圖,每塊寶藏都標(biāo)著"語音”。

近期,就在阿里通義千問團(tuán)隊發(fā)布翻譯模型Qwen-MT的同一天,字節(jié)跳動旗下的火山引擎正式對外發(fā)布了豆包·同聲傳譯模型 Seed LiveInterpret 2.0,后者的模型在多個Benchmark測試中都獲得了大幅度領(lǐng)先,但其實該模型的首版發(fā)布已經(jīng)是去年的事了。

時隔一年,字節(jié)再次將這個模型端出來,并花大力氣更新?lián)Q代了一次,字節(jié)想做什么?

我們可以把時間線串聯(lián)起來看:字節(jié)豆包團(tuán)隊于 2024 年推出了旗艦語音生成基礎(chǔ)模型 Seed-TTS,今年1月發(fā)布了豆包 Realtime Voice Model(首個端到端語音理解與生成模型),4月開源了中英雙語TTS模型MegaTTS3,1個月前則發(fā)布了豆包播客語音模型。

作為豆包多模態(tài)能力中的重要一環(huán),字節(jié)將同聲傳譯補足到了語音能力之中。反觀阿里,去年也曾高調(diào)推出了新一代端到端語音翻譯大模型 Gummy,這回在翻譯能力上又進(jìn)一步。如果將視野再打開,環(huán)顧國內(nèi)外,我們能看到阿里巴巴、字節(jié)、科大訊飛、Grok、OpenAI、Meta都在向語音類賽道瘋狂投入資源。

吸引一眾AI廠商紛紛加碼語音模型的背后,則是行業(yè)對新一代“語義交互”方式的競爭。

一旦突破“實時語音+實時翻譯+實時輸出”的技術(shù)體驗屏障,其將直接打開AI產(chǎn)品的商業(yè)化想象空間。

譬如AI硬件。新一代AI硬件浪潮正對語音翻譯技術(shù)產(chǎn)生著強烈的需求牽引。尤其是國內(nèi)正在打響的“百鏡大戰(zhàn)”。翻譯模型Qwen-MT亮相兩天后,阿里在WAIC上正式推出了首款A(yù)I眼鏡。字節(jié)也被爆將在年內(nèi)發(fā)布自家的AI眼鏡。

不同于電腦和手機等終端硬件的文字交互方式,沒有鍵盤的眼鏡,天然便適合語音交互這一新形式。不過,當(dāng)下阻礙AI眼鏡普及的一大難點,也恰恰在語音交互體驗的不完備上。

從這個角度來說,字節(jié)和阿里對語音模型的押注,頗有點給自家AI眼鏡打好前站的意思。

A

那么,語音類賽道到底正在發(fā)生著什么?豆包同傳2.0表現(xiàn)如何?

讓我們先來看看這個產(chǎn)品的實際能力。

同聲傳譯已經(jīng)是各種圈子內(nèi)的“老需求”了,并不新鮮。不過此模型,仍然吸引了全網(wǎng)不小的注意。這主要在于大家通過這次模型的升級,意識到了其背后的“泛商業(yè)價值”。

這款語音模型已經(jīng)能夠以極低的延遲、更絲滑的效果,輸出與用戶音色相一致的英語翻譯。一邊接收源語言語音輸入,一邊 0 樣本聲音復(fù)刻用戶聲音,直接輸出目標(biāo)語言的翻譯語音。

我們來試一試。字節(jié)官方提供了體驗地址,登錄該網(wǎng)址后,每日有20次體驗同聲翻譯的機會。



我們以在WAIC2025上進(jìn)行的AI教父Geoffrey Hinton的演講為例。

該同傳大模型目前僅支持中英間轉(zhuǎn)錄,我們先來試試中文,Hinton談?wù)摯笳Z言模型的一段中文翻譯:

今天的大語言模型(LLM)可以看作是當(dāng)年我所構(gòu)建的小型語言模型的后繼者,是自 1985 年以來語言技術(shù)演進(jìn)中的一個重要里程碑。它們以更長的詞序列作為輸入,采用更復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在特征學(xué)習(xí)中建立了更精妙的交互機制。

正如我當(dāng)初設(shè)計的小模型那樣,LLM 的基本原理與人類理解語言的方式本質(zhì)一致:將語言轉(zhuǎn)化為特征表示,并在多個層次上對這些特征進(jìn)行精密的整合與重構(gòu)。這正是 LLM 在其各個神經(jīng)網(wǎng)絡(luò)層中所執(zhí)行的核心任務(wù)。

因此,我們有理由說,LLM 確實在某種意義上“理解”了它們所生成的語言。

在這段視頻中,你能非常清晰地聽到,該語音模型對于用戶輸入的自然語言短句的識別能力非常強,也非常迅速。即便只是一個很短的間隔,模型也能夠準(zhǔn)確識別到,并根據(jù)這種間隔判斷如何翻譯。

像是下圖,模型會自動根據(jù)語境,而選擇不更改主語,在翻譯過程中,模型會根據(jù)上下文自動判斷是否需要重復(fù)主語:



除此之外,當(dāng)我輸入語音的同時,它也在實時克隆我的音色,當(dāng)然效果稱不上很好,但也確實有一些相似度。

我又測試了一段魯迅語錄,其中可能會有一些語病,你會更明顯地發(fā)現(xiàn)該模型在同傳過程中的延遲非常低。像是“有一份熱,便發(fā)一份光”“無窮的遠(yuǎn)方,無數(shù)的人們”中間的簡短時間非常的短,幾近于連讀,而模型也依然覺察出來了:

我們再來試一試Hinton的英文講座,這回我們非常明顯地發(fā)現(xiàn)同傳模型對于音色的克隆效果大幅下降了,幾乎沒有相似度。但是在翻譯場景下的表現(xiàn),包括低延遲、準(zhǔn)確度、自然的斷句等等,依然比較好。



目前該模型主要聚焦中英文對話,這點上與 Meta 的SeamlessStreaming 等跨語種模型相比仍有差距 。Meta 在2023年12月發(fā)布 Seamlessstreaming 時,就已經(jīng)能夠涵蓋近 100 種輸入語言和 36 種語音輸出語言。從"語言覆蓋面"這個角度,字節(jié)確實還有很長的路要走。

除此之外,在用戶體驗上雙方之間的差距已急劇縮小,下方是官方發(fā)布視頻:

字節(jié)同步發(fā)布了基準(zhǔn)測試成績,Streamlessstreaming仍舊停留在這張表上,不過SeedLiveInterpret 2.0成績很不錯。中英互譯平均翻譯質(zhì)量的人類評分達(dá)到 74.8(滿分 100,評估譯文準(zhǔn)確率)



相比之下,其他大多廠商的語音同傳翻譯產(chǎn)品基本不支持實時的語音復(fù)刻,在體驗上基本維持在語音輸入文字輸出的交互方式,我們也就不再多進(jìn)行類比。

客觀地說,體驗下來,目前的模型技術(shù)還存在一些明顯的局限。 在不同語言方向上的音色克隆表現(xiàn)差異較大,技術(shù)的一致性還需要改進(jìn)。 對于特定領(lǐng)域的專業(yè)詞匯,翻譯準(zhǔn)確度還有提升空間。不過,語音復(fù)刻雖然略顯稚嫩,但也確實帶來了更有意思的交互體感。

B

同傳語音模型相對于單純語音生成來說,難度可能已經(jīng)是Next Level了。同傳模型需要同時做三件事:聽懂你說的話(語音識別)、翻譯成另一種語言(機器翻譯)、再用自然的聲音說出來(語音合成)。

因此,這波字節(jié)語音翻譯模型的升級并不只是為了做一個“翻譯軟件”。它的核心價值在于"語音交互"能力已經(jīng)宣告成熟,翻譯只是其中一個應(yīng)用場景。

這是關(guān)于“語義交互”方式的競爭。

豆包同傳模型2.0的推出,實際上是字節(jié)跳動在AI大模型生態(tài)布局中的重要一步?;仡櫼幌聲r間線:早在2024年,豆包就發(fā)布了初代同傳模型,但那時只能輸出文字翻譯結(jié)果。

當(dāng)然,除了字節(jié)之外,無論是國內(nèi)還是國外,幾乎所有基礎(chǔ)大模型廠商都把目光投向了語音模型這個賽道。然而,生成語音很簡單,難的是“實時語音+實時翻譯+實時輸出”,許多大廠都正在攻堅。

比如,只談及“純血同傳翻譯”模型的話,大家自然會把目光轉(zhuǎn)向阿里巴巴。在2024年云棲大會上,阿里高調(diào)推出了新一代端到端語音翻譯大模型 Gummy,雖然無法實時語音復(fù)刻,但也可實時流式生成語音識別與翻譯結(jié)果。

其在多個維度中都獲得了SOTA級別的表現(xiàn),翻譯延遲甚至降到了0.5s以下:





"賣體驗"比"賣翻譯功能"要更吸引人。

同傳翻譯模型2.0背后,大家的關(guān)注點更多的還是在于語音類模型背后的潛力,而非垂直翻譯能力,大家的興奮點并不在于它能把中文翻譯成英文有多準(zhǔn)確。

如果,我們繼續(xù)將目光放寬一點,會發(fā)現(xiàn)專攻語音交互模型賽道的選手,已經(jīng)遍布整個市場了,它們正在從各個角度撬動用戶應(yīng)用場景。

像是最近,在輿論場和資本場拿回一點聲量的“AI六小龍”之一—— MiniMax,也不甘示弱連續(xù)發(fā)布了MiniMax-Speech系列模型,特別是2025年5月推出的 Speech-02 模型,號稱是"全球第一的TTS語音模型"。

其在社交場上獲得聲量并引起關(guān)注的原因,追其根本,在于它單次輸入支持 200K 字符,支持 30 多種語言,擁有超逼真的語音克隆體驗。



OpenAI的高級語音模式就更不用提了,如果你翻看各種社媒產(chǎn)品,就會發(fā)現(xiàn)幾乎所有領(lǐng)域的用戶都在抱怨“Plus用戶的語音限額有點少的可憐”,這說明低延遲、實時語音、擬人性的需求非常高。

只不過,OpenAI做產(chǎn)品確實有點慢,尚未將手伸向一些明確的應(yīng)用場景,不過倒是投了一批初創(chuàng)企業(yè)。像是語言學(xué)習(xí)語音交互平臺 Speak,2024 年年底OpenAI曾參與其 7,800 萬美元融資,并將自身語音技術(shù)模型融入進(jìn)去,現(xiàn)在這家公司估值已經(jīng)突破 10 億美元了。

Elon Musk也早早布局,他xAI旗下的Grok模型最近也卷入了語音賽道:7月中旬,Grok應(yīng)用新增了"伴侶模式",上線了一位可互動的3D虛擬AI少女形象 Ani。這個虛擬角色可以用甜美的動漫嗓音與用戶對話,在日本網(wǎng)友中迅速走紅,被戲稱為"AI女友"。

Grok對語音能力的意識顯然要比其他大廠商超前一點,像是ElevenLabs等初創(chuàng)企業(yè)與Grok在腦機接口上的合作,為漸凍癥患者替換聲音的操作,自然而然為這類模型打了一個大大的廣告。

C

多方動向背后,說明業(yè)界對于實時語音在AI產(chǎn)品商業(yè)化中的價值形成了共識。

首先讓我們回顧下AI產(chǎn)品的發(fā)展軌跡,在多模態(tài)交互中,構(gòu)建從“語音到語音”的閉環(huán)體驗在過去兩年就被認(rèn)為是下一個關(guān)鍵目標(biāo)。過去的AI產(chǎn)品(無論是Chatbot還是AI 硬件)更多停留在文字和圖像處理層面,但在人類日常交流中,語音才是最自然、最高效的溝通方式。所以,語音交互能帶給用戶更好更佳更AI的體驗過程,而這正好意味著一片“痛點藍(lán)?!薄?/strong>

各大廠搶攻語音模型,正是為了搶占這一未來的藍(lán)海市場,其第一步就是搶占入口。

相信從過去一年的“Chatbot”入口界面爭奪戰(zhàn)中,許多基礎(chǔ)模型廠商都悟得了一個道理:單純文字對話的用戶體驗每上升1分,背后可能是100分的模型能力提升,10000分的算力、算法、架構(gòu)的投入。

因為語音交互不像搜索引擎那樣存在一個絕對的入口,用戶可能從任何一個點開始接觸,然后逐漸習(xí)慣這種交互方式,這背后的商業(yè)價值可以說高到難以想象。

這場語音賽道的集體押注,實際上是各大廠商對未來AI應(yīng)用場景的一次集體下注。

從進(jìn)入2025年以來,AI硬件產(chǎn)品已經(jīng)進(jìn)入“井噴式領(lǐng)域”。各種形態(tài)的智能設(shè)備如雨后春筍般涌現(xiàn)。

從最原初的純剛需來看,跨國出?;蛘呤菚h場景是始終繞不過的一關(guān)。各種翻譯企業(yè)從機器翻譯、神經(jīng)網(wǎng)絡(luò)翻譯再到AI翻譯,已經(jīng)走過了一關(guān)又一關(guān),商業(yè)成果進(jìn)展緩慢,蛋糕做大困難。相比之下,如果實時語音同傳成熟化,這種體驗的商業(yè)價值是巨大的。

無論是這些硬需求,還是滿足用戶對于AI未來交互體驗的“軟需求”,都需要一個合適的載體 —— AI硬件,或許很多人對此嗤之以鼻,認(rèn)為其全部是套殼產(chǎn)品。但現(xiàn)實是,新一代AI硬件浪潮對語音翻譯技術(shù)產(chǎn)生了強烈的需求牽引。硬件產(chǎn)品非常能夠激發(fā)市場去琢磨一個市場還存在哪些尚未被發(fā)現(xiàn)的隱秘機會。

同時,在國外各個主力AI模型都已經(jīng)開始開發(fā)不同的收費模式時,反觀國內(nèi),除了AI Agent帶來了較為成體系的價格結(jié)構(gòu)之外,AI基礎(chǔ)模型廠商幾乎是“一片噤聲”,無人愿意提及。正如大家常說的:“光靠模型就能盈利,那是做夢”。

AI也需要一個載體。

2023年以來,從硅谷初創(chuàng)公司Humane推出的可佩戴顯示設(shè)備 AI Pin,到國內(nèi)創(chuàng)業(yè)團(tuán)隊研發(fā)的 Rabbit R1 ,年收入近1億美金的AI錄音硬件 Plaude、TicNote、再到字節(jié)推出的Ola Friend耳機,各種形態(tài)的可穿戴AI助手層出不窮??拼笥嶏w也推出了主打?qū)崟r多語種同傳功能的會議耳機和翻譯耳機,AI硬件已經(jīng)事實上成為了各家廠商將AI商業(yè)化的“救命稻草”。



OldFriend 這款勉強被稱為AI硬件的產(chǎn)品,可以通過喚醒詞 “豆包豆包” 激活其 AI 聊天助手豆包,從而將體驗的支撐角色轉(zhuǎn)移給豆包。但是,這種體驗缺乏真正的顛覆性使用場景。

既然是AI硬件,還是要從AI下手。

當(dāng)字節(jié)宣布同傳大模型2.0發(fā)布時,同時提到了該模型將在8月迅速進(jìn)入Old Friend耳機中,為其補足更多的語音交互能力。我們可以這么理解,語音翻譯模型帶來的"實時語音交互"體驗,正在成為AI硬件產(chǎn)品吸引用戶的新戰(zhàn)場。

當(dāng)然,在語音這個大領(lǐng)域內(nèi),還存在其他分支賽道。比如字節(jié)、MiniMax前段時間都火出圈的AI播客功能,以及專注情感陪伴的語音AI產(chǎn)品。各家AI創(chuàng)業(yè)公司正在瘋狂挖掘語音交互的潛力,大家逐漸發(fā)現(xiàn)了AI產(chǎn)品發(fā)展下半程的"引爆點"——語音交互市場。

此次字節(jié)豆包同傳模型的發(fā)布、官方迅速宣布該模型將立刻接入硬件,以及前段時間字節(jié)投入大力氣打造的播客模型等等,都在宣告著國內(nèi)“語音”市場的潛力才剛剛展現(xiàn)。

“搶占下一代AI產(chǎn)品交互入口之前,先把硬件造出來”是國內(nèi)普遍信奉的樸素商業(yè)道理。在此之上,AI廠商們在看到不斷有初創(chuàng)企業(yè)通過“較差”或者只是開源的AI大模型技術(shù)就已經(jīng)能發(fā)掘出這么多應(yīng)用場景了,肯定會捫心自問:我何樂而不為呢?

尤其是AI實時語音交互賽道,尚且沒有將這項體驗完整融合到硬件市場的產(chǎn)品出現(xiàn)。作為擁有AI原生技術(shù)的字節(jié)——這個大廠的標(biāo)桿之一,開始認(rèn)真考慮:語音交互很可能成為下一個改變?nèi)藱C交互方式的關(guān)鍵技術(shù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
法國高興太早!中國女排1-3輸球因禍得福,收獲3好消息,球迷懂了

法國高興太早!中國女排1-3輸球因禍得福,收獲3好消息,球迷懂了

詹妹侃體育
2025-08-31 22:18:16
戲子無情!看不起大陸,嫌粉絲窮,52歲蘇有朋“真面目”被撕開

戲子無情!看不起大陸,嫌粉絲窮,52歲蘇有朋“真面目”被撕開

白面書誏
2025-08-31 00:30:41
49歲女子否認(rèn)是大齡剩女!長得很漂亮,自稱有房有車,還能生娃

49歲女子否認(rèn)是大齡剩女!長得很漂亮,自稱有房有車,還能生娃

鋭娛之樂
2025-08-29 01:04:35
1-0!英超慘烈焦點戰(zhàn):3大核心傷退 任意球世界波 10.5億豪門登頂

1-0!英超慘烈焦點戰(zhàn):3大核心傷退 任意球世界波 10.5億豪門登頂

狍子歪解體壇
2025-09-01 01:32:07
劉湘擊敗劉文輝后卻不追擊,部下不解,他卻說:就讓幺爸待在雅安

劉湘擊敗劉文輝后卻不追擊,部下不解,他卻說:就讓幺爸待在雅安

boss外傳
2025-08-25 18:25:03
安徽夫婦自駕送兒子去新疆石河子上大學(xué):6天穿越3700公里,沿途打卡景點每天還直播7小時,剛到校就被粉絲認(rèn)出

安徽夫婦自駕送兒子去新疆石河子上大學(xué):6天穿越3700公里,沿途打卡景點每天還直播7小時,剛到校就被粉絲認(rèn)出

極目新聞
2025-08-30 18:45:57
女子紋身一聲不吭,戴著口罩怕被認(rèn)出,網(wǎng)友:誰喜歡這樣的女生?

女子紋身一聲不吭,戴著口罩怕被認(rèn)出,網(wǎng)友:誰喜歡這樣的女生?

唐小糖說情感
2025-08-08 09:12:30
魯媒贊韓鵬:僅用7場就晉升隊史名帥,讓泰山找回久違的強隊感覺

魯媒贊韓鵬:僅用7場就晉升隊史名帥,讓泰山找回久違的強隊感覺

直播吧
2025-09-01 12:53:13
記者:浙江U13六主力為何被罰坐冷板凳?教練要求“要先做好人”

記者:浙江U13六主力為何被罰坐冷板凳?教練要求“要先做好人”

直播吧
2025-09-01 10:25:31
CBA要大結(jié)局,廣東隊傳重磅喜訊,直接碾壓北京上海,杜鋒崛起

CBA要大結(jié)局,廣東隊傳重磅喜訊,直接碾壓北京上海,杜鋒崛起

宗介說體育
2025-09-01 13:54:29
炸了! 林生斌定居澳洲富人區(qū), 生活曝光! 兒女雙全, 與現(xiàn)任全身奢侈品! 還記得當(dāng)年醫(yī)院痛哭嗎...

炸了! 林生斌定居澳洲富人區(qū), 生活曝光! 兒女雙全, 與現(xiàn)任全身奢侈品! 還記得當(dāng)年醫(yī)院痛哭嗎...

澳洲紅領(lǐng)巾
2025-09-01 12:45:15
你知道女人最難抗拒男人什么嗎?99%的人都猜錯了

你知道女人最難抗拒男人什么嗎?99%的人都猜錯了

伊人河畔
2025-09-01 10:56:43
現(xiàn)周薪10.5萬!天空:曼聯(lián)不會付遣散費,安東尼接受降薪去貝蒂斯

現(xiàn)周薪10.5萬!天空:曼聯(lián)不會付遣散費,安東尼接受降薪去貝蒂斯

直播吧
2025-09-01 16:24:13
橫店炮王得病找不到船搭子!宋軼白敬亭分手?

橫店炮王得病找不到船搭子!宋軼白敬亭分手?

八卦瘋叔
2025-08-26 10:48:41
記者:深圳新鵬城最后兩個主場可能換到廣州南沙大灣區(qū)體育中心

記者:深圳新鵬城最后兩個主場可能換到廣州南沙大灣區(qū)體育中心

直播吧
2025-09-01 13:04:47
普京攜半壁江山訪華,待遇趕不上莫迪?只因這事中俄早已心照不宣

普京攜半壁江山訪華,待遇趕不上莫迪?只因這事中俄早已心照不宣

梁訊
2025-09-01 15:33:10
歸化沒那么容易!廣廈同布朗談崩 中國男籃還要靠自己?

歸化沒那么容易!廣廈同布朗談崩 中國男籃還要靠自己?

你看球呢
2025-09-01 16:03:25
瘋狂!利物浦今夏引援已花費3.4億歐,若簽伊薩克支出將近5億歐

瘋狂!利物浦今夏引援已花費3.4億歐,若簽伊薩克支出將近5億歐

直播吧
2025-09-01 07:59:52
陳若琳現(xiàn)身蘇超賽場,穿黑衣扎公主辮好漂亮,給家鄉(xiāng)南通加油

陳若琳現(xiàn)身蘇超賽場,穿黑衣扎公主辮好漂亮,給家鄉(xiāng)南通加油

TVB的四小花
2025-09-01 15:17:55
以色列再獲大勝成功團(tuán)滅胡塞高層

以色列再獲大勝成功團(tuán)滅胡塞高層

海子侃生活
2025-08-30 10:10:08
2025-09-01 17:28:49
字母榜 incentive-icons
字母榜
讓未來不止于大。
2010文章數(shù) 8011關(guān)注度
往期回顧 全部

科技要聞

百度19億美元收購將成歷史:91助手全面停服

頭條要聞

談到中國留學(xué)生 特朗普:要跟核大國搞好關(guān)系

頭條要聞

談到中國留學(xué)生 特朗普:要跟核大國搞好關(guān)系

體育要聞

林書豪退役了,我們該如何評價他

娛樂要聞

蘇有朋,禍從口出?

財經(jīng)要聞

個人消費貸款貼息開閘!多家銀行提前預(yù)熱

汽車要聞

依舊充滿驚喜 福特智趣烈馬好玩更全能

態(tài)度原創(chuàng)

親子
旅游
教育
房產(chǎn)
軍事航空

親子要聞

滿月女嬰啼哭不停,月嫂說正?,F(xiàn)象,寶媽掀開襁褓當(dāng)場掐住她的脖子

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

北大教授:教育應(yīng)限制AI使用 孩子的精神品質(zhì)得不到提高

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

軍事要聞

九三閱兵 具體安排來了

無障礙瀏覽 進(jìn)入關(guān)懷版