網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

又一國(guó)產(chǎn)多模態(tài)大模型開源，復(fù)雜聲音一耳朵分辨，多測(cè)試SOTA，還能聊哲學(xué)

2025-09-01 18:09:12　來源: 智東西

北京舉報(bào)

分享至

智東西
作者王涵
編輯漠影

智東西9月1日消息，今天上午，階躍星辰正式發(fā)布開源端到端語(yǔ)音大模型Step-Audio 2 mini，該模型在通用多模態(tài)音頻理解等多個(gè)國(guó)際基準(zhǔn)測(cè)試集上取得SOTA成績(jī)。

Step-Audio 2 mini將語(yǔ)音理解、音頻推理與生成統(tǒng)一建模，在音頻理解、語(yǔ)音識(shí)別、跨語(yǔ)種翻譯、情感與副語(yǔ)言解析、語(yǔ)音對(duì)話等任務(wù)中表現(xiàn)較好，并支持語(yǔ)音原生的Tool Calling能力，可實(shí)現(xiàn)聯(lián)網(wǎng)搜索等操作。

一句話總結(jié)，Step-Audio 2 mini可以“聽得清楚、想得明白、說得自然”。

該模型現(xiàn)已上線階躍星辰開放平臺(tái)、GitHub、Hugging Face、魔搭社區(qū)等平臺(tái)：

體驗(yàn)地址：

https://realtime-console.stepfun.com

GitHub：

https://github.com/stepfun-ai/Step-Audio2

Hugging Face：

https://huggingface.co/stepfun-ai/Step-Audio-2-mini

魔搭社區(qū)：

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

一、口語(yǔ)對(duì)話能力第一名，拿捏方言和小語(yǔ)種

Step-Audio 2 mini在多個(gè)關(guān)鍵基準(zhǔn)測(cè)試中取得SOTA成績(jī)，在音頻理解、語(yǔ)音識(shí)別、翻譯和對(duì)話場(chǎng)景中表現(xiàn)突出，綜合性能超越Qwen-Omni、Kimi-Audio在內(nèi)的開源端到端語(yǔ)音模型，并在大部分任務(wù)上超越GPT-4o Audio。

通用多模態(tài)音頻理解測(cè)試集MMAU上，Step-Audio 2 mini以73.2的得分位列開源端到端語(yǔ)音模型榜首；
在衡量口語(yǔ)對(duì)話能力的URO Bench上，Step-Audio 2 mini在基礎(chǔ)與專業(yè)賽道均拿下開源端到端語(yǔ)音模型最高分，超越Qwen-Omni和Kimi-Audio
中英互譯任務(wù)方面，Step-Audio 2 mini在CoVoST 2和CVSS評(píng)測(cè)集上分別取得39.3和29.1的分?jǐn)?shù)，領(lǐng)先GPT-4o Audio；
語(yǔ)音識(shí)別任務(wù)上，Step-Audio 2 mini取得多語(yǔ)言和多方言第一。其中開源中文測(cè)試集平均CER（字錯(cuò)誤率）3.19，開源英語(yǔ)測(cè)試集平均WER（詞錯(cuò)誤率）3.50

在不同語(yǔ)種的基準(zhǔn)測(cè)試上，Step-Audio 2 mini在評(píng)價(jià)中文能力的FLEURS Chinese上取得第一名的成績(jī)。

二、引入CoT還支持web檢索，擴(kuò)大語(yǔ)音模型的知識(shí)面

過往的AI語(yǔ)音常被吐槽智商、情商雙低。一是“沒知識(shí)”，缺乏文本大模型一樣的知識(shí)儲(chǔ)備和推理能力；二是“冷冰冰”，聽不懂潛臺(tái)詞，語(yǔ)氣、情緒、笑聲這些“弦外之音”。Step-Audio 2 mini通過創(chuàng)新架構(gòu)設(shè)計(jì)，試圖解決此類問題。

端到端多模態(tài)架構(gòu)：Step-Audio 2 mini突破傳統(tǒng)ASR+LLM+TTS三級(jí)結(jié)構(gòu)，實(shí)現(xiàn)原始音頻輸入到語(yǔ)音響應(yīng)輸出的直接轉(zhuǎn)換，架構(gòu)更簡(jiǎn)潔、時(shí)延更低，并能有效理解副語(yǔ)言信息與非人聲信號(hào)。

CoT推理結(jié)合強(qiáng)化學(xué)習(xí)：Step-Audio 2 mini在端到端語(yǔ)音模型中首次引入鏈?zhǔn)剿季S推理（Chain-of-Thought，CoT）與強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化，能對(duì)情緒、語(yǔ)調(diào)、音樂等副語(yǔ)言和非語(yǔ)音信號(hào)進(jìn)行精細(xì)理解、推理并自然回應(yīng)。

音頻知識(shí)增強(qiáng)：模型支持包括web檢索等外部工具，有助于模型解決幻覺問題，并賦予模型在多場(chǎng)景擴(kuò)展上的能力。

三、實(shí)測(cè)：可以精準(zhǔn)識(shí)別鳥鳴和引擎聲，但沒分清Meta和微軟

智東西第一時(shí)間對(duì)Step-Audio 2 mini進(jìn)行了實(shí)測(cè)。總的來說，其生成的語(yǔ)音真人感比較強(qiáng)，停頓和語(yǔ)氣都比較自然，但是Step-Audio 2 mini在信息識(shí)別上還需要加強(qiáng)。

其可以選擇的音色也有限，主頁(yè)只可以選擇男聲或女聲，其他條件可以在prompt中進(jìn)行調(diào)整。并且在Step-Audio 2 mini的體驗(yàn)網(wǎng)頁(yè)上，個(gè)人用戶體驗(yàn)只能對(duì)話一次，次數(shù)比較有限。

以下是一些實(shí)測(cè)案例：

在官方提供的案例中，Step-Audio 2 mini能分清鳥叫、流水、車聲和發(fā)條玩具聲這四種不同的聲音，它甚至能聽出汽車聲中的引擎加速變化。

https://oss.zhidx.com/54064cfbc9f99b30929a5b36b7b514e6/68b47180/uploads/2025/09/68b55079c70ef_68b55079bcb1c_68b55079bcaf4_%E5%88%86%E8%BE%A8%E9%B8%9F%E5%8F%AB%E3%80%81%E6%B5%81%E6%B0%B4%E3%80%81%E5%BC%95%E6%93%8E%E5%92%8C%E5%8F%91%E6%9D%A1%E7%8E%A9%E5%85%B7%E5%A3%B0.mp3

用戶也可以選擇聯(lián)網(wǎng)模式，讓Step-Audio 2 mini進(jìn)行實(shí)時(shí)搜索，并且用語(yǔ)音輸出。

https://oss.zhidx.com/dc699c540472cf28a16741b5c8d5a6bc/68b47180/uploads/2025/09/68b5508718ea7_68b55087148eb_68b55087148ae_%E5%AE%9E%E6%97%B6%E6%90%9C%E7%B4%A2OpenAI%E8%B5%84%E8%AE%AF.mp3

聊到OpenAI最新動(dòng)態(tài)，Step-Audio 2 mini通過工具調(diào)用搜索，迅速挖掘出最新語(yǔ)音模型資訊。

在這里智東西也進(jìn)行了實(shí)測(cè)，我問“你知道最近Meta最新的人工智能部門有什么新的動(dòng)態(tài)嗎？”：

https://oss.zhidx.com/6714fdf35c2c5a5bb5c2a5825553c1d4/68b47180/uploads/2025/09/68b550cab6eff_68b550cab2d02_68b550cab2ccf_%E5%AE%9E%E6%97%B6%E6%90%9C%E7%B4%A2Meta%E8%B5%84%E8%AE%AF.wav

Step-Audio 2 mini卻回答成了微軟的AI動(dòng)態(tài)，但是語(yǔ)音識(shí)別出的是正確的Meta，其在生成準(zhǔn)確性上還需要加強(qiáng)。

用戶也可以通過語(yǔ)音控制，讓Step-Audio 2 mini調(diào)整語(yǔ)速。

比如，讓Step-Audio 2 mini變換語(yǔ)調(diào)讀《靜夜思》：

https://oss.zhidx.com/7c9a29a4d6cff7abdb76f5a20c767d49/68b47180/uploads/2025/09/68b551176120d_68b55117576ab_68b5511757678_%E6%94%B9%E5%8F%98%E8%AF%AD%E9%80%9F%E8%AF%BB%E3%80%8A%E9%9D%99%E5%A4%9C%E6%80%9D%E3%80%8B.mp3

當(dāng)被問及“愛美是自由還是枷鎖”這類哲學(xué)難題時(shí)，Step-Audio 2 mini可以與用戶進(jìn)行實(shí)時(shí)溝通，能將抽象問題轉(zhuǎn)化為“購(gòu)物前問自己三個(gè)問題”的方法論。

（視頻）

結(jié)語(yǔ)：階躍星辰端到端語(yǔ)音大模型加速落地

此前，吉利發(fā)布了搭載階躍星辰端到端語(yǔ)音大模型的吉利銀河M9，這是行業(yè)內(nèi)端到端語(yǔ)音大模型首次實(shí)現(xiàn)量產(chǎn)上車。

據(jù)階躍星辰相關(guān)人士介紹，自去年發(fā)布國(guó)內(nèi)首個(gè)千億參數(shù)端到端語(yǔ)音大模型Step-1o Audio以來，階躍星辰持續(xù)迭代模型性能，并跟吉利、鯨魚機(jī)器人、TCL、Cyan青心意創(chuàng)等終端廠商達(dá)成合作，讓語(yǔ)音大模型在生活場(chǎng)景中加速落地。

開源方面，今年階躍星辰已開源8款多模態(tài)模型，覆蓋語(yǔ)音、視頻生成等領(lǐng)域，助力全球開源社區(qū)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.