IT之家 9 月 1 日消息,階躍星辰今日發(fā)布開(kāi)源端到端語(yǔ)音大模型 Step-Audio 2 mini,該模型在多個(gè)國(guó)際基準(zhǔn)測(cè)試集上取得 SOTA 成績(jī)。Step-Audio 2 mini 現(xiàn)已上線(xiàn)階躍星辰開(kāi)放平臺(tái)。
IT之家從官方介紹獲悉,它將語(yǔ)音理解、音頻推理與生成統(tǒng)一建模,并率先支持語(yǔ)音原生的 Tool Calling 能力,可實(shí)現(xiàn)聯(lián)網(wǎng)搜索等操作。
Step-Audio 2 mini 在多個(gè)關(guān)鍵基準(zhǔn)測(cè)試中取得 SOTA 成績(jī),在音頻理解、語(yǔ)音識(shí)別、翻譯和對(duì)話(huà)場(chǎng)景中表現(xiàn)突出,綜合性能超越 Qwen-Omni 、Kimi-Audio 在內(nèi)的所有開(kāi)源端到端語(yǔ)音模型,并在大部分任務(wù)上超越 GPT-4o Audio。
- 在通用多模態(tài)音頻理解測(cè)試集 MMAU 上,Step-Audio 2 mini 以 73.2 的得分位列開(kāi)源端到端語(yǔ)音模型榜首;
- 在衡量口語(yǔ)對(duì)話(huà)能力的 URO Bench 上,Step-Audio 2 mini 在基礎(chǔ)與專(zhuān)業(yè)賽道均拿下開(kāi)源端到端語(yǔ)音模型最高分,展現(xiàn)出優(yōu)秀的對(duì)話(huà)理解與表達(dá)能力;
- 在中英互譯任務(wù)上,Step-Audio 2 mini 優(yōu)勢(shì)明顯,在 CoVoST 2 和 CVSS 評(píng)測(cè)集上分別取得 39.3 和 29.1 的分?jǐn)?shù),大幅領(lǐng)先 GPT-4o Audio 和其他開(kāi)源語(yǔ)音模型;
- 在語(yǔ)音識(shí)別任務(wù)上,Step-Audio 2 mini 取得多語(yǔ)言和多方言第一。其中開(kāi)源中文測(cè)試集平均 CER(字錯(cuò)誤率) 3.19,開(kāi)源英語(yǔ)測(cè)試集平均 WER(詞錯(cuò)誤率) 3.50,領(lǐng)先其他開(kāi)源模型 15% 以上。
過(guò)往的 AI 語(yǔ)音常被吐槽智商、情商雙低。一是“沒(méi)知識(shí)”,缺乏文本大模型一樣的知識(shí)儲(chǔ)備和推理能力;二是“冷冰冰”,聽(tīng)不懂潛臺(tái)詞,語(yǔ)氣、情緒、笑聲這些“弦外之音”。Step-Audio 2 mini 通過(guò)創(chuàng)新架構(gòu)設(shè)計(jì),有效解決了此前語(yǔ)音模型存在的問(wèn)題。
- 真端到端多模態(tài)架構(gòu):Step-Audio 2 mini 突破傳統(tǒng) ASR+LLM+TTS 三級(jí)結(jié)構(gòu),實(shí)現(xiàn)原始音頻輸入到語(yǔ)音響應(yīng)輸出的直接轉(zhuǎn)換,架構(gòu)更簡(jiǎn)潔、時(shí)延更低,并能有效理解副語(yǔ)言信息與非人聲信號(hào)。
▲ Step-Audio 2 mini 模型架構(gòu)圖
- CoT 推理結(jié)合強(qiáng)化學(xué)習(xí):Step-Audio 2 mini 在端到端語(yǔ)音模型中首次引入鏈?zhǔn)剿季S推理(Chain-of-Thought,CoT)與強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化,能對(duì)情緒、語(yǔ)調(diào)、音樂(lè)等副語(yǔ)言和非語(yǔ)音信號(hào)進(jìn)行精細(xì)理解、推理并自然回應(yīng)。
- 音頻知識(shí)增強(qiáng)模型支持包括 web 檢索等外部工具,有助于模型解決幻覺(jué)問(wèn)題,并賦予模型在多場(chǎng)景擴(kuò)展上的能力。
GitHub:https://github.com/stepfun-ai/Step-Audio2
Hugging Face:https://huggingface.co/stepfun-ai/Step-Audio-2-mini
ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.