OpenAI殺入語音模型大戰(zhàn)！祭出最強(qiáng)GPT-RealTime，加量還降價(jià)

2025-08-29 14:57:20　來源: 智東西

北京舉報(bào)

分享至

智東西
編譯程茜
編輯李水青

智東西8月29日消息，今天凌晨，OpenAI發(fā)布為開發(fā)人員打造的語音轉(zhuǎn)語音模型GPT-RealTime，并同步更新了包括遠(yuǎn)程MCP服務(wù)器支持、圖像輸入和SIP（通過會(huì)話發(fā)起協(xié)議）電話呼叫支持的API功能。

OpenAI稱這是其迄今為止最先進(jìn)的語音合成模型，GPT-RealTime在遵循復(fù)雜指令、精確調(diào)用工具以及生成更自然、更具表現(xiàn)力的語音方面有所改進(jìn)。該模型可以自然朗讀重復(fù)的字母、數(shù)字，無縫切換語言，甚至可以捕捉笑聲等非語言信號(hào)。

今天OpenAI還發(fā)布了兩個(gè)新語音Cedar和Marin，它們將在Realtime API中獨(dú)家提供。

定價(jià)方面，通用版Realtime API和新的GPT-RealTime模型從今天起對所有開發(fā)者開放，GPT-RealTime每百萬token音頻輸入價(jià)格為32美元，緩存輸入每百萬token為0.4美元，每百萬token音頻輸出價(jià)格64美元，GPT-RealTime相比gpt-4o-realtime-preview價(jià)格下調(diào)20%。

OpenAI增加了對對話上下文的細(xì)粒度控制，允許開發(fā)者設(shè)置智能token限制，并一次截?cái)喽鄠€(gè)回合，顯著降低長會(huì)話的成本。

去年10月，OpenAI發(fā)布了Realtime API的公開測試版，至今已經(jīng)有數(shù)千名開發(fā)者使用該API并提出建議。

但從OpenAI在社交平臺(tái)X的評(píng)論區(qū)來看，有用戶對這一新模型充滿期待，稱語音應(yīng)用將變得更加有趣，但也有開發(fā)者反應(yīng)，模型的聲音還是很像機(jī)器人，且舊的語音角色聽起來只是稍微更具表現(xiàn)力。

一、能捕捉笑聲，無縫切換語言調(diào)整語氣

OpenAI針對GPT-RealTime的音頻質(zhì)量、理解用戶指令、遵循指令等方面進(jìn)行了改進(jìn)。

語音Agent想要讓用戶能持續(xù)對話，模型需要像人類一樣帶有語調(diào)、情感和節(jié)奏，以創(chuàng)造愉悅的對話體驗(yàn)。博客中提到，GPT-RealTime可以產(chǎn)出更自然的高質(zhì)量語音，并能遵循細(xì)粒度的指令，例如“快速專業(yè)地說話”或“用法國口音富有同情心地說話”。

在理解用戶指令方面，GPT-RealTime可以捕捉笑聲等非語言線索，在句子中切換語言，并調(diào)整語氣。根據(jù)OpenAI內(nèi)部評(píng)估，該模型在西班牙語、中文、日語和法語等語言中，檢測電話號(hào)碼等的字母數(shù)字序列的準(zhǔn)確性也更高。

Big Bench Audio評(píng)估中，GPT-RealTime的準(zhǔn)確率為82.8%，超過了OpenAI 2024年12月發(fā)布的舊模型。Big Bench Audio基準(zhǔn)測試是一個(gè)用于評(píng)估支持音頻輸入的語言模型推理能力的評(píng)估數(shù)據(jù)集。

在構(gòu)建語音轉(zhuǎn)語音應(yīng)用時(shí)，開發(fā)者會(huì)向模型提供一系列行為指令，包括如何說話、在特定情況下該說什么、該做什么或不該做什么。OpenAI專注于改進(jìn)模型對這些指令的遵循程度，使得即使是微小的指令也能為模型傳遞更多信息。

在衡量指令遵循準(zhǔn)確性的MultiChallenge音頻基準(zhǔn)測試中，GPT-RealTime得分為30.5%，相較舊模型的20.6%有顯著提升。MultiChallenge評(píng)估大模型在處理與人類的多輪對話時(shí)的表現(xiàn)，OpenAI從測試題中篩選出適合音頻呈現(xiàn)的子集，通過文本轉(zhuǎn)語音（TTS）技術(shù)將其轉(zhuǎn)換為語音，進(jìn)而制作出本次評(píng)估的音頻版本。

要構(gòu)建一個(gè)具備語音轉(zhuǎn)語音模型的強(qiáng)大語音Agent，模型需要能夠在正確的時(shí)間調(diào)用正確的工具。OpenAI在三個(gè)維度上改進(jìn)了函數(shù)調(diào)用：調(diào)用相關(guān)函數(shù)、在適當(dāng)?shù)臅r(shí)間調(diào)用函數(shù)以及使用適當(dāng)?shù)膮?shù)調(diào)用函數(shù)。在測量函數(shù)調(diào)用性能的ComplexFuncBench音頻評(píng)估中，GPT-RealTime得分66.5%，超過舊模型分?jǐn)?shù)。而我們在2024年12月發(fā)布的模型得分為49.7%。

此外，OpenAI還改進(jìn)了異步函數(shù)調(diào)用。長時(shí)間運(yùn)行的函數(shù)調(diào)用將不再中斷會(huì)話流程，模型可以在等待結(jié)果時(shí)繼續(xù)流暢地對話。此功能已在GPT-RealTime中原生提升支持，開發(fā)者無需更新代碼。

ComplexFuncBench測量模型處理具有挑戰(zhàn)性的函數(shù)調(diào)用任務(wù)的能力。它在多步調(diào)用、推理約束或隱式參數(shù)、處理非常長的輸入等場景中評(píng)估性能。我們將原始文本提示轉(zhuǎn)換為語音，以構(gòu)建此評(píng)估來測試我們的模型。

二、保留語音細(xì)微差別，新增四大RealTime API新功能

與傳統(tǒng)將語音轉(zhuǎn)文本和文本轉(zhuǎn)語音的多模型鏈?zhǔn)搅鞒滩煌?，Realtime API通過單個(gè)模型和API直接處理和生成音頻，這減少了延遲，保留了語音中的細(xì)微差別，并使得其響應(yīng)更自然、更具表現(xiàn)力。

RealTime API的新功能包括：

開發(fā)者可以通過在會(huì)話配置中傳入遠(yuǎn)程MCP服務(wù)器的URL在會(huì)話中啟用MCP支持。連接后，API會(huì)自動(dòng)處理工具調(diào)用，無需開發(fā)者手動(dòng)設(shè)置集成。

這種設(shè)置使開發(fā)者只需將會(huì)話指向不同的MCP服務(wù)器，就立即可用。

圖像輸入方面，開發(fā)者可以在Realtime API會(huì)話中添加圖像、照片和截圖，與音頻或文本一起使用?，F(xiàn)在模型可以基于用戶實(shí)際看到的內(nèi)容來構(gòu)建對話，使用戶能夠提出諸如“你看到了什么？”或“閱讀此截圖中的文本”等問題。

與其將圖像視為實(shí)時(shí)視頻流，系統(tǒng)更像是將圖片添加到對話中。開發(fā)者的應(yīng)用程序可以決定與模型共享哪些圖像以及何時(shí)共享，這樣就能控制模型看到什么以及何時(shí)回應(yīng)。

OpenAI還增加了使Realtime API更易于集成的功能，包括會(huì)話發(fā)起協(xié)議（SIP）支持、可重用提示。

SIP支持通過Realtime API直接連接開發(fā)者的應(yīng)用程序到公共電話網(wǎng)絡(luò)、PBX系統(tǒng)、辦公電話和其他SIP終端。

可重用提示允許開發(fā)者保存和重用提，包含開發(fā)者消息、工具、變量以及示例用戶/助手消息，且支持跨Realtime API會(huì)話使用，與Responses API的使用邏輯一致。

結(jié)語：設(shè)多層防護(hù)指南防止模型濫用

為了防止實(shí)時(shí)語音對話被濫用，Realtime API包含多層安全防護(hù)和緩解措施，OpenAI對Realtime API會(huì)話采用主動(dòng)分類器，這意味著如果檢測到某些對話違反了有害內(nèi)容指南，可以中止這些對話。開發(fā)者還可以使用Agents SDK添加自己的額外安全防護(hù)措施。

當(dāng)下，超逼真的實(shí)時(shí)語音對話已經(jīng)展現(xiàn)出頗為廣闊的應(yīng)用場景，豆包實(shí)時(shí)語音對話、百度新推的數(shù)字員工等，都將語音作為與用戶的主要交互形式，再加上OpenAI此次發(fā)布的新語音轉(zhuǎn)語音模型，也展現(xiàn)出更強(qiáng)的推理能力和更自然的語音表現(xiàn)力，使其能夠處理復(fù)雜的多步驟請求，在不同賽道構(gòu)建AI Agent。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.