智東西
編譯 程茜
編輯 李水青
智東西8月29日消息,今天凌晨,OpenAI發(fā)布為開發(fā)人員打造的語音轉(zhuǎn)語音模型GPT-RealTime,并同步更新了包括遠(yuǎn)程MCP服務(wù)器支持、圖像輸入和SIP(通過會(huì)話發(fā)起協(xié)議)電話呼叫支持的API功能。
OpenAI稱這是其迄今為止最先進(jìn)的語音合成模型,GPT-RealTime在遵循復(fù)雜指令、精確調(diào)用工具以及生成更自然、更具表現(xiàn)力的語音方面有所改進(jìn)。該模型可以自然朗讀重復(fù)的字母、數(shù)字,無縫切換語言,甚至可以捕捉笑聲等非語言信號(hào)。
今天OpenAI還發(fā)布了兩個(gè)新語音Cedar和Marin,它們將在Realtime API中獨(dú)家提供。
定價(jià)方面,通用版Realtime API和新的GPT-RealTime模型從今天起對所有開發(fā)者開放,GPT-RealTime每百萬token音頻輸入價(jià)格為32美元,緩存輸入每百萬token為0.4美元,每百萬token音頻輸出價(jià)格64美元,GPT-RealTime相比gpt-4o-realtime-preview價(jià)格下調(diào)20%。
OpenAI增加了對對話上下文的細(xì)粒度控制,允許開發(fā)者設(shè)置智能token限制,并一次截?cái)喽鄠€(gè)回合,顯著降低長會(huì)話的成本。
去年10月,OpenAI發(fā)布了Realtime API的公開測試版,至今已經(jīng)有數(shù)千名開發(fā)者使用該API并提出建議。
但從OpenAI在社交平臺(tái)X的評(píng)論區(qū)來看,有用戶對這一新模型充滿期待,稱語音應(yīng)用將變得更加有趣,但也有開發(fā)者反應(yīng),模型的聲音還是很像機(jī)器人,且舊的語音角色聽起來只是稍微更具表現(xiàn)力。
一、能捕捉笑聲,無縫切換語言調(diào)整語氣
OpenAI針對GPT-RealTime的音頻質(zhì)量、理解用戶指令、遵循指令等方面進(jìn)行了改進(jìn)。
語音Agent想要讓用戶能持續(xù)對話,模型需要像人類一樣帶有語調(diào)、情感和節(jié)奏,以創(chuàng)造愉悅的對話體驗(yàn)。博客中提到,GPT-RealTime可以產(chǎn)出更自然的高質(zhì)量語音,并能遵循細(xì)粒度的指令,例如“快速專業(yè)地說話”或“用法國口音富有同情心地說話”。
在理解用戶指令方面,GPT-RealTime可以捕捉笑聲等非語言線索,在句子中切換語言,并調(diào)整語氣。根據(jù)OpenAI內(nèi)部評(píng)估,該模型在西班牙語、中文、日語和法語等語言中,檢測電話號(hào)碼等的字母數(shù)字序列的準(zhǔn)確性也更高。
Big Bench Audio評(píng)估中,GPT-RealTime的準(zhǔn)確率為82.8%,超過了OpenAI 2024年12月發(fā)布的舊模型。Big Bench Audio基準(zhǔn)測試是一個(gè)用于評(píng)估支持音頻輸入的語言模型推理能力的評(píng)估數(shù)據(jù)集。
在構(gòu)建語音轉(zhuǎn)語音應(yīng)用時(shí),開發(fā)者會(huì)向模型提供一系列行為指令,包括如何說話、在特定情況下該說什么、該做什么或不該做什么。OpenAI專注于改進(jìn)模型對這些指令的遵循程度,使得即使是微小的指令也能為模型傳遞更多信息。
在衡量指令遵循準(zhǔn)確性的MultiChallenge音頻基準(zhǔn)測試中,GPT-RealTime得分為30.5%,相較舊模型的20.6%有顯著提升。MultiChallenge評(píng)估大模型在處理與人類的多輪對話時(shí)的表現(xiàn),OpenAI從測試題中篩選出適合音頻呈現(xiàn)的子集,通過文本轉(zhuǎn)語音(TTS)技術(shù)將其轉(zhuǎn)換為語音,進(jìn)而制作出本次評(píng)估的音頻版本。
要構(gòu)建一個(gè)具備語音轉(zhuǎn)語音模型的強(qiáng)大語音Agent,模型需要能夠在正確的時(shí)間調(diào)用正確的工具。OpenAI在三個(gè)維度上改進(jìn)了函數(shù)調(diào)用:調(diào)用相關(guān)函數(shù)、在適當(dāng)?shù)臅r(shí)間調(diào)用函數(shù)以及使用適當(dāng)?shù)膮?shù)調(diào)用函數(shù)。在測量函數(shù)調(diào)用性能的ComplexFuncBench音頻評(píng)估中,GPT-RealTime得分66.5%,超過舊模型分?jǐn)?shù)。而我們在2024年12月發(fā)布的模型得分為49.7%。
此外,OpenAI還改進(jìn)了異步函數(shù)調(diào)用。長時(shí)間運(yùn)行的函數(shù)調(diào)用將不再中斷會(huì)話流程,模型可以在等待結(jié)果時(shí)繼續(xù)流暢地對話。此功能已在GPT-RealTime中原生提升支持,開發(fā)者無需更新代碼。
ComplexFuncBench測量模型處理具有挑戰(zhàn)性的函數(shù)調(diào)用任務(wù)的能力。它在多步調(diào)用、推理約束或隱式參數(shù)、處理非常長的輸入等場景中評(píng)估性能。我們將原始文本提示轉(zhuǎn)換為語音,以構(gòu)建此評(píng)估來測試我們的模型。
二、保留語音細(xì)微差別,新增四大RealTime API新功能
與傳統(tǒng)將語音轉(zhuǎn)文本和文本轉(zhuǎn)語音的多模型鏈?zhǔn)搅鞒滩煌?,Realtime API通過單個(gè)模型和API直接處理和生成音頻,這減少了延遲,保留了語音中的細(xì)微差別,并使得其響應(yīng)更自然、更具表現(xiàn)力。
RealTime API的新功能包括:
開發(fā)者可以通過在會(huì)話配置中傳入遠(yuǎn)程MCP服務(wù)器的URL在會(huì)話中啟用MCP支持。連接后,API會(huì)自動(dòng)處理工具調(diào)用,無需開發(fā)者手動(dòng)設(shè)置集成。
這種設(shè)置使開發(fā)者只需將會(huì)話指向不同的MCP服務(wù)器,就立即可用。
圖像輸入方面,開發(fā)者可以在Realtime API會(huì)話中添加圖像、照片和截圖,與音頻或文本一起使用?,F(xiàn)在模型可以基于用戶實(shí)際看到的內(nèi)容來構(gòu)建對話,使用戶能夠提出諸如“你看到了什么?”或“閱讀此截圖中的文本”等問題。
與其將圖像視為實(shí)時(shí)視頻流,系統(tǒng)更像是將圖片添加到對話中。開發(fā)者的應(yīng)用程序可以決定與模型共享哪些圖像以及何時(shí)共享,這樣就能控制模型看到什么以及何時(shí)回應(yīng)。
OpenAI還增加了使Realtime API更易于集成的功能,包括會(huì)話發(fā)起協(xié)議(SIP)支持、可重用提示。
SIP支持通過Realtime API直接連接開發(fā)者的應(yīng)用程序到公共電話網(wǎng)絡(luò)、PBX系統(tǒng)、辦公電話和其他SIP終端。
可重用提示允許開發(fā)者保存和重用提,包含開發(fā)者消息、工具、變量以及示例用戶/助手消息,且支持跨Realtime API會(huì)話使用,與Responses API的使用邏輯一致。
結(jié)語:設(shè)多層防護(hù)指南防止模型濫用
為了防止實(shí)時(shí)語音對話被濫用,Realtime API包含多層安全防護(hù)和緩解措施,OpenAI對Realtime API會(huì)話采用主動(dòng)分類器,這意味著如果檢測到某些對話違反了有害內(nèi)容指南,可以中止這些對話。開發(fā)者還可以使用Agents SDK添加自己的額外安全防護(hù)措施。
當(dāng)下,超逼真的實(shí)時(shí)語音對話已經(jīng)展現(xiàn)出頗為廣闊的應(yīng)用場景,豆包實(shí)時(shí)語音對話、百度新推的數(shù)字員工等,都將語音作為與用戶的主要交互形式,再加上OpenAI此次發(fā)布的新語音轉(zhuǎn)語音模型,也展現(xiàn)出更強(qiáng)的推理能力和更自然的語音表現(xiàn)力,使其能夠處理復(fù)雜的多步驟請求,在不同賽道構(gòu)建AI Agent。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.