早在 2024 年 10 月,OpenAI就發(fā)布了Realtime API,使開發(fā)者能夠在其應(yīng)用中構(gòu)建低延遲、多模式的體驗(yàn)。自那時(shí)起,成千上萬的開發(fā)者已經(jīng)使用 Realtime API 在其應(yīng)用和服務(wù)中構(gòu)建了自然的語音轉(zhuǎn)語音體驗(yàn)。今天,OpenAI 發(fā)布了其最先進(jìn)的語音轉(zhuǎn)語音模型 GPT-realtime,該模型能夠更好地遵循復(fù)雜指令,以更低的錯誤率調(diào)用工具,并生成更自然、更具表現(xiàn)力的語音。
OpenAI 聲稱,這款新模型能夠更好地解讀系統(tǒng)消息和開發(fā)者提示。Realtime API 去年發(fā)布時(shí),自帶 6 種不同的聲音,后來又添加了兩種。今天,OpenAI 宣布推出兩種新聲音:Marin 和 Cedar。除了新增聲音外,現(xiàn)有的 6 種聲音也進(jìn)行了更新,使其聽起來更加自然。
OpenAI 提到,這個(gè)新的 GPT-realtime 模型可以更好地理解音頻,并且準(zhǔn)確率更高,在基準(zhǔn)測試中的表現(xiàn)也更好:
Big Bench Audio:gpt-realtime 的準(zhǔn)確率達(dá)到了 82.8%,超過了 2024 年 12 月推出的上一代實(shí)時(shí)模型(準(zhǔn)確率 65.6%)。
MultiChallenge 音頻基準(zhǔn)測試:gpt-realtime 得分為 30.5%,與 2024 年 12 月的上一代型號(得分為 20.6%)相比有顯著提升。
ComplexFuncBench 音頻評估:gpt-realtime 得分為 66.5%,而 2024 年 12 月的上一代型號得分為 49.7%。
除了新模型和語音之外,OpenAI 還宣布了 API 的多項(xiàng)更新。實(shí)時(shí) API 現(xiàn)在支持遠(yuǎn)程 MCP 服務(wù)器、圖像輸入以及通過會話發(fā)起協(xié)議 (SIP) 進(jìn)行電話呼叫。最后,開發(fā)人員現(xiàn)在可以保存和重復(fù)使用提示。
盡管進(jìn)行了這些改進(jìn),OpenAI 還是降低了 Realtime API 的價(jià)格。與 GPT-4o-realtime-preview 相比,新的 GPT-realtime API 便宜了 20%,每 100 萬個(gè)音頻輸入詞元 32 美元(緩存輸入詞元 0.40 美元),每 100 萬個(gè)音頻輸出詞元 64 美元。
憑借這些有意義的性能改進(jìn)和令人驚訝的價(jià)格下降,OpenAI 將 gpt-realtime 定位為構(gòu)建下一代語音優(yōu)先體驗(yàn)的開發(fā)人員的有力選擇。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.