OpenAI宣布推出GPT-Realtime模型和Realtime API的重大升級(jí),全面支持生產(chǎn)級(jí)語(yǔ)音Agent開(kāi)發(fā)。GPT-Realtime是目前最先進(jìn)的語(yǔ)音-to-語(yǔ)音(speech-to-speech)模型,直接以聲音作為輸入與輸出,摒棄傳統(tǒng)的“語(yǔ)音轉(zhuǎn)文本 → 文本生成 → 文本轉(zhuǎn)語(yǔ)音”流程,大幅降低延遲并保留語(yǔ)音細(xì)節(jié)。
模型能力:
更自然、更具表現(xiàn)力的語(yǔ)音生成,支持如“快速且專(zhuān)業(yè)”或“法式體貼口吻”等細(xì)膩語(yǔ)氣指令。
對(duì)細(xì)節(jié)掌控力增強(qiáng),包括識(shí)別笑聲、語(yǔ)調(diào)切換、語(yǔ)言切換,以及多語(yǔ)言環(huán)境下準(zhǔn)確復(fù)述 VIN、電話號(hào)碼等字母數(shù)字。邏輯推理在 Big Bench Audio 評(píng)估中得分達(dá) 82.8%,指令執(zhí)行準(zhǔn)確率提升至 30.5%,功能調(diào)用準(zhǔn)確率達(dá) 66.5%。
API新特性:
支持遠(yuǎn)端MCP工具服務(wù)器,可即插即用擴(kuò)展工具能力;
支持圖像輸入,語(yǔ)音助手能“看見(jiàn)”截圖并作圖像理解回應(yīng);
支持 SIP 電話協(xié)議,可直接連接傳統(tǒng)電話網(wǎng)絡(luò),實(shí)現(xiàn)語(yǔ)音代理呼叫;
具備可復(fù)用提示(prompts),可保存開(kāi)發(fā)設(shè)置,提升構(gòu)建效率。
聲線更新:新增兩種聲音“Cedar”與“Marin”,并同時(shí)升級(jí)現(xiàn)有的八種語(yǔ)音,提升音質(zhì)質(zhì)感和自然度。
上線與價(jià)格:Realtime API現(xiàn)已全面開(kāi)放(GA),GPT-Realtime定價(jià)相比先前Preview降價(jià)20%,音頻輸入1M tokens為$32(緩存 $0.40),音頻輸出為$64/1M tokens。(轉(zhuǎn)載自AI普瑞斯)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.