成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

OpenAI殺入語音模型大戰(zhàn)!祭出最強(qiáng)GPT-RealTime,加量還降價(jià)

0
分享至


智東西
編譯 程茜
編輯 李水青

智東西8月29日消息,今天凌晨,OpenAI發(fā)布為開發(fā)人員打造的語音轉(zhuǎn)語音模型GPT-RealTime,并同步更新了包括遠(yuǎn)程MCP服務(wù)器支持、圖像輸入和SIP(通過會(huì)話發(fā)起協(xié)議)電話呼叫支持的API功能。

OpenAI稱這是其迄今為止最先進(jìn)的語音合成模型,GPT-RealTime在遵循復(fù)雜指令、精確調(diào)用工具以及生成更自然、更具表現(xiàn)力的語音方面有所改進(jìn)。該模型可以自然朗讀重復(fù)的字母、數(shù)字,無縫切換語言,甚至可以捕捉笑聲等非語言信號(hào)。

今天OpenAI還發(fā)布了兩個(gè)新語音Cedar和Marin,它們將在Realtime API中獨(dú)家提供。

定價(jià)方面,通用版Realtime API和新的GPT-RealTime模型從今天起對所有開發(fā)者開放,GPT-RealTime每百萬token音頻輸入價(jià)格為32美元,緩存輸入每百萬token為0.4美元,每百萬token音頻輸出價(jià)格64美元,GPT-RealTime相比gpt-4o-realtime-preview價(jià)格下調(diào)20%。

OpenAI增加了對對話上下文的細(xì)粒度控制,允許開發(fā)者設(shè)置智能token限制,并一次截?cái)喽鄠€(gè)回合,顯著降低長會(huì)話的成本。

去年10月,OpenAI發(fā)布了Realtime API的公開測試版,至今已經(jīng)有數(shù)千名開發(fā)者使用該API并提出建議。

但從OpenAI在社交平臺(tái)X的評(píng)論區(qū)來看,有用戶對這一新模型充滿期待,稱語音應(yīng)用將變得更加有趣,但也有開發(fā)者反應(yīng),模型的聲音還是很像機(jī)器人,且舊的語音角色聽起來只是稍微更具表現(xiàn)力。


一、能捕捉笑聲,無縫切換語言調(diào)整語氣

OpenAI針對GPT-RealTime的音頻質(zhì)量、理解用戶指令、遵循指令等方面進(jìn)行了改進(jìn)。

語音Agent想要讓用戶能持續(xù)對話,模型需要像人類一樣帶有語調(diào)、情感和節(jié)奏,以創(chuàng)造愉悅的對話體驗(yàn)。博客中提到,GPT-RealTime可以產(chǎn)出更自然的高質(zhì)量語音,并能遵循細(xì)粒度的指令,例如“快速專業(yè)地說話”或“用法國口音富有同情心地說話”。

在理解用戶指令方面,GPT-RealTime可以捕捉笑聲等非語言線索,在句子中切換語言,并調(diào)整語氣。根據(jù)OpenAI內(nèi)部評(píng)估,該模型在西班牙語、中文、日語和法語等語言中,檢測電話號(hào)碼等的字母數(shù)字序列的準(zhǔn)確性也更高。

Big Bench Audio評(píng)估中,GPT-RealTime的準(zhǔn)確率為82.8%,超過了OpenAI 2024年12月發(fā)布的舊模型。Big Bench Audio基準(zhǔn)測試是一個(gè)用于評(píng)估支持音頻輸入的語言模型推理能力的評(píng)估數(shù)據(jù)集。


在構(gòu)建語音轉(zhuǎn)語音應(yīng)用時(shí),開發(fā)者會(huì)向模型提供一系列行為指令,包括如何說話、在特定情況下該說什么、該做什么或不該做什么。OpenAI專注于改進(jìn)模型對這些指令的遵循程度,使得即使是微小的指令也能為模型傳遞更多信息。

在衡量指令遵循準(zhǔn)確性的MultiChallenge音頻基準(zhǔn)測試中,GPT-RealTime得分為30.5%,相較舊模型的20.6%有顯著提升。MultiChallenge評(píng)估大模型在處理與人類的多輪對話時(shí)的表現(xiàn),OpenAI從測試題中篩選出適合音頻呈現(xiàn)的子集,通過文本轉(zhuǎn)語音(TTS)技術(shù)將其轉(zhuǎn)換為語音,進(jìn)而制作出本次評(píng)估的音頻版本。


要構(gòu)建一個(gè)具備語音轉(zhuǎn)語音模型的強(qiáng)大語音Agent,模型需要能夠在正確的時(shí)間調(diào)用正確的工具。OpenAI在三個(gè)維度上改進(jìn)了函數(shù)調(diào)用:調(diào)用相關(guān)函數(shù)、在適當(dāng)?shù)臅r(shí)間調(diào)用函數(shù)以及使用適當(dāng)?shù)膮?shù)調(diào)用函數(shù)。在測量函數(shù)調(diào)用性能的ComplexFuncBench音頻評(píng)估中,GPT-RealTime得分66.5%,超過舊模型分?jǐn)?shù)。而我們在2024年12月發(fā)布的模型得分為49.7%。

此外,OpenAI還改進(jìn)了異步函數(shù)調(diào)用。長時(shí)間運(yùn)行的函數(shù)調(diào)用將不再中斷會(huì)話流程,模型可以在等待結(jié)果時(shí)繼續(xù)流暢地對話。此功能已在GPT-RealTime中原生提升支持,開發(fā)者無需更新代碼。

ComplexFuncBench測量模型處理具有挑戰(zhàn)性的函數(shù)調(diào)用任務(wù)的能力。它在多步調(diào)用、推理約束或隱式參數(shù)、處理非常長的輸入等場景中評(píng)估性能。我們將原始文本提示轉(zhuǎn)換為語音,以構(gòu)建此評(píng)估來測試我們的模型。


二、保留語音細(xì)微差別,新增四大RealTime API新功能

與傳統(tǒng)將語音轉(zhuǎn)文本和文本轉(zhuǎn)語音的多模型鏈?zhǔn)搅鞒滩煌?,Realtime API通過單個(gè)模型和API直接處理和生成音頻,這減少了延遲,保留了語音中的細(xì)微差別,并使得其響應(yīng)更自然、更具表現(xiàn)力。

RealTime API的新功能包括:

開發(fā)者可以通過在會(huì)話配置中傳入遠(yuǎn)程MCP服務(wù)器的URL在會(huì)話中啟用MCP支持。連接后,API會(huì)自動(dòng)處理工具調(diào)用,無需開發(fā)者手動(dòng)設(shè)置集成。

這種設(shè)置使開發(fā)者只需將會(huì)話指向不同的MCP服務(wù)器,就立即可用。

圖像輸入方面,開發(fā)者可以在Realtime API會(huì)話中添加圖像、照片和截圖,與音頻或文本一起使用?,F(xiàn)在模型可以基于用戶實(shí)際看到的內(nèi)容來構(gòu)建對話,使用戶能夠提出諸如“你看到了什么?”或“閱讀此截圖中的文本”等問題。

與其將圖像視為實(shí)時(shí)視頻流,系統(tǒng)更像是將圖片添加到對話中。開發(fā)者的應(yīng)用程序可以決定與模型共享哪些圖像以及何時(shí)共享,這樣就能控制模型看到什么以及何時(shí)回應(yīng)。

OpenAI還增加了使Realtime API更易于集成的功能,包括會(huì)話發(fā)起協(xié)議(SIP)支持、可重用提示。

SIP支持通過Realtime API直接連接開發(fā)者的應(yīng)用程序到公共電話網(wǎng)絡(luò)、PBX系統(tǒng)、辦公電話和其他SIP終端。

可重用提示允許開發(fā)者保存和重用提,包含開發(fā)者消息、工具、變量以及示例用戶/助手消息,且支持跨Realtime API會(huì)話使用,與Responses API的使用邏輯一致。

結(jié)語:設(shè)多層防護(hù)指南防止模型濫用

為了防止實(shí)時(shí)語音對話被濫用,Realtime API包含多層安全防護(hù)和緩解措施,OpenAI對Realtime API會(huì)話采用主動(dòng)分類器,這意味著如果檢測到某些對話違反了有害內(nèi)容指南,可以中止這些對話。開發(fā)者還可以使用Agents SDK添加自己的額外安全防護(hù)措施。

當(dāng)下,超逼真的實(shí)時(shí)語音對話已經(jīng)展現(xiàn)出頗為廣闊的應(yīng)用場景,豆包實(shí)時(shí)語音對話、百度新推的數(shù)字員工等,都將語音作為與用戶的主要交互形式,再加上OpenAI此次發(fā)布的新語音轉(zhuǎn)語音模型,也展現(xiàn)出更強(qiáng)的推理能力和更自然的語音表現(xiàn)力,使其能夠處理復(fù)雜的多步驟請求,在不同賽道構(gòu)建AI Agent。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我在非洲當(dāng)保鏢:見證了海外華人的邪惡,非洲黑妹非要嫁給我

我在非洲當(dāng)保鏢:見證了海外華人的邪惡,非洲黑妹非要嫁給我

吳學(xué)華看天下
2023-12-20 12:32:08
79歲克林頓久違露面,帶除顫器引發(fā)健康擔(dān)憂,77歲希拉里卻很精神

79歲克林頓久違露面,帶除顫器引發(fā)健康擔(dān)憂,77歲希拉里卻很精神

譯言
2025-08-30 20:30:50
孟村女子葬禮后續(xù):弟弟曬照緬懷,曝姐姐隱忍原因,設(shè)計(jì)師發(fā)聲!

孟村女子葬禮后續(xù):弟弟曬照緬懷,曝姐姐隱忍原因,設(shè)計(jì)師發(fā)聲!

古希臘掌管松餅的神
2025-08-29 21:52:46
36歲楊穎上海商場現(xiàn)身,穿3年前高定禮服,失勢藝人辛酸盡顯?

36歲楊穎上海商場現(xiàn)身,穿3年前高定禮服,失勢藝人辛酸盡顯?

智凌縱橫
2025-08-30 10:36:55
楊蘭蘭保鏢身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

楊蘭蘭保鏢身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

公子麥少
2025-08-10 17:04:40
莫迪最新涉華表態(tài):印中保持緊密關(guān)系,對構(gòu)建多極化亞洲和世界至關(guān)重要

莫迪最新涉華表態(tài):印中保持緊密關(guān)系,對構(gòu)建多極化亞洲和世界至關(guān)重要

環(huán)球網(wǎng)資訊
2025-08-30 10:09:51
澳門賭場公關(guān)爆猛料:明星導(dǎo)演常來,某天王玩半年,專走秘密通道

澳門賭場公關(guān)爆猛料:明星導(dǎo)演常來,某天王玩半年,專走秘密通道

深析古今
2025-08-25 10:41:34
2進(jìn)武漢決賽,肖國棟秀恩愛:感謝我老婆,這是送她的七夕禮物!

2進(jìn)武漢決賽,肖國棟秀恩愛:感謝我老婆,這是送她的七夕禮物!

老媹古裝影視解說
2025-08-29 21:07:49
iPhone17ProMax,突然提前上架

iPhone17ProMax,突然提前上架

搞機(jī)小帝
2025-08-30 13:57:02
董璇給張維伊家所有親屬買黃金,董璇媽媽感慨:他家親戚可多了!

董璇給張維伊家所有親屬買黃金,董璇媽媽感慨:他家親戚可多了!

陳意小可愛
2025-08-30 21:40:31
“我不想死!”長沙女教師癌癥晚期,直言:全家必須為我犧牲!

“我不想死!”長沙女教師癌癥晚期,直言:全家必須為我犧牲!

詩詞中國
2025-08-26 15:46:48
人民網(wǎng)發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

人民網(wǎng)發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

熱點(diǎn)菌本君
2025-08-27 15:45:34
【市長】潮州市迎來新任副市長鄧鋼:從紀(jì)委骨干到援藏先鋒,實(shí)干擔(dān)當(dāng)助力潮州騰飛

【市長】潮州市迎來新任副市長鄧鋼:從紀(jì)委骨干到援藏先鋒,實(shí)干擔(dān)當(dāng)助力潮州騰飛

潮州玩家
2025-08-30 22:26:13
韓國女運(yùn)動(dòng)員網(wǎng)上曬腹肌竟被舉報(bào)!稱她是只穿內(nèi)衣太暴露?

韓國女運(yùn)動(dòng)員網(wǎng)上曬腹肌竟被舉報(bào)!稱她是只穿內(nèi)衣太暴露?

奮斗在韓國
2025-08-30 14:06:44
打入一球,迪亞斯當(dāng)選奧格斯堡vs拜仁全場最佳球員

打入一球,迪亞斯當(dāng)選奧格斯堡vs拜仁全場最佳球員

懂球帝
2025-08-31 03:11:31
街頭捕獲高個(gè)長發(fā)姐姐,她瑜伽褲勾勒的線條感絕了

街頭捕獲高個(gè)長發(fā)姐姐,她瑜伽褲勾勒的線條感絕了

半生情感
2025-08-15 10:10:50
杭州男子暴打情夫后續(xù):扇臉猛踹,妻子跪地求饒,猛料被扒是慣犯

杭州男子暴打情夫后續(xù):扇臉猛踹,妻子跪地求饒,猛料被扒是慣犯

天天熱點(diǎn)見聞
2025-08-29 14:11:55
這是黃圣依?差點(diǎn)沒認(rèn)出來,氣質(zhì)完全不一樣了呀,像是變了一個(gè)人

這是黃圣依?差點(diǎn)沒認(rèn)出來,氣質(zhì)完全不一樣了呀,像是變了一個(gè)人

鄉(xiāng)野小珥
2025-08-24 13:16:57
貴州女老師趙慶梅執(zhí)行死刑,22名男生遭毒手,全班僅兩人幸免

貴州女老師趙慶梅執(zhí)行死刑,22名男生遭毒手,全班僅兩人幸免

第四思維
2025-08-26 09:14:41
重磅的房地產(chǎn)政策來了,國家要對老舊住房改造下重手。

重磅的房地產(chǎn)政策來了,國家要對老舊住房改造下重手。

流蘇晚晴
2025-08-30 18:06:15
2025-08-31 03:48:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10390文章數(shù) 116838關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

家居
親子
旅游
教育
公開課

家居要聞

提升功能 靈活居住環(huán)境

親子要聞

寶藍(lán)用平板一下子買了50盒玩具??!!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

看到一個(gè)初中女生寫的長帖,我才知道有的父母錯(cuò)得有多離譜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版