成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

今夜,語音模型第一次超越人類!OpenAI再現(xiàn)Her時(shí)刻,95后華人研究員坐鎮(zhèn)

0
分享至

新智元報(bào)道

編輯:定慧 好困

【新智元導(dǎo)讀】OpenAI凌晨發(fā)布最新生產(chǎn)級(jí)別語音模型和API。Realtime API實(shí)現(xiàn)語音直接處理,支持圖像輸入、遠(yuǎn)程MCP服務(wù)器與SIP打電話,極大簡化語音智能體構(gòu)建;而新一代語音到語音模型gpt-realtime,在音質(zhì)、理解力、指令遵循和函數(shù)調(diào)用上全面提升,語音幾乎媲美真人,還能多語種切換與細(xì)膩表達(dá)。

今天凌晨1點(diǎn),OpenAI接連扔出AI語音能力的兩個(gè)重磅更新。

一個(gè)是Realtime API,可支持生產(chǎn)級(jí)的實(shí)時(shí)智能體。

另一個(gè)是最先進(jìn)的語音到語音模型gpt-realtime。

Realtime API更新后不僅能連遠(yuǎn)程MCP服務(wù)器識(shí)別圖像輸入,還能通過SIP協(xié)議直接打電話

新模型gpt-realtime更是狠,復(fù)雜指令都能聽懂,工具調(diào)用更精準(zhǔn),語音自然流暢,還能帶點(diǎn)表現(xiàn)力。

它能逐字念免責(zé)聲明,能準(zhǔn)確復(fù)述字母數(shù)字,還能在對(duì)話里無縫切換語言。

最驚艷的,還是那聲音效果,幾乎和真人沒區(qū)別,甚至比真人更惟妙惟肖。

先來感受下這個(gè)語音的夸張效果,你幾乎聽不出來「機(jī)器味」。

這不禁讓人聯(lián)想到OpenAl這兩天很多人在社交媒體表示「feel the AGI....」

不知道說的是不是這個(gè)最新的Realtime語音功能。

在OpenAI提供的官方示例中,語音能力的加入,讓整個(gè)畫面立即就是充滿了AGI的味道!

現(xiàn)在gpt-realtime能夠處理復(fù)雜的多步驟請(qǐng)求,例如根據(jù)生活方式需求縮小房源列表,全程對(duì)話讓AI完成操作。

或者直接撥打電話安排醫(yī)生預(yù)約。

Realtime API第一次開放測(cè)試版是在去年10月,數(shù)千名開發(fā)者參與,邊用邊反饋。是所有這些開發(fā)者塑造了今天的改進(jìn)。

高可靠性、低延遲、高品質(zhì),就是為了讓語音智能體能夠真正能落地。

因?yàn)锳I語音實(shí)現(xiàn)的傳統(tǒng)鏈路很繁瑣:語音轉(zhuǎn)文本,文本再轉(zhuǎn)語音,層層疊加。

而Realtime API不一樣,它只用一個(gè)模型,一個(gè)接口。

直接處理,直接生成音頻。延遲更低,細(xì)節(jié)保留得更好。

聲音,也更自然,更有表現(xiàn)力。

gpt-realtime 模型介紹

全新的語音到語音模型gpt-realtime,在音質(zhì)、智能、指令遵循和函數(shù)調(diào)用方面均實(shí)現(xiàn)了全面提升。

可以說是OpenAI目前最先進(jìn)的,并且也是已為生產(chǎn)環(huán)境準(zhǔn)備就緒的語音模型。

音頻質(zhì)量

自然的對(duì)話是語音智能體在現(xiàn)實(shí)世界中落地的關(guān)鍵,就像電影《HER》中主角完全沉浸在斯嘉麗約翰遜的聲音中。

所以要求模型需要具備媲美人類的語調(diào)、情感和語速,才能創(chuàng)造愉悅的體驗(yàn),并鼓勵(lì)用戶持續(xù)交流。

OpenAI對(duì)gpt-realtime的訓(xùn)練專注于生成音質(zhì)更佳、聽感更自然的語音,并能遵循細(xì)粒度指令。

例如「用快速、專業(yè)的語氣說話」或「帶上法國口音,用共情的語氣表達(dá)」。

此外,在API中推出了Marin和Cedar兩款新語音,在語音的自然度上實(shí)現(xiàn)了重大突破。

同時(shí),對(duì)現(xiàn)有的八款語音也進(jìn)行了升級(jí),使其同樣受益于這些改進(jìn)。

智能與理解力

gpt-realtime展現(xiàn)出更高的智能水平,能夠更精準(zhǔn)地理解原始音頻。

模型可以捕捉笑聲等非語言線索,在句子中途切換語言,并根據(jù)要求調(diào)整語氣(例如,從「干脆利落的專業(yè)風(fēng)格」切換到「親切有同理心」)。

內(nèi)部評(píng)估顯示,該模型在識(shí)別西班牙語、中文、日語、法語等語言中的字母數(shù)字序列(如電話號(hào)碼、車輛識(shí)別碼等)時(shí),表現(xiàn)也更為準(zhǔn)確。

在衡量推理能力的Big Bench Audio評(píng)測(cè)中,gpt-realtime取得了 82.8% 的準(zhǔn)確率,遠(yuǎn)超在2024年12月發(fā)布的上一版模型(65.6%)。

指令遵循

構(gòu)建語音到語音應(yīng)用時(shí),開發(fā)者需要為模型提供一套行為指令,包括如何說話、在特定情境下說什么、以及行為的邊界。

此次著重改進(jìn)了模型對(duì)這些指令的遵循能力,使得即便是最細(xì)微的指示也能被模型有效捕捉。

在衡量指令遵循準(zhǔn)確度的MultiChallenge音頻基準(zhǔn)測(cè)試中,gpt-realtime的得分達(dá)到30.5%,相較于舊版模型(20.6%)有了顯著提高。

函數(shù)調(diào)用

要利用語音到語音模型構(gòu)建強(qiáng)大的語音智能體,模型必須能夠在恰當(dāng)?shù)臅r(shí)機(jī)調(diào)用正確的工具,才能在生產(chǎn)環(huán)境中真正發(fā)揮作用。

gpt-realtime從三個(gè)維度改進(jìn)了函數(shù)調(diào)用:調(diào)用相關(guān)函數(shù)、在合適的時(shí)機(jī)調(diào)用,以及使用正確的參數(shù)調(diào)用(從而提升準(zhǔn)確率)。

在衡量函數(shù)調(diào)用性能的ComplexFuncBench音頻評(píng)測(cè)中,gpt-realtime的得分為66.5%,而舊版模型得分僅49.7%。

還對(duì)異步函數(shù)調(diào)用進(jìn)行了改進(jìn)。耗時(shí)較長的函數(shù)調(diào)用將不再阻塞會(huì)話流程——模型可以在等待結(jié)果的同時(shí),保持流暢的對(duì)話。該功能已原生內(nèi)置于gpt-realtime,開發(fā)者無需更新代碼即可使用。

Realtime API的新功能

遠(yuǎn)程 MCP 服務(wù)器支持

您可以在實(shí)時(shí)API的會(huì)話配置中,通過傳入遠(yuǎn)程MCP服務(wù)器的URL來啟用MCP支持。連接后,API會(huì)自動(dòng)處理相關(guān)的工具調(diào)用,無需手動(dòng)進(jìn)行集成。

該設(shè)置讓您可以輕松地為智能體擴(kuò)展新能力:只需將會(huì)話指向一個(gè)不同的MCP服務(wù)器,相應(yīng)的工具便會(huì)立即可用。

// POST /v1/realtime/client_secrets
{
  "session": {
    "type": "realtime",
    "tools": [
      {
        "type": "mcp",
        "server_label": "stripe",
        "server_url": "https://mcp.stripe.com",
        "authorization": "{access_token}",
        "require_approval": "never"
      }
    ]
  }
}

圖像輸入

gpt-realtime現(xiàn)已支持圖像輸入。

可以將圖片、照片、屏幕截圖等視覺信息與音頻或文本一同加入到實(shí)時(shí)API的會(huì)話中。

現(xiàn)在,模型可以將對(duì)話內(nèi)容與用戶所見的畫面相結(jié)合,讓用戶可以提出「你看到了什么?」或「讀一下這張截圖里的文字」這類問題。

系統(tǒng)處理圖像的方式并非實(shí)時(shí)視頻流,而更像是在對(duì)話中插入一張圖片。

應(yīng)用程序可以決定在何時(shí)、與模型分享哪些圖像。

通過這種方式,可以始終掌控模型看到的內(nèi)容以及響應(yīng)的時(shí)機(jī)。

{
    "type":"conversation.item.create",
    "previous_item_id":null,
    "item":{
        "type":"message",
        "role":"user",
        "content":[
            {
                "type":"input_image",
                "image_url":"data:image/{format(example: png)};base64,{some_base64_image_bytes}"
            }
        ]
    }
}

其他功能

此次更新還增加了多項(xiàng)功能,使Realtime API更易于集成,在生產(chǎn)使用中也更具靈活性。

會(huì)話發(fā)起協(xié)議 (SIP) 支持:通過實(shí)時(shí)API的原生支持,將應(yīng)用連接到公共電話網(wǎng)絡(luò)、PBX系統(tǒng)、桌面電話及其他 SIP端點(diǎn)。

這有點(diǎn)像馬斯克此前推出的Ani打電話功能。

可重用提示詞:可以像在Responses API中一樣,保存并在不同的實(shí)時(shí)API會(huì)話中重用提示詞——這些提示詞可包含開發(fā)者消息、工具、變量以及用戶/助手消息示例。

華人面孔+2

OpenAI的發(fā)布會(huì)必定會(huì)出現(xiàn)華人,這次發(fā)布會(huì)出現(xiàn)兩張新面孔。

Beichen Li

Beichen Li目前是OpenAI的技術(shù)研究員。

研究方向是計(jì)算機(jī)圖形學(xué)與機(jī)器學(xué)習(xí)的交叉領(lǐng)域,重點(diǎn)關(guān)注利用多模態(tài)大語言模型(MLLM)進(jìn)行視覺程序合成。

此前,他在MIT CSAIL獲得計(jì)算機(jī)科學(xué)博士學(xué)位,師從Wojciech Matusik教授;在MIT獲得電氣工程與計(jì)算機(jī)科學(xué)碩士學(xué)位;在清華大學(xué)獲得計(jì)算機(jī)科學(xué)與技術(shù)學(xué)士學(xué)位。

Liyu Chen

Liyu Chen目前是OpenAI的技術(shù)研究員。

此前,他在南加州大學(xué)獲得博士學(xué)位,師從Haipeng Luo教授;在香港科技大學(xué)獲得學(xué)士學(xué)位,畢業(yè)論文由Dit-Yan Yeung教授指導(dǎo)。

參考資料:

https://openai.com/index/introducing-gpt-realtime/


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上港本輪剛輸蓉城!就有可能直接點(diǎn)燃三把火,四位球員發(fā)揮遭質(zhì)疑

上港本輪剛輸蓉城!就有可能直接點(diǎn)燃三把火,四位球員發(fā)揮遭質(zhì)疑

譚顳愛搞笑
2025-08-31 10:43:40
末節(jié)11分吹反攻號(hào)角!火箭舊將20+7逆轉(zhuǎn)美國 巴媒:他仍屬NBA級(jí)別

末節(jié)11分吹反攻號(hào)角!火箭舊將20+7逆轉(zhuǎn)美國 巴媒:他仍屬NBA級(jí)別

顏小白的籃球夢(mèng)
2025-08-31 09:30:45
美國撤銷三大芯片巨頭在華豁免!商務(wù)部回應(yīng)

美國撤銷三大芯片巨頭在華豁免!商務(wù)部回應(yīng)

EETOP半導(dǎo)體社區(qū)
2025-08-31 09:26:35
世界第3,中國第1!肖國棟創(chuàng)紀(jì)錄后連退2站大賽,丁俊暉無緣前20

世界第3,中國第1!肖國棟創(chuàng)紀(jì)錄后連退2站大賽,丁俊暉無緣前20

劉姚堯的文字城堡
2025-08-31 08:44:02
投票結(jié)果7:4!美國法院正式做出裁定,特朗普無權(quán)對(duì)中國加征關(guān)稅

投票結(jié)果7:4!美國法院正式做出裁定,特朗普無權(quán)對(duì)中國加征關(guān)稅

傲傲講歷史
2025-08-31 12:22:26
四年賠光64億,華誼兄弟的倒臺(tái),從背刺周星馳的時(shí)候,就早有預(yù)兆

四年賠光64億,華誼兄弟的倒臺(tái),從背刺周星馳的時(shí)候,就早有預(yù)兆

查爾菲的筆記
2025-08-15 13:25:33
新款Model Y高性能版登場(chǎng):3.5秒破百,續(xù)航580公里,國內(nèi)買不到

新款Model Y高性能版登場(chǎng):3.5秒破百,續(xù)航580公里,國內(nèi)買不到

沙雕小琳琳
2025-08-31 13:19:57
無恥的正史

無恥的正史

漢周讀書
2024-05-08 13:46:41
曉數(shù)點(diǎn)丨券商9月金股出爐:這些股獲力挺,看好科技、“反內(nèi)卷”方向

曉數(shù)點(diǎn)丨券商9月金股出爐:這些股獲力挺,看好科技、“反內(nèi)卷”方向

第一財(cái)經(jīng)資訊
2025-08-31 09:58:46
三亞男游客溺亡:有二次自救機(jī)會(huì),在水里就不行了 專業(yè)人稱已炸肺

三亞男游客溺亡:有二次自救機(jī)會(huì),在水里就不行了 專業(yè)人稱已炸肺

觀察鑒娛
2025-08-30 10:29:01
20歲男子與47歲女保潔發(fā)生關(guān)系:他就像野獸,強(qiáng)拍讓我沒臉見人

20歲男子與47歲女保潔發(fā)生關(guān)系:他就像野獸,強(qiáng)拍讓我沒臉見人

楊哥歷史
2023-12-23 19:09:59
侄子在我家吃住8年,得知我給女兒陪嫁房,他問:我結(jié)婚用什么?

侄子在我家吃住8年,得知我給女兒陪嫁房,他問:我結(jié)婚用什么?

娛樂洞察點(diǎn)點(diǎn)
2025-08-30 11:35:46
突發(fā):烏前議長遭槍殺

突發(fā):烏前議長遭槍殺

環(huán)球時(shí)報(bào)新聞
2025-08-30 20:09:15
1954年國慶,赫魯曉夫送了1噸純金國徽,毛主席:他這是行賄來了

1954年國慶,赫魯曉夫送了1噸純金國徽,毛主席:他這是行賄來了

柳絮憶史
2025-08-30 04:50:02
賀天舉:張鎮(zhèn)麟自己想走,作為最好的3號(hào)球員,遼寧隊(duì)不想他離開

賀天舉:張鎮(zhèn)麟自己想走,作為最好的3號(hào)球員,遼寧隊(duì)不想他離開

體育哲人
2025-08-30 16:43:25
比賽還沒開打,利物浦先迎來兩個(gè)重大喜訊,取勝阿森納概率大增

比賽還沒開打,利物浦先迎來兩個(gè)重大喜訊,取勝阿森納概率大增

零度眼看球
2025-08-31 07:41:07
只有老師不文明?中學(xué)老師與學(xué)生不文明聊天被辭退,露骨內(nèi)容流出

只有老師不文明?中學(xué)老師與學(xué)生不文明聊天被辭退,露骨內(nèi)容流出

Likepres
2025-08-30 14:57:02
梁靜管虎機(jī)場(chǎng)送兒子上學(xué),16歲犇犇身高190,跟管虎共用一張臉

梁靜管虎機(jī)場(chǎng)送兒子上學(xué),16歲犇犇身高190,跟管虎共用一張臉

歲月靜好3
2025-08-30 13:12:43
15號(hào)臺(tái)風(fēng)有新發(fā)展?新一輪強(qiáng)降雨9月2日到,超5省暴雨局地大暴雨

15號(hào)臺(tái)風(fēng)有新發(fā)展?新一輪強(qiáng)降雨9月2日到,超5省暴雨局地大暴雨

老牛講
2025-08-31 05:40:03
烏軍重新奪回紅軍村全部失地,俄羅斯夏季攻勢(shì)以慘敗告終

烏軍重新奪回紅軍村全部失地,俄羅斯夏季攻勢(shì)以慘敗告終

環(huán)球熱點(diǎn)快評(píng)
2025-08-30 20:18:18
2025-08-31 14:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13357文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機(jī)全面對(duì)比

頭條要聞

牛彈琴:有意思 美國總統(tǒng)跟一塊石頭干上了

頭條要聞

牛彈琴:有意思 美國總統(tǒng)跟一塊石頭干上了

體育要聞

遼籃官宣:4冠功勛李曉旭續(xù)約迎第21季 新賽季變球員兼教練

娛樂要聞

韓磊起訴后,女方公開道歉

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

手機(jī)
房產(chǎn)
本地
公開課
軍事航空

手機(jī)要聞

三星稱王,小米第二,榮耀沖進(jìn)第四

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

本地新聞

換個(gè)城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人辛瓦爾已死亡

無障礙瀏覽 進(jìn)入關(guān)懷版