OpenAI與微軟發(fā)布全新語音生成模型

2025-08-29 23:24:19　來源: 至頂頭條

北京舉報(bào)

分享至

OpenAI和微軟公司今日聯(lián)合發(fā)布了兩款專門針對語音生成優(yōu)化的人工智能模型。

OpenAI的全新算法gpt-realtime被稱為其功能最強(qiáng)大的語音模型。該人工智能產(chǎn)生的語音比ChatGPT開發(fā)者此前在該領(lǐng)域的產(chǎn)品更加自然。它還能夠在句子中途改變語調(diào)和語言。

據(jù)OpenAI介紹，gpt-realtime特別擅長遵循指令。這使得在應(yīng)用程序中使用該模型的開發(fā)者能夠針對特定任務(wù)對其進(jìn)行定制。例如，構(gòu)建技術(shù)支持助手的軟件團(tuán)隊(duì)可以指示gpt-realtime在某些提示回復(fù)中引用知識庫文章。

將該模型應(yīng)用于技術(shù)支持場景的開發(fā)者還可以訪問新的圖像上傳工具。使用此功能，客戶服務(wù)聊天機(jī)器人可以讓用戶上傳需要故障排除的應(yīng)用程序截圖。OpenAI還預(yù)計(jì)客戶會(huì)將此功能用于其他各種任務(wù)。

開發(fā)者可以通過OpenAI Realtime API訪問gpt-realtime。這是一個(gè)應(yīng)用程序編程接口，允許客戶與ChatGPT開發(fā)者的語音和多模態(tài)模型進(jìn)行交互。作為今日產(chǎn)品更新的一部分，OpenAI將該API正式發(fā)布，并增加了多項(xiàng)新功能。

"現(xiàn)在您可以在Realtime API會(huì)話中保存和重復(fù)使用提示——包括開發(fā)者消息、工具、變量以及用戶/助手示例消息，"OpenAI研究人員在博客文章中詳細(xì)說明。

微軟在gpt-realtime發(fā)布同時(shí)詳細(xì)介紹的語音人工智能模型名為MAI-Voice-1。該模型最初在公司的Microsoft Copilot助手中提供。據(jù)該公司介紹，該模型為助手提供功能支持，能夠總結(jié)天氣預(yù)報(bào)等更新信息，并從文本生成播客。

微軟表示MAI-Voice-1是業(yè)界硬件效率最高的語音模型之一。它可以使用單個(gè)圖形處理單元在不到一秒的時(shí)間內(nèi)生成一分鐘的音頻。微軟沒有提供額外信息，例如用于測量該模型單芯片性能的GPU型號。

該公司分享了關(guān)于MAI-1-preview的更多細(xì)節(jié)，這是今日發(fā)布的第二個(gè)新人工智能模型。該公司使用15,000個(gè)英偉達(dá)公司的H100加速器訓(xùn)練了這個(gè)算法。H100是該芯片制造商在2022年推出時(shí)的旗艦數(shù)據(jù)中心顯卡。

與微軟的新語音模型一樣，MAI-1-preview針對效率進(jìn)行了優(yōu)化。神經(jīng)網(wǎng)絡(luò)在處理提示時(shí)通常會(huì)激活所有參數(shù)或配置設(shè)置。MAI-1-preview采用專家混合架構(gòu)，允許它僅激活參數(shù)的子集，從而顯著減少硬件使用。

發(fā)布時(shí)，MAI-1-preview通過API向有限數(shù)量的測試人員提供。它將在未來幾周內(nèi)推廣到Microsoft Copilot。

該公司暗示計(jì)劃在未來幾個(gè)月內(nèi)推出MAI-1-preview的改進(jìn)版本。即將推出的模型將使用GB200設(shè)備集群進(jìn)行訓(xùn)練。每個(gè)系統(tǒng)結(jié)合了72個(gè)Blackwell B200芯片（英偉達(dá)最新最先進(jìn)的數(shù)據(jù)中心GPU）和36個(gè)中央處理器。

"我們不僅將在這里追求進(jìn)一步的進(jìn)展，而且相信協(xié)調(diào)一系列專門模型來服務(wù)不同的用戶意圖和使用場景將釋放巨大價(jià)值，"微軟人工智能部門的研究人員在博客文章中寫道。

Q&A

Q1：gpt-realtime語音模型有什么特殊功能？

A：gpt-realtime是OpenAI最強(qiáng)大的語音模型，能夠產(chǎn)生比以往更自然的語音，還可以在句子中途改變語調(diào)和語言。它特別擅長遵循指令，開發(fā)者可以針對特定任務(wù)進(jìn)行定制，比如讓技術(shù)支持助手引用知識庫文章。

Q2：MAI-Voice-1模型的性能如何？

A：MAI-Voice-1是微軟發(fā)布的語音模型，被稱為業(yè)界硬件效率最高的語音模型之一。它可以使用單個(gè)圖形處理單元在不到一秒的時(shí)間內(nèi)生成一分鐘的音頻，目前在Microsoft Copilot助手中提供服務(wù)。

Q3：MAI-1-preview模型采用了什么技術(shù)架構(gòu)？

A：MAI-1-preview采用專家混合架構(gòu)，與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)激活所有參數(shù)不同，它只激活參數(shù)的子集，從而顯著減少硬件使用。該模型使用15,000個(gè)英偉達(dá)H100加速器進(jìn)行訓(xùn)練，針對效率進(jìn)行了優(yōu)化。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.