OpenAI和微軟公司今日聯(lián)合發(fā)布了兩款專門針對語音生成優(yōu)化的人工智能模型。
OpenAI的全新算法gpt-realtime被稱為其功能最強(qiáng)大的語音模型。該人工智能產(chǎn)生的語音比ChatGPT開發(fā)者此前在該領(lǐng)域的產(chǎn)品更加自然。它還能夠在句子中途改變語調(diào)和語言。
據(jù)OpenAI介紹,gpt-realtime特別擅長遵循指令。這使得在應(yīng)用程序中使用該模型的開發(fā)者能夠針對特定任務(wù)對其進(jìn)行定制。例如,構(gòu)建技術(shù)支持助手的軟件團(tuán)隊(duì)可以指示gpt-realtime在某些提示回復(fù)中引用知識庫文章。
將該模型應(yīng)用于技術(shù)支持場景的開發(fā)者還可以訪問新的圖像上傳工具。使用此功能,客戶服務(wù)聊天機(jī)器人可以讓用戶上傳需要故障排除的應(yīng)用程序截圖。OpenAI還預(yù)計(jì)客戶會(huì)將此功能用于其他各種任務(wù)。
開發(fā)者可以通過OpenAI Realtime API訪問gpt-realtime。這是一個(gè)應(yīng)用程序編程接口,允許客戶與ChatGPT開發(fā)者的語音和多模態(tài)模型進(jìn)行交互。作為今日產(chǎn)品更新的一部分,OpenAI將該API正式發(fā)布,并增加了多項(xiàng)新功能。
"現(xiàn)在您可以在Realtime API會(huì)話中保存和重復(fù)使用提示——包括開發(fā)者消息、工具、變量以及用戶/助手示例消息,"OpenAI研究人員在博客文章中詳細(xì)說明。
微軟在gpt-realtime發(fā)布同時(shí)詳細(xì)介紹的語音人工智能模型名為MAI-Voice-1。該模型最初在公司的Microsoft Copilot助手中提供。據(jù)該公司介紹,該模型為助手提供功能支持,能夠總結(jié)天氣預(yù)報(bào)等更新信息,并從文本生成播客。
微軟表示MAI-Voice-1是業(yè)界硬件效率最高的語音模型之一。它可以使用單個(gè)圖形處理單元在不到一秒的時(shí)間內(nèi)生成一分鐘的音頻。微軟沒有提供額外信息,例如用于測量該模型單芯片性能的GPU型號。
該公司分享了關(guān)于MAI-1-preview的更多細(xì)節(jié),這是今日發(fā)布的第二個(gè)新人工智能模型。該公司使用15,000個(gè)英偉達(dá)公司的H100加速器訓(xùn)練了這個(gè)算法。H100是該芯片制造商在2022年推出時(shí)的旗艦數(shù)據(jù)中心顯卡。
與微軟的新語音模型一樣,MAI-1-preview針對效率進(jìn)行了優(yōu)化。神經(jīng)網(wǎng)絡(luò)在處理提示時(shí)通常會(huì)激活所有參數(shù)或配置設(shè)置。MAI-1-preview采用專家混合架構(gòu),允許它僅激活參數(shù)的子集,從而顯著減少硬件使用。
發(fā)布時(shí),MAI-1-preview通過API向有限數(shù)量的測試人員提供。它將在未來幾周內(nèi)推廣到Microsoft Copilot。
該公司暗示計(jì)劃在未來幾個(gè)月內(nèi)推出MAI-1-preview的改進(jìn)版本。即將推出的模型將使用GB200設(shè)備集群進(jìn)行訓(xùn)練。每個(gè)系統(tǒng)結(jié)合了72個(gè)Blackwell B200芯片(英偉達(dá)最新最先進(jìn)的數(shù)據(jù)中心GPU)和36個(gè)中央處理器。
"我們不僅將在這里追求進(jìn)一步的進(jìn)展,而且相信協(xié)調(diào)一系列專門模型來服務(wù)不同的用戶意圖和使用場景將釋放巨大價(jià)值,"微軟人工智能部門的研究人員在博客文章中寫道。
Q&A
Q1:gpt-realtime語音模型有什么特殊功能?
A:gpt-realtime是OpenAI最強(qiáng)大的語音模型,能夠產(chǎn)生比以往更自然的語音,還可以在句子中途改變語調(diào)和語言。它特別擅長遵循指令,開發(fā)者可以針對特定任務(wù)進(jìn)行定制,比如讓技術(shù)支持助手引用知識庫文章。
Q2:MAI-Voice-1模型的性能如何?
A:MAI-Voice-1是微軟發(fā)布的語音模型,被稱為業(yè)界硬件效率最高的語音模型之一。它可以使用單個(gè)圖形處理單元在不到一秒的時(shí)間內(nèi)生成一分鐘的音頻,目前在Microsoft Copilot助手中提供服務(wù)。
Q3:MAI-1-preview模型采用了什么技術(shù)架構(gòu)?
A:MAI-1-preview采用專家混合架構(gòu),與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)激活所有參數(shù)不同,它只激活參數(shù)的子集,從而顯著減少硬件使用。該模型使用15,000個(gè)英偉達(dá)H100加速器進(jìn)行訓(xùn)練,針對效率進(jìn)行了優(yōu)化。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.