新智元報(bào)道
編輯:艾倫 KingHZ
【新智元導(dǎo)讀】微軟緊跟OpenAI的節(jié)奏,在同一天也親自下場發(fā)布了微軟自研的兩個(gè)大模型:語音模型MAI-Voice-1和通用模型MAI-1-preview。對于這位老大哥,親自下場做的第一個(gè)AI大模型,效果究竟怎么樣?
就在OpenAI發(fā)布最新的語音大模型之際,微軟掏出了自研語音大模型!
微軟AI掌門人、DeepMind聯(lián)合創(chuàng)始人Mustafa Suleyman正式宣布:
微軟AI正式推出MAI-Voice-1以及MAI-1-預(yù)覽版!而且還有更多內(nèi)容即將推出。
MAI-Voice-1語音模型效率極高:單GPU秒出1分鐘音頻!使用Copilot即可體驗(yàn)。
在Mustafa Suleyman看來,這是他用過表現(xiàn)力最豐富、最自然的語音生成模型。
而MAI-1預(yù)覽版模型是微軟AI首個(gè)端到端內(nèi)部訓(xùn)練的自研基礎(chǔ)模型。
這標(biāo)志著在多年依賴OpenAI模型之后,微軟AI部門正式與OpenAI及整個(gè)行業(yè)正面競爭,也意味著微軟在AI競賽中,開始掌握更多主動(dòng)權(quán)。
在接受采訪時(shí),Suleyman 表示:「微軟是世界上最大的公司之一。我們必須具備內(nèi)部能力,來打造世界最強(qiáng)的模型。」
MAI-Voice-1,究竟能力如何
在微軟官方給出的指標(biāo)中,最能引起我們注意的,是「單卡<1秒,生成1分鐘音頻」。
這使其成為當(dāng)前少見的極致低時(shí)延TTS/對話式語音生成系統(tǒng)之一。
除此之外,語音的自然和富有表現(xiàn)力也是重點(diǎn),這覆蓋到了單人敘述與多說話人對話兩種常見內(nèi)容形態(tài)。
新聞播報(bào)、播客對談、故事講述、冥想/引導(dǎo)等,你能想到的,統(tǒng)統(tǒng)沒問題。
你可以選擇9種不同的語音:
也可以選擇多達(dá)31種不同的情緒和播報(bào)場景:
你還可以讓模型扮演一個(gè)激情四射的體育解說員,點(diǎn)燃你的情緒:
具體到落地上,我們可以通過Copilot Labs,在Copilot Daily中以AI主播播報(bào)要聞、在Copilot Podcasts生成播客式討論,Copilot Labs 提供可玩Demo(可以自定義內(nèi)容、敘述風(fēng)格等)。
下面是兩段該模型生成的語音Demo,你可以聽聽看,滿分5分想給幾分?是否還有AI味呢?歡迎在評論區(qū)留下您的測評意見。
微軟與OpenAI難舍難分
長期以來,微軟主要依靠OpenAI的人工智能模型,為核心產(chǎn)品提供AI功能。
OpenAI目前估值約5000億美元,微軟一家的投資就超過了130億美元,而OpenAI也依賴微軟的云基礎(chǔ)設(shè)施來運(yùn)行其模型。
但現(xiàn)在宣布:「未來幾周,我們將在Copilot的部分文本任務(wù)中逐步推出MAI-1-preview,以便從用戶反饋中學(xué)習(xí)和改進(jìn)。」
目前,微軟仍在Bing、Windows 11及其他產(chǎn)品中使用OpenAI的模型。
但雙方的關(guān)系日漸惡化。
去年,微軟在年度財(cái)報(bào)中正式將OpenAI列入競爭對手名單,之前多年來只包含亞馬遜、蘋果、谷歌和 Meta等科技巨頭。
近幾個(gè)月,OpenAI也轉(zhuǎn)向CoreWeave、谷歌和甲骨文等其他云服務(wù)商,以滿足激增的算力需求。
與OpenAI同期發(fā)布語音模型,意欲何為
就在昨天,OpenAI也發(fā)布了最新的語音生成大模型GPT-Realtime,整體嵌入在Realtime API中。
該模型在語音自然性、情感豐富度、低延遲響應(yīng)上顯著提升,能夠在一句話之內(nèi)實(shí)現(xiàn)語調(diào)、語言的無縫切換,還支持工具調(diào)用、指令跟隨能力。
為什么微軟選擇在此時(shí)發(fā)布新模型?
此次發(fā)布雖然只有語音模型和預(yù)覽版通用模型,但釋放出的信號(hào)不容忽視。
其一,語音將成為AI助手的重要戰(zhàn)場。
MAI?Voice?1的效率和表達(dá)力有望推動(dòng)語音助手晉級的「數(shù)字伙伴」。
而富有情感和個(gè)性的數(shù)字伙伴,是Grok等模型時(shí)下開始發(fā)力的一個(gè)新突破點(diǎn),潛力頗大。
其二,OpenAI不再是唯一選擇。
大模型發(fā)展進(jìn)入「百模大戰(zhàn)」階段,各巨頭紛紛推出自研產(chǎn)品。
微軟此舉既是對OpenAI合作的補(bǔ)充,也為自己與OpenAI的重大商業(yè)談判中增加了可觀的籌碼。
其三,MoE架構(gòu)成大模型新趨勢。
MAI?1?preview采用MoE架構(gòu),訓(xùn)練規(guī)模適中但更關(guān)注指令遵循和響應(yīng)效率,能兼顧性能與成本。
隨著LLM細(xì)分應(yīng)用增多,多專家模型將成為重要方向。
其四,生態(tài)開放值得期待。
微軟表示將在Copilot及第三方測試平臺(tái)開放模型,鼓勵(lì)開發(fā)者提供反饋。
在媒體采訪中,Mustafa Suleyman表示:
人工智能不僅是科技的未來,更是未來幾十年商業(yè)運(yùn)行和價(jià)值創(chuàng)造的核心。
因此,研發(fā)最強(qiáng)的模型,不僅是技術(shù)追求,更是微軟作為企業(yè)的戰(zhàn)略必然。
我們必須擁有自己的核心能力。
在14個(gè)月前,他和團(tuán)隊(duì)從Inflection加入微軟后,就一直全力推動(dòng)這件事。
如今,微軟終于發(fā)布了兩款自研模型。
Suleyman強(qiáng)調(diào),微軟未來會(huì)繼續(xù)使用OpenAI的模型,也會(huì)用開源模型,但關(guān)鍵在于「編排器」(orchestrator)。
這是一種模型調(diào)度系統(tǒng),能夠根據(jù)任務(wù)自動(dòng)選擇合適的模型來完成特定請求,類似「路由器」。
他認(rèn)為,這種編排能力將成為微軟的重要知識(shí)產(chǎn)權(quán)。
外界普遍猜測,微軟推出自研模型,是否意味著與OpenAI的關(guān)系在降溫?
對此,Suleyman回應(yīng)道:
我們的目標(biāo)是進(jìn)一步加深與OpenAI的合作,并保持長期良好的伙伴關(guān)系。
雙方的合作已經(jīng)非常成功,未來我相信仍會(huì)繼續(xù)下去。
微軟如何自研大模型
這次微軟AI透露:「MAI-1-preview是MoE模型,使用約1.5萬張NVIDIA H100 GPU進(jìn)行了預(yù)訓(xùn)練和后訓(xùn)練。」
在LMArena文本任務(wù)榜單上,MAI-1排名第13,落后于DeepSeek、谷歌、OpenAI和xAI等主要AI玩家的模型。
相比之下,xAI的Grok模型則動(dòng)用了超過10萬張同類芯片。
微軟AI只用相對小規(guī)模的集群,也能訓(xùn)練出非常強(qiáng)大的模型。
Suleyman認(rèn)為自研的新模型表現(xiàn)遠(yuǎn)超其硬件規(guī)模,完全可以和世界上最強(qiáng)的模型媲美,而且現(xiàn)在才剛剛開始調(diào)優(yōu)。
一旦模型投入實(shí)際應(yīng)用并開始收集反饋,隨著不斷迭代,性能還會(huì)顯著提升。
對微軟AI來說,這僅僅是個(gè)開始。
微軟AI算力充沛,已經(jīng)在使用全球最大的數(shù)據(jù)中心之一,并配備了Nvidia下一代GB-200芯片,研發(fā)下一版本模型。
而且,他們有一個(gè)龐大的五年規(guī)劃,并會(huì)持續(xù)投資算力。
規(guī)模很重要,但效率同樣關(guān)鍵。
這意味著要精挑細(xì)選高質(zhì)量的訓(xùn)練數(shù)據(jù),確保每一次浮點(diǎn)運(yùn)算、每一次GPU迭代都發(fā)揮最大價(jià)值。
現(xiàn)在訓(xùn)練模型的核心能力,已經(jīng)越來越變成了一種「工藝」——選對數(shù)據(jù),避免把算力浪費(fèi)在無效的token上。
Suleyman 表示,公司利用了一些源自開源社區(qū)的技術(shù),使得有限資源發(fā)揮了更大作用。
這是微軟首次完整端到端訓(xùn)練的大模型。在研發(fā)過程中,團(tuán)隊(duì)也遇到了不少挑戰(zhàn)。
Suleyman坦言:「構(gòu)建這樣規(guī)模的集群、訓(xùn)練如此龐大的數(shù)據(jù),需要不斷的調(diào)試、迭代和耐心。這是每一家實(shí)驗(yàn)室都會(huì)面臨的難題。」
他對團(tuán)隊(duì)的表現(xiàn)非常滿意:「我們從中學(xué)到了很多,也積累了足夠的經(jīng)驗(yàn)去打造更多優(yōu)秀的模型?!?/p>
他把這比喻成「轉(zhuǎn)動(dòng)飛輪」:一旦模型研發(fā)進(jìn)入正循環(huán),每一代都會(huì)推動(dòng)下一代更快成長。
之前,Suleyman在Inflection,甚至DeepMind都有相關(guān)經(jīng)驗(yàn),不過那時(shí)候算力規(guī)模較小,GPU還沒有動(dòng)輒十萬張。
這次的首個(gè)模型訓(xùn)練成功,他認(rèn)為關(guān)鍵在于文化:
優(yōu)秀的文化吸引了優(yōu)秀的人,是優(yōu)秀的團(tuán)隊(duì)才能構(gòu)建出優(yōu)秀的模型。
而最終,這個(gè)團(tuán)隊(duì)的價(jià)值觀,也會(huì)自然地被注入到模型和產(chǎn)品中。
Suleyman還透露他們已經(jīng)在開發(fā)下一個(gè)模型了:規(guī)模更大,訓(xùn)練架構(gòu)也做了一些新的調(diào)整。
現(xiàn)在一切都已經(jīng)啟動(dòng)了,接下來幾個(gè)月、幾年里都會(huì)有很多值得期待的東西。
參考資料:
https://copilot.microsoft.com/labs/audio-expression
https://microsoft.ai/news/two-new-in-house-models/
https://x.com/mustafasuleyman/status/1961111770422186452
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.