智東西
作者 王涵
編輯 漠影
智東西8月27日報道,今天下午,在第四屆828 B2B企業(yè)節(jié)開幕式上,華為云宣布其Tokens服務全面接入CloudMatrix384超節(jié)點。
借助xDeepServe架構創(chuàng)新,該服務單芯片最高可實現(xiàn)2400TPS的吞吐量與50ms的TPOT(Token處理時延)。
一、中國日均Token消耗量暴增超300倍,接入超節(jié)點突破性能瓶頸
數(shù)據(jù)顯示,過去18個月中國AI算力需求呈指數(shù)級增長。2024年初中國日均Token消耗量為1000億,截至2025年6月底,這一數(shù)據(jù)已突破30萬億,1年半內(nèi)增長超300倍,這對算力基礎設施提出了更高要求。
2025年3月,華為云在傳統(tǒng)按卡時計費模式基礎上,推出基于MaaS(模型即服務)的Tokens服務,提供在線版、進線版、離線版及尊享版等多種規(guī)格,適配不同應用場景的性能與時延需求。
此次接入CloudMatrix384超節(jié)點后,依托超節(jié)點原生的xDeepServe框架,Tokens服務吞吐量從2025年初的1920TPS提升至2400TPS。
華為云認為,大算力構建需全棧創(chuàng)新,涵蓋硬件、軟件、算子、存儲、推理框架及超節(jié)點等環(huán)節(jié)。
其中,CloudMatrix384超節(jié)點通過計算架構創(chuàng)新突破性能瓶頸;CANN昇騰硬件優(yōu)化算子與通信策略;EMS彈性內(nèi)存存儲打破AI內(nèi)存限制;xDeepServe分布式推理框架則以架構提升算力效率。
二、xDeepServe架構拆解模型,優(yōu)化算力調(diào)用
作為CloudMatrix384超節(jié)點的原生服務,xDeepServe采用Transformerless極致分離架構,將MoE大模型拆解為Attention、FFN、Expert三個可獨立伸縮的微模塊,分配至不同NPU同步處理,再通過微秒級XCCL通信庫與FlowServe自研推理引擎整合,形成Tokens處理“流水線”。
經(jīng)優(yōu)化后,單卡吞吐從非超節(jié)點的600tokens/s提升至2400tokens/s。
CANN作為硬件加速計算中間層,包含算子庫、XCCL高性能通信庫等組件。其中XCCL專為超節(jié)點大語言模型服務設計,可發(fā)揮CloudMatrix384擴展后UB互聯(lián)架構的潛力,為架構分離提供帶寬與時延支持。
FlowServe分布式引擎將CloudMatrix384劃分為自治的DP小組,每個小組配備Tokenizer、執(zhí)行器、RTC緩存與網(wǎng)絡棧,可實現(xiàn)千卡并發(fā)無擁堵。
華為云透露,xDeepServe已實現(xiàn)MA分離,下一步計劃將Attention、MoE、Decode改造為數(shù)據(jù)流,并擴展至多臺超節(jié)點,以線性提升推理吞吐。
三、支持主流大模型與Agent平臺,已落地多行業(yè)場景
目前,華為云MaaS服務已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型,以及versatile、Dify、扣子等主流Agent平臺。
在模型性能優(yōu)化方面,文生圖大模型通過Int8量化、旋轉位置編碼融合算子等方式,在輕微損失畫質下,出圖速度達到業(yè)界主流平臺的2倍,最大支持2K×2K尺寸。
文生視頻大模型通過量化、通算并行等手段,降低延遲與顯存占用,性能較友商提升3.5倍。
應用層面,華為云已與超100家伙伴合作,在調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運維等領域開發(fā)AI Agent。
例如,基于MaaS平臺的今日人才數(shù)智員工解決方案,集成自然語言處理、機器學習等技術,可提升服務效率與客戶滿意度;北京方寸無憂科技開發(fā)的無憂智慧公文解決方案,能助力政企辦公智能化轉型。
結語:華為云超節(jié)點讓算力更適配AI應用需求
當前,AI技術正從模型研發(fā)向產(chǎn)業(yè)滲透加速邁進,而算力作為核心基礎設施,其性能、成本與適配能力將直接決定著產(chǎn)業(yè)智能化的推進速度。
隨著后續(xù)更多超節(jié)點擴展計劃的推進,以及更多行業(yè)場景的深度適配,這類AI基礎設施的升級,或將進一步降低企業(yè)接入AI技術的門檻,讓技術更加深度地融入生活。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.