成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,華為AI推理大招終于來了!10倍級(jí)上下文擴(kuò)展,性價(jià)比暴漲

0
分享至


智東西
作者 ZeR0
編輯 漠影

智東西8月12日?qǐng)?bào)道,今日,華為推出AI推理創(chuàng)新技術(shù)——推理記憶數(shù)據(jù)管理器UCM,通過多級(jí)緩存顯著優(yōu)化AI推理體驗(yàn)與性價(jià)比。


UCM是一款以KV Cache記憶管理為中心的推理加速套件,提供全場(chǎng)景系列化推理加速方案,通過推理框架、算力、存儲(chǔ)三層協(xié)同,優(yōu)化Tokens在各業(yè)務(wù)環(huán)節(jié)中流轉(zhuǎn)的效率,以實(shí)現(xiàn)AI推理的更優(yōu)體驗(yàn)、更低成本。

其三大組件包括對(duì)接不同引擎與算力的推理引擎插件(Connector)、支持多級(jí)KV Cache管理及加速算法的功能庫(kù)(Accelerator)、高性能KV Cache存取適配器(Adapter),并通過開放統(tǒng)一的南北向接口,可適配多類型推理引擎框架、算力及存儲(chǔ)系統(tǒng)。

經(jīng)大量測(cè)試驗(yàn)證,UCM可將首Token時(shí)延最高降低90%,系統(tǒng)吞吐最大提升22倍,實(shí)現(xiàn)10倍級(jí)上下文窗口擴(kuò)展。

華為計(jì)劃在今年9月正式開源UCM,屆時(shí)將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),希望通過開放開源的方式,讓業(yè)界共享這一成果,共同推動(dòng)AI推理生態(tài)的繁榮發(fā)展。

同時(shí),華為與中國(guó)銀聯(lián)率先在金融典型場(chǎng)景開展UCM技術(shù)試點(diǎn)應(yīng)用,并聯(lián)合發(fā)布智慧金融AI推理加速方案應(yīng)用成果。

會(huì)后,華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線副總裁、閃存領(lǐng)域總裁謝黎明,華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線AI存儲(chǔ)首席架構(gòu)師李國(guó)杰,與智東西等媒體進(jìn)行深入交流。

李國(guó)杰強(qiáng)調(diào),用AI處理更高級(jí)別的問題,信息量和數(shù)據(jù)輸出會(huì)更大,UCM則能夠大幅優(yōu)化成本。今天發(fā)布的UCM,是華為第一次提供如此完整的全流程、全場(chǎng)景且可演進(jìn)的系統(tǒng)性方案。從單點(diǎn)算力模組轉(zhuǎn)向系統(tǒng)級(jí)優(yōu)化,是一個(gè)大的變化和趨勢(shì)。業(yè)界有很多開源方案有類似的方向,有的是做了其中某一層或某一些組件,但是并未看到可商用的端到端完整方案。

謝黎明談道,開源UCM與業(yè)界思路是一致的,華為希望通過開放這些成果,為推理體驗(yàn)、生態(tài)、成本貢獻(xiàn)一份力量,進(jìn)一步促進(jìn)框架、存儲(chǔ)、GPU廠商共建和成熟化整套機(jī)制,真正解決AI行業(yè)化落地的效率和成本問題。

一、優(yōu)化AI推理體驗(yàn):10倍級(jí)上下文窗口擴(kuò)展,TTFT最高降低90%,Token經(jīng)濟(jì)性提升2倍+華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰談道,AI在金融行業(yè)大規(guī)模使用,推理效率與體驗(yàn)是關(guān)鍵。AI時(shí)代,模型訓(xùn)練、推理效率與體驗(yàn)的量綱都以Token數(shù)為表征,Token經(jīng)濟(jì)時(shí)代到來。

AI推理應(yīng)用落地過程中面臨三大挑戰(zhàn):

  • 推不動(dòng)(輸入超出模型上下文窗口)
  • 推得慢(美國(guó)大模型推理首Token時(shí)延=中國(guó)大模型的1/2)
  • 推得貴(美國(guó)大模型推理吞吐率大約是中國(guó)大模型的10倍)

對(duì)此,華為推出UCM推理記憶數(shù)據(jù)管理器(Unified Cache Manager),通過多級(jí)緩存解決AI推理體驗(yàn)與成本問題。


整個(gè)AI推理系統(tǒng)中的記憶有三部分:高帶寬內(nèi)存HBM、DRAM都在智算服務(wù)器中,可以充分利用但過去沒有利用起來的是下面的專業(yè)共享存儲(chǔ)。


通過一系列算法,UCM把推理過程中有不同延時(shí)要求的數(shù)據(jù)放在不同的記憶體中,實(shí)時(shí)記憶數(shù)據(jù)即熱放在HBM中,短期記憶數(shù)據(jù)放在DRAM,其他放在共享專業(yè)存儲(chǔ)中,通過這樣的按需流動(dòng)來提升整個(gè)系統(tǒng)的效率。

UCM主要分為三部分:頂層是推理引擎插件(Connector),與業(yè)界多樣引擎與多元算力靈活對(duì)接,會(huì)連接MindIE、SGLang等一些主流推理引擎框架;中間是對(duì)緩存記憶數(shù)據(jù)進(jìn)行分級(jí)管理的一些創(chuàng)新加速算法,運(yùn)行在智算服務(wù)器中;另一部分是與專業(yè)共享存儲(chǔ)相結(jié)合的存取適配器,能提升專業(yè)存儲(chǔ)的直通效率和降低時(shí)延,可以讓三級(jí)存儲(chǔ)更好協(xié)同。


通過大量測(cè)試,UCM能給推理系統(tǒng)的效率、體驗(yàn)、成本提升帶來明顯進(jìn)步。


(1)更快的推理響應(yīng):依托UCM層級(jí)化自適應(yīng)的全局前綴緩存技術(shù),可實(shí)現(xiàn)任意物理位置、任意輸入組合上的KV前綴緩存重用,在多輪對(duì)話、RAG知識(shí)檢索等場(chǎng)景中直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計(jì)算,使首Token時(shí)延最大降低90%、Token經(jīng)濟(jì)性提升2倍+


(2)更長(zhǎng)的推理序列:通過動(dòng)態(tài)KV逐層卸載、位置編碼擴(kuò)展、Prefill稀疏等組合技術(shù),將超長(zhǎng)序列Cache分層卸載至外置專業(yè)存儲(chǔ),通過算法創(chuàng)新突破模型和資源限制,實(shí)現(xiàn)10倍級(jí)推理上下文窗口擴(kuò)展,滿足長(zhǎng)文本處理需求。


(3)更低的推理成本:具備智能分級(jí)緩存能力,可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中自動(dòng)分級(jí)緩存,同時(shí)融合多種稀疏注意力算法,實(shí)現(xiàn)存算深度協(xié)同,使長(zhǎng)序列場(chǎng)景下TPS(每秒處理token數(shù))提升2-22倍,降低每Token推理成本。

UCM受打字輸入法聯(lián)想的啟發(fā),提供一套基于后綴檢索的預(yù)測(cè)聯(lián)想算法,將行業(yè)私域數(shù)據(jù)和用戶習(xí)慣構(gòu)建token級(jí)的后綴索引,突破自回歸的聯(lián)想限制,可以一次輸出多詞,并且存得越多推得越快,比傳統(tǒng)MTP預(yù)測(cè)加速效果更好、更適用于企業(yè)場(chǎng)景。


二、面向開源設(shè)計(jì),適配多類推理引擎框架、算力、存儲(chǔ)系統(tǒng)

KV Cache與記憶數(shù)據(jù)管理是大語言模型推理中優(yōu)化性能、降低計(jì)算成本的核心技術(shù)。但國(guó)內(nèi)AI推理生態(tài)中尚未形成以其為核心的完整加速軟件體系,相關(guān)技術(shù)布局存在短板。

隨著邁入Agentic AI時(shí)代,模型規(guī)模化擴(kuò)張、長(zhǎng)序列需求激增以及推理任務(wù)并發(fā)量增長(zhǎng),AI推理的KV Cache容量增長(zhǎng)已超出HBM的承載能力,需要構(gòu)建“軟件優(yōu)化+硬件創(chuàng)新+存算協(xié)同”的架構(gòu)。

UCM可根據(jù)數(shù)據(jù)冷熱分級(jí)存儲(chǔ)到不同介質(zhì)中,使KV Cache容量從GB級(jí)增長(zhǎng)至PB級(jí),是一種更經(jīng)濟(jì)、更易用的推理加速方案。

其設(shè)計(jì)理念是通過開放統(tǒng)一的框架和接口,北向支持多樣化的推理引擎連接,南向接入多樣化的存儲(chǔ)系統(tǒng),中間在推理加速算法配置方面,開放并呼吁更多的開源和生態(tài)伙伴共建豐富的加速算法庫(kù)。


UCM面向開源設(shè)計(jì),上層推理引擎插件接口積極融入主流的開源社區(qū),中間層分級(jí)緩存管理接口與Mooncake聯(lián)合設(shè)計(jì),在端到端的XPU直通存儲(chǔ)的存儲(chǔ)標(biāo)準(zhǔn)和產(chǎn)業(yè)接口的定義上與多家芯片廠商進(jìn)行聯(lián)合定義。

華為希望聯(lián)合產(chǎn)業(yè)界的力量,共建共創(chuàng)以記憶數(shù)據(jù)管理為中心的推理加速新范式。

AI技術(shù)迭代飛速,因此UCM著眼于未來設(shè)計(jì),從KV Cache分層管理走向Agentic AI原生記憶管理與應(yīng)用加速,除了今年發(fā)布的推理加速套件(下圖黃色部分)之外,還會(huì)持續(xù)構(gòu)建和發(fā)布面向Agent知識(shí)感知的多模檢索加速能力以及未來Agent原生記憶的管理和加速能力。


據(jù)李國(guó)杰透露,UCM大概從去年6-7月份開始孵化,至今差不多一年,僅是算法方面就有百人級(jí)團(tuán)隊(duì)投入,未來會(huì)面向Agentic AI做更深演進(jìn),可能會(huì)繼續(xù)增加投入。

談到UCM與其他分級(jí)緩存管理的差別,李國(guó)杰總結(jié)了三點(diǎn):

首先是納入專業(yè)存儲(chǔ)。很多分級(jí)緩存管理是管理一些裸金屬資源,效率不太能滿足商用客戶要求。納入專業(yè)存儲(chǔ)后,華為做了大量軟硬系統(tǒng)和卸載的事情,比如直通加速、KV Cache生命周期管理等。

第二,業(yè)界現(xiàn)有方案在算法加速庫(kù)方面幾乎只有傳統(tǒng)的Prefix Cache一種技術(shù),并沒有像UCM這樣商用全流程稀疏算法、后綴檢索算法及其他算法。相較業(yè)界,華為貢獻(xiàn)了一些更加豐富、可靠的或加速效果更好的算法,這個(gè)算法庫(kù)還在持續(xù)增加中。

第三,推理場(chǎng)景非常豐富,請(qǐng)求輸入輸出變化多端,各場(chǎng)景下沒有一套框架、一套加速機(jī)制、一套算法是可以普適的,所以需要一套完整、絲滑、能在各場(chǎng)景、各種長(zhǎng)短序列、各種請(qǐng)求下做自動(dòng)切換和自動(dòng)適應(yīng)的方案,只有像UCM這樣真正跟客戶場(chǎng)景貼身聯(lián)創(chuàng)和迭代的技術(shù)才有這樣的能力。

三、技術(shù)價(jià)值已在智慧金融場(chǎng)景得到驗(yàn)證

在與中國(guó)銀聯(lián)的聯(lián)合創(chuàng)新技術(shù)試點(diǎn)中,UCM的技術(shù)價(jià)值得到驗(yàn)證。

在中國(guó)銀聯(lián)“客戶之聲”業(yè)務(wù)場(chǎng)景下,借助UCM技術(shù)及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準(zhǔn)識(shí)別客戶高頻問題,促進(jìn)服務(wù)質(zhì)量提升。


未來,中國(guó)銀聯(lián)計(jì)劃依托國(guó)家人工智能應(yīng)用中試基地,聯(lián)合華為等生態(tài)伙伴共建“AI+金融”示范應(yīng)用,推動(dòng)技術(shù)成果從“實(shí)驗(yàn)室驗(yàn)證”走向“規(guī)?;瘧?yīng)用”。

會(huì)上,中國(guó)信通院人工智能研究所平臺(tái)與工程化部主任曹峰分享了大模型推理優(yōu)化的4個(gè)主要趨勢(shì):

(1)大模型落地重心從訓(xùn)練轉(zhuǎn)向推理,應(yīng)用從ToC到ToB加速成熟;

(2)推理目標(biāo)從單點(diǎn)優(yōu)化和功能完備轉(zhuǎn)向“成本-性能-效果”三目標(biāo)協(xié)同優(yōu)化;

(3)系統(tǒng)級(jí)架構(gòu)優(yōu)化將成主流,頭部廠商2025年陸續(xù)推出推理系統(tǒng)級(jí)優(yōu)化方案,未來結(jié)合“模型-場(chǎng)景-架構(gòu)”的推理架構(gòu)設(shè)計(jì)是技術(shù)、產(chǎn)業(yè)的發(fā)展重點(diǎn);

(4)KV Cache是架構(gòu)優(yōu)化焦點(diǎn),以KV Cache為核心的推理方案迭出,其背后依賴的高性能存儲(chǔ)、先進(jìn)調(diào)度策略的重要性將愈發(fā)顯現(xiàn)。

結(jié)語:應(yīng)對(duì)AI推理多重性能挑戰(zhàn),UCM能有效緩解資源瓶頸

推理已成為AI下一階段的發(fā)展重心,直接關(guān)聯(lián)用戶滿意度、商業(yè)可行性等,重要性愈發(fā)凸顯。

AI推理從生成式AI時(shí)代的簡(jiǎn)單推理任務(wù),逐漸向Agentic AI時(shí)代的復(fù)雜長(zhǎng)程推理任務(wù)發(fā)展,帶來了對(duì)算力計(jì)算量、內(nèi)存訪問效率、超長(zhǎng)上下文處理、Multi-agent狀態(tài)共享等方面的性能挑戰(zhàn)。

UCM可通過復(fù)用已計(jì)算結(jié)果、上下文窗口擴(kuò)展、長(zhǎng)記憶保持與共享等技術(shù),減少重復(fù)計(jì)算與低效內(nèi)存訪問,有效緩解復(fù)雜任務(wù)產(chǎn)生的資源瓶頸和性能挑戰(zhàn)。

通過融合多類型緩存加速算法工具,UCM能夠更大程度釋放KV Cache與推理框架的性能潛力,實(shí)現(xiàn)推理效率的顯著提升,并通過開源開放進(jìn)一步加速探索優(yōu)化商用AI推理方案的高效路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

帶你感受人間冷暖
2025-08-30 00:20:05
林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

娛樂領(lǐng)航家
2025-08-29 21:00:03
格力揭秘:千元空調(diào)的真相,我差點(diǎn)被小米的“技術(shù)逆襲”所騙

格力揭秘:千元空調(diào)的真相,我差點(diǎn)被小米的“技術(shù)逆襲”所騙

輝哥說動(dòng)漫
2025-08-29 09:24:34
爆冷!英超豪強(qiáng)倒下:主場(chǎng)淪陷,連勝被終結(jié),9億歐豪陣也沒用

爆冷!英超豪強(qiáng)倒下:主場(chǎng)淪陷,連勝被終結(jié),9億歐豪陣也沒用

足球狗說
2025-08-30 23:57:26
梁山好漢中,這9人決不可交,現(xiàn)實(shí)遇上要躲開,第九人公認(rèn)最可恨

梁山好漢中,這9人決不可交,現(xiàn)實(shí)遇上要躲開,第九人公認(rèn)最可恨

耳東文史
2025-08-29 00:02:27
他倆準(zhǔn)備離婚!女方已四結(jié)三離

他倆準(zhǔn)備離婚!女方已四結(jié)三離

FM93浙江交通之聲
2025-08-30 12:40:58
賴清德最后通牒,不許馬英九、洪秀柱參加93閱兵,國(guó)臺(tái)辦8字定調(diào)

賴清德最后通牒,不許馬英九、洪秀柱參加93閱兵,國(guó)臺(tái)辦8字定調(diào)

現(xiàn)代小青青慕慕
2025-08-30 21:53:20
中國(guó)工程鬧“烏龍”?本想沙漠種糧保產(chǎn)量,陰差陽錯(cuò)解決世界難題

中國(guó)工程鬧“烏龍”?本想沙漠種糧保產(chǎn)量,陰差陽錯(cuò)解決世界難題

禾寒?dāng)?/span>
2025-08-19 11:10:26
就在今天!8月31日02:36!中央5套CCTV5、CCTV5+直播節(jié)目表

就在今天!8月31日02:36!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-08-31 11:15:40
確認(rèn)了!是主持人尼格買提!

確認(rèn)了!是主持人尼格買提!

魯中晨報(bào)
2025-08-30 20:52:28
1983年南陽慘?。旱弥龃蛩赖那嗄晟矸莺?,局長(zhǎng)槍殺女婿后自盡

1983年南陽慘?。旱弥龃蛩赖那嗄晟矸莺?,局長(zhǎng)槍殺女婿后自盡

八哥講故事
2024-01-16 00:11:39
新一代輕型護(hù)衛(wèi)艦,2000噸級(jí),替換056A型,到底有多強(qiáng)悍?

新一代輕型護(hù)衛(wèi)艦,2000噸級(jí),替換056A型,到底有多強(qiáng)悍?

萬里繁華
2025-08-31 11:09:29
金正恩還沒抵華,9國(guó)高層拒參閱兵,中方送出一句話,信號(hào)不簡(jiǎn)單

金正恩還沒抵華,9國(guó)高層拒參閱兵,中方送出一句話,信號(hào)不簡(jiǎn)單

通文知史
2025-08-30 12:35:03
朱國(guó)華被槍斃后,康克清震怒:你們出了問題,都是在折騰你們爺爺

朱國(guó)華被槍斃后,康克清震怒:你們出了問題,都是在折騰你們爺爺

浩舞默畫
2025-08-26 03:10:03
中俄印三巨頭到齊,俄羅斯想了27年的事,普京在中國(guó)能否實(shí)現(xiàn)?

中俄印三巨頭到齊,俄羅斯想了27年的事,普京在中國(guó)能否實(shí)現(xiàn)?

通文知史
2025-08-30 13:55:02
醫(yī)生告誡:一旦確診頸動(dòng)脈斑塊,4種食物必須戒掉,避免斑塊增大

醫(yī)生告誡:一旦確診頸動(dòng)脈斑塊,4種食物必須戒掉,避免斑塊增大

健身狂人
2025-08-30 13:58:56
果然,李嘉誠(chéng)反擊了

果然,李嘉誠(chéng)反擊了

妮妮玩不夠
2025-05-28 12:22:04
匠妹 Sabrina Carpenter 打臉整個(gè)樂評(píng)圈!

匠妹 Sabrina Carpenter 打臉整個(gè)樂評(píng)圈!

下水道男孩
2025-08-30 23:55:40
新兵被開除軍籍,問連長(zhǎng)知道他爺爺是誰嗎,連長(zhǎng)譏笑:誰都沒用

新兵被開除軍籍,問連長(zhǎng)知道他爺爺是誰嗎,連長(zhǎng)譏笑:誰都沒用

第四思維
2025-08-25 22:11:33
都到了北京邊上了,卻不參加93閱兵,莫迪和埃爾多安在擔(dān)心什么?

都到了北京邊上了,卻不參加93閱兵,莫迪和埃爾多安在擔(dān)心什么?

頭條爆料007
2025-08-30 13:00:12
2025-08-31 15:15:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10390文章數(shù) 116838關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17??jī)煽钍謾C(jī)全面對(duì)比

頭條要聞

老板開免費(fèi)青旅稱自己承擔(dān)房租和水電 已接待4000多人

頭條要聞

老板開免費(fèi)青旅稱自己承擔(dān)房租和水電 已接待4000多人

體育要聞

遼籃官宣:4冠功勛李曉旭續(xù)約迎第21季 新賽季變球員兼教練

娛樂要聞

韓磊起訴后,女方公開道歉

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

教育
家居
游戲
旅游
軍事航空

教育要聞

“喪偶式教育”“詐尸式教育”,南京這所民辦校家長(zhǎng)會(huì)火了!

家居要聞

提升功能 靈活居住環(huán)境

《潛水員戴夫》或推出同世界觀新作!計(jì)劃拓展這一IP

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人辛瓦爾已死亡

無障礙瀏覽 進(jìn)入關(guān)懷版