成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

榨干GPU性能,中興Mariana(馬里亞納)突破顯存壁壘

0
分享至

當(dāng)大語(yǔ)言模型(LLM)走向千行百業(yè),推理效率與顯存成本的矛盾日益尖銳。

KV Cache (Key-Value Cache)作為提升生成速度的核心技術(shù),卻像一個(gè) “吞存巨獸”—— 每增加一個(gè) token,就需要更多顯存存儲(chǔ)鍵(Key)和值(Value)向量,最終成為制約模型規(guī)模擴(kuò)張、并發(fā)能力提升的 “緊箍咒”如何高效、經(jīng)濟(jì)地?cái)U(kuò)展KV Cache存儲(chǔ)空間,已成為全球AI產(chǎn)研界亟待攻克的高地。

業(yè)界探索

Nvidia開(kāi)源的Dynamo項(xiàng)目,實(shí)現(xiàn)存儲(chǔ)系統(tǒng)多級(jí)緩存算法,熱數(shù)據(jù)在顯存、溫?cái)?shù)據(jù)在主機(jī)內(nèi)存、冷數(shù)據(jù)在 SSD 或遠(yuǎn)端對(duì)象存儲(chǔ),并通過(guò)一套統(tǒng)一的索引 + 異步流水線實(shí)現(xiàn)自動(dòng)遷移與透明訪問(wèn),但是多級(jí)存儲(chǔ)之間的數(shù)據(jù)遷移流程復(fù)雜,延遲開(kāi)銷難以壓縮。

微軟推出的LMCahce存儲(chǔ)系統(tǒng),高度兼容vLLM等推理框架,但是對(duì)分布式存儲(chǔ)支持較低,空間上限低。

阿里巴巴提出一種將KV Cache空間擴(kuò)展到Tair數(shù)據(jù)庫(kù)的遠(yuǎn)端存儲(chǔ)方案,存儲(chǔ)空間易擴(kuò)展,但是讀寫(xiě)性能難以滿足LLM推理業(yè)務(wù)的低延遲需求。

CXL(Compute Express Link) 作為一種新興的高速互聯(lián)技術(shù),以其高帶寬、低延遲和硬件級(jí)緩存一致性的特性,為破解內(nèi)存瓶頸帶來(lái)了新的希望,可以解決AI和高性能計(jì)算中遇到的內(nèi)存瓶頸問(wèn)題。

業(yè)界關(guān)于CXL存儲(chǔ)加速LLM推理的研究仍然較少,探索如何利用CXL等新型介質(zhì)擴(kuò)展KV Cache空間,進(jìn)而將成熟的軟件棧遷移到CXL硬件場(chǎng)景,是一項(xiàng)非常有意義的工作。

中興通訊Mariana探索

中興通訊公司和華東師范大學(xué)的研究團(tuán)隊(duì)聯(lián)合提出了一種名為Mariana(馬里亞納)的分布式共享KV存儲(chǔ)技術(shù),該工作《Mariana: Exploring Native SkipList Index Design for Disaggregated Memory》論文發(fā)表在IEEE Transactions on Parallel and Distributed Systems (TPDS) 。

Mariana作為一個(gè)面向計(jì)算-內(nèi)存分離架構(gòu)的高性能分布式KV索引,可以完美適配大模型推理場(chǎng)景的GPU、KV Cache存儲(chǔ),通過(guò)把節(jié)點(diǎn)鎖細(xì)化到條目級(jí)、用自適應(yīng)分裂/合并抑制熱點(diǎn)寫(xiě)放大,并以SIMD友好的數(shù)據(jù)布局和輕量級(jí)熱點(diǎn)緩存,實(shí)現(xiàn)比現(xiàn)有方案高 1.7 倍吞吐、尾延遲降低 23% 的純有序索引。

Mariana解決了“如何在高并發(fā)、熱點(diǎn)傾斜、延遲敏感的高性能計(jì)算場(chǎng)景,讓KV索引同時(shí)做到高吞吐、低延遲、可擴(kuò)展?”的問(wèn)題,為KV Cache存儲(chǔ)提供新的優(yōu)化方案。

Mariana提出三項(xiàng)關(guān)鍵創(chuàng)新,分別針對(duì)上述三個(gè)問(wèn)題:

1. 細(xì)粒度并發(fā)控制方案(MSCS - Multi-Slot lock-based Concurrency Scheme)

將并發(fā)控制的粒度從節(jié)點(diǎn)級(jí)下降到條目級(jí)。在每個(gè)葉子節(jié)點(diǎn)內(nèi)預(yù)留多個(gè)槽位Slots和對(duì)應(yīng)的閂鎖Latch,寫(xiě)入操作時(shí),客戶端通過(guò)RDMA_CAS競(jìng)爭(zhēng)一個(gè)空閑槽位的閂鎖,而不是競(jìng)爭(zhēng)整個(gè)節(jié)點(diǎn)的鎖,實(shí)現(xiàn)同一個(gè)節(jié)點(diǎn)的不同槽位并發(fā)寫(xiě)入,極大地減少了競(jìng)爭(zhēng)。葉子節(jié)點(diǎn)支持動(dòng)態(tài)調(diào)整葉子數(shù)據(jù)范圍、自動(dòng)擴(kuò)縮,將熱點(diǎn)區(qū)域隔離以減少后續(xù)該節(jié)點(diǎn)上的競(jìng)爭(zhēng),顯著降低了寫(xiě)密集型和高偏斜(skewed)工作負(fù)載下的爭(zhēng)用,提高吞吐量同時(shí)降低了尾延遲。

2. 為葉子節(jié)點(diǎn)定制的數(shù)據(jù)布局(TLN - Tailored Leaf Node)

采用分離式存儲(chǔ),Key在內(nèi)存中連續(xù)存放,value則與校驗(yàn)和在另一內(nèi)存塊連續(xù)存儲(chǔ);連續(xù)鍵數(shù)組可一次性加載至SIMD寄存器,大幅提升查找速度;優(yōu)化讀寫(xiě)操作序列,避免多次RDMA讀寫(xiě)指令。

3. 自適應(yīng)緩存策略

提出一種能夠快速感知并緩存變化熱點(diǎn)的輕量級(jí)緩存機(jī)制。使用Count-Min Sketch算法及時(shí)識(shí)別出熱點(diǎn)數(shù)據(jù),維護(hù)一個(gè)按熱度排序的鏈表。計(jì)算節(jié)點(diǎn)緩存熱點(diǎn)L1節(jié)點(diǎn)的最小鍵及存儲(chǔ)地址,大幅降低熱點(diǎn)數(shù)據(jù)加載延遲,提升存儲(chǔ)系統(tǒng)的讀性能。

實(shí)驗(yàn)結(jié)果表明,Mariana與目前最新的分布式KV存儲(chǔ)系統(tǒng)相比,在讀寫(xiě)吞吐、延遲性能方向都有顯著的提示。KV Cache屬于讀多寫(xiě)少場(chǎng)景,Mariana能夠解決目前存儲(chǔ)方案中的性能瓶頸。

應(yīng)用驗(yàn)證

MARIANA的創(chuàng)新設(shè)計(jì)與大模型KV Cache需求高度契合:

  • 大容量存儲(chǔ):Mariana的解耦內(nèi)存架構(gòu),支持將數(shù)據(jù)分布在遠(yuǎn)端CPU DRAM甚至PMem/SSD組成的共享內(nèi)存池內(nèi)存節(jié)點(diǎn)池,理論上存儲(chǔ)空間沒(méi)有上限。
  • 高吞吐:Mariana通過(guò)硬件加速(SIMD) 和智能緩存(元數(shù)據(jù)緩存) 兩種方式,顯著減少了完成一次KV Cache查找所需的計(jì)算和網(wǎng)絡(luò)開(kāi)銷,極大地提升了讀吞吐量。
  • 低延遲讀:Mariana的整個(gè)數(shù)據(jù)路徑(本地緩存->RDMA->SIMD搜索)都是為低延遲而優(yōu)化的。其延遲遠(yuǎn)低于需要經(jīng)過(guò)遠(yuǎn)端CPU協(xié)議棧的解決方案,能夠滿足推理流水線的嚴(yán)格延遲要求。
  • 水平擴(kuò)展:Mariana通過(guò)去中心化的細(xì)粒度并發(fā)控制實(shí)現(xiàn)了良好的水平擴(kuò)展能力,非常適合作為大規(guī)模分布式推理集群的存儲(chǔ)基礎(chǔ)。

基于vLLM框架搭建大模型推理應(yīng)用,驗(yàn)證關(guān)閉KV Cache、開(kāi)啟顯存KV Cache、開(kāi)啟Mariana多級(jí)存儲(chǔ)幾個(gè)場(chǎng)景的推理性能,配置足夠多的并發(fā)測(cè)試請(qǐng)求,GPU顯存空間有限,只能存放50%的KV數(shù)據(jù)。

測(cè)試結(jié)果顯示,基于Mariana擴(kuò)展的多級(jí)KV Cache存儲(chǔ)能夠顯著提升大模型的推理過(guò)程預(yù)加載階段的性能。

擁抱CXL新生態(tài)

Mariana的強(qiáng)大之處在于其設(shè)計(jì)理念與底層硬件解耦。其核心算法無(wú)需重新設(shè)計(jì),即可從RDMA網(wǎng)絡(luò)平滑遷移至未來(lái)的CXL硬件生態(tài)。僅需將遠(yuǎn)程訪問(wèn)API替換為CXL.mem操作,便能充分利用CXL的低延遲和一致性優(yōu)勢(shì),成為構(gòu)建下一代大模型推理基礎(chǔ)設(shè)施的堅(jiān)實(shí)基石。

從優(yōu)化細(xì)粒度并發(fā)控制到適配CXL新生態(tài),Mariana的突破不僅是一次技術(shù)創(chuàng)新,更重新定義了大模型推理的存儲(chǔ)邏輯——當(dāng)顯存不再是不可逾越的壁壘,當(dāng)分布式存儲(chǔ)能在高吞吐與低延遲間找到完美平衡點(diǎn),大模型的規(guī)?;瘧?yīng)用將迎來(lái)真正的普惠時(shí)代。

或許在不久的將來(lái),隨著CXL技術(shù)的成熟與Mariana這樣的技術(shù)方案的落地,我們會(huì)看到百億/千億參數(shù)模型在普通硬件上高效運(yùn)行,讓 AI 的算力紅利真正滲透到每一個(gè)需要它的場(chǎng)景中。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺(tái)停用

大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺(tái)停用

觀察鑒娛
2025-08-31 11:36:01
90年代,朝鮮1個(gè)軍團(tuán)共5萬(wàn)人叛變,韓國(guó)主動(dòng)派兵接應(yīng),結(jié)局怎樣?

90年代,朝鮮1個(gè)軍團(tuán)共5萬(wàn)人叛變,韓國(guó)主動(dòng)派兵接應(yīng),結(jié)局怎樣?

南書(shū)房
2025-08-23 20:35:04
教師想當(dāng)嫖客,學(xué)生淪為娼妓

教師想當(dāng)嫖客,學(xué)生淪為娼妓

柴差說(shuō)
2025-08-31 19:10:36
2次高溫、4次降水!江蘇最新預(yù)測(cè)

2次高溫、4次降水!江蘇最新預(yù)測(cè)

知揚(yáng)中
2025-08-31 17:38:50
亞布塞萊:東契奇犯了一個(gè)錯(cuò)誤,握手應(yīng)該由進(jìn)攻球員來(lái)決定

亞布塞萊:東契奇犯了一個(gè)錯(cuò)誤,握手應(yīng)該由進(jìn)攻球員來(lái)決定

雷速體育
2025-08-31 09:10:01
“跳梁小丑”李玉剛跌下神壇,不再被大家寬容,梅葆玖:永不原諒

“跳梁小丑”李玉剛跌下神壇,不再被大家寬容,梅葆玖:永不原諒

詩(shī)意世界
2025-08-13 16:24:00
湖北省博“越王勾踐劍”蓋飯走紅,商家:高峰期日售千份

湖北省博“越王勾踐劍”蓋飯走紅,商家:高峰期日售千份

大象新聞
2025-08-29 07:32:03
谷忠鵬任香港科技大學(xué)(廣州)黨委書(shū)記

谷忠鵬任香港科技大學(xué)(廣州)黨委書(shū)記

南方都市報(bào)
2025-08-31 19:57:09
廣東一地通報(bào):侯某(男,36歲),刑拘

廣東一地通報(bào):侯某(男,36歲),刑拘

大象新聞
2025-08-31 15:43:31
皮蛋再次成為關(guān)注對(duì)象!張文宏發(fā)現(xiàn):常吃皮蛋的人有6大變化

皮蛋再次成為關(guān)注對(duì)象!張文宏發(fā)現(xiàn):常吃皮蛋的人有6大變化

觀星賞月
2025-08-15 05:32:07
中俄印三巨頭到齊,俄羅斯想了27年的事,普京在中國(guó)能否實(shí)現(xiàn)?

中俄印三巨頭到齊,俄羅斯想了27年的事,普京在中國(guó)能否實(shí)現(xiàn)?

通文知史
2025-08-30 13:55:02
張學(xué)良10張經(jīng)典照片,從9歲到100歲,看完他的一生!

張學(xué)良10張經(jīng)典照片,從9歲到100歲,看完他的一生!

你我都是歷史
2025-08-12 11:22:28
1954年,王震去福建視察時(shí),不小心惹怒當(dāng)?shù)乜h長(zhǎng),縣長(zhǎng):你好大膽

1954年,王震去福建視察時(shí),不小心惹怒當(dāng)?shù)乜h長(zhǎng),縣長(zhǎng):你好大膽

簡(jiǎn)史檔案館
2025-08-31 11:05:03
8.27,南京市第一中學(xué),學(xué)生的反抗

8.27,南京市第一中學(xué),學(xué)生的反抗

吃瓜體
2025-08-31 18:43:46
我42歲才明白:經(jīng)常發(fā)朋友圈和從不發(fā)朋友圈的人,十年后天差地別

我42歲才明白:經(jīng)常發(fā)朋友圈和從不發(fā)朋友圈的人,十年后天差地別

二十一號(hào)故事鋪
2025-08-28 16:25:02
真正愛(ài)你的人,會(huì)用愛(ài)去感動(dòng)你,他會(huì)為你付出

真正愛(ài)你的人,會(huì)用愛(ài)去感動(dòng)你,他會(huì)為你付出

加油丁小文
2025-08-29 22:26:31
金正恩的突然到訪,讓韓國(guó)政壇措手不及,中朝保密工作做得太好了

金正恩的突然到訪,讓韓國(guó)政壇措手不及,中朝保密工作做得太好了

小lu侃侃而談
2025-08-31 19:51:57
中美貿(mào)易,大消息!

中美貿(mào)易,大消息!

證券時(shí)報(bào)
2025-08-30 11:32:04
他當(dāng)大軍區(qū)政委22年,退出現(xiàn)役后被要求搬家,否則停水、停電

他當(dāng)大軍區(qū)政委22年,退出現(xiàn)役后被要求搬家,否則停水、停電

優(yōu)趣紀(jì)史記
2025-03-21 10:30:29
大跳水!暴跌,又土又貴還開(kāi)遍機(jī)場(chǎng),中產(chǎn)的標(biāo)配,賣不動(dòng)了

大跳水!暴跌,又土又貴還開(kāi)遍機(jī)場(chǎng),中產(chǎn)的標(biāo)配,賣不動(dòng)了

滄海旅行家
2025-08-28 15:27:26
2025-08-31 20:56:50
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11216文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17??jī)煽钍謾C(jī)全面對(duì)比

頭條要聞

夫妻自駕從安徽送兒子去新疆上大學(xué):辛苦但快樂(lè)

頭條要聞

夫妻自駕從安徽送兒子去新疆上大學(xué):辛苦但快樂(lè)

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂(lè)要聞

胡歌是永遠(yuǎn)都不會(huì)離婚的,原因很簡(jiǎn)單

財(cái)經(jīng)要聞

罕見(jiàn)熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬(wàn)起

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
健康
本地

教育要聞

清華追蹤42萬(wàn)學(xué)生后發(fā)出警告:空心病,正在毀掉孩子

今年秋天最流行的4組搭配,誰(shuí)穿誰(shuí)好看!

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

精神科專家解答學(xué)習(xí)困難七大問(wèn)題

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版