成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智算中心網(wǎng)絡(luò)架構(gòu)設(shè)計實踐

0
分享至

文檔資料: wenku.itilzj.com

傳統(tǒng)的云數(shù)據(jù)中心網(wǎng)絡(luò)一般是基于對外提供服務(wù)的流量模型而設(shè)計的,流量主要是從數(shù)據(jù)中心到最終客戶,即以南北向流量為主,云內(nèi)部東西向流量為輔。承載 VPC 網(wǎng)絡(luò)的底層物理網(wǎng)絡(luò)架構(gòu),對于承載智算業(yè)務(wù)存在如下挑戰(zhàn)。

本文選自“”,對傳統(tǒng)網(wǎng)絡(luò)與智算網(wǎng)絡(luò)、兩層胖樹、三次胖樹及全面的分析對比,并介紹了組網(wǎng)最佳實踐。

有阻塞網(wǎng)絡(luò):考慮到并非所有服務(wù)器都會同時對外產(chǎn)生流量,為了控制網(wǎng)絡(luò)建設(shè)成本, Leaf 交換機的下聯(lián)帶寬和上聯(lián)帶寬并非按照 1:1 設(shè)計,而是存在收斂比。一般上聯(lián)帶寬僅有下聯(lián)帶寬的三分之一。

云內(nèi)部流量時延相對較高:跨 Leaf 交換機的兩臺服務(wù)器互訪需要經(jīng)過 Spine 交換機,轉(zhuǎn)發(fā)路徑有 3 跳。

帶寬不夠大:一般情況下單物理機只有一張網(wǎng)卡接入 VPC 網(wǎng)絡(luò),單張網(wǎng)卡的帶寬比較有限,當前較大范圍商用的網(wǎng)卡帶寬一般都不大于 200Gbps。

對于智算場景,當前比較好的實踐是獨立建一張高性能網(wǎng)絡(luò)來承載智算業(yè)務(wù),滿足大帶寬,低時延,無損的需求。

大帶寬的設(shè)計

智算服務(wù)器可以滿配 8 張 GPU 卡,并預(yù)留 8 個 PCIe 網(wǎng)卡插槽。在多機組建 GPU 集群時,兩個 GPU 跨機互通的突發(fā)帶寬有可能會大于 50Gbps。因此,一般會給每個 GPU 關(guān)聯(lián)一個至少 100Gbps 的網(wǎng)絡(luò)端口。在這種場景下可以配置 4張 2*100Gbps 的網(wǎng)卡,也可以配置 8 張 1*100Gbps 的網(wǎng)卡,當然也可以配置 8 張單端口 200/400Gbps 的網(wǎng)卡。

無阻塞設(shè)計

無阻塞網(wǎng)絡(luò)設(shè)計的關(guān)鍵是采用 Fat-Tree(胖樹)網(wǎng)絡(luò)架構(gòu)。交換機下聯(lián)和上聯(lián)帶寬采用 1:1 無收斂設(shè)計,即如果下聯(lián)有64 個 100Gbps 的端口,那么上聯(lián)也有 64 個 100Gbps 的端口。

此外交換機要采用無阻塞轉(zhuǎn)發(fā)的數(shù)據(jù)中心級交換機。當前市場上主流的數(shù)據(jù)中心交換機一般都能提供全端口無阻塞的轉(zhuǎn)發(fā)能力。

低時延設(shè)計 AI-Pool

在低時延網(wǎng)絡(luò)架構(gòu)設(shè)計方面,百度智能云實踐和落地了基于導軌(Rail)優(yōu)化的 AI-Pool 網(wǎng)絡(luò)方案。在這個網(wǎng)絡(luò)方案中,8 個接入交換機為一組,構(gòu)成一個 AI-Pool。以兩層交換機組網(wǎng)架構(gòu)為例,這種網(wǎng)絡(luò)架構(gòu)能做到同 AI-Pool 的不同智算節(jié)點的 GPU 互訪僅需一跳。

在 AI-Pool 網(wǎng)絡(luò)架構(gòu)中,不同智算節(jié)點間相同編號的網(wǎng)口需要連接到同一臺交換機。如智算節(jié)點 1 的 1 號 RDMA 網(wǎng)口,智算節(jié)點 2 的 1 號 RDMA 網(wǎng)口直到智算節(jié)點 P/2 的 1 號 RDMA 網(wǎng)口都連到 1 號交換機。

在智算節(jié)點內(nèi)部,上層通信庫基于機內(nèi)網(wǎng)絡(luò)拓撲進行網(wǎng)絡(luò)匹配,讓相同編號的 GPU 卡和相同編號的網(wǎng)口關(guān)聯(lián)。這樣相同GPU 編號的兩臺智算節(jié)點間僅一跳就可互通。

不同GPU編號的智算節(jié)點間,借助NCCL通信庫中的Rail Local技術(shù),可以充分利用主機內(nèi)GPU間的NVSwitch的帶寬,將多機間的跨卡號互通轉(zhuǎn)換為跨機間的同GPU卡號的互通。

對于跨 AI-Pool 的兩臺物理機的互通,需要過匯聚交換機,此時會有 3 跳。

網(wǎng)絡(luò)可承載的 GPU 卡的規(guī)模和所采用交換機的端口密度、網(wǎng)絡(luò)架構(gòu)相關(guān)。網(wǎng)絡(luò)的層次多,承載的 GPU 卡的規(guī)模會變大,但轉(zhuǎn)發(fā)的跳數(shù)和時延也會變大,需要結(jié)合實際業(yè)務(wù)情況進行權(quán)衡。

兩層胖樹架構(gòu)

8 臺接入交換機組成一個智算資源池 AI-Pool。圖中 P 代表單臺交換機的端口數(shù)。單臺交換機最大可下聯(lián)和上聯(lián)的端口為P/2 個,即單臺交換機最多可以下聯(lián) P/2 臺服務(wù)器和 P/2 臺交換機。兩層胖樹網(wǎng)絡(luò)可以接入 P*P/2 張 GPU 卡。

三層胖樹架構(gòu)

三層網(wǎng)絡(luò)架構(gòu)中會新增匯聚交換機組和核心交換機組。每個組里面的最大交換機數(shù)量為 P/2。匯聚交換機組最大數(shù)量為 8,核心交換機組的最大數(shù)量為 P/2。三層胖樹網(wǎng)絡(luò)可以接入 P*(P/2)*(P/2)=P*P*P/4 張 GPU 卡。

在三層胖樹組網(wǎng)中,InfiniBand 的 40 端口的 200Gbps HDR 交換機能容納的最多 GPU 數(shù)量是 16000。這個 16000GPU 卡的規(guī)模也是目前 InfiniBand 當前在國內(nèi)實際應(yīng)用的 GPU 集群的最大規(guī)模網(wǎng)絡(luò),當前這個記錄被百度保持。

兩層和三層胖樹網(wǎng)絡(luò)架構(gòu)的對比

可容納的 GPU 卡的規(guī)模

兩層胖樹和三層胖樹最重要的區(qū)別是可以容納的 GPU 卡的規(guī)模不同。在下圖中 N 代表 GPU 卡的規(guī)模,P 代表單臺交換機的端口數(shù)量。比如對于端口數(shù)為 40 的交換機,兩層胖樹架構(gòu)可容納的 GPU 卡的數(shù)量是 800 卡,三層胖樹架構(gòu)可容納的 GPU 卡的數(shù)量是 16000 卡。

轉(zhuǎn)發(fā)路徑

兩層胖樹和三層胖樹網(wǎng)絡(luò)架構(gòu)另外一個區(qū)別是任意兩個節(jié)點的網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑的跳數(shù)不同。

對于同智算資源池 AI-Pool 的兩層胖樹架構(gòu),智算節(jié)點間同 GPU 卡號轉(zhuǎn)發(fā)跳數(shù)為 1 跳。智算節(jié)點間不同 GPU 卡號在沒有做智算節(jié)點內(nèi)部 Rail Local 優(yōu)化的情況下轉(zhuǎn)發(fā)跳數(shù)為 3 跳。

對于同智算資源池 AI-Pool 的三層胖樹架構(gòu),智算節(jié)點間同 GPU 卡號轉(zhuǎn)發(fā)跳數(shù)為 3 跳。智算節(jié)點間不同 GPU 卡號在沒有做智算節(jié)點內(nèi)部 Rail Local 優(yōu)化的情況下轉(zhuǎn)發(fā)跳數(shù)為 5 跳。

典型實踐

不同型號的 InfiniBand/RoCE 交換機和不同的網(wǎng)絡(luò)架構(gòu)下所支持的 GPU 的規(guī)模不同。結(jié)合當前已成熟商用的交換機,我們推薦幾種物理網(wǎng)絡(luò)架構(gòu)的規(guī)格供客戶選擇。

Regular:InfiniBand 兩層胖樹網(wǎng)絡(luò)架構(gòu),基于 InfiniBand HDR 交換機,單集群最大支持 800 張 GPU 卡。

Large:RoCE 兩層胖樹網(wǎng)絡(luò)架構(gòu),基于 128 端口 100G 數(shù)據(jù)中心以太交換機,單集群最大支持 8192 張 GPU 卡。

XLarge:InfiniBand 三層胖樹網(wǎng)絡(luò)架構(gòu),基于 InfiniBand HDR 交換機,單集群最大支持 16000 張 GPU 卡。

XXLarge: 基于 InfiniBand Quantum-2 交換機或同等性能的以太網(wǎng)數(shù)據(jù)中心交換機,采用三層胖樹網(wǎng)絡(luò)架構(gòu),單集群最大支持 100000 張 GPU 卡。

Large智算物理網(wǎng)絡(luò)架構(gòu)實踐

支撐上層創(chuàng)新應(yīng)用和算法落地的關(guān)鍵環(huán)節(jié)之一是底層的算力,而支撐智算集群的算力發(fā)揮其最大效用的關(guān)鍵之一是高性能網(wǎng)絡(luò)。度小滿的單個智算集群的規(guī)??蛇_ 8192 張 GPU 卡,在每個智算集群內(nèi)部的智算資源池 AI-Pool 中可支持 512張 GPU 卡。通過無阻塞、低時延、高可靠的網(wǎng)絡(luò)設(shè)計,高效的支撐了上層智算應(yīng)用的快速迭代和發(fā)展。

XLarge智算物理網(wǎng)絡(luò)架構(gòu)實踐

為了實現(xiàn)更高的集群運行性能,百度智能云專門設(shè)計了適用于超大規(guī)模集群的 InfiniBand 網(wǎng)絡(luò)架構(gòu)。該網(wǎng)絡(luò)已穩(wěn)定運行多年,2021 年建設(shè)之初就直接采用了 200Gbps 的 InfiniBand HDR 交換機,單臺 GPU 服務(wù)器的對外通信帶寬為1.6Tbps。

IT架構(gòu)師/技術(shù)大咖的交流圈子,為您提供架構(gòu)體系知識、技術(shù)文章、流行實踐案例、解決方案等,行業(yè)大咖分享交流/同行經(jīng)驗分享互動,期待你的加入!掃碼即可加入哦,隨著材料不斷增多社群會不定期漲價早加入更優(yōu)惠

免責聲明:

本公眾號部分分享的資料來自網(wǎng)絡(luò)收集和整理,所有文字和圖片版權(quán)歸屬于原作者所有,且僅代表作者個人觀點,與本公眾號無關(guān),文章僅供讀者學習交流使用,并請自行核實相關(guān)內(nèi)容,如文章內(nèi)容涉及侵權(quán),請聯(lián)系后臺管理員刪除。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
日本決定接收5萬印度人赴日!5年內(nèi)實現(xiàn)50萬人往來!日網(wǎng)友炸開鍋:東京灣要變恒河了!

日本決定接收5萬印度人赴日!5年內(nèi)實現(xiàn)50萬人往來!日網(wǎng)友炸開鍋:東京灣要變恒河了!

東京新青年
2025-08-30 18:08:01
再見,“林瘋狂”!37歲林書豪宣布退役,NBA職業(yè)生涯總薪資約6571.1萬美元!NBA官方:他讓世界見證亞洲面孔的力量

再見,“林瘋狂”!37歲林書豪宣布退役,NBA職業(yè)生涯總薪資約6571.1萬美元!NBA官方:他讓世界見證亞洲面孔的力量

每日經(jīng)濟新聞
2025-08-31 11:36:27
1-3!美網(wǎng)再爆冷:男單世界第三出局,中國3人晉級女雙16強

1-3!美網(wǎng)再爆冷:男單世界第三出局,中國3人晉級女雙16強

思考體育
2025-08-31 15:16:08
原來這就是痞幼啊,我終于知道她長啥樣了

原來這就是痞幼啊,我終于知道她長啥樣了

陳意小可愛
2025-08-24 13:27:48
美論壇:如果美國向中國發(fā)射上百枚核彈,中國有能力進行反擊嗎?

美論壇:如果美國向中國發(fā)射上百枚核彈,中國有能力進行反擊嗎?

策略述
2025-08-29 20:19:31
正式退出,申裕斌發(fā)聲,官宣決定,選擇中國明智,韓國隊計劃曝光

正式退出,申裕斌發(fā)聲,官宣決定,選擇中國明智,韓國隊計劃曝光

東球弟
2025-08-31 10:27:36
2輪就下課?圖片報:藥廠內(nèi)部已討論滕哈赫去留 后者帥位岌岌可危

2輪就下課?圖片報:藥廠內(nèi)部已討論滕哈赫去留 后者帥位岌岌可危

直播吧
2025-08-31 16:23:26
切爾西鬧巨大笑話!5000萬歐神鋒被羞辱:拒絕歸隊 賴在拜仁不走

切爾西鬧巨大笑話!5000萬歐神鋒被羞辱:拒絕歸隊 賴在拜仁不走

風過鄉(xiāng)
2025-08-31 07:49:18
大S墓地對外開放,知名導演曬更多墓地照片,太多具俊曄留下痕跡

大S墓地對外開放,知名導演曬更多墓地照片,太多具俊曄留下痕跡

古希臘掌管月桂的神
2025-08-31 22:14:22
拿婚姻當跳板,各玩各的、互相"偏軌"的蔣雯麗夫婦,沒逃過"反噬"

拿婚姻當跳板,各玩各的、互相"偏軌"的蔣雯麗夫婦,沒逃過"反噬"

阿訊說天下
2025-08-31 16:04:31
莫迪埃爾多安不參加北京閱兵,原因很現(xiàn)實,中國已做好準備

莫迪埃爾多安不參加北京閱兵,原因很現(xiàn)實,中國已做好準備

詩意世界
2025-08-31 10:33:58
電競選手因不堪網(wǎng)暴宣布退役,距奪冠僅過去5天

電競選手因不堪網(wǎng)暴宣布退役,距奪冠僅過去5天

揚子晚報
2025-08-30 21:05:46
“陰花不能進陽宅”,家里若有這5種花,請趕緊“搬出去”!

“陰花不能進陽宅”,家里若有這5種花,請趕緊“搬出去”!

平祥生活日志
2025-08-31 13:54:28
導彈部署在中國家門口,只有27公里!中方果然沒看錯,該提前做準備了

導彈部署在中國家門口,只有27公里!中方果然沒看錯,該提前做準備了

書中自有顏如玉
2025-08-27 12:05:24
日本阻撓失敗,石破茂報復(fù)來了,特朗普或后悔,美國也要進行閱兵

日本阻撓失敗,石破茂報復(fù)來了,特朗普或后悔,美國也要進行閱兵

博覽歷史
2025-08-30 21:43:56
長春著名爛尾大廈,掛牌拍賣

長春著名爛尾大廈,掛牌拍賣

長春新風采
2025-08-31 20:41:06
楊翼:最最讓人失望的一場比賽,奪冠不是沒希望,但精氣神沒有了

楊翼:最最讓人失望的一場比賽,奪冠不是沒希望,但精氣神沒有了

直播吧
2025-08-31 21:23:32
信義區(qū)豪宅將走拍賣程序,高負債恐無人接盤,S媽要房沒錢很雙標

信義區(qū)豪宅將走拍賣程序,高負債恐無人接盤,S媽要房沒錢很雙標

科學發(fā)掘
2025-08-31 19:51:18
越南將給每位公民發(fā)放27元人民幣,在當?shù)乜少I12.5公斤大米

越南將給每位公民發(fā)放27元人民幣,在當?shù)乜少I12.5公斤大米

映射生活的身影
2025-08-30 20:41:06
越南胡志明市委書記換人

越南胡志明市委書記換人

靚仔情感
2025-09-01 00:35:44
2025-09-01 06:28:49
IT架構(gòu)師聯(lián)盟 incentive-icons
IT架構(gòu)師聯(lián)盟
IT架構(gòu)實戰(zhàn)分享
785文章數(shù) 7667關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

車輛占道違停小車逆行超車撞車 險企欲讓占道車擔責

頭條要聞

車輛占道違停小車逆行超車撞車 險企欲讓占道車擔責

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

手機
本地
親子
旅游
公開課

手機要聞

OPPO Find X9系列外觀確認:左上角矩陣DECO

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

親子要聞

孩子不是讀書機器不是我們家長盲目炫耀學習的“利器”分數(shù)不值錢

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版