(本文編譯自electronicdesign)
為支持大規(guī)模AI工作負載,功率達50至100兆瓦的AI工廠迅速興起,液冷技術已成為全球幾乎所有數據中心的核心需求之一。這些設施在控溫與空間利用方面本就面臨挑戰(zhàn),如今還需應對功耗達2800瓦及以上的下一代AI超級芯片的散熱問題。
毫無疑問,應對這些新型AI驅動芯片散熱的唯一方法便是采用液冷技術。這也正是該市場規(guī)模預計將從2024年的41億美元飆升至2031年194億美元的原因所在。
無論是芯片制造商、服務器生產商、原始設備制造商(OEM)、超大規(guī)模數據中心運營商,還是數據中心管理者,他們都清楚自身對液冷技術的需求。然而,對于不同液冷方案的具體細節(jié),以及如何在實現收益最大化的同時降低成本、提升可持續(xù)性,他們往往缺乏清晰認知。
本文將通過梳理圍繞液冷技術的11個最常見誤解,深入了解液冷技術的真實面貌。
01
浸沒式液冷與芯片直冷技術幾乎是一回事
這是最常見的誤解之一。但事實并非如此。所有液冷技術都可歸為浸沒式液冷或芯片直冷兩大類(見圖1)。芯片直冷技術常被稱為“冷板”冷卻,因其會將冷板直接置于圖形處理器(GPU)或中央處理器(CPU)的頂部。而浸沒式液冷技術則是將服務器、芯片及其他設備浸沒在大型、厚重的流體容器中。
圖1:液冷技術分為浸沒式液冷與芯片直冷兩大類,且每種方案均有單相或雙相兩種形式。
02
液冷技術會在服務器內使用水
這種說法僅在使用單相芯片直冷技術時成立,除此之外并不完全準確。冷板中會使用水或水-乙二醇混合液作為冷卻液。在該技術中,水始終保持液態(tài),其散熱能力取決于水的流量。待冷卻芯片的功耗越高,所需的水流量就越大。這就要求投入更多成本用于配置更大尺寸的管道、儲液罐和連接器,同時還需配備高功耗的水泵,以確保水能夠在系統(tǒng)中持續(xù)循環(huán)。
與之不同的是,無論是浸沒式液冷還是雙相芯片直冷,其系統(tǒng)內部都不會使用水來帶走中央處理器(CPU)或圖形處理器(GPU)產生的熱量(這兩種技術會連接到設施的水循環(huán)回路,以將蒸汽冷凝回液態(tài),或對冷卻液進行降溫)。單相浸沒式液冷使用油性流體,雙相浸沒式液冷則采用絕緣冷卻液(介電流體)。但無論采用哪種流體,服務器及IT設備均需浸沒在裝滿該流體的大型厚重容器中。
雙相芯片直冷技術會將小型冷板直接置于GPU頂部。冷板內部裝有傳熱流體,這些流體會吸收元器件產生的熱量并被限制在冷板內部。與浸沒式液冷不同,這種傳熱流體絕不會與芯片或服務器的其他元器件發(fā)生接觸(如圖2所示)。
圖2:左圖展示的是浸沒式液冷技術,服務器被放置在裝滿流體的大型容器中;右圖則呈現了雙相芯片直冷技術的冷板,這些冷板直接安裝在圖形處理器(GPU)的頂部。
03
若想提升AI性能,就必須放棄可持續(xù)性。
事實絕非如此,只要選擇具備可持續(xù)性的液冷解決方案即可。要確保所構建的系統(tǒng)符合可持續(xù)發(fā)展要求,需先明確以下幾個問題:
該液冷技術是否消耗水?這一問題至關重要,因為一座采用單相芯片直冷技術的100兆瓦數據中心,每天的耗水量可能高達約110萬加侖(約416萬升)。目前全球水資源已十分稀缺,因此最佳方案是采用無水冷卻系統(tǒng)。
系統(tǒng)的能源使用效率(PUE)如何?需確保PUE值盡可能低,以實現高效運行。
是否需要重建數據中心,還是可通過改造現有數據中心來適配下一代AI GPU?
該液冷技術配套的基礎設施投資成本是多少?若需配備大型厚重容器、水泵及管道,不僅會產生高額費用,還會占用寶貴的空間。
長期維護成本有多高?冷卻液是否需要定期更換?
與冷卻液接觸的設備使用壽命有多長?
04
使用介電流體對環(huán)境有害
過去,全氟烷基物質和多氟烷基物質(PFAS,即“永久性化學物質”)曾被認為具有危害性,但如今部分PFAS產品已被認定為安全。不過,在使用任何PFAS類物質時,最佳做法是將其置于密閉系統(tǒng)(如閉環(huán)系統(tǒng))中運行。
若盛放這類流體的容器在維護過程中需要開啟,就總會有部分流體揮發(fā)到大氣中。因此,應向液冷技術制造商咨詢以下問題:其所用冷卻液是否需要定期更換?是否會與外界空氣接觸?更重要的是,他們未來向“零PFAS”方案轉型的計劃是怎樣的?
05
GPU產生的熱量無法回收利用
AI GPU產生的熱量完全可以用于為附近的房間或建筑供暖,尤其是在各類設施布局密集的城市環(huán)境中。像雙相芯片直冷這樣的液冷解決方案,在設計上不僅能讓設施回收利用這些熱量,還可將其轉化為可二次利用的能源。
06
冷板式液冷技術會產生熱點
長期以來,冷板內部的池沸騰一直被視為液冷技術的理想目標,但此前始終無人能找到方法防止沸騰產生的氣泡引發(fā)熱點問題。為解決這一難題,有公司研發(fā)了一種鰭片與吸液芯結合的結構——在鰭片之間采用類似海綿的多孔材料制作吸液芯(如圖3所示)。
圖3:通過在冷板內部采用吸液芯與鰭片結構,可消除熱點問題。
冷卻液會滲入海綿狀的吸液芯內部,氣泡則產生于吸液芯、冷卻液與鰭片之間。這種設計能防止氣泡在(芯片的)受熱表面形成,從而實現均勻冷卻。
07
僅靠風冷技術便足夠應對需求
傳統(tǒng)風冷技術如今已基本被認為是過時的方案,原因在于其驅動風扇和冷卻機需要消耗大量能源,且這些設備本身還需占用寶貴的空間。從風冷轉向液冷的優(yōu)勢十分顯著。而且隨著設施內計算功耗每增加一瓦,這些優(yōu)勢帶來的效益還會不斷疊加。
例如,僅采用風冷的數據中心,每1瓦的計算功耗就需要搭配1瓦的冷卻功耗。這意味著有50%的電力僅用于冷卻系統(tǒng)!與之形成對比的是,若采用先進的液冷技術,每1瓦的冷卻功耗可支持10瓦的計算功耗。
08
漏水不會造成任何損壞
超大規(guī)模數據中心運營商對風險極為敏感,而AI服務器的單臺價值已接近35萬美元,使用水作為冷卻液本身就存在風險。漏水不僅可能導致生產大幅延誤,甚至可能使生產完全停滯。
就在去年,有媒體曾報道,英偉達(NVIDIA)的下一代GB200超級芯片原本即將出貨,但隨后發(fā)現AI服務器機柜內部的液冷系統(tǒng)存在漏水問題,最終導致產品上市延遲。除漏水外,使用水還可能引發(fā)腐蝕與侵蝕問題。因此,由于水體中易滋生微生物,還需對冷卻水進行持續(xù)過濾和水處理。
09
液冷技術的應用會受未來芯片發(fā)熱上限(芯片最大功率)的限制
部分液冷方案確實存在局限性,隨著未來芯片工作功率不斷提升,這些方案將無法隨之擴展應用。正因如此,采用具備“前瞻性”的冷卻方式就顯得至關重要,例如雙相冷板中采用的池沸騰技術。冷板內部儲存著一定量的傳熱流體:當芯片產生熱量時,流體開始沸騰,熱量隨之轉化為蒸汽。
無論芯片功率如何變化,流體始終保持在恒定的沸騰溫度,從而確保散熱性能穩(wěn)定可控。因此,這種冷卻方式具備可擴展性,能夠為未來功率越來越高的芯片提供散熱支持。這就好比在爐灶上燒一鍋水:即便將火力調至原來的3倍,水也始終會保持在沸點溫度,無需更換新設備或改造現有基礎設施。
10
液冷技術需要大量維護工作
維護成本取決于所采用的液冷方案。例如,若使用大型厚重的容器,且需要用叉車將服務器從容器中取出,那么維護成本顯然會很高。要明確持續(xù)的維護成本,關鍵在于審視整個系統(tǒng),找出所有可能出現故障的部件,并判斷這些部件若發(fā)生故障應如何修復。這類部件包括管道、水泵、容器,以及是否需要更換冷卻液等。
11
若設施內沒有水循環(huán)回路,就無法在該設施中使用液冷技術
盡管部分數據中心配備了水循環(huán)回路設施,但即便沒有,也仍可部署液冷系統(tǒng)。具體可通過一套“空氣輔助式液路循環(huán)系統(tǒng)”實現:該系統(tǒng)不依賴設施自身的水循環(huán),而是利用環(huán)境空氣將蒸汽冷凝回液態(tài)。這種方案能讓液冷基礎設施的部署擺脫對建筑現有供水系統(tǒng)的依賴,實現獨立運行。
結語:液冷技術與可持續(xù)發(fā)展
希望上文梳理的這些常見誤解,能幫助大家揭開液冷技術的部分神秘面紗。當下正是人工智能(AI)產業(yè)加速發(fā)展的關鍵時期,其發(fā)展速度甚至超出了所有人的預期,能參與其中無疑令人振奮。盡管行業(yè)在液冷技術應用上難免經歷一段學習曲線,但如今已能清晰地看到一條可行路徑:在滿足未來AI所需計算能力的同時,持續(xù)踐行可持續(xù)發(fā)展理念。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.