![]()
這是三部曲系列的最終篇,探討冷卻系統如何成為AI基礎設施的核心瓶頸,以及它如何重塑部署周期、設施設計與選址決策。
一個新的AI集群上線了。GPU安裝完畢,網絡配置就緒,電力正常供應。隨后,溫度開始攀升——不是因為系統出現故障,而是因為冷卻基礎設施從一開始就沒有為現代AI工作負載的需求而設計。
隨著AI部署從早期試點走向規模化落地,熱管理正成為數據中心基礎設施擴展中最迫切的挑戰之一。然而,當行業的目光大多聚焦于算力和電力時,在更高密度下的散熱能力,正悄然成為系統規模擴展的瓶頸。
在AI工作負載不斷突破基礎設施極限的當下,本文將探討冷卻系統如何演進以應對這些需求,并揭示熱管理解決方案在規模化過程中面臨的挑戰與機遇。
從風冷到液冷
向液冷的快速轉型,不僅是一項技術挑戰,更是運營商在AI基礎設施競爭中保持優勢的戰略必要之舉。
傳統數據中心的冷卻系統是為可預測的工作負載和相對穩定的功率密度而設計的。AI正在打破這些假設。更關鍵的是,這一轉變并非循序漸進,而是在一代基礎設施的周期內驟然發生。
思科數據中心與互聯網基礎設施業務高級副總裁兼總經理Kevin Wollenweber表示,許多企業環境尚未做好準備。
"很多企業數據中心還沒有準備好大規模轉向液冷,"他說。
隨著部署規模的擴大,這一差距愈發明顯。挑戰不僅在于熱量更多,還在于熱量增長的速度之快。
Wollenweber指出,下一代系統的功率需求正在進入一個從根本上改變設施設計的區間。
"我們正在從每機架數十千瓦邁向數百千瓦,"他說。
傳統風冷系統在每機架約20至50千瓦時通常會失去效能,具體取決于設計和氣流條件。而AI部署的功率密度已經遠遠超出這一范圍。
施耐德電氣創新與數據中心業務副總裁Steven Carlini表示,最新一代AI系統的運行功率已經迫使冷卻設計發生根本性轉變。
"加速計算集群需要對GPU進行液冷,但系統的其他部分仍然需要風冷,"他說,"這就形成了一種混合冷卻環境。"
目前部分最新AI系統的單機架功率已超過200千瓦,而設計目標已指向400千瓦乃至更高。在如此高的功率密度下,傳統風冷方案的效果越來越有限,向液冷系統的過渡已勢在必行。
這導致現有設施的設計承載能力與AI工作負載的實際需求之間,出現了日益擴大的落差。
過渡期的困境
即便液冷的必要性已顯而易見,其普及進程仍參差不齊。許多數據中心依然依賴為上一代計算設計的基礎設施,對這些環境進行改造,在管道鋪設、地板設計和系統集成方面都面臨重大挑戰。
麥肯錫高級合伙人Soren Jautelat表示,隨著冷卻系統日趨復雜,設計與部署之間的差距愈發凸顯。
"冷卻往往被當作一個組件選型問題來討論,但在實踐中,它是一個系統集成挑戰,"他說。
液冷雖然能夠提升效率,但實際表現取決于水泵、管路、熱交換器與設施系統的集成程度。
"組件標準碎片化、泄漏風險、改造復雜性以及安裝要求,這些都是非常現實的執行難題,"他說。
Wollenweber也表示,許多組織對于如何完成這一過渡,仍處于早期摸索階段。
"這不是大家都已經習以為常的事,"他說。
轉型已經開始,但尚未完成。截至2024年,液冷在數據中心冷卻市場中約占46%,風冷系統在傳統環境中仍占主導地位。
Markets and Markets的行業預測顯示,全球數據中心冷卻市場預計將從2020年代中期的約110億美元增長至2030年代初期的逾200億美元,增長動力部分來自高密度工作負載向液冷的轉型。
需求與準備之間的差距本身正在成為一種制約。問題已不再是是否需要液冷,而是運營商能以多快的速度完成設施和流程的適配。
電力與冷卻的深度融合
在更高的功率密度下,冷卻系統不能再被視為獨立存在。Carlini強調,AI基礎設施現在必須作為一個統一的能源系統來整體考量。
"每一瓦特輸送給加速器的電力,最終都會轉化為必須被帶走的熱量,"他說。
這在電力輸送、熱管理與系統性能之間建立了直接的關聯。
"如果電力輸送受限,算力就會受限。如果散熱受限,系統可能變得不穩定,性能也會下降,"他說。
這種緊密耦合意味著基礎設施不能再分割設計。
"你不能在不設計冷卻的情況下設計電力,也不能在不了解計算功率包絡的情況下設計冷卻,"Carlini說。
此外,高密度部署要求電力輸送、機架架構與冷卻系統之間的協同配合,這是傳統數據中心建設所不曾面對的。
因此,冷卻決策正在影響整個設施的設計與部署方式。
在實踐中,這一差距已經影響到新增容量的部署速度。對現有設施進行高密度冷卻改造,在管道、地板設計和系統集成方面引入了諸多挑戰,拖慢了部署進程。
Jautelat表示,冷卻還開始影響項目的選址,尤其是在環境壓力和審批壓力不斷加大的背景下。
"冷卻架構不僅關乎運營性能,也開始影響項目能在哪里落地、能以多快的速度推進,"他說。
他特別提到了主要數據中心市場日益嚴峻的水資源壓力,以及與審批、分區規劃和社區關切相關的延誤問題。
當多重瓶頸疊加
冷卻挑戰是AI基礎設施更大范圍變革的組成部分。在這場變革中,曾經獨立設計的系統如今深度集成、相互依存,從根本上重塑了部署策略與設施設計。
在網絡、電力和冷卻三個維度上,同一種規律正在浮現:瓶頸不再由單個組件決定,而是由這些組件在規模化運行下的協同表現所決定。
隨著AI工作負載持續擴張,挑戰已不再只是建設更多基礎設施,而是構建能夠作為一個統一協調整體運行的系統。
Q&A
Q1:為什么AI工作負載會導致數據中心冷卻系統面臨如此大的壓力?
A:AI工作負載,尤其是GPU密集型的加速計算集群,單機架功率密度已從傳統的數十千瓦飆升至200千瓦以上,部分設計目標甚至超過400千瓦。傳統風冷系統在每機架約20至50千瓦時就會失去效能,遠不足以應對這一量級的熱量。每一瓦特輸送給加速器的電力最終都會轉化為熱量,必須被及時帶走,否則系統會出現不穩定或性能下降的問題。
Q2:液冷技術在數據中心的普及面臨哪些主要障礙?
A:主要障礙包括:現有設施改造難度大,涉及管道鋪設、地板結構調整和系統集成等復雜工程;組件標準碎片化,不同廠商的液冷方案兼容性差;泄漏風險帶來的運維顧慮;以及安裝和維護人員的技能儲備不足。截至2024年,液冷在數據中心冷卻市場中僅占約46%,大量傳統環境仍以風冷為主,過渡進程參差不齊。
Q3:冷卻架構如何影響數據中心的選址決策?
A:高密度冷卻系統,尤其是依賴水冷的方案,對水資源消耗較大。在水資源緊張的地區,這會直接限制項目的可行性。此外,冷卻相關的環境影響還可能觸發更嚴格的審批流程、分區規劃限制以及社區反對,從而拖慢項目推進速度。因此,冷卻架構的選擇已不僅是技術問題,更是影響項目能否落地、何時落地的關鍵因素。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.