上周Google Cloud Next '26現場,一個數字讓臺下安靜了幾秒:25.6萬節點,單控制面。
不是25.6萬個節點的集群群。是一個控制面,管著跨多個區域的25.6萬節點。過去十年Kubernetes的擴容圣經——"加集群"——被宣布作廢。
![]()
控制面邊界外移,集群不再是單位
先搞清楚Google在改什么。
Hypercluster的核心主張:控制面(control plane)才是擴容單位,集群不是。一個符合Kubernetes標準的控制面,跨多區域管理百萬級加速器,把分布式基礎設施當成統一容量池來調度。
這聽起來像技術參數升級,實際是架構假設的根本翻轉。
過去十年的默認設定:控制面有硬上限。調度權威、策略執行、容量治理,這些能力被鎖在集群邊界內。碰到天花板?再開一個集群。環境隔離開集群,區域隔離開集群,團隊隔離開集群,GPU類型不同也開集群。
集群成了操作邊界、策略邊界、容量邊界、故障邊界。所有運維手冊、升級周期、證書輪換、RBAC配置、網絡策略、準入鉤子,全部圍繞集群重復建設。
Google現在說:這些邊界可以上移到控制面層級。25.6萬節點證明控制面本身能橫向擴展,不需要用集群來做隔離單元。
四個過時的集群級假設
大多數平臺架構還在按老規矩運轉,和Hypercluster的假設直接沖突。
第一,集群作為操作邊界。運行手冊、升級節奏、證書輪換,全部按集群劃分。這在控制面邊界外移后變成純 overhead——你明明有一個統一的調度大腦,卻還在用幾十個集群的運維劇本。
第二,集群作為策略邊界。RBAC、網絡策略、準入鉤子,每個集群單獨配置,時間一長必然漂移。Google的解決方式是把這些也上提: fleet-scoped 的策略執行,一次配置全局生效。
第三,集群作為容量邊界。集群自動擴縮容、節點池、資源配額,原本都在集群內閉環。跨集群容量感知需要外部工具或人工協調。Hypercluster把容量池做成控制面級別的統一視圖,調度器看到的是"25.6萬節點"而不是"區域A的3萬節點+區域B的4萬節點"。
第四,集群作為故障邊界。爆炸半徑和可用區映射都圍繞集群設計。但Google的架構暗示:故障隔離可以在控制面內部完成,不需要靠物理集群切割。
這不是更大的Kubernetes,是另一種東西
注意Google的措辭:Kubernetes-conformant,不是Kubernetes。
符合標準API,但內部實現換了。控制面能橫向擴展到25.6萬節點,意味著etcd或者替代存儲、API server的擴展模式、調度器的分片策略,全部和開源Kubernetes不同。
對用戶的實際影響:你可以繼續用kubectl,繼續用YAML,但背后的容量池是跨區域的統一資源。一個Job可以聲明"需要1000塊H100",調度器在25.6萬節點里挑,不需要你指定哪個集群、哪個區域。
這對AI訓練場景尤其關鍵。大模型訓練需要數千加速器連續工作數周,任何集群邊界都會導致碎片化。Hypercluster的百萬級加速器統一池,本質是把"找夠卡"的問題從用戶側移到平臺側。
現有架構的隱性債務
Google明確點出:大多數平臺團隊還在按四個集群級假設建設系統,和Hypercluster的邊界外移直接矛盾。
具體表現是多集群管理工具的爆炸。集群聯邦、GitOps多倉庫、跨集群網絡方案、多集群可觀測性棧——這些都是在用工程復雜度彌補架構假設的落后。Hypercluster說:這些工具的存在本身,就是控制面邊界沒外移的癥狀。
更隱蔽的問題是組織慣性。平臺團隊的KPI、on-call輪值、故障復盤流程,全部圍繞集群構建。控制面邊界外移后,"集群運維工程師"這個崗位的定義要重寫。
誰需要跟進,誰可以觀望
Hypercluster是GKE Enterprise的功能,不是開源Kubernetes的路線圖。這意味著:
深度綁定GKE且規模夠大的團隊,需要重新評估多集群策略。如果你在管理50+集群,現在有一個選項是把它們"折疊"進一個控制面邊界,換取統一的調度視角和策略治理。
混合云或多云架構的團隊,Hypercluster目前幫不上忙。它的25.6萬節點是Google Cloud內部的容量池,不解決跨云問題。
中小規模團隊,四個集群級假設的 overhead 還沒痛到需要重構。但值得觀察:如果控制面邊界外移成為行業趨勢,開源Kubernetes會不會跟進?其他云廠商會不會推出類似架構?
一個待解的問題
Google沒有詳細展開的是:控制面邊界外移后,故障模式怎么變。
集群作為故障邊界,好處是隔離明確。控制面單點故障影響25.6萬節點,這個風險Google如何對沖?現場提到"fleet-scoped的故障隔離",但具體機制——是控制面內部的分片,還是其他架構——沒有展開。
這可能是 adopters 需要追問的關鍵。邊界外移的收益很明顯,但代價的賬本還沒完全公開。
最后講個現場細節。演示環節,工程師在單控制面下調度了一個跨三大洲的分布式訓練任務,臺下有人小聲說:"我們上周剛為了多區域訓練寫了兩百行集群選擇邏輯。"旁邊同事回:"下周可以刪了。"——當然,前提是你們已經在用GKE Enterprise。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.