谷歌第八代TPU詳解：拆分訓練與推理，攜博通與聯(lián)發(fā)科挑戰(zhàn)英偉達

2026-04-23 10:27:15　來源: 芯智訊

北京舉報

分享至

當?shù)貢r間2026年4月22日，在拉斯維加斯舉行的Google Cloud Next '26大會上，谷歌正式發(fā)布了第八代張量處理器（TPU）。這是谷歌史上首次將AI訓練與推理任務拆分至兩款獨立芯片——專為模型訓練設計的TPU 8t與專為推理優(yōu)化的TPU 8i，標志著其AI硬件戰(zhàn)略的重大轉向。

與此同時，谷歌宣布其第七代TPU Ironwood正式向云客戶開放，并預告了與英偉達的深度合作——將在2026年下半年成為首家提供NVIDIA Vera Rubin NVL72超級計算機的云服務商。

為何拆分訓練與推理？

谷歌做出這一戰(zhàn)略調整的根本原因，是AI計算負載的日益分化。谷歌AI與基礎設施高級副總裁兼首席技術官Amin Vahdat在官方博客中指出：“隨著AI智能體的興起，我們確定業(yè)界將受益于針對訓練和推理需求分別進行專門優(yōu)化的芯片。”

具體而言，訓練任務追求極致的吞吐量與規(guī)模擴展能力，需要芯片具備最高的計算密度和內存帶寬，以在數(shù)周甚至數(shù)月內處理萬億級參數(shù)。而推理任務則對延遲和并發(fā)更為敏感——當數(shù)百萬個AI智能體同時運行時，響應速度至關重要，而對峰值算力的要求相對較低。

Amin Vahdat在大會現(xiàn)場明確表示：“這兩款芯片都是從頭開始專門為訓練和推理設計的，而非彼此衍生產品。它們的規(guī)格、能力、互聯(lián)方式都因各自需求而專門設計。

Alphabet首席執(zhí)行官桑達爾·皮查伊則強調，這一新架構旨在以低成本提供大規(guī)模吞吐量和低延遲，滿足數(shù)百萬個AI智能體同時運行的需求。

TPU 8t：大規(guī)模預訓練旗艦芯片

TPU 8t由谷歌和博通共同設計，是谷歌為超大規(guī)模AI模型訓練打造的旗艦芯片。單個超級計算節(jié)點最多可集成9,600塊TPU 8t芯片，配備2 PB高帶寬內存，每Pod計算性能達121 exaflops（FP4精度），較上一代Ironwood提升約3倍，同等價格下性能提升2.8倍。通過JAX與Pathways框架，可將分布式訓練擴展至單一集群超過100萬塊芯片。

在架構設計上，TPU 8t采用雙計算芯粒加單I/O芯粒的架構，配備8組12層堆疊的HBM3e高帶寬內存。芯片搭載了SparseCore專用加速器，專門處理大語言模型查找過程中常見的不規(guī)則內存訪問問題；同時支持原生FP4浮點精度，矩陣運算單元算力吞吐直接翻倍，海量數(shù)據(jù)搬運功耗大幅下降。

為匹配海量數(shù)據(jù)吞吐需求，谷歌全新研發(fā)了Virgo互聯(lián)架構，訓練場景數(shù)據(jù)中心網(wǎng)絡帶寬最高提升至前代4倍。該架構采用高基數(shù)交換機減少層級，扁平化兩層無阻塞拓撲結構，單套網(wǎng)絡可互聯(lián)13.4萬顆TPU 8t芯片，無阻塞二分帶寬高達47Pbps，芯片間互聯(lián)帶寬較上一代提升2倍。在存儲訪問方面，TPU 8t通過TPU直連RDMA和TPU直連存儲兩項技術，繞過CPU實現(xiàn)TPU與網(wǎng)卡、高速存儲之間的直接內存訪問，存儲訪問速度提升10倍。此外，芯片還擁有一整套可靠性、可用性與可維護性能力，包括實時遙測監(jiān)控、自動檢測并繞過故障鏈路、以及無需人工干預自動重構硬件拓撲的光路電路交換技術。

TPU 8i：高并發(fā)推理專屬平臺

TPU 8i首次由谷歌和聯(lián)發(fā)科合作設計，專注于AI推理場景，旨在消除“等待室效應”——即用戶請求被有意排隊或延遲以實現(xiàn)硬件利用率最大化的情況。單個Pod可擴展至1,152塊芯片，提供11.6 exaflops FP8計算性能，較Ironwood同等價格下性能提升80%，每瓦性能較上一代提升117%。

TPU 8i最顯著的特征是搭載了384MB片上SRAM緩存，容量是上一代Ironwood的三倍。這一設計的核心價值在于可將更大的KV Cache保留在芯片上，大幅減少長上下文解碼時芯片核心的空閑等待時間，實現(xiàn)更快的文本生成速度和更低的延遲。芯片還引入了全新的集合通信加速引擎（CAE），專門加速自回歸解碼與思維鏈推理所需的規(guī)約與同步運算，多核心結果聚合幾乎零延遲，片上集合通信延遲較前代降低5倍。單顆TPU 8i內置兩顆張量核心和一顆片上CAE，替代前代Ironwood的四顆稀疏計算核心。

TPU 8i最大的架構創(chuàng)新在于放棄了TPU傳統(tǒng)的3D環(huán)形拓撲結構，轉而采用全新的Boardfly層級互聯(lián)拓撲。在MoE（混合專家模型）與推理模型時代，任意芯片都需要隨時互通Token數(shù)據(jù)，跳轉次數(shù)直接決定性能。對于8×8×16規(guī)模（1024芯片）的3D環(huán)形網(wǎng)絡，最遠芯片通信需要16跳；而Boardfly拓撲在同等規(guī)模下僅需7跳，網(wǎng)絡直徑縮減56%。

Boardfly采用分層設計：4顆芯片環(huán)形互聯(lián)構成基礎單元，8塊板卡通過銅纜全互聯(lián)構成本地算力組，36個算力組通過光開關互聯(lián)構成最高1024顆芯片的集群。

在這種結構下，任意兩枚芯片之間的通信最多只需經(jīng)過7次跳轉，全對全通信延遲改善最高50%，這對混合專家模型和頻繁的跨芯片令牌路由極為有利。TPU 8i配備288GB HBM高帶寬內存，結合384MB片上SRAM，確保模型的活躍工作集能夠完全保留在芯片內部運行，從根本上解決“內存墻”問題。

基于2nm制程，2027年底量產

兩款第八代TPU芯片均搭載了谷歌自研的Arm架構Axion CPU作為主控，徹底解決數(shù)據(jù)預處理延遲導致的主機算力瓶頸。芯片采用臺積電2nm制程工藝制造，目標在2027年底量產，并由公司第四代液冷技術支持散熱。

在軟件生態(tài)方面，第八代TPU支持JAX、PyTorch、Keras及vLLM等主流框架，原生PyTorch支持現(xiàn)已進入預覽階段，用戶可直接遷移模型而無需修改代碼。

谷歌TPU的采用率正在持續(xù)攀升。Anthropic已承諾采用數(shù)GW等級的TPU算力，2027年上線規(guī)模將擴展至3.5吉瓦，成為第八代TPU的錨定客戶。此外，Citadel Securities已利用TPU打造量化研究軟件，美國能源部旗下17個國家實驗室全面采用基于TPU的AI協(xié)同科學家系統(tǒng)。

分析師普遍認為，谷歌通過將TPU一拆為二，是對AI訓練與推理需求加速分化的直接回應，有助于大幅提升特定場景下的單位算力性價比，從而降低云客戶部署成本。

編輯：芯智訊-浪客劍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.