快科技5月5日消息,坐擁約55萬塊英偉達GPU,實際算力利用率僅有11%,這一巨大反差讓馬斯克旗下 xAI 近期推向輿論風口浪尖,也引發業界對其算力利用效率的廣泛質疑。
據外媒《The Information》獲取的xAI內部備忘錄顯示,xAI公司總裁邁克爾·尼科爾斯(Michael Nicolls)向團隊坦言,目前公司模型浮點運算利用率(MFU)約為11%。
這一數字背后的含義十分直觀:理論上可輸出100份訓練算力的硬件,實際僅能產出11份,尼科爾斯在備忘錄中直白評價其“低得尷尬”,并明確為團隊設定了目標——未來幾個月內將這一利用率拉升至50%。
據悉,xAI目前擁有約55萬顆NVIDIA GPU,涵蓋H100和H200系列。盡管這些GPU比最新的Blackwell產品落后了一個世代,但如此龐大的硬件部署規模,仍給市場留下了深刻印象。
需要指出的是,11%這個數字,并非指89%的GPU在完全閑置,而是衡量有效訓練吞吐占硬件理論峰值算力比例的嚴苛指標。
與行業基準相比,xAI的表現差距尤為明顯。當前,生產級大模型訓練的MFU通常維持在35%至45%之間,其中Meta和谷歌憑借長期積累的深厚軟件堆棧,其GPU利用率分別可達約43%和46%;
即便在以“低效”著稱的GPT-3訓練時期,MFU也能穩定在21%-26%之間。反觀xAI的11%,不僅遠低于當前行業主流水平,甚至不及AI算力發展史上的“古早”尷尬時期。
值得一提的是,坐擁頂級算力卻難以發揮價值, xAI 癥結不在硬件,而在軟件短板。
據悉,xAI一直照搬英偉達標準部署方案,但軟件堆棧、并行策略和模型工程優化,遠遠跟不上硬件激進擴張速度。
具體來看,HBM顯存讀取速度遠慢于計算芯片,導致芯片大量時間空轉等待數據;網絡拓撲中的任何一處瓶頸,在數萬張卡的同步要求下,都會被急劇放大。
此外,Lambda等機構分析指出,顯存壓力、過度的激活重計算和張量并行帶來的跨GPU通信開銷等,都是拖累MFU的系統性因素。
值得注意的是,xAI 基建擴張堪稱行業奇跡,其Colossus 超算僅 122天建成,GPU規模短時間內極速擴容,過快的硬件鋪攤,也放大了軟件優化滯后的致命短板。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.