(本文編譯自SemiWiki)
代理式人工智能(Agentic AI)工作負載正重塑現代數據中心基礎設施的計算需求,將性能瓶頸從以GPU為核心的推理環節,轉移至對CPU算力要求極高的編排與工作流管理環節。
傳統人工智能推理流水線主要依靠GPU執行單次前向傳播,輸入分詞、模型運行和輸出生成按順序進行。而新興的Agentic AI系統將推理轉化為分布式的多步驟流程,涵蓋規劃、工具調用、驗證及迭代推理等環節。這一架構變革帶來了對CPU的海量需求,使得CPU的算力成為維持系統吞吐量和整體成本效率的關鍵因素。
![]()
在代理式工作流中,CPU承擔各類編排任務,包括控制流管理、分支邏輯處理、重試機制執行,以及多智能體與外部服務間的協同調度。每次智能體調用均可能需要與數據庫、應用程序編程接口、搜索引擎或向量數據庫進行交互,這些操作都會產生額外的CPU、內存及I/O開銷。
此外,推理密集型工作負載通常需要獨立的沙箱執行環境來開展驗證與測試工作。這些迭代循環形成多輪次工作流,而CPU的性能決定了系統的端到端吞吐量。當CPU資源不足時,GPU會因等待預處理、工具執行或驗證步驟完成而處于空閑狀態,造成高成本加速硬件的利用效率低下。
實驗基準測試進一步印證了CPU工作負載在代理式流程中的重要性。在一項模擬監管申報文件分析的金融異常檢測工作流測試中,CPU負責處理數據加載、基準值計算、異常檢測、文檔檢索,以及通過網絡搜索實現的信息補充等任務。
測試結果顯示,CPU操作占據了總運行時間的主導地位,僅信息補充環節消耗的時間就遠超過基于GPU的模型推理步驟。這一結果凸顯,僅對推理環節進行加速無法實現整體性能優化,系統需在CPU編排與GPU計算之間達成平衡。
另一項針對人工智能輔助代碼生成的基準測試,進一步揭示了CPU的性能瓶頸。在該工作流中,GPU負責生成候選解決方案,而CPU則在沙箱環境中執行并驗證代碼。在超過兩千項測試任務中,即便使用高核心數的中央處理器系統,基于CPU的沙箱執行環節消耗的時間仍略高于GPU的代碼生成環節。CPU處理階段涵蓋子進程管理、測試執行與結果分析,這表明在智能體化系統中,驗證循環消耗的時間可能與推理環節相當,甚至超過后者。上述研究結果表明,若不同步提升CPU性能,單純提高GPU性能無法改善系統的整體吞吐量。
從這些實驗中得出的基礎設施規模配置建議,核心是維持CPU與GPU的配比平衡。當前的配置指南建議,根據工作負載特性,CPU與GPU的配比應在1:1至1.4:1之間,即每塊GPU對應約86至120個CPU核心。Token生成速度更快的小模型,需要更多的CPU資源來保證GPU處于滿負載運行狀態,而性能更強的CPU則可適當降低這一配比。未來高性能GPU的問世,可能會進一步提升對CPU的需求,若編排邏輯的復雜度持續增加,這一配比數值或將進一步走高。
這一結論的影響不僅限于性能優化層面。CPU資源配置不足,會導致編排環節產生延遲、工具執行受阻、驗證循環變慢,這些問題都會降低GPU的利用率,推高運營成本。反之,合理擴容CPU資源,能保障數據準備、協同調度與驗證工作的持續開展,讓GPU始終處于最高效率運行狀態。這種系統層面的平衡與微服務架構的邏輯相通,即系統的整體性能由最慢的組件而非最快的組件決定。
隨著Agentic AI的持續發展,CPU在推理基礎設施中的核心地位將愈發凸顯。從單次推理到多步驟工作流的轉變,使得系統價值向編排、協同與運行時管理環節轉移。因此,部署智能體化系統的企業必須重新審視傳統的以GPU為核心的擴容策略,轉而設計能配置充足CPU資源的平衡架構。通過實現CPU與GPU資源的匹配適配,數據中心能夠維持穩定的吞吐量,最大限度減少加速硬件的空閑時間,實現下一代人工智能部署的總擁有成本優化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.