![]()
作者 | Craig Risi
譯者 | 張衛(wèi)濱
Meta 推出了一款全新 AI 驅(qū)動(dòng)的容量效率平臺(tái),依托統(tǒng)一 AI 智能體,自動(dòng)檢測(cè)并解決全球基礎(chǔ)設(shè)施范圍內(nèi)的各類性能問題,標(biāo)志著超大規(guī)模數(shù)據(jù)中心向自優(yōu)化系統(tǒng)邁出重要一步。Meta 在 近期工程技術(shù)博客 中詳細(xì)介紹,該平臺(tái)隸屬于公司整體容量效率計(jì)劃,旨在降低運(yùn)維開銷、提升資源利用率,讓工程師從人工性能調(diào)優(yōu)工作中解放出來。
該平臺(tái)將 大語言模型(LLM) 智能體與結(jié)構(gòu)化工具、已編碼的工程知識(shí)相結(jié)合,持續(xù)分析基礎(chǔ)設(shè)施的性能、識(shí)別低效隱患并自動(dòng)實(shí)施優(yōu)化。平臺(tái)把標(biāo)準(zhǔn)化接口(即工具)與沉淀自專家經(jīng)驗(yàn)的可復(fù)用“技能”進(jìn)行整合,讓 AI 智能體能夠自主完成問題診斷與修復(fù),把資深工程師的專業(yè)能力高效復(fù)用、規(guī)模化落地到全網(wǎng)的基礎(chǔ)設(shè)施。
在超大規(guī)模架構(gòu)下,即便是微小的資源低效,也會(huì)轉(zhuǎn)化為算力、能耗與延遲方面的巨額成本。Meta 的解決方案讓 AI 智能體可在技術(shù)棧的多層級(jí)開展運(yùn)維,覆蓋代碼、配置直至系統(tǒng)級(jí)性能指標(biāo)。智能體可查詢性能剖析數(shù)據(jù)、核查配置文件,主動(dòng)給出優(yōu)化建議甚至直接執(zhí)行優(yōu)化,減少常規(guī)性能工程任務(wù)的人工介入需求。
這標(biāo)志著傳統(tǒng)被動(dòng)式的性能管理,正向持續(xù)自動(dòng)化優(yōu)化轉(zhuǎn)型,系統(tǒng)可實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)調(diào)優(yōu)。通過將領(lǐng)域?qū)I(yè)知識(shí)嵌入可復(fù)用的智能體能力,Meta 力求在系統(tǒng)復(fù)雜度與規(guī)模持續(xù)增長(zhǎng)的同時(shí),保障最優(yōu)實(shí)踐統(tǒng)一落地。
該系統(tǒng)的一大核心創(chuàng)新,是能夠沉淀企業(yè)知識(shí)并轉(zhuǎn)化為可落地的運(yùn)維能力。Meta 不再單純依賴人工工程師排查故障,而是將專家的邏輯推理固化為智能體的“技能”,在企業(yè)內(nèi)部實(shí)現(xiàn)規(guī)模化復(fù)用。這讓平臺(tái)不僅能發(fā)現(xiàn)問題,還能給出貼合業(yè)務(wù)場(chǎng)景的解決方案,真正實(shí)現(xiàn)高階工程技術(shù)能力的普惠化復(fù)用。
最終,實(shí)現(xiàn)了多維度效率提升,包括減少資源浪費(fèi)、降低功耗、加快性能瓶頸修復(fù)速度。同時(shí)讓工程師聚焦更高價(jià)值的工作,比如,全新系統(tǒng)與功能設(shè)計(jì),從而無需反復(fù)處理重復(fù)性故障排查。
Meta 此舉折射出科技行業(yè)的整體趨勢(shì):基于智能體的自動(dòng)化成為主流方向,AI 系統(tǒng)從單純提供數(shù)據(jù)分析,升級(jí)為主動(dòng)管理、優(yōu)化基礎(chǔ)設(shè)施的核心角色。隨著 AI 工作負(fù)載規(guī)模與復(fù)雜度持續(xù)攀升,傳統(tǒng)性能管理方式已難以適配,行業(yè)需要更智能、具備自主決策能力的基礎(chǔ)設(shè)施系統(tǒng)。
行業(yè)預(yù)測(cè) 顯示,AI 智能體將成為企業(yè)系統(tǒng)標(biāo)配,自動(dòng)化處理常規(guī)任務(wù),支撐大規(guī)模高效運(yùn)維。Meta 的落地實(shí)踐,示范了該理念如何應(yīng)用于基礎(chǔ)設(shè)施管理,讓 AI 從分析工具轉(zhuǎn)變?yōu)橄到y(tǒng)優(yōu)化的主動(dòng)參與者。
此次技術(shù)迭代也凸顯 AI 基礎(chǔ)設(shè)施能效優(yōu)化的重要性:企業(yè)為支撐大模型與各類服務(wù)持續(xù)加大算力投入,在基礎(chǔ)設(shè)施成本快速上漲的背景下,資源優(yōu)化已從單純技術(shù)問題上升為企業(yè)戰(zhàn)略優(yōu)先級(jí)事項(xiàng)。
其他超大規(guī)模科技企業(yè)也與 Meta 思路趨同,只是在技術(shù)棧側(cè)重點(diǎn)上各有差異。例如谷歌大力投入 AI 優(yōu)化型基礎(chǔ)設(shè)施與編排體系,將 TPU 等定制硬件與 JAX、Pathways 等軟件系統(tǒng)結(jié)合,在超大型集群間動(dòng)態(tài)調(diào)度負(fù)載。
近期行業(yè)動(dòng)態(tài)普遍指向 AI 超算 的發(fā)展方向,通過軟硬件深度協(xié)同設(shè)計(jì)、低時(shí)延網(wǎng)絡(luò)、實(shí)時(shí)負(fù)載分發(fā)實(shí)現(xiàn)性能優(yōu)化,不止優(yōu)化應(yīng)用本身,更對(duì)承載應(yīng)用的整個(gè)算力架構(gòu)進(jìn)行全局調(diào)優(yōu)。與此同時(shí),谷歌 持續(xù)加倍投資嵌入企業(yè)平臺(tái)的 AI 智能體,用于大規(guī)模工作流管理與優(yōu)化,理念與 Meta 的智能體驅(qū)動(dòng)架構(gòu)相近,但更深層融入自身的云生態(tài)。
與此同時(shí),亞馬遜云科技、微軟 等云廠商,以及 Cast AI 等新興平臺(tái),專注于自主資源優(yōu)化與成本能效管控。這類平臺(tái)借助 AI 持續(xù)精準(zhǔn)調(diào)配基礎(chǔ)設(shè)施規(guī)格、彈性擴(kuò)縮容負(fù)載、跨區(qū)域及實(shí)例類型智能調(diào)度部署,尤其適配 Kubernetes 與 GPU 密集型業(yè)務(wù)場(chǎng)景。與此同時(shí),新一代 AI 基礎(chǔ)設(shè)施服務(wù)商 正在崛起,聚焦推理能效與能耗感知彈性擴(kuò)縮容,包括分布式邊緣部署模式,也就是,將算力就近下沉至用戶側(cè),降低延時(shí)并緩解能耗約束。
縱觀各家技術(shù)路線,行業(yè)趨勢(shì)已十分清晰,無論依托 AI 智能體、定制芯片還是智能編排層,整個(gè)產(chǎn)業(yè)正全面邁向全自動(dòng)化、自優(yōu)化基礎(chǔ)設(shè)施,實(shí)現(xiàn)性能、成本與能效的實(shí)時(shí)動(dòng)態(tài)平衡,徹底告別人工靜態(tài)調(diào)優(yōu)模式。
Meta Deploys Unified AI Agents to Automate Performance Optimization at Hyperscale(https://www.infoq.com/news/2026/05/meta-ai-agents-hyperscale/)
聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.