當前,大多數(shù)編排框架的設計初衷是支持運行幾秒到幾分鐘的代理任務。然而,隨著代理技術的進步,部分代理已經(jīng)能夠連續(xù)運行數(shù)小時甚至數(shù)天,這暴露了現(xiàn)有框架在長時間任務中的不足。
盡管像Anthropic的Claude Code和OpenAI的Codex等模型通過多會話任務、子代理和后臺執(zhí)行初步支持了長時間運行代理,但這些系統(tǒng)仍存在局限性,往往假設代理會在有限時間內(nèi)完成工作流。
![]()
在此背景下,開源模型提供商Moonshot AI推出了其新模型Kimi K2.6,旨在突破這一限制。
Moonshot表示,Kimi K2.6專為持續(xù)執(zhí)行而設計,內(nèi)部測試案例顯示,該模型能夠支持運行數(shù)小時甚至連續(xù)五天的代理任務,自主處理監(jiān)控、事件響應等復雜操作。
然而,這種長時間運行代理的普及也揭示了一個關鍵問題:大多數(shù)編排框架并未針對持續(xù)、有狀態(tài)的任務進行優(yōu)化。Kimi K2.6通過改進版的Agent Swarms方法管理多達300個子代理,并能“同時執(zhí)行跨越4,000個協(xié)調(diào)步驟”,相比Claude Code和Codex更依賴模型而非預定義角色。
Kimi K2.6現(xiàn)已上線Hugging Face,并可通過API、Kimi Code及Kimi應用獲取。
實踐者指出,長時間運行代理的核心挑戰(zhàn)遠超提示工程所能解決的范疇。例如,開發(fā)者Maxim Saplin在其博客中提到:“問題根源在于編排本身的脆弱性,這是產(chǎn)品設計與訓練方法的問題,而非單純依靠嚴格提示就能解決。”
此外,長時間運行代理還面臨狀態(tài)維持難題,尤其是在環(huán)境動態(tài)變化的情況下。ArmorCode首席產(chǎn)品官Mark Lambert指出,治理能力已落后于部署速度,“這些代理系統(tǒng)生成代碼和變更的速度超過了大多數(shù)組織審查、修復或治理的能力。”
F5首席產(chǎn)品官Kunal Anand則認為,長時間運行代理代表了一種比當前企業(yè)準備應對的更大的架構(gòu)轉(zhuǎn)變,“我們正從腳本、服務、容器、函數(shù)轉(zhuǎn)向?qū)⒋碜鳛槌志没A設施,這催生了許多尚未命名的新類別。”
Moonshot AI強調(diào),Kimi K2.6的目標是應對“通常需要數(shù)周或數(shù)月集體人類努力才能完成的真實世界挑戰(zhàn)”。據(jù)技術文檔披露,該模型在10小時內(nèi)從零構(gòu)建了一個完整的SysY編譯器,相當于四名工程師兩個月的工作量,并通過了所有140項功能測試。
團隊還將K2.6應用于復雜工程任務,例如對一個已有八年歷史的開源金融匹配引擎進行全面改造。一次13小時的執(zhí)行過程顯示,模型迭代了12種優(yōu)化策略,發(fā)起了超過1,000次工具調(diào)用,精確修改了超過4,000行代碼。
更令人印象深刻的是,Moonshot團隊利用K2.6構(gòu)建了一個自主運行五天的代理,負責管理監(jiān)控、事件響應和系統(tǒng)操作。
來源:布谷財經(jīng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.