網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Moonshot AI推出Kimi K2.6：專為長時間運行代理設計的開源模型

2026-04-22 18:47:48　來源: ZAKER科技

廣東舉報

分享至

當前，大多數(shù)編排框架的設計初衷是支持運行幾秒到幾分鐘的代理任務。然而，隨著代理技術的進步，部分代理已經(jīng)能夠連續(xù)運行數(shù)小時甚至數(shù)天，這暴露了現(xiàn)有框架在長時間任務中的不足。

盡管像Anthropic的Claude Code和OpenAI的Codex等模型通過多會話任務、子代理和后臺執(zhí)行初步支持了長時間運行代理，但這些系統(tǒng)仍存在局限性，往往假設代理會在有限時間內(nèi)完成工作流。

在此背景下，開源模型提供商Moonshot AI推出了其新模型Kimi K2.6，旨在突破這一限制。

Moonshot表示，Kimi K2.6專為持續(xù)執(zhí)行而設計，內(nèi)部測試案例顯示，該模型能夠支持運行數(shù)小時甚至連續(xù)五天的代理任務，自主處理監(jiān)控、事件響應等復雜操作。

然而，這種長時間運行代理的普及也揭示了一個關鍵問題：大多數(shù)編排框架并未針對持續(xù)、有狀態(tài)的任務進行優(yōu)化。Kimi K2.6通過改進版的Agent Swarms方法管理多達300個子代理，并能“同時執(zhí)行跨越4,000個協(xié)調(diào)步驟”，相比Claude Code和Codex更依賴模型而非預定義角色。

Kimi K2.6現(xiàn)已上線Hugging Face，并可通過API、Kimi Code及Kimi應用獲取。

實踐者指出，長時間運行代理的核心挑戰(zhàn)遠超提示工程所能解決的范疇。例如，開發(fā)者Maxim Saplin在其博客中提到：“問題根源在于編排本身的脆弱性，這是產(chǎn)品設計與訓練方法的問題，而非單純依靠嚴格提示就能解決。”

此外，長時間運行代理還面臨狀態(tài)維持難題，尤其是在環(huán)境動態(tài)變化的情況下。ArmorCode首席產(chǎn)品官Mark Lambert指出，治理能力已落后于部署速度，“這些代理系統(tǒng)生成代碼和變更的速度超過了大多數(shù)組織審查、修復或治理的能力。”

F5首席產(chǎn)品官Kunal Anand則認為，長時間運行代理代表了一種比當前企業(yè)準備應對的更大的架構(gòu)轉(zhuǎn)變，“我們正從腳本、服務、容器、函數(shù)轉(zhuǎn)向?qū)⒋碜鳛槌志没A設施，這催生了許多尚未命名的新類別。”

Moonshot AI強調(diào)，Kimi K2.6的目標是應對“通常需要數(shù)周或數(shù)月集體人類努力才能完成的真實世界挑戰(zhàn)”。據(jù)技術文檔披露，該模型在10小時內(nèi)從零構(gòu)建了一個完整的SysY編譯器，相當于四名工程師兩個月的工作量，并通過了所有140項功能測試。

團隊還將K2.6應用于復雜工程任務，例如對一個已有八年歷史的開源金融匹配引擎進行全面改造。一次13小時的執(zhí)行過程顯示，模型迭代了12種優(yōu)化策略，發(fā)起了超過1,000次工具調(diào)用，精確修改了超過4,000行代碼。

更令人印象深刻的是，Moonshot團隊利用K2.6構(gòu)建了一個自主運行五天的代理，負責管理監(jiān)控、事件響應和系統(tǒng)操作。

來源：布谷財經(jīng)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.