網易首頁 > 網易號 > 正文申請入駐

Manus和Cursor絕非套殼，二者在各自領域的認知水平，領先行業一個身位

2026-04-29 13:31:39　來源: 可達鴨面面觀

北京舉報

分享至

Meta花了20億美元買Manus，Elon Musk給Cursor開了600億美元的收購選項。這兩個數字公布之后，中文互聯網上最常見的反應可以歸結為兩句話：第一，這倆不都是套殼嗎？底層用的是別人的模型，有什么了不起。第二，Zuckerberg和Musk這是沖動消費，一個是"Meta已經錯過了AI所以高價買進"，一個是"Musk就是什么熱買什么"。

這種判斷的潛臺詞是：Manus和Cursor本身沒什么特別的，和市面上一大堆AI agent工具、AI編程工具沒有本質區別，只是營銷做得好、時機趕得巧。

這篇文章想說的是，這個判斷錯了。不是小錯，是方向性的錯。Manus和Cursor在各自領域里的認知水平，領先了行業至少一個身位，而且這個認知領先有具體的技術路線和競品對比可以驗證。Meta和SpaceX/xAI的出價不是沖動，是對這種認知領先的定價。

Manus：從第一性原理出發

Manus從2025年3月發布起就伴隨爭議。最常見的批評是套殼：它不訓練自己的模型，用的是Claude和Qwen，只是在外面包了一層agent調度框架。MIT博士秦增益的評論代表了一類觀點：這是一個很好的產品，但并不是一項技術突破。

要理解Manus做對了什么，最有效的方式是把它和同期的競品放在一起看。

認知差異一：不搞角色扮演

2023年到2025年初，多數multi-agent系統的設計思路是照搬人類組織架構。MetaGPT是這類思路的典型代表：它把LLM agent分成產品經理、架構師、項目經理、工程師、QA五個角色，每個角色有固定的職責和工作流，按照人類軟件公司的流程串行執行。這就是所謂的hat wearing。

這種設計的問題出在起點。人類社會之所以需要專業分工，是因為一個人的能力帶寬有限，需要花十幾年訓練才能成為一個資深的產品經理或資深的工程師。分工是對人類認知局限性的補償。但LLM不是這樣。任何一個LLM off the shelf就是一個generalist，它懂所有領域的知識。在prompt里告訴它"你是一個資深的software engineer"，這句話除了限制它的能力以外沒有任何意義。

從第一性原理出發想這件事，結論完全不同：不應該讓多個agent各自扮演一個人類角色然后串行協作，而應該讓每個agent都保持generalist的完整能力，只在任務層面做分割。Manus的wide research機制就是這個思路的產品化。它的主planner agent把用戶請求拆成若干獨立子任務，然后為每個子任務啟動一個獨立的、完整能力的Manus實例，每個實例有自己獨立的context window，在云端虛擬機沙盒里自主執行。沒有"產品經理agent"或"工程師agent"這樣的角色標簽，每個sub-agent都能規劃、執行和驗證。

這不是UI層面的差別，也不是產品策略層面的差別，是對LLM本質的理解不同。MetaGPT從人類組織架構出發設計系統，Manus從LLM的能力特征出發設計系統。后者對了，前者錯了。這個判斷在2025年3月是少數派，到2026年已經成為行業共識：OpenAI的Codex用Plan/Spec Mode（planner分析請求，executor在沙盒里執行），Anthropic的Claude Code用orchestrator-worker（lead agent制定計劃，sub-agent并行執行），Cursor用Planner-Worker-Judge。所有頭部玩家都收斂到了按功能分工（規劃、執行、評估）的架構，沒有一家在給agent戴人類職業的帽子。

Manus在產品層面的判斷也體現了同樣的認知水平。2025年3月，在多數agent產品還在垂直領域里各做各的時候（調研的只能調研，生成的只能生成），Manus是第一個把端到端鏈路打通的產品，從自主搜索到代碼生成到數據可視化一條線走完。這件事今天已經是agent產品的標配，但在當時是少數派判斷。我在那一周寫過一篇分析，討論了Agentic AI在工具、數據和智能三個維度上的復利效應，Manus是當時唯一一個把這三層復利都做出來的產品。

認知差異二：User Generated Software的創建和分發

軟件行業有一個長期存在的供需錯配：專業軟件公司生產的產品滿足的是頭部需求，大量長尾需求沒有人管。這和媒體行業在YouTube出現之前的狀態類似：電視臺滿足頭部內容需求，長尾的內容創作需求被忽略，直到User Generated Content平臺出現。

Manus敏銳地判斷了這一點，并且在產品層面做了一個當時看起來不太常規的決定：讓用戶能把Manus生成的應用直接部署和分發。用戶描述一個需求，Manus自動生成前端、后端、數據庫，然后一鍵部署到云端，返回一個可分享的鏈接。這件事做到這一步已經超過了同期的多數agent產品。但Manus還做了一層：它提供了API，讓部署出去的應用能夠調用Manus自身的AI能力。換句話說，用戶不光能用AI生成軟件，生成出來的軟件本身還能繼續使用AI。

這個判斷在當時不是顯而易見的。2025年3月，多數AI agent產品把自己定位為"幫你完成一個任務的工具"，產出物是報告、代碼或幻燈片，用完就結束。Manus的定位是"幫你創建一個可以持續運行和分發的軟件產品"，而且這個產品自帶智能。這是兩種完全不同的產品邏輯。前者把AI當作一次性的生產力工具，后者把AI當作User Generated Software的基礎設施。

市場反應驗證了這個判斷。Manus的waitlist在公開演示后突破了200萬，那次演示中最讓用戶興奮的不只是AI能做調研和寫代碼，而是它能一鍵把成品部署出去，變成一個真正可用的在線產品。到2025年底，vibe coding和AI app builder已經成為一個47億美元的市場，Manus是最早把"創建加部署加智能注入"這條完整鏈路做出來的產品之一。

這個設計選擇背后的認知水平，體現在它對整條價值鏈的完整性判斷上。多數競品停留在生成這一步，Manus一直想到了分發和持續運行。這和第一個認知差異（不做hat wearing）指向同一個根源：這個團隊從第一性原理出發思考問題，而不是沿著現有產品形態做增量優化。

結果和回應

商業回報直接反映了這些認知：8個月做到$100M ARR，處理量147萬億token，創建超過8000萬臺虛擬計算機。GAIA Level 3基準測試57.7%的成績，領先OpenAI Deep Research的47.6%。

兩個常見的追問需要回應。

第一，"agent產品已經滿大街了，Manus是上一代的產品形態，對Meta沒有直接用途。"這個說法有一半是對的。Manus代表的是云端沙盒agent形態，而2026年的主流方向已經轉向了Claude Code、OpenClaw這類本地終端agent和Amazon Q這類企業級集成agent。從產品代際來看，Manus的形態確實不是最新的。但收購的邏輯從來不是買最新一代的產品。Meta買的是這支團隊的認知水平、工程能力、用戶基礎和基礎設施積累。產品形態可以迭代，團隊對agent AI的理解和實踐經驗不會因為新一代產品出現就過期。Meta在2026年2月已經把Manus的agent能力整合進了Ads Manager的工作流，這說明Manus的技術資產在Meta的產品體系里找到了實際的著陸點。

Manus團隊在2025年7月發表的context engineering博文是一個更直接的證據。這篇文章的信息密度極高，從中可以直接看到Manus團隊對agentic AI的理解領先行業一個身位。它提出的三條核心原則（keep prefix stable、make context append-only、mask tools don't remove them）后來被整個harness engineering領域廣泛引用和采納。更重要的是，這篇文章在開頭就回答了一個關鍵的技術路線問題：是應該基于開源模型訓練一個端到端的agentic model，還是應該在frontier model的in-context learning能力之上構建agent？Manus選了后者，并且用產品結果證明了這條路線的可行性。這個判斷在2025年中不是共識，到2026年已經成為行業的主流做法。一篇技術博文能做到這種程度的前瞻性和影響力，本身就是團隊認知水平的證明。

第二，"Manus從頭到尾就是套殼，沒有技術含量。"2026年4月發改委動用了《外商投資安全審查辦法》五年來的第一次"禁止加撤銷"來叫停這筆收購。如果Manus真的只是一個沒有核心技術的套殼產品，監管沒有理由用最強檔位的法律工具來保護它。監管認定這家公司的核心團隊、研發能力、訓練數據和IP構成需要保護的國家安全資產。這份認定的分量，比任何技術評測或媒體爭論都重。

Cursor：唯一自己訓練模型的第三方選手

Cursor面對的套殼質疑和Manus類似：底層用的是別人的模型，自己只做了一個編輯器。但Cursor做了一個同賽道的競品都沒有做的判斷，并且圍繞這個判斷建立了完整的技術壁壘。

認知差異一：判斷自訓模型是產品的必要條件，然后把它做出來了

編程agent的核心循環是高頻的工具調用：讀文件、寫代碼、跑命令，每一輪都有延遲，累積起來直接決定產品體驗。Cursor團隊很早就判斷，在這個場景下，依賴外部frontier model的API在速度和成本上都無法做到讓開發者滿意的交互體驗，自訓模型是產品層面繞不過去的一步。Cursor官方博客的原話是，他們的目標是訓練出一個能支撐交互式使用的最聰明的模型，讓開發者保持在編程的flow里。

這里可能會有一個疑問：前面說Manus用外部模型API是正確判斷，怎么到Cursor這里自訓模型反而成了必要條件？區別在于兩個領域的核心約束不同。Manus所在的通用agent領域，核心差異化在agent架構和context engineering這一層，底層模型的能力差異被agent框架吸收了。編程領域不一樣，延遲和成本直接決定產品可用性。兩者的共同點恰恰是：都從自己領域的實際約束出發做了正確的build vs. buy判斷。

認準了這個方向之后，Cursor把它做出來了，而且產品體驗驗證了這個判斷。Composer 1發布之后，我在大量項目中用它替代了Sonnet 4.5。體感上，大概90%的日常編程任務（改bug、寫CRUD、重構、加功能），Composer 1和Sonnet 4.5的完成質量沒有明顯差別。日常編程中真正需要rocket science級別推理的場景占比很小，多數時候是體力活，模型之間的能力差距體現不出來。但速度優勢是碾壓式的：同一個任務，Sonnet 4.5要等一兩分鐘，Composer 1幾秒到十幾秒就回來了。質量差不多，速度快數倍，這在高頻使用場景下帶來的體驗差異是巨大的。這正是Cursor一開始做出的那個判斷：編程領域的產品體驗瓶頸在模型的速度和成本，不在能力上限。

做法上，Cursor沒有從零預訓練一個模型，而是拿開源的MoE底座，在模擬Cursor生產環境的agent harness里做大規模RL post-training，訓練模型的工具調用決策和響應效率。

這里有一個常見的質疑：這不就是fine-tuning嗎？

從Composer 1到2的五個月演進回答了這個問題。Cursor的訓練鏈路經歷了三次迭代，每一次都不是簡單的調參，而是訓練方法論本身的升級。1和1.5階段的路線是純RL：拿開源底座做大規模后訓練。到Composer 1.5，RL的計算量擴大了20倍，后訓練消耗的算力甚至超過了底座預訓練本身，同時引入了thinking tokens（自適應推理深度）和self-summarization（長上下文自動壓縮）兩個新訓練行為。但他們發現RL-only路線的邊際收益在遞減：CursorBench從1到1.5只提升了6.2分，算力卻投入了20倍。

到Composer 2，Cursor做了一個關鍵的方法論轉向：在RL之前加入continued pretraining，改變RL探索的起點質量。底座換成了Kimi K2.5（Moonshot官方已確認），先做繼續預訓練再做RL，結果CursorBench一口氣提升了17.1分。Composer 2的技術報告說得很明確：它在推理成本顯著低于同級別模型的前提下達到了Pareto最優。換句話說，Cursor的post-training鏈路做到的不是在底座上加一層fine-tune然后性能打折，而是在壓縮成本和延遲的同時保持了可比的編程能力。

這個方法論的自我修正有學術上的支撐。ICML 2025的研究（SFT Memorizes, RL Generalizes）和Moonshot自己的Kimi K2技術報告都指向同一個方向：預訓練建立先驗，RL在先驗上做高效探索，continued pretraining改變的是起點質量。Cursor團隊在Composer 2之前就獨立發現了這一點并落地到產品里。

回過頭來看競品的選擇。AI編程工具領域里創業公司很多：Cline是開源的VS Code插件，接各種第三方模型API；Windsurf（原Codeium）也自訓模型，但路線不同，它走的是通用編程能力路線，沒有針對高頻工具調用場景做專門優化；GitHub Copilot背靠OpenAI，但直到2025年底還在用現成的GPT-4和Claude模型，沒有自己的post-training鏈路。Cursor是唯一一個在第三方AI編程工具里把自訓模型做出來并且驗證成功的。

認知差異二：Harness Engineering落地到產品

Cursor在harness engineering上的投入是另一個被低估的壁壘。Composer 2的技術報告詳細描述了他們的訓練方法：用真實的Cursor生產環境作為訓練場景，讓模型在真實的工具調用循環中學習決策。

這和傳統的SFT（supervised fine-tuning）有本質區別。SFT是讓模型模仿人類的示范，而RL是讓模型在環境中試錯并優化獎勵函數。Cursor的訓練數據不是人工標注的"正確操作序列"，而是模型在模擬環境中自主探索產生的軌跡，通過結果反饋（任務是否完成、代碼是否正確）來優化策略。

這種方法論的優勢在于：模型學到的不是"人類通常會怎么做"，而是"在這個具體場景下什么做法最有效"。對于編程這種結果導向的任務，后者明顯更優。

Cursor還做了另一件競品沒做的事：把harness engineering的成果反哺到產品體驗。Composer 2的"智能上下文感知"功能，能夠自動識別代碼庫中的相關文件和依賴關系，不需要用戶手動指定。這個功能背后就是harness訓練中學到的代碼結構理解能力。

回應套殼論

說Cursor"只是套殼"的人，通常指的是它用的不是自己的底座模型。但如果仔細看它的技術棧，會發現它做了幾乎所有能做的東西：自訓模型（雖然不是從零預訓練）、自研harness、自研RL訓練鏈路、自研上下文管理系統。唯一"外包"的是底座模型的預訓練，而這恰恰是build vs. buy判斷后的理性選擇——預訓練一個MoE底座的成本是數十億美元級別，不是創業公司能承受的。

更重要的是，Cursor證明了這個路線的可行性：通過post-training和harness engineering，可以在開源底座之上構建出體驗優于frontier model API的產品。這個判斷本身就有極高的認知價值，而且已經被產品結果驗證。

共同的模式

Manus和Cursor雖然處于不同領域，但展現了相同的認知模式：

第一，都從第一性原理出發思考問題，而不是沿著現有產品形態做增量優化。Manus重新思考了multi-agent系統的設計范式，Cursor重新思考了編程工具的模型需求。

第二，都做出了和當時主流判斷不同的選擇，并且用產品結果證明了自己是對的。Manus在2025年3月選擇不做hat wearing，Cursor在2024年選擇自訓模型，當時都不是共識。

第三，都建立了可驗證的技術壁壘。Manus的壁壘在agent架構和context engineering，Cursor的壁壘在post-training和harness engineering。這些壁壘不是營銷話術，有具體的技術實現和benchmark結果支撐。

第四，都獲得了超額的商業回報。Manus 8個月做到$100M ARR，Cursor在AI編程工具領域占據了領先位置。這些回報是對認知領先的定價。

Meta和SpaceX/xAI的收購出價，本質上是對這種認知水平的認可。產品形態可以迭代，團隊的理解和實踐經驗是更難復制的資產。從這個角度看，20億美元和600億美元不是沖動消費，而是對稀缺資源的合理定價。

對于那些還在說"套殼"的人，也許需要重新理解什么是真正的技術壁壘。在AI這個快速演進的領域，能夠做出正確判斷并且把它做出來，本身就是最高的技術能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.