Meta花了20億美元買Manus,Elon Musk給Cursor開了600億美元的收購選項。這兩個數字公布之后,中文互聯網上最常見的反應可以歸結為兩句話:第一,這倆不都是套殼嗎?底層用的是別人的模型,有什么了不起。第二,Zuckerberg和Musk這是沖動消費,一個是"Meta已經錯過了AI所以高價買進",一個是"Musk就是什么熱買什么"。
這種判斷的潛臺詞是:Manus和Cursor本身沒什么特別的,和市面上一大堆AI agent工具、AI編程工具沒有本質區別,只是營銷做得好、時機趕得巧。
這篇文章想說的是,這個判斷錯了。不是小錯,是方向性的錯。Manus和Cursor在各自領域里的認知水平,領先了行業至少一個身位,而且這個認知領先有具體的技術路線和競品對比可以驗證。Meta和SpaceX/xAI的出價不是沖動,是對這種認知領先的定價。
Manus:從第一性原理出發
Manus從2025年3月發布起就伴隨爭議。最常見的批評是套殼:它不訓練自己的模型,用的是Claude和Qwen,只是在外面包了一層agent調度框架。MIT博士秦增益的評論代表了一類觀點:這是一個很好的產品,但并不是一項技術突破。
要理解Manus做對了什么,最有效的方式是把它和同期的競品放在一起看。
認知差異一:不搞角色扮演
2023年到2025年初,多數multi-agent系統的設計思路是照搬人類組織架構。MetaGPT是這類思路的典型代表:它把LLM agent分成產品經理、架構師、項目經理、工程師、QA五個角色,每個角色有固定的職責和工作流,按照人類軟件公司的流程串行執行。這就是所謂的hat wearing。
這種設計的問題出在起點。人類社會之所以需要專業分工,是因為一個人的能力帶寬有限,需要花十幾年訓練才能成為一個資深的產品經理或資深的工程師。分工是對人類認知局限性的補償。但LLM不是這樣。任何一個LLM off the shelf就是一個generalist,它懂所有領域的知識。在prompt里告訴它"你是一個資深的software engineer",這句話除了限制它的能力以外沒有任何意義。
從第一性原理出發想這件事,結論完全不同:不應該讓多個agent各自扮演一個人類角色然后串行協作,而應該讓每個agent都保持generalist的完整能力,只在任務層面做分割。Manus的wide research機制就是這個思路的產品化。它的主planner agent把用戶請求拆成若干獨立子任務,然后為每個子任務啟動一個獨立的、完整能力的Manus實例,每個實例有自己獨立的context window,在云端虛擬機沙盒里自主執行。沒有"產品經理agent"或"工程師agent"這樣的角色標簽,每個sub-agent都能規劃、執行和驗證。
這不是UI層面的差別,也不是產品策略層面的差別,是對LLM本質的理解不同。MetaGPT從人類組織架構出發設計系統,Manus從LLM的能力特征出發設計系統。后者對了,前者錯了。這個判斷在2025年3月是少數派,到2026年已經成為行業共識:OpenAI的Codex用Plan/Spec Mode(planner分析請求,executor在沙盒里執行),Anthropic的Claude Code用orchestrator-worker(lead agent制定計劃,sub-agent并行執行),Cursor用Planner-Worker-Judge。所有頭部玩家都收斂到了按功能分工(規劃、執行、評估)的架構,沒有一家在給agent戴人類職業的帽子。
Manus在產品層面的判斷也體現了同樣的認知水平。2025年3月,在多數agent產品還在垂直領域里各做各的時候(調研的只能調研,生成的只能生成),Manus是第一個把端到端鏈路打通的產品,從自主搜索到代碼生成到數據可視化一條線走完。這件事今天已經是agent產品的標配,但在當時是少數派判斷。我在那一周寫過一篇分析,討論了Agentic AI在工具、數據和智能三個維度上的復利效應,Manus是當時唯一一個把這三層復利都做出來的產品。
認知差異二:User Generated Software的創建和分發
軟件行業有一個長期存在的供需錯配:專業軟件公司生產的產品滿足的是頭部需求,大量長尾需求沒有人管。這和媒體行業在YouTube出現之前的狀態類似:電視臺滿足頭部內容需求,長尾的內容創作需求被忽略,直到User Generated Content平臺出現。
Manus敏銳地判斷了這一點,并且在產品層面做了一個當時看起來不太常規的決定:讓用戶能把Manus生成的應用直接部署和分發。用戶描述一個需求,Manus自動生成前端、后端、數據庫,然后一鍵部署到云端,返回一個可分享的鏈接。這件事做到這一步已經超過了同期的多數agent產品。但Manus還做了一層:它提供了API,讓部署出去的應用能夠調用Manus自身的AI能力。換句話說,用戶不光能用AI生成軟件,生成出來的軟件本身還能繼續使用AI。
這個判斷在當時不是顯而易見的。2025年3月,多數AI agent產品把自己定位為"幫你完成一個任務的工具",產出物是報告、代碼或幻燈片,用完就結束。Manus的定位是"幫你創建一個可以持續運行和分發的軟件產品",而且這個產品自帶智能。這是兩種完全不同的產品邏輯。前者把AI當作一次性的生產力工具,后者把AI當作User Generated Software的基礎設施。
市場反應驗證了這個判斷。Manus的waitlist在公開演示后突破了200萬,那次演示中最讓用戶興奮的不只是AI能做調研和寫代碼,而是它能一鍵把成品部署出去,變成一個真正可用的在線產品。到2025年底,vibe coding和AI app builder已經成為一個47億美元的市場,Manus是最早把"創建加部署加智能注入"這條完整鏈路做出來的產品之一。
這個設計選擇背后的認知水平,體現在它對整條價值鏈的完整性判斷上。多數競品停留在生成這一步,Manus一直想到了分發和持續運行。這和第一個認知差異(不做hat wearing)指向同一個根源:這個團隊從第一性原理出發思考問題,而不是沿著現有產品形態做增量優化。
結果和回應
商業回報直接反映了這些認知:8個月做到$100M ARR,處理量147萬億token,創建超過8000萬臺虛擬計算機。GAIA Level 3基準測試57.7%的成績,領先OpenAI Deep Research的47.6%。
兩個常見的追問需要回應。
第一,"agent產品已經滿大街了,Manus是上一代的產品形態,對Meta沒有直接用途。"這個說法有一半是對的。Manus代表的是云端沙盒agent形態,而2026年的主流方向已經轉向了Claude Code、OpenClaw這類本地終端agent和Amazon Q這類企業級集成agent。從產品代際來看,Manus的形態確實不是最新的。但收購的邏輯從來不是買最新一代的產品。Meta買的是這支團隊的認知水平、工程能力、用戶基礎和基礎設施積累。產品形態可以迭代,團隊對agent AI的理解和實踐經驗不會因為新一代產品出現就過期。Meta在2026年2月已經把Manus的agent能力整合進了Ads Manager的工作流,這說明Manus的技術資產在Meta的產品體系里找到了實際的著陸點。
Manus團隊在2025年7月發表的context engineering博文是一個更直接的證據。這篇文章的信息密度極高,從中可以直接看到Manus團隊對agentic AI的理解領先行業一個身位。它提出的三條核心原則(keep prefix stable、make context append-only、mask tools don't remove them)后來被整個harness engineering領域廣泛引用和采納。更重要的是,這篇文章在開頭就回答了一個關鍵的技術路線問題:是應該基于開源模型訓練一個端到端的agentic model,還是應該在frontier model的in-context learning能力之上構建agent?Manus選了后者,并且用產品結果證明了這條路線的可行性。這個判斷在2025年中不是共識,到2026年已經成為行業的主流做法。一篇技術博文能做到這種程度的前瞻性和影響力,本身就是團隊認知水平的證明。
第二,"Manus從頭到尾就是套殼,沒有技術含量。"2026年4月發改委動用了《外商投資安全審查辦法》五年來的第一次"禁止加撤銷"來叫停這筆收購。如果Manus真的只是一個沒有核心技術的套殼產品,監管沒有理由用最強檔位的法律工具來保護它。監管認定這家公司的核心團隊、研發能力、訓練數據和IP構成需要保護的國家安全資產。這份認定的分量,比任何技術評測或媒體爭論都重。
Cursor:唯一自己訓練模型的第三方選手
Cursor面對的套殼質疑和Manus類似:底層用的是別人的模型,自己只做了一個編輯器。但Cursor做了一個同賽道的競品都沒有做的判斷,并且圍繞這個判斷建立了完整的技術壁壘。
認知差異一:判斷自訓模型是產品的必要條件,然后把它做出來了
編程agent的核心循環是高頻的工具調用:讀文件、寫代碼、跑命令,每一輪都有延遲,累積起來直接決定產品體驗。Cursor團隊很早就判斷,在這個場景下,依賴外部frontier model的API在速度和成本上都無法做到讓開發者滿意的交互體驗,自訓模型是產品層面繞不過去的一步。Cursor官方博客的原話是,他們的目標是訓練出一個能支撐交互式使用的最聰明的模型,讓開發者保持在編程的flow里。
這里可能會有一個疑問:前面說Manus用外部模型API是正確判斷,怎么到Cursor這里自訓模型反而成了必要條件?區別在于兩個領域的核心約束不同。Manus所在的通用agent領域,核心差異化在agent架構和context engineering這一層,底層模型的能力差異被agent框架吸收了。編程領域不一樣,延遲和成本直接決定產品可用性。兩者的共同點恰恰是:都從自己領域的實際約束出發做了正確的build vs. buy判斷。
認準了這個方向之后,Cursor把它做出來了,而且產品體驗驗證了這個判斷。Composer 1發布之后,我在大量項目中用它替代了Sonnet 4.5。體感上,大概90%的日常編程任務(改bug、寫CRUD、重構、加功能),Composer 1和Sonnet 4.5的完成質量沒有明顯差別。日常編程中真正需要rocket science級別推理的場景占比很小,多數時候是體力活,模型之間的能力差距體現不出來。但速度優勢是碾壓式的:同一個任務,Sonnet 4.5要等一兩分鐘,Composer 1幾秒到十幾秒就回來了。質量差不多,速度快數倍,這在高頻使用場景下帶來的體驗差異是巨大的。這正是Cursor一開始做出的那個判斷:編程領域的產品體驗瓶頸在模型的速度和成本,不在能力上限。
做法上,Cursor沒有從零預訓練一個模型,而是拿開源的MoE底座,在模擬Cursor生產環境的agent harness里做大規模RL post-training,訓練模型的工具調用決策和響應效率。
這里有一個常見的質疑:這不就是fine-tuning嗎?
從Composer 1到2的五個月演進回答了這個問題。Cursor的訓練鏈路經歷了三次迭代,每一次都不是簡單的調參,而是訓練方法論本身的升級。1和1.5階段的路線是純RL:拿開源底座做大規模后訓練。到Composer 1.5,RL的計算量擴大了20倍,后訓練消耗的算力甚至超過了底座預訓練本身,同時引入了thinking tokens(自適應推理深度)和self-summarization(長上下文自動壓縮)兩個新訓練行為。但他們發現RL-only路線的邊際收益在遞減:CursorBench從1到1.5只提升了6.2分,算力卻投入了20倍。
到Composer 2,Cursor做了一個關鍵的方法論轉向:在RL之前加入continued pretraining,改變RL探索的起點質量。底座換成了Kimi K2.5(Moonshot官方已確認),先做繼續預訓練再做RL,結果CursorBench一口氣提升了17.1分。Composer 2的技術報告說得很明確:它在推理成本顯著低于同級別模型的前提下達到了Pareto最優。換句話說,Cursor的post-training鏈路做到的不是在底座上加一層fine-tune然后性能打折,而是在壓縮成本和延遲的同時保持了可比的編程能力。
這個方法論的自我修正有學術上的支撐。ICML 2025的研究(SFT Memorizes, RL Generalizes)和Moonshot自己的Kimi K2技術報告都指向同一個方向:預訓練建立先驗,RL在先驗上做高效探索,continued pretraining改變的是起點質量。Cursor團隊在Composer 2之前就獨立發現了這一點并落地到產品里。
回過頭來看競品的選擇。AI編程工具領域里創業公司很多:Cline是開源的VS Code插件,接各種第三方模型API;Windsurf(原Codeium)也自訓模型,但路線不同,它走的是通用編程能力路線,沒有針對高頻工具調用場景做專門優化;GitHub Copilot背靠OpenAI,但直到2025年底還在用現成的GPT-4和Claude模型,沒有自己的post-training鏈路。Cursor是唯一一個在第三方AI編程工具里把自訓模型做出來并且驗證成功的。
認知差異二:Harness Engineering落地到產品
Cursor在harness engineering上的投入是另一個被低估的壁壘。Composer 2的技術報告詳細描述了他們的訓練方法:用真實的Cursor生產環境作為訓練場景,讓模型在真實的工具調用循環中學習決策。
這和傳統的SFT(supervised fine-tuning)有本質區別。SFT是讓模型模仿人類的示范,而RL是讓模型在環境中試錯并優化獎勵函數。Cursor的訓練數據不是人工標注的"正確操作序列",而是模型在模擬環境中自主探索產生的軌跡,通過結果反饋(任務是否完成、代碼是否正確)來優化策略。
這種方法論的優勢在于:模型學到的不是"人類通常會怎么做",而是"在這個具體場景下什么做法最有效"。對于編程這種結果導向的任務,后者明顯更優。
Cursor還做了另一件競品沒做的事:把harness engineering的成果反哺到產品體驗。Composer 2的"智能上下文感知"功能,能夠自動識別代碼庫中的相關文件和依賴關系,不需要用戶手動指定。這個功能背后就是harness訓練中學到的代碼結構理解能力。
回應套殼論
說Cursor"只是套殼"的人,通常指的是它用的不是自己的底座模型。但如果仔細看它的技術棧,會發現它做了幾乎所有能做的東西:自訓模型(雖然不是從零預訓練)、自研harness、自研RL訓練鏈路、自研上下文管理系統。唯一"外包"的是底座模型的預訓練,而這恰恰是build vs. buy判斷后的理性選擇——預訓練一個MoE底座的成本是數十億美元級別,不是創業公司能承受的。
更重要的是,Cursor證明了這個路線的可行性:通過post-training和harness engineering,可以在開源底座之上構建出體驗優于frontier model API的產品。這個判斷本身就有極高的認知價值,而且已經被產品結果驗證。
共同的模式
Manus和Cursor雖然處于不同領域,但展現了相同的認知模式:
第一,都從第一性原理出發思考問題,而不是沿著現有產品形態做增量優化。Manus重新思考了multi-agent系統的設計范式,Cursor重新思考了編程工具的模型需求。
第二,都做出了和當時主流判斷不同的選擇,并且用產品結果證明了自己是對的。Manus在2025年3月選擇不做hat wearing,Cursor在2024年選擇自訓模型,當時都不是共識。
第三,都建立了可驗證的技術壁壘。Manus的壁壘在agent架構和context engineering,Cursor的壁壘在post-training和harness engineering。這些壁壘不是營銷話術,有具體的技術實現和benchmark結果支撐。
第四,都獲得了超額的商業回報。Manus 8個月做到$100M ARR,Cursor在AI編程工具領域占據了領先位置。這些回報是對認知領先的定價。
Meta和SpaceX/xAI的收購出價,本質上是對這種認知水平的認可。產品形態可以迭代,團隊的理解和實踐經驗是更難復制的資產。從這個角度看,20億美元和600億美元不是沖動消費,而是對稀缺資源的合理定價。
對于那些還在說"套殼"的人,也許需要重新理解什么是真正的技術壁壘。在AI這個快速演進的領域,能夠做出正確判斷并且把它做出來,本身就是最高的技術能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.