網易首頁 > 網易號 > 正文申請入駐

我被羅福莉打臉了

2026-04-24 09:52:34　來源: 字母榜

北京舉報

分享至

壞了，我寫的文章被羅福莉打臉了，結結實實。

事情是這樣的，小米發布MiMo-V2-Pro的時候，我曾寫過一篇文章，叫《在大模型這件事上，雷軍居然給馬斯克打樣了》，在該文的最后一部分對小米提出質疑。

我說“MiMo-V2-Pro只公布了SWE-bench Verified這個公認有水分的評分結果，卻沒有公布SWE-bench Pro這個真正抗污染的測試成績。”

結果小米在V2.5-Pro的宣傳中，直接把SWE-bench Pro放在了宣傳榜第一的位置，還特地在OpenRouter的模型描述中標注“top rankings on benchmarks such as ClawEval，GDPVal，and SWE-bench Pro”。

從結果來看，MiMo-V2.5-Pro的成績，已經和Claude Opus 4.6以及GPT-5.4這兩個全球最頂尖的模型相當。

雖然對于一般人來說，被打臉是一件很難堪的事情，但我不一樣，我覺得這是好事，因此我也樂意被打臉。

我被打臉，說明小米的模型進步了，性能更好了。

MiMo-V2-Pro的發布時間是3月下旬，相當于小米只用了1個月的時間，就開發出了下一代的模型。

至少在態度上，小米已經不再回避更“硬核”的測試集了。

那么小米這次的新模型V2.5和V2.5-Pro到底如何呢？

把agent能力當產品中心

小米這次最值得看的，是把它“Agent能力、長上下文、多模態、token效率、第三方框架適配”打包到了同一代產品里，榜單成績反倒不是重點。

MiMo的這次新模型發布，整體敘事非常“工程化”，反復都在講harness和Claude Code以及OpenClaw這類開發者工作流語境，基本上除了開頭那張圖以外，就沒怎么再提過模型性能。

這事本身就非常小米。

MiMo-V2.5-Pro的重點是“長程agent”，聊天只是附帶功能。它在合適harness下可以持續完成超過1000次工具調用的長任務。

小米給了三個很復雜的demo。

第一個是4.3小時、672次工具調用完整寫出SysY編譯器。

這個任務來自北京大學編譯原理課程項目，要求從零實現一個完整的SysY編譯器，包含詞法分析器、語法分析器、抽象語法樹、Koopa IR代碼生成、RISC-V匯編后端，以及性能優化。

參考項目通常需要北大計算機專業學生花費數周時間。MiMo-V2.5-Pro在隱藏測試集上拿到了233/233的滿分。

模型一層一層地構建編譯器，沒有反復試錯。先搭建完整管道，完善Koopa IR部分拿到110/110，然后是RISC-V后端103/103，最后是性能優化20/20。

第一次編譯就通過了137/233個測試，59% 的冷啟動通過率說明架構在運行任何測試之前就已經設計正確。在第512輪時，一次重構導致lv9/riscv退步了兩個測試，模型診斷出問題，恢復，然后繼續執行任務。

長程工作需要的正是這種結構化、自我糾錯的能力。

第二個是11.5小時、1868次工具調用做出可用的視頻編輯器桌面應用。

只需要幾個簡單的提示，MiMo-V2.5-Pro就交付了一個完整的桌面應用。最終構建的代碼有8192行。

第三個是接入ngspice仿真閉環做模擬電路FVF-LDO設計優化。

這是一個研究生級別的模擬電路EDA任務，在TSMC 180nm CMOS工藝下從零設計和優化一個完整的FVF-LDO（翻轉電壓跟隨器低壓差穩壓器）。

模型需要確定功率晶體管尺寸、調整補償網絡、選擇偏置電壓，使6個指標同時滿足規格要求，包括相位裕度、線性調整率、負載調整率、靜態電流、PSRR和瞬態響應。一個訓練有素的模擬設計師通常需要花幾天時間完成這個規模的項目。

小米把MiMo-V2.5-Pro接入ngspice仿真循環，使用Claude Code作為harness。

在大約1小時的閉環迭代中，模型反復調用模擬器、讀取波形、調整參數，最終產生了一個每個目標指標都滿足的設計，其中四個指標比自己的初始嘗試改進了一個數量級。

上面3個demo有點難看懂是吧？沒關系，其實簡單來講，就是小米想要展示MiMo-V2.5-Pro它能連續干幾小時、調用上千次工具、最后還真地把產品給你做出來。

重點不是“聰不聰明”，是它“能不能把活干完”。

在這些實驗中，V2.5-Pro展現出了一種“harness awareness”。它充分利用harness環境提供的能力，管理自己的記憶，并塑造自己的上下文如何被填充以達成最終目標。

小米還把多模態和agent能力合到一起。原生視覺和音頻理解，Video-MME達87.7分，接近Gemini 3 Pro的88.4分。Claw-Eval多模態子集23.8分，與Claude Sonnet 4.6持平。

最長支持100萬token上下文，agent性能超過上一代MiMo-V2-Pro。在自家MiMo Coding Bench上，MiMo-V2.5達到接近Pro級體驗，但成本只要一半。

一般AI廠商，往往是“代碼強的一個模型、多模態強的另一個模型、長上下文再單獨區分一個版本”。

MiMo-V2.5把“看、聽、推理、調用工具”全都放到一個統一模型里，可以理解更多的需求，也可以執行更復雜的任務，這比單純刷分要有意義。

MiMo還把“token效率”當成了賣點，說白了，就是省錢。

在ClawEval上，MiMo-V2.5-Pro以約7萬token/trajectory達到64% Pass^3，相較Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4，在相近能力下少用約40%到60%token。

為什么能省這么多呢？因為agent的真實成本來自長鏈條工具調用、反復讀寫上下文、持續推理，單輪問答只是小頭。誰在這件事上更省token，誰在生產環境里就更可能被用。

很多模型雖然宣稱支持超長上下文，但真跑起來很貴。

小米這次直接取消1M上下文的額外倍率，本質上是在降低Agent試錯門檻。

小米應該是想要瞄準那些，跑長期、復雜任務的用戶，因為這種任務反而會更省錢，對于一般用戶來說，其實很難感受到MiMo省錢的地方。

雷軍要“賣算力”了？

隨著V2.5的發布，小米完善了他們4月3號發布的Token Plan訂閱體系，從Lite ￥39/月到Max ￥659/月一共4檔，新增夜間8折、包年88折等運營商式定價策略，并對老用戶全量重置已用Credits。

這套打法相當于是告訴你，小米現在是一個正經賣token的公司了。

MiMo的Token Plan本質上是在構建一個非硬件依賴的經常性收入模型，這點非常“不小米”。

而且小米特地選在夜間發布，就是為了對準美國的時間，以拓展國際化市場。

當小米自建算力集群達到一定規模后，每增加一個付費用戶的成本極低，但ARPU（每用戶平均收入）可以通過差異化定價持續提升。

這是典型的SaaS商業模式，毛利率可以達到70% 以上，比汽車手機家電都要高。

Token Plan適配Claude Code、OpenClaw等主流AI開發框架，實際上也是在爭奪AI原生應用的底層基礎設施入口。

更深一層，如果小米汽車、小米IoT設備的第三方應用都基于MiMo開發，雷軍就掌握了整個生態的“算力稅收權”。每一次API調用都是一次變現機會。

不過，我認為小米Token Plan能否起飛的核心，在于能否兌現V2.5系列的開源承諾。

小米從手機時代開始，走的就是開源路線。雖然說開源意味著社區開發者可以免費部署和微調模型，表面上會蠶食Token Plan的付費用戶。

但真正的商業邏輯在于，開源吸引長尾開發者，他們貢獻代碼、優化模型、構建應用，形成生態繁榮。

閉源API服務高頻高價值場景，企業客戶為了穩定性、SLA保障和技術支持，依然會選擇付費Token Plan。

開源社區反哺模型迭代，小米可以低成本獲取海量真實場景的微調數據和bug反饋。

這個邏輯在行業里已經被驗證過。

Meta的Llama系列開源后，社區貢獻了大量微調版本和應用案例，反過來鞏固了Meta在AI基礎設施層的話語權。小米如果能走通這條路，Token Plan就會成為連接開發者、企業客戶和小米生態的樞紐，訂閱服務只是它的一個側面。

從產品定位看，MiMo-V2.5和V2.5-Pro形成了明確的分層。

V2.5是“原生全模態+強agent能力”，適合需要多模態輸入的日常開發任務。V2.5-Pro是“長程agent”，適合需要持續數小時、上千次工具調用的復雜工程任務。這種分層的邏輯是場景適配，性能高低只是表象。

對小米來說，Token Plan的意義不只是多一條收入來源。它是小米從“硬件公司”到“AI公司”敘事轉型中最重要的一塊拼圖。

小米過去的商業模式是“硬件+IoT生態”，用性價比硬件獲取用戶，用IoT設備構建生態。這個模式的天花板在于硬件銷量和IoT設備滲透率。

Token Plan是雷軍的新嘗試。用AI能力獲取開發者，用開發者構建應用生態，用API調用持續變現。這個模式的天花板在于AI能力的強度和生態的活躍度。

至少比從北京到上海全程直播要更賺錢一些。

如果MiMo能在開發者社區站穩腳跟，小米就有機會從“賣手機的公司”變成“提供AI基礎設施的公司”。這個轉變的商業價值，遠遠超過Token Plan本身的訂閱收入。

MiMo-V2.5挑刺

那么既然小米喜歡打我的臉，那我也樂意再給他們挑挑刺。

目前SWE-bench Pro最高分是Claude Mythos Preview的77.8%，MiMo-V2.5-Pro在SWE-bench Pro上拿到57.2%，距離這個新巔峰還有些遙遠。

此外，MiMo-v2.5在通用高階推理天花板的關鍵測試集中表現一般。MiMo-V2.5-Pro在Humanity's Last Exam上是48.0%，而GPT-5.4是58.7%。

在“高階知識密度+跨學科抽象推理”上，和最頂級模型還有一段距離。

更重要的是，目前小米還缺乏可復現的硬證據。

小米自家的MiMo Coding Bench、SysY編譯器233/233、11.5小時做視頻編輯器、模擬電路EDA閉環優化、“harness awareness”，它們都是“高光demo”或“實驗室showcase”，作為“開源”（雖然暫時還沒開源）的模型，它沒有完全可復現、可橫向對比的公開標準。

這件事其實“不太開源”。

這是最好的一次，還是平均水平？prompt、工具、權限、上下文注入方式是什么？成功率是多少？成本是多少？換一批任務還穩不穩？

1868次工具調用、672次工具調用，這些超長鏈路中，有多少次是無效調用、重復調用、錯誤調用？如果這些細節不公開，demo的說服力就會打折。

“harness awareness”這個說法很抓眼，但不夠有說服力。

這個詞聽起來很高級，那它到底是模型真的學會了如何管理agent runtime？還是說只是因為這個任務的harness寫得好、任務設計得順，還是評測環境對它比較友好？

我現在很難判斷。

小米強調V2.5-Pro具備“harness awareness”，但這也意味著模型高度依賴特定harness（Claude Code、OpenClaw等），小米沒有自己的harness工具。

如果某天別人平臺策略變了，那么小米能做的事情，只能是重新調整模型去適應別人。

還有一點也非常重要，那就是小米啥時候才能開源。

羅福莉曾經說過“MiMo-V2系列模型會在技術足夠穩定、真正配得上開源的時候，開源”。現在2.5都出來了，開源的也只有V2 Flash這一款，其他V系列模型，尤其是V2 Pro，并沒有開放權重。

“即將開源”和“已經開源”之間還是不太一樣的。

V2.5系列同樣聲稱“即將全球開源”，但“即將”是一周、一個月還是半年？

這個問題的答案，決定了Token Plan到底是真正的商業化起點，還只是一次營銷噱頭。

現在它看起來已經很能打，但離“讓大企業放心上生產”還差一層更硬的工程披露，比如說更完整的公開benchmark表，或者更透明的失敗案例之類的。

MiMo-V2.5和V2.5-Pro的發布，對小米來說是一次重要的技術證明。

它證明了小米只需要1個月可以從一個被質疑“回避硬核測試”的狀態，迭代到一個敢于正面公布SWE-bench Pro成績、并且成績接近全球頂尖模型的狀態。

這個速度本身就說明了小米在AI上的投入強度和團隊執行力。

Token Plan是一個好的開始，但它能否真正吸引到足夠多的開發者，取決于開源承諾能否兌現、服務穩定性能否保證、以及生態能否真正繁榮起來。

小米現在站在一個關鍵的十字路口。往前走，它有機會成為一家真正的AI基礎設施公司。往后退，它可能只是又多了一個營銷故事。

時間會給出答案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.