<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      我被羅福莉打臉了

      0
      分享至



      壞了,我寫的文章被羅福莉打臉了,結結實實。

      事情是這樣的,小米發布MiMo-V2-Pro的時候,我曾寫過一篇文章,叫《在大模型這件事上,雷軍居然給馬斯克打樣了》,在該文的最后一部分對小米提出質疑。

      我說“MiMo-V2-Pro只公布了SWE-bench Verified這個公認有水分的評分結果,卻沒有公布SWE-bench Pro這個真正抗污染的測試成績。”

      結果小米在V2.5-Pro的宣傳中,直接把SWE-bench Pro放在了宣傳榜第一的位置,還特地在OpenRouter的模型描述中標注“top rankings on benchmarks such as ClawEval,GDPVal,and SWE-bench Pro”。



      從結果來看,MiMo-V2.5-Pro的成績,已經和Claude Opus 4.6以及GPT-5.4這兩個全球最頂尖的模型相當。

      雖然對于一般人來說,被打臉是一件很難堪的事情,但我不一樣,我覺得這是好事,因此我也樂意被打臉。

      我被打臉,說明小米的模型進步了,性能更好了。

      MiMo-V2-Pro的發布時間是3月下旬,相當于小米只用了1個月的時間,就開發出了下一代的模型。

      至少在態度上,小米已經不再回避更“硬核”的測試集了。

      那么小米這次的新模型V2.5和V2.5-Pro到底如何呢?

      01

      把agent能力當產品中心

      小米這次最值得看的,是把它“Agent能力、長上下文、多模態、token效率、第三方框架適配”打包到了同一代產品里,榜單成績反倒不是重點。

      MiMo的這次新模型發布,整體敘事非常“工程化”,反復都在講harness和Claude Code以及OpenClaw這類開發者工作流語境,基本上除了開頭那張圖以外,就沒怎么再提過模型性能。

      這事本身就非常小米。

      MiMo-V2.5-Pro的重點是“長程agent”,聊天只是附帶功能。它在合適harness下可以持續完成超過1000次工具調用的長任務。

      小米給了三個很復雜的demo。

      第一個是4.3小時、672次工具調用完整寫出SysY編譯器。



      這個任務來自北京大學編譯原理課程項目,要求從零實現一個完整的SysY編譯器,包含詞法分析器、語法分析器、抽象語法樹、Koopa IR代碼生成、RISC-V匯編后端,以及性能優化。

      參考項目通常需要北大計算機專業學生花費數周時間。MiMo-V2.5-Pro在隱藏測試集上拿到了233/233的滿分。

      模型一層一層地構建編譯器,沒有反復試錯。先搭建完整管道,完善Koopa IR部分拿到110/110,然后是RISC-V后端103/103,最后是性能優化20/20。

      第一次編譯就通過了137/233個測試,59% 的冷啟動通過率說明架構在運行任何測試之前就已經設計正確。在第512輪時,一次重構導致lv9/riscv退步了兩個測試,模型診斷出問題,恢復,然后繼續執行任務。

      長程工作需要的正是這種結構化、自我糾錯的能力。

      第二個是11.5小時、1868次工具調用做出可用的視頻編輯器桌面應用。



      只需要幾個簡單的提示,MiMo-V2.5-Pro就交付了一個完整的桌面應用。最終構建的代碼有8192行。

      第三個是接入ngspice仿真閉環做模擬電路FVF-LDO設計優化。



      這是一個研究生級別的模擬電路EDA任務,在TSMC 180nm CMOS工藝下從零設計和優化一個完整的FVF-LDO(翻轉電壓跟隨器低壓差穩壓器)。

      模型需要確定功率晶體管尺寸、調整補償網絡、選擇偏置電壓,使6個指標同時滿足規格要求,包括相位裕度、線性調整率、負載調整率、靜態電流、PSRR和瞬態響應。一個訓練有素的模擬設計師通常需要花幾天時間完成這個規模的項目。

      小米把MiMo-V2.5-Pro接入ngspice仿真循環,使用Claude Code作為harness。

      在大約1小時的閉環迭代中,模型反復調用模擬器、讀取波形、調整參數,最終產生了一個每個目標指標都滿足的設計,其中四個指標比自己的初始嘗試改進了一個數量級。

      上面3個demo有點難看懂是吧?沒關系,其實簡單來講,就是小米想要展示MiMo-V2.5-Pro它能連續干幾小時、調用上千次工具、最后還真地把產品給你做出來。

      重點不是“聰不聰明”,是它“能不能把活干完”。

      在這些實驗中,V2.5-Pro展現出了一種“harness awareness”。它充分利用harness環境提供的能力,管理自己的記憶,并塑造自己的上下文如何被填充以達成最終目標。

      小米還把多模態和agent能力合到一起。原生視覺和音頻理解,Video-MME達87.7分,接近Gemini 3 Pro的88.4分。Claw-Eval多模態子集23.8分,與Claude Sonnet 4.6持平。

      最長支持100萬token上下文,agent性能超過上一代MiMo-V2-Pro。在自家MiMo Coding Bench上,MiMo-V2.5達到接近Pro級體驗,但成本只要一半。

      一般AI廠商,往往是“代碼強的一個模型、多模態強的另一個模型、長上下文再單獨區分一個版本”。

      MiMo-V2.5把“看、聽、推理、調用工具”全都放到一個統一模型里,可以理解更多的需求,也可以執行更復雜的任務,這比單純刷分要有意義。

      MiMo還把“token效率”當成了賣點,說白了,就是省錢。

      在ClawEval上,MiMo-V2.5-Pro以約7萬token/trajectory達到64% Pass^3,相較Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4,在相近能力下少用約40%到60%token。

      為什么能省這么多呢?因為agent的真實成本來自長鏈條工具調用、反復讀寫上下文、持續推理,單輪問答只是小頭。誰在這件事上更省token,誰在生產環境里就更可能被用。

      很多模型雖然宣稱支持超長上下文,但真跑起來很貴。

      小米這次直接取消1M上下文的額外倍率,本質上是在降低Agent試錯門檻。

      小米應該是想要瞄準那些,跑長期、復雜任務的用戶,因為這種任務反而會更省錢,對于一般用戶來說,其實很難感受到MiMo省錢的地方。

      02

      雷軍要“賣算力”了?

      隨著V2.5的發布,小米完善了他們4月3號發布的Token Plan訂閱體系,從Lite ¥39/月到Max ¥659/月一共4檔,新增夜間8折、包年88折等運營商式定價策略,并對老用戶全量重置已用Credits。

      這套打法相當于是告訴你,小米現在是一個正經賣token的公司了。

      MiMo的Token Plan本質上是在構建一個非硬件依賴的經常性收入模型,這點非常“不小米”。

      而且小米特地選在夜間發布,就是為了對準美國的時間,以拓展國際化市場。

      當小米自建算力集群達到一定規模后,每增加一個付費用戶的成本極低,但ARPU(每用戶平均收入)可以通過差異化定價持續提升。

      這是典型的SaaS商業模式,毛利率可以達到70% 以上,比汽車手機家電都要高。

      Token Plan適配Claude Code、OpenClaw等主流AI開發框架,實際上也是在爭奪AI原生應用的底層基礎設施入口。

      更深一層,如果小米汽車、小米IoT設備的第三方應用都基于MiMo開發,雷軍就掌握了整個生態的“算力稅收權”。每一次API調用都是一次變現機會。

      不過,我認為小米Token Plan能否起飛的核心,在于能否兌現V2.5系列的開源承諾。

      小米從手機時代開始,走的就是開源路線。雖然說開源意味著社區開發者可以免費部署和微調模型,表面上會蠶食Token Plan的付費用戶。

      但真正的商業邏輯在于,開源吸引長尾開發者,他們貢獻代碼、優化模型、構建應用,形成生態繁榮。

      閉源API服務高頻高價值場景,企業客戶為了穩定性、SLA保障和技術支持,依然會選擇付費Token Plan。

      開源社區反哺模型迭代,小米可以低成本獲取海量真實場景的微調數據和bug反饋。

      這個邏輯在行業里已經被驗證過。

      Meta的Llama系列開源后,社區貢獻了大量微調版本和應用案例,反過來鞏固了Meta在AI基礎設施層的話語權。小米如果能走通這條路,Token Plan就會成為連接開發者、企業客戶和小米生態的樞紐,訂閱服務只是它的一個側面。

      從產品定位看,MiMo-V2.5和V2.5-Pro形成了明確的分層。

      V2.5是“原生全模態+強agent能力”,適合需要多模態輸入的日常開發任務。V2.5-Pro是“長程agent”,適合需要持續數小時、上千次工具調用的復雜工程任務。這種分層的邏輯是場景適配,性能高低只是表象。

      對小米來說,Token Plan的意義不只是多一條收入來源。它是小米從“硬件公司”到“AI公司”敘事轉型中最重要的一塊拼圖。



      小米過去的商業模式是“硬件+IoT生態”,用性價比硬件獲取用戶,用IoT設備構建生態。這個模式的天花板在于硬件銷量和IoT設備滲透率。

      Token Plan是雷軍的新嘗試。用AI能力獲取開發者,用開發者構建應用生態,用API調用持續變現。這個模式的天花板在于AI能力的強度和生態的活躍度。

      至少比從北京到上海全程直播要更賺錢一些。

      如果MiMo能在開發者社區站穩腳跟,小米就有機會從“賣手機的公司”變成“提供AI基礎設施的公司”。這個轉變的商業價值,遠遠超過Token Plan本身的訂閱收入。

      03

      MiMo-V2.5挑刺

      那么既然小米喜歡打我的臉,那我也樂意再給他們挑挑刺。

      目前SWE-bench Pro最高分是Claude Mythos Preview的77.8%,MiMo-V2.5-Pro在SWE-bench Pro上拿到57.2%,距離這個新巔峰還有些遙遠。

      此外,MiMo-v2.5在通用高階推理天花板的關鍵測試集中表現一般。MiMo-V2.5-Pro在Humanity's Last Exam上是48.0%,而GPT-5.4是58.7%。

      在“高階知識密度+跨學科抽象推理”上,和最頂級模型還有一段距離。

      更重要的是,目前小米還缺乏可復現的硬證據。

      小米自家的MiMo Coding Bench、SysY編譯器233/233、11.5小時做視頻編輯器、模擬電路EDA閉環優化、“harness awareness”,它們都是“高光demo”或“實驗室showcase”,作為“開源”(雖然暫時還沒開源)的模型,它沒有完全可復現、可橫向對比的公開標準。

      這件事其實“不太開源”。

      這是最好的一次,還是平均水平?prompt、工具、權限、上下文注入方式是什么?成功率是多少?成本是多少?換一批任務還穩不穩?

      1868次工具調用、672次工具調用,這些超長鏈路中,有多少次是無效調用、重復調用、錯誤調用?如果這些細節不公開,demo的說服力就會打折。

      “harness awareness”這個說法很抓眼,但不夠有說服力。

      這個詞聽起來很高級,那它到底是模型真的學會了如何管理agent runtime?還是說只是因為這個任務的harness寫得好、任務設計得順,還是評測環境對它比較友好?

      我現在很難判斷。

      小米強調V2.5-Pro具備“harness awareness”,但這也意味著模型高度依賴特定harness(Claude Code、OpenClaw等),小米沒有自己的harness工具。

      如果某天別人平臺策略變了,那么小米能做的事情,只能是重新調整模型去適應別人。

      還有一點也非常重要,那就是小米啥時候才能開源。

      羅福莉曾經說過“MiMo-V2系列模型會在技術足夠穩定、真正配得上開源的時候,開源”。現在2.5都出來了,開源的也只有V2 Flash這一款,其他V系列模型,尤其是V2 Pro,并沒有開放權重。

      “即將開源”和“已經開源”之間還是不太一樣的。

      V2.5系列同樣聲稱“即將全球開源”,但“即將”是一周、一個月還是半年?

      這個問題的答案,決定了Token Plan到底是真正的商業化起點,還只是一次營銷噱頭。

      現在它看起來已經很能打,但離“讓大企業放心上生產”還差一層更硬的工程披露,比如說更完整的公開benchmark表,或者更透明的失敗案例之類的。

      MiMo-V2.5和V2.5-Pro的發布,對小米來說是一次重要的技術證明。

      它證明了小米只需要1個月可以從一個被質疑“回避硬核測試”的狀態,迭代到一個敢于正面公布SWE-bench Pro成績、并且成績接近全球頂尖模型的狀態。

      這個速度本身就說明了小米在AI上的投入強度和團隊執行力。

      Token Plan是一個好的開始,但它能否真正吸引到足夠多的開發者,取決于開源承諾能否兌現、服務穩定性能否保證、以及生態能否真正繁榮起來。

      小米現在站在一個關鍵的十字路口。往前走,它有機會成為一家真正的AI基礎設施公司。往后退,它可能只是又多了一個營銷故事。

      時間會給出答案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬靖昊:五糧液犯下這樣的“會計差錯”,情何以堪!這種把操縱財報當本事的做法,是對投資者信任的踐踏!

      馬靖昊:五糧液犯下這樣的“會計差錯”,情何以堪!這種把操縱財報當本事的做法,是對投資者信任的踐踏!

      新浪財經
      2026-05-01 11:38:53
      詹姆斯:我認為大概再沒人能連續八年進總決賽!

      詹姆斯:我認為大概再沒人能連續八年進總決賽!

      歷史第一人梅西
      2026-05-01 15:01:34
      【特稿】美國“選區版圖戰”硝煙再起 將如何影響中期選舉?

      【特稿】美國“選區版圖戰”硝煙再起 將如何影響中期選舉?

      新華社
      2026-04-30 19:07:02
      全紅嬋事件又上演!世界杯總決賽,陳芋汐又有壞消息,全網炸鍋

      全紅嬋事件又上演!世界杯總決賽,陳芋汐又有壞消息,全網炸鍋

      攬星河的筆記
      2026-05-01 18:15:37
      中國軍號“點名”李幼斌,釋放三個強烈信號,5年前的話他沒說錯

      中國軍號“點名”李幼斌,釋放三個強烈信號,5年前的話他沒說錯

      君笙的拂兮
      2026-05-01 01:15:53
      馬斯克,撕破臉了

      馬斯克,撕破臉了

      藍鉆故事
      2026-04-30 22:41:52
      誰去誰后悔!五一最堵五大景點,第1名擠到崩潰,第5名直接勸退

      誰去誰后悔!五一最堵五大景點,第1名擠到崩潰,第5名直接勸退

      小冠說娛
      2026-05-01 19:18:07
      電商亂象:AB貨已經猖獗到恐怖如斯!

      電商亂象:AB貨已經猖獗到恐怖如斯!

      黯泉
      2026-05-01 10:34:48
      26歲女子實名舉報63歲人大教授,出軌多人含清華美女教授

      26歲女子實名舉報63歲人大教授,出軌多人含清華美女教授

      老貓觀點
      2026-05-01 07:20:16
      比爾蓋茨:若美認為將與中國開戰,勿提前告知

      比爾蓋茨:若美認為將與中國開戰,勿提前告知

      孤酒老巷QA
      2026-04-30 22:42:36
      張慶鵬將離任,北控換帥三大熱門出爐,誰能拯救球隊?

      張慶鵬將離任,北控換帥三大熱門出爐,誰能拯救球隊?

      男足的小球童
      2026-05-01 16:54:27
      古天樂被曝疑似隱婚生子,女方疑似女演員林淑茵

      古天樂被曝疑似隱婚生子,女方疑似女演員林淑茵

      韓小娛
      2026-04-30 15:29:59
      連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      街上的行人很刺眼
      2026-04-25 10:55:49
      新華時評丨勞動光榮的價值底色永遠閃亮

      新華時評丨勞動光榮的價值底色永遠閃亮

      新華社
      2026-04-30 20:54:03
      被罵瘋子的米萊終結阿根廷幾十年赤字

      被罵瘋子的米萊終結阿根廷幾十年赤字

      桂系007
      2026-04-28 15:20:23
      她拒唱國歌否認是中國籍,還將倆兒子戶口落到國外,她現狀如何?

      她拒唱國歌否認是中國籍,還將倆兒子戶口落到國外,她現狀如何?

      混沌錄
      2026-04-28 22:29:08
      單依純鄭州公開挑釁李榮浩,穿的像馬桶刷,現場氛圍詭異,太瘋狂

      單依純鄭州公開挑釁李榮浩,穿的像馬桶刷,現場氛圍詭異,太瘋狂

      嫹筆牂牂
      2026-04-30 07:30:10
      間隔一天吃他汀,降脂效果更好?醫生建議:服用他汀,謹記這7點

      間隔一天吃他汀,降脂效果更好?醫生建議:服用他汀,謹記這7點

      健身狂人
      2026-05-01 19:26:00
      2-4止步首輪!約基奇把話挑明,他能簽3年2.01億美金超級頂薪

      2-4止步首輪!約基奇把話挑明,他能簽3年2.01億美金超級頂薪

      世界體育圈
      2026-05-01 19:26:43
      日本準備戰爭,要打誰?48小時內,中國兩大軍媒下場“算總賬”

      日本準備戰爭,要打誰?48小時內,中國兩大軍媒下場“算總賬”

      夢史
      2026-05-01 16:47:14
      2026-05-01 21:36:49
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2430文章數 8062關注度
      往期回顧 全部

      數碼要聞

      未來視野推出“RV100 miniQ”23.8英寸顯示器,709元

      頭條要聞

      70歲法國老人騎浙江品牌摩托車 穿越多國抵達杭州

      頭條要聞

      70歲法國老人騎浙江品牌摩托車 穿越多國抵達杭州

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產后身材恢復超好 現身戶外直播

      財經要聞

      GPU神話松動,AI真正的戰場變了

      科技要聞

      蘋果上季在華收入繼續大增 iPhone收入新高

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態度原創

      親子
      家居
      健康
      教育
      時尚

      親子要聞

      寶藍和爸爸比賽吹氣球,吹成各種各樣的形狀,快來看看誰贏了~

      家居要聞

      靈動實用 生活藝術場

      干細胞治燒燙傷面臨這些“瓶頸”

      教育要聞

      告別“紙上談兵”!這個地方打破勞動教育圍墻,給孩子留下值得回憶的汗水!

      她們看起來氣血好足,每套搭配我都想抄

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产无套粉嫩白浆在线观看| 亚洲人成网站色7799| 国产成人高清精品免费观看| 国产精品无码无在线观看| 欧美另类高清zo欧美| 日韩在线中文字幕一区| 亚洲av不卡电影在线网址最新| 亚洲无码?制服丝袜| 日本va欧美va精品发布| 在线视频三级| 久久996re热这里有精品| 亚洲熟女精品中文字幕| 十八禁在线观看视频播放免费| 国产草莓精品国产AV片国产| 亚洲有无码av在线播放| 蜜国产精品JK白丝AV网站| 国产freexxxx性播放麻豆 | 国产精品午夜电影| 国产精品激情av在线播放| 多p在线观看| 国产精品成人99一区无码| 超声波硬度| 日日摸夜夜添夜夜添无| 欧美日韩成人| 久久精品青青大伊人av| 黄色AV电影| 国产又色又爽又高潮免费| 成人精品中文字幕| 国产精品片在线观看手机版| 久久天天躁狠狠躁夜夜avapp| 亚洲国产精品无码久久九九大片| 九九国产视频| 草莓a| 精久国产av一区二区三区孕妇| 西欧free性满足hd老熟妇| 一区二区三区四区五区自拍| 免费观看精品视频999| 汉中市| 精东A片成人影视| 少妇人妻精品一区二区| 久久精品国产99精品最新|