<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      真實測評MiniMax M2.7,不吹不夸,它到底什么水平?

      0
      分享至

      大家好,我是冷逸。

      最近,模型圈又卷起來了。GLM、MiniMax甚至小米都相繼發布了新模型。

      眾所周知,國產御三家有四位:Qwen、GLM、MiniMaxKimi

      剛我去掃了眼,在實時更新的龍蝦榜PinchBench上,MiniMax M2.7已經干到了全球第四(GLM和GPT分數一樣,有兩個第三名)。


      給大家簡單介紹下這個龍蝦榜,它不是傳統benchmark那種,看模型答得準不準,而是看模型能不能完成一件完整的事情。

      當然,PinchBench不代表模型的真實水平,僅代表模型在Agent任務上的成功率情況。

      所以,今天我想重點測評一下MiniMax M2.7在真實場景中的表現。

      本文會相繼用到Claude Code、OpenClaw、MaxClaw和MiniMax Agent網頁端等不同平臺來測試,并會在每個Case前做說明。


      一手實測

      測試主要分為6個場景,重點評估模型的執行過程和最終結果。

      1)龍蝦任務:搜索→整理表格→做信息圖→發到飛書

      龍蝦任務,主要在MaxClaw里測(他們已經接上了M2.7)。

      第一個任務是:

      打開豆瓣網頁 https://movie.douban.com 搜索最近熱門的電影,結合熱度、評分和上映時間綜合篩選10部電影,整理成Excel表格,并根據Excel表格的信息設計一個可視化HTML。最后,把Excel和HTML一并發到我的飛書上。

      這里的任務一共有5步:聯網檢索→總結內容→生成表格→編寫代碼→自動發到飛書。

      比較考驗模型的多步驟執行能力和工具調用能力。

      M2.7一次過,直接交付了Excel表格和信息圖Html。


      來看下最終的結果:Excel和HTML。


      Excel表格


      可視化HTML

      還行,而且它給Excel表格做了一個底色設計,分成了封面和原始數據兩個子表給我。

      當然,如果我們的提示詞要求得更多,它會生成得更精細。只不過,我們這里主要考驗的,是模型對長任務的指令理解和執行能力。

      2)龍蝦任務:自動做視頻

      接著,我又讓它用libtv-skills給我做個視頻(skill教程可以看這篇文章:LibTV)。

      任務是:

      用libtv-skills幫我生成40秒的短漫劇,主題是:
      《像素荒原》 (The Pixel Wasteland)
      視覺核心:實拍與低多邊形(Low-Poly)CGI的實時混合渲染。世界在“高清現實”與“崩壞馬賽克”間切換。
      劇情:主角行走在繁華都市,但他走過的地方,建筑瞬間退化為粗糙的幾何色塊,行人變成靜止的貼圖。他試圖奔跑逃離“渲染延遲”,卻發現自己的雙手也開始像素化消散。結尾,鏡頭拉遠,整個城市只是一個老舊顯示器上即將斷電的畫面,最后一聲電流音后,屏幕徹底黑屏,只映出觀眾自己的臉。
      隱喻:探討數字存在主義危機,利用故障藝術(Glitch Art)風格制造強烈的不安感與哲學反思。

      來看下結果。

      這個視頻的所有工作流,全由MiniMax M2.7驅動的龍蝦自己調用libtv-skills完成,劇本、分鏡圖、分鏡視頻,以及最后的視頻合成,都一氣呵成。

      視頻質量,還不錯。

      不過,有個小細節大家要注意,MaxClaw本身就支持視頻生成(接的Hailuo模型)。如果你不強制調用skill,它會生成鏡頭片段,而不是完整的視頻。

      整體來看,M2.7在龍蝦上的任務成功率還是挺高的,前面我這2個case都是one short,一次生成。

      那M2.7能夠在龍蝦榜上排名全球第四,也就可以理解了。

      3)編程任務:3D

      下面3個編程任務,都是在Claude Code里進行測試。

      先測一個3D Case,看下模型的空間想象和邏輯推理能力,看它能否準確理解指令,并創建一個零BUG的視覺圖形。

      照例,還是我們的3D魔方。

      提示詞:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 
      中文:創建一個HTML文件,其中使用Three.js(通過CDN方式引入)來實現一個功能完備的3D魔方模擬程序。該魔方必須能夠自動完成自己的“解謎”過程。


      沒問題。而且,這回它的UI比上一個版本M2.5看起來更高級一些。


      不過,這個Case并非one short。第一個版本,在打亂和還原的動畫過程中會出現部分方塊顏色丟失的情況,這是因為方塊的位置和顏色沒有正確更新。

      簡單反饋問題后,第二版就修復這個問題了。

      4)編程任務:前端

      既然審美在線,我們也同步測一下它寫前端的能力。

      讓M2.7給一款AI鼠標「小沃」設計產品宣傳頁。



      這個前端,還是比較好看的,尤其是這個VI和配色,我很喜歡。

      有點遺憾的是,目前M2.7還不具備視覺理解能力。如果有視覺理解能力,它的應用場景會更豐富。

      5)編程任務:用skills做網站

      我們繼續上點強度,讓它調用Skills來生成一個網站。

      需求是:

      用Knowledge Site Creator Skills為「Token」創建一個知識學習網站,既要嚴謹,又要有趣味,頁面高級審美。
      關于token的知識,可以參考這篇文章:https://mp.weixin.qq.com/s/hlL2U4XizvBQJynNJixlOQ

      這次One short,效果還不錯,配色和排版是我喜歡的調調。

      不過,有個小缺陷,M2.7似乎不能直接讀公眾號url,內容是我手動給Claude Code的。

      6)辦公任務:出報告、圖表和PPT

      辦公任務,換到了MiniMax Agent網頁端進行測試。


      體驗地址:agent.minimaxi.com

      這次,我們直接復刻MiniMax官方案例,看看能不能復現。

      任務是:

      基于騰訊2025年財報信息,構建騰訊的營收模型,讀取多個研報,設計對應的假設,基于最新的信息對騰訊營收建模,然后選擇合適的 PPT 模版產出 PPT ,并寫一個 Word 文檔研究報告和 Excel 圖表。

      首先看它建的Excel財務模型。

      這份財務分析模型還是挺全面的,像業績總覽、收入分析、盈利分析、核心業務(游戲)分析、估值分析這些該有的部分都有。說明M2.7模型,知道一個初級分析師在干什么活。

      數據方面,我也對了一下,沒有差錯。

      就是涉及到有復雜表格時(比如有多個坐標軸),模型用Python寫的圖表并沒有完整地呈現出來。


      不過問題不大,我們自己再改改就好了。畢竟,初始數據的搜索和整理,這才是最耗時的。M2.7已經幫我們把最麻煩的事情搞定了。對于分析師來說,這差不多已經節約了至少半天時間。

      然后是Word研究報告。

      整體23頁,近萬字,研報該有的它都有。

      數據方面,我也隨便挑了幾頁對比了一下,完全準確。




      左邊是M2.7做的研報,右邊是真實的財報

      當然,Word文檔里的一些字體、格式、排版還是會有點小問題,但我覺得問題不大,自己手動改改就好了。

      最主要是,這份近萬字的研報,它竟然沒有出現任何的幻覺問題,這說明M2.7在長任務上的上下文能力是真滴恐怖。

      它讓產出結果真實、可信,可以直接走進我們的真實工作流。

      最后,再來看下它整的PPT。

      這排版、UI一看就很高級,如果你讓我來手搓,我是真的整不出來。

      而以上這三件套,是一個Prompt完成,并不是單獨生成的。這M2.7在復雜任務上的指令遵循能力,是真的強。


      整個體驗下來,我感覺M2.7在各個方面都又一次進化了。

      從Coding能力到Agentic能力,從工具調用到長程任務,從高難度的龍蝦場景到日常的辦公場景,都能全方位hold住。

      而且有點意思的是,這個模型是MiniMax第一個由模型自己深度參與迭代的模型。

      這句話讀起來可能有點繞,簡單說就是,他們用AI搞了一個Agent harness,然后用這個系統去訓練、評測模型,人類把控方向,模型負責構建,最終形成模型迭代自己的數據飛輪。

      也就是,用AI打造下一代AI。

      據說,他們還會加大AI自動化的力度,去推出自己的新一代模型。

      如果這個飛輪真的轉起來,接下來的事情,可能會比我們想象的更有意思。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      每體:恩里克每隔30分鐘就要活動一次;晚餐曾連吃6個雞蛋

      每體:恩里克每隔30分鐘就要活動一次;晚餐曾連吃6個雞蛋

      懂球帝
      2026-05-07 10:24:12
      “宗門老祖”火線回歸救場,馬刺年輕人天性釋放

      “宗門老祖”火線回歸救場,馬刺年輕人天性釋放

      毒舌NBA
      2026-05-07 15:25:40
      浙江女孩在意大利酒吧,遭流浪漢殺害,只因索要10歐元飯錢

      浙江女孩在意大利酒吧,遭流浪漢殺害,只因索要10歐元飯錢

      情感藝術家
      2026-05-06 04:58:30
      賴清德回臺灣,三個東盟國家為其開放領空

      賴清德回臺灣,三個東盟國家為其開放領空

      混沌錄
      2026-05-06 22:50:16
      交通銀行:堅決擁護黨中央決定

      交通銀行:堅決擁護黨中央決定

      新京報
      2026-05-07 12:30:05
      估值255億的豐巢,上市失敗對賭翻車,創始人含淚離場

      估值255億的豐巢,上市失敗對賭翻車,創始人含淚離場

      李砍柴
      2026-05-06 17:17:07
      “機車女神”痞幼拿下張雪!評論區淪陷了!

      “機車女神”痞幼拿下張雪!評論區淪陷了!

      4A廣告文案
      2026-05-07 09:13:48
      俄羅斯遭大規模襲擊

      俄羅斯遭大規模襲擊

      中國經濟網
      2026-05-06 17:08:04
      選調生出身的費高云,何以跌落云端?

      選調生出身的費高云,何以跌落云端?

      仕道
      2026-05-07 12:17:57
      連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      連續三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      街上的行人很刺眼
      2026-04-25 10:55:49
      俄羅斯副部長被查前成功出逃美國,跨三國離境

      俄羅斯副部長被查前成功出逃美國,跨三國離境

      桂系007
      2026-05-01 23:48:19
      VLA不夠了?觸覺,將改寫具身智能新格局

      VLA不夠了?觸覺,將改寫具身智能新格局

      機器之心Pro
      2026-05-06 11:27:19
      700米的“中國第一高樓”沒了,華潤70億抄底接盤!

      700米的“中國第一高樓”沒了,華潤70億抄底接盤!

      GA環球建筑
      2026-05-06 23:50:22
      伊朗外長太聰明了:不求中國給飛機大炮,只求中國一件事!

      伊朗外長太聰明了:不求中國給飛機大炮,只求中國一件事!

      安安說
      2026-05-07 11:09:34
      中國16城準一線城市排名:蘇州第六,成都超南京,福州新入圍

      中國16城準一線城市排名:蘇州第六,成都超南京,福州新入圍

      最新聲音
      2026-05-07 02:39:00
      何潔近況令人詫異!暴瘦20斤,換了發色,面相大變,刁磊有福了

      何潔近況令人詫異!暴瘦20斤,換了發色,面相大變,刁磊有福了

      情感大頭說說
      2026-05-07 11:29:06
      網友曝三亞4只皮皮蝦收費1035元,涉事飯店半年前變更經營者

      網友曝三亞4只皮皮蝦收費1035元,涉事飯店半年前變更經營者

      齊魯壹點
      2026-05-07 10:54:16
      股績雙紅 寧波銀行價值雪球越滾越大

      股績雙紅 寧波銀行價值雪球越滾越大

      首條研究院
      2026-05-07 14:15:57
      波波錦囊奏效!森林狼狂輸38分創隊史最差 落后47分華子仍笑嘻嘻

      波波錦囊奏效!森林狼狂輸38分創隊史最差 落后47分華子仍笑嘻嘻

      醉臥浮生
      2026-05-07 12:46:36
      問題果然出現了,比亞迪銷量暴跌26%,撕開新能源車最后的遮羞布

      問題果然出現了,比亞迪銷量暴跌26%,撕開新能源車最后的遮羞布

      混沌錄
      2026-05-06 23:01:06
      2026-05-07 15:43:00
      沃垠AI incentive-icons
      沃垠AI
      努力分享一些有用、有趣的AI干貨
      89文章數 34關注度
      往期回顧 全部

      數碼要聞

      英偉達慶祝GeForce GTX 10系列顯卡發布10周年

      頭條要聞

      記者詢問"是否敦促美方從霍爾木茲撤出軍艦" 中方回應

      頭條要聞

      記者詢問"是否敦促美方從霍爾木茲撤出軍艦" 中方回應

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業照

      財經要聞

      特朗普:美伊“很有可能”達成協議

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態度原創

      本地
      房產
      游戲
      時尚
      教育

      本地新聞

      用青花瓷的方式,打開西溪濕地

      房產要聞

      五一海南樓市,太淡了!

      NS"代表作"之一終登NS2:原版玩家還要付費升級!

      “白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

      教育要聞

      折磨父母的孩子,父母就別再管他了

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 最近中文字幕日韩有码| 人成午夜免费大片| 91视频网址| 在线看片免费不卡人成视频| 色综合中文综合网| 国产精品毛片一区二区三| 日本久久综合| 亚洲精品中文字幕一区二区三区| 97精品伊人久久久大香线蕉| 老司机亚洲精品一区二区| 永久免费看mv网站入口| 欧美A级理论片在线播放| 国产精品人人爽人人做我的可爱| 欧美极品在线视频| 中国一级毛片免费观看| 亚洲av综合av一区| 国模在线视频一区二区三区| 华人在线亚洲欧美精品| 久久凹凸视频| 不卡av大香蕉在线| 丁香婷婷综合激情五月色| 亚洲男人第一无码av网站| 亚洲成av人片天堂网无码 | 精品 日韩 国产 欧美 视频| 国产精品女人精品久久久天天 | 亚洲AV无码午夜嘿嘿嘿| 亚洲精品无amm毛片| 高清偷拍一区二区三区| 亚洲亚洲人成综合丝袜图片| 国产精品???A片带套| 最近2019中文字幕大全视频1| 制服国产欧美亚洲日韩| 欧美日韩激情在线一区二区 | 午夜福利大全成人av| 中文字幕在线日韩| 中文在线字幕在线中文| 97久久草草超级碰碰碰| 国产精品天堂avav在线| 国产自产对白一区| 国产精品国产精品国产专区不卡 | 最近中文字幕日韩有码|