<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      200億AI獨角獸反擊,MiniMax首款推理模型趕超DeepSeeK

      0
      分享至

      OpenAI、DeepSeeK點燃大模型推理浪潮后,越來越多的大模型企業開始涌入,阿里、百度、騰訊、字節、谷歌等先后發布推理模型。



      不少企業都在想著如何憋大招,后發制人。這一次輪到估值超200億元的獨角獸MiniMax,發布首款推理模型M1,并稱這是全球首款開源權重、大規模混合注意力推理模型。

      根據基準評測,M1性能超越國內閉源模型,接近海外最領先模型,部分任務超過DeepSeek、阿里、字節,以及OpenAI、谷歌和Anthropic等最新最強的開閉源模型。

      在年初DeepSeek-R1推出后,MiniMax所在的“AI六小龍”陣營被打蒙了。如今,M1一定程度上讓MiniMax在國內模型陣營梯隊中踏上一個臺階。

      “第一次感覺到大山不是不能翻越。”MiniMax創始人&CEO閆俊杰發文表示。

      我們了解到,M1是MiniMax此次為期5天的發布周的第一彈,后續還將官宣智能體應用,并在海螺AI視頻、音樂等模型和產品層面帶來更多更新。

      多項任務性能趕超Deepseek

      輸入長度業內最高

      M1是MiniMax推出的首款推理模型,其基于MiniMax-Text-01模型開發,總參數達4560億,每token激活參數459億,采用了混合專家(MoE)架構和線性注意力機制(Lightning Attention)。

      MiniMax在業內主流的17個評測集上測試了M1,結果顯示,其在部分數學和代碼測試超過Anthropic最強模型Claude-4-Opus、字節最新發布的Seed-Thinking-v1.5,以及參數達6710億的Deepseek-R1,但不及R1-0528版本,距o3和谷歌最新的Gemini 2.5-pro也有一定差距。



      不過,M1在軟件工程、長上下文、工具使用等復雜的生產力場景中,具備比較全面的優勢。如M1在測試軟件工程能力的SWE-bench上取得超過55%的成績,雖不及海外頂尖模型,但顯著高于國內的DeepSeek-R1、以及阿里和字節模型。

      在長上下文理解任務中,M1則在三項基準測試上全面超越所有開源模型,并超越o3和Claude-4等閉源模型,僅以微弱差距落后于Gemini 2.5 Pro,全球排名第二。

      在代理工具使用場景測試TAU-bench中,M1在airline(航空領域)的得分超過60%,領跑目前最為領先的開閉源模型;在retail(零售領域)的表現則超過DeepSeek、阿里、字節和谷歌模型,略遜于o3和Claude-4模型。

      “通過全面的評估,MiniMax-M1與DeepSeek-R1和Qwen3-235B一起,躋身全球最佳開源權重模型之列。”MiniMax表示。

      值得注意的是,M1包括兩個版本模型,分別有40k和80k的思考上下文長度,其中M1-80k在多數基準測試中始終優于MiniMax-M1-40k,這充分驗證了擴展測試時計算資源的有效性。



      M1另一個顯著優勢是支持高達100萬Token上下文輸入,和Gemini 2.5 Pro一樣,業內最高,這是DeepSeek-R1輸入長度的8倍。同時,M1支持8萬Token的推理輸出,除o3外最高。

      架構和算法創新

      強化學習成本54萬美元

      這些性能得益于MiniMax在架構和算法的創新。

      過去半年,推理模型借助大規模強化學習持續向上探索著大語言模型的天花板,但由于Transformer架構中,注意力機制的計算量會隨序列長度呈平方級增長,導致其在推理擴展上面臨挑戰。

      DeepSeek和月之暗面此前均針對注意力機制進行了研發,前者提出原生稀疏注意力(NSA),后者提出塊注意力混合架構(MoBA),使得上下文處理速度提升十多倍。

      MiniMax則在論文中提到,業內此前提出了稀疏注意力等方法解決,但尚未在大規模推理模型中得到充分驗證,為此還需在高效擴展推理方面進行探索。

      M1則在混合專家架構上采用了線性注意力機制(Lightning Attention),其核心是通過將注意力計算分解為多個小塊,采用線性復雜度的計算方式,實現對長序列的高效處理。

      “這種設計理論上能夠高效地將推理長度擴展到數十萬 token。”MiniMax表示,這還能帶來計算成本的大幅下降,“這個特性使我們在訓練和推理的時候都有很大的算力效率優勢”。

      例如,與DeepSeek-R1 相比,在生成長度為64K token時,M1消耗的算力FLOPs不到其50%;在長度為100K token時,消耗的FLOPs約為其25%。



      這正是M1上下文長度得到擴展的關鍵,并使其特別適合需要處理長輸入和進行深入思考的復雜、現實世界任務,因此其在軟件工程、長上下文、工具使用等方面體現出性能優勢。

      當然,這也離不開M1在進行大規模強化學習時的算法創新。論文提到兩個關鍵創新,一是提出一種新穎的強化學習算法CISPO,從而提升強化學習效率。

      經過驗證對比,這種算法具備更高效率。如在數學測試基準AIME的實驗中,MiniMax發現CISPO比字節近期提出的DAPO強化學習算法實現了兩倍的加速,即其只需50%的訓練步驟就可以與DAPO的表現相匹配,同時也顯著優于DeepSeek此前使用的GRPO算法。



      二是針對使用混合架構進行強化學習擴展時存在的挑戰,如架構的訓練內核和推理內核之間存在精度不匹配,阻礙了強化學習期間的獎勵增長,為此開發了針對性的解決方案。

      此外,為防止過于激進擴展訓練長度可能導致訓練過程中突然發生梯度爆炸(模型失控),MiniMax通過四個階段采用更平滑的上下文長度進行擴展,從32K開始,最終將上下文擴展到1M。

      “得益于這些技術創新,我們最終強化訓練過程非常高效,超出預期。”MiniMax論文介紹,M1在整個強化學習階段只用到512塊H800三周的時間,租賃成本只有53.74萬美金(約合人民幣380萬),“這比一開始的預期少了一個數量級”。

      和豆包采取相同價格策略

      MiniMax還有更多更新

      目前,MiniMax-M1已經對外開源,并在MiniMax APP和Web端免費升級。在API價格方面,MiniMax和字節最新更新的豆包1.6同樣采用了“區間定價”策略。



      在0-32k輸入長度和32k-128k輸入長度下,M1的價格相比未按區間計價的DeepSeek-R1(輸入4元/百萬token,輸出16元/百萬token)更有性價比,而對于最長的128k-1M的輸入長度,DeepSeek模型則不支持。

      同時,M1劃分的三個區間價格與豆包1.6對應區間價格也相同,但豆包1.6最后一個區間的最長長度為256k。可以說,M1成為和豆包一樣的大模型價格殺手,這也正是得益于其相對高效的訓練和推理算力效率。

      “性價比新王”、“又一次卷到硅谷了”,不少開發者對M1評價到。

      MiniMax認為,M1將在未來的智能體應用中具有獨特優勢。“我們預見這種高效架構在解決現實挑戰方面具有巨大潛力,包括自動化工作流程、科學研究等。”

      “未來智能體需要數十到數百個回合進行推理,同時整合來自不同來源的長上下文信息,我們未來將進一步朝著這一目標前進。”MiniMax表示。

      旺旺屋了解到,目前MiniMax正在面向海外內測智能體應用,主打代碼、多模態等能力,同時支持調用多款MCP工具。

      值得注意的是,M1是MiniMax此次為期5天發布周的第一彈,后續該公司將官宣推出智能體,并在海螺AI視頻、音樂等模型和產品層面帶來更多更新。

      此前,MiniMax進行了品牌調整,原有的對話類應用海螺AI更名為MiniMax,包括國內及國際市場,海螺品牌將專指AI視頻海螺視頻,從而在產品品牌上進行了明確劃分。

      在DeepSeek沖擊下,昔日“AI六小龍”受到市場質疑,也做出了不同選擇,零一萬物和百川智能放棄大模型訓練,其它幾家則在不同層面謀求突圍。

      MiniMax顯然還在堅持大模型訓練,并通過卷成本、卷效率,試圖向DeepSeek等領先模型發起挑戰,有望為其在未來的大模型格局競爭中獲取更多勝算。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      李連杰再回應換心臟、換血、打干細胞謠言:說我無所謂,但是說一個無辜的20多歲的年輕武僧,這種二次傷害對其家人非常嚴重

      李連杰再回應換心臟、換血、打干細胞謠言:說我無所謂,但是說一個無辜的20多歲的年輕武僧,這種二次傷害對其家人非常嚴重

      臺州交通廣播
      2026-05-24 23:22:27
      留神峪礦難家屬講述:丈夫是外包工,逃生時暈倒三四次還幫人逃生;女兒打來視頻電話,還沒開口父女倆都哭了

      留神峪礦難家屬講述:丈夫是外包工,逃生時暈倒三四次還幫人逃生;女兒打來視頻電話,還沒開口父女倆都哭了

      大風新聞
      2026-05-24 09:55:04
      終于撐不住了!特朗普重大讓步!美伊迎來驚天逆轉!

      終于撐不住了!特朗普重大讓步!美伊迎來驚天逆轉!

      大嘴說天下
      2026-05-24 21:17:22
      "碳水臉"的原因絕不是碳水!

      "碳水臉"的原因絕不是碳水!

      FitEmpire健身領域
      2026-05-24 10:41:03
      江蘇常熟一倉庫發生火災,系隆力奇產品倉庫,工作人員:火災為晚間發生,未造成人員傷亡,經濟損失暫無統計報告

      江蘇常熟一倉庫發生火災,系隆力奇產品倉庫,工作人員:火災為晚間發生,未造成人員傷亡,經濟損失暫無統計報告

      臺州交通廣播
      2026-05-24 17:51:29
      讓耿同學博士肄業!女博導怕了嗎?她與董小姐的情夫肖飛啥關系?

      讓耿同學博士肄業!女博導怕了嗎?她與董小姐的情夫肖飛啥關系?

      大江看潮
      2026-05-24 09:14:45
      庾澄慶歌手一輪游慘遭淘汰,前任伊能靜一句話隔空撐腰太體面

      庾澄慶歌手一輪游慘遭淘汰,前任伊能靜一句話隔空撐腰太體面

      童叔不飆車
      2026-05-24 18:56:15
      馬刺103-82輕取雷霆2-2扳平,文班亞馬33+8+5,亞歷山大19+7

      馬刺103-82輕取雷霆2-2扳平,文班亞馬33+8+5,亞歷山大19+7

      懂球帝
      2026-05-25 10:55:08
      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      三農老歷
      2026-04-13 17:10:06
      國藥控股吉林公司被禁止參加全軍物資工程服務采購活動3年

      國藥控股吉林公司被禁止參加全軍物資工程服務采購活動3年

      齊魯壹點
      2026-05-25 10:11:22
      徐帥有三次機遇,如果把握住任何一次,都不會只是“第八元帥”

      徐帥有三次機遇,如果把握住任何一次,都不會只是“第八元帥”

      舊書卷里的長安
      2026-05-24 23:59:26
      王鶴棣迎全網罵潮,只因他踩中了大眾最討厭的三個雷區!

      王鶴棣迎全網罵潮,只因他踩中了大眾最討厭的三個雷區!

      一盅情懷
      2026-05-25 09:24:35
      太揪心了!山西煤礦礦難,有博主靈魂拷問:你們是干什么吃的!

      太揪心了!山西煤礦礦難,有博主靈魂拷問:你們是干什么吃的!

      丫頭舫
      2026-05-24 10:13:49
      航天員黎家盈怎樣成長起來的?姐姐黎家敏這樣說

      航天員黎家盈怎樣成長起來的?姐姐黎家敏這樣說

      Thurman在昆明
      2026-05-25 03:04:39
      留神峪煤礦工人:連一雙手套都沒發過

      留神峪煤礦工人:連一雙手套都沒發過

      極目新聞
      2026-05-24 20:08:34
      中東核基地被炸成火海!伊朗先下手為強,特朗普緊急叫停決戰

      中東核基地被炸成火海!伊朗先下手為強,特朗普緊急叫停決戰

      最新聲音
      2026-05-23 19:32:27
      中國打出最強一拳!日本終于扛不住,當著全球的面,日方提出條件

      中國打出最強一拳!日本終于扛不住,當著全球的面,日方提出條件

      阿傖說事
      2026-05-24 13:00:35
      1994年大案:“變態色魔”王萬明,他的荒淫無恥,比你想的更惡劣

      1994年大案:“變態色魔”王萬明,他的荒淫無恥,比你想的更惡劣

      莫地方
      2026-05-25 01:05:03
      《給阿嬤的情書》破10億,李思潼簽約進圈,王曉慧回歸平淡

      《給阿嬤的情書》破10億,李思潼簽約進圈,王曉慧回歸平淡

      書慧我心
      2026-05-25 03:24:41
      最佳二陣5人場均26+!一陣有多強?三陣爭議最大,華子成最大遺珠

      最佳二陣5人場均26+!一陣有多強?三陣爭議最大,華子成最大遺珠

      你的籃球頻道
      2026-05-25 08:30:32
      2026-05-25 11:11:00
      旺旺屋
      旺旺屋
      電臺主持人,歌手,作家等。
      1847文章數 672關注度
      往期回顧 全部

      科技要聞

      華為發表半導體演進新定律

      頭條要聞

      重慶農家樂3000多斤特色魚幾乎全被洪水沖走 老板發聲

      頭條要聞

      重慶農家樂3000多斤特色魚幾乎全被洪水沖走 老板發聲

      體育要聞

      如果不好好守門,他可能早就繼承家業了

      娛樂要聞

      洪濤回應歌手淘汰庾澄慶:難以理喻

      財經要聞

      退市!33年“A股不死鳥”落幕

      汽車要聞

      國民家轎再上新 帝豪向上系列限時5.59萬起

      態度原創

      手機
      旅游
      家居
      游戲
      房產

      手機要聞

      華為nova 16系列手機“晴空藍”配色公布

      旅游要聞

      下一站|去奉化天妃湖 赴一場山海之旅

      家居要聞

      低調傳承 溫潤沉靜

      《哥特王朝》重制版補丁引批評 官方回應無需聯網游玩

      房產要聞

      瘋狂周末,海口樓市突然爆了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 综合色在线| 亚洲熟妇自偷自拍另类| 久久久久麻豆v国产精华液好用吗| 香蕉97超级碰碰碰免费公开| XXX国产| 精品一区二区三区日韩版| 99国产精品久久久久久久成人| 日韩三级久久| 色婷婷精品大在线视频| 久久av一区二区三区| 蜜桃av秘?无码一区二区| v一区无码内射国产| 国产顶级熟妇高潮xxxxx| 中出人妻中文字幕无码| 午夜福利92国语| 精品成人一区二区三区四区| 波多野结衣的av一区二区三区| 国产成人精品a视频| 国内精品久久久久影院优| 暖暖 免费 高清 日本 在线| 无码人中文字幕| 欧美性xxxx极品少妇| 久久久久久亚洲AV无码专区| 在线视频一区二区三区| 中文字幕一区二区三区乱码不卡| 久久天天躁夜夜躁狠狠综合| 国产A片网| 厨房掀起裙子从后面进去视频| 凤山县| 草草浮力影院| 中文字幕一区二区三区久久| 亚洲 一区二区 在线| 成人视频欧美| 四虎成人久久精品无码| 亚洲欧美日韩国产另类电影| 偷国产乱人伦偷精品视频| 欧美久久久久久蜜桃| 在线精品视频一区二区| 久久精品国产91精品亚洲| 年轻女教师hd中字3| 国产丰满乱子伦无码专区|