<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      最強黑客大模型,不再是Mythos

      0
      分享至


      新智元報道

      編輯:艾倫

      【新智元導讀】微軟用一套多 Agent 系統在 AI 漏洞發現的頂級基準測試上拿下第一,超過 Anthropic 最強模型 Mythos 五個百分點。詭異的是,微軟自己并沒有一個能打的前沿模型。它用別人的模型組了個系統,打敗了造出這些模型的公司。這對AI競爭格局的啟示,比這個工具挖出了大量 Windows 漏洞本身更重要。

      最強黑客大模型 Mythos,居然被黑馬超越了!

      5 月 12 日,微軟發布了代號 MDASH 的 AI 安全系統,同時登頂 CyberGym 基準測試榜首,成績 88.45%。

      排在它后面的是 Anthropic 的 Mythos Preview(83.1%)和 OpenAI 的 GPT-5.5(81.8%)。


      https://www.cybergym.io/

      CyberGym 榜單上,Anthropic 用的是自家最強模型 Mythos,OpenAI 用的是自家最強模型 GPT-5.5。

      微軟用的是什么?

      答案是,別人家的模型。

      微軟在博客里明確寫道,MDASH 使用的全部是「generally available models」,即市面上公開可用的模型。



      https://www.microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/

      微軟自己并沒有一個能與 Mythos 或 GPT-5.5 競爭的前沿模型。

      在這張榜單上,如果微軟拿單個模型去跑,成績大概率會落到中下游。

      但它組了一套系統,調度 100 多個專業化 Agent,讓多個模型分工協作,跑出了比任何單一模型都高的分數。

      用別人的磚,蓋了最高的樓。

      微軟已經用這套工具,挖出了自家 Windows 11 系統 16 個高危漏洞!


      遠程執行導致藍屏的漏洞 CVE-2026-33827 效果演示

      這是個什么榜單

      CyberGym 由 UC Berkeley 團隊開發,論文發表在 ICLR 2026,是目前 AI 安全能力評估領域最權威的公開基準之一。


      https://arxiv.org/pdf/2506.02548

      Anthropic、OpenAI、Meta、智譜都在上面提交過成績。

      測試方式很直接,給 AI 一段有已知漏洞的代碼和漏洞描述,讓它自己寫出能觸發漏洞的攻擊代碼。

      1507 道題,來自 188 個真實開源項目。

      能不能挖到漏洞、能不能證明它可被利用,一測便知。

      一個細節值得留意,榜單成績由各公司自行提交,基準代碼公開但無獨立第三方驗證。

      多 Agent 系統的強大能力

      MDASH 帶來的核心啟示:「系統」可以抹平甚至反超「模型」的差距。

      Anthropic 花了巨大的研發投入訓練出 Mythos,這是目前公認的安全領域最強單一模型,強到 Anthropic 自己都不敢公開發布,只通過一個叫 Project Glasswing 的聯盟向少數公司定向開放。

      OpenAI 的 GPT-5.5 同樣是傾全公司之力訓出的前沿模型。

      微軟沒有這樣的模型。

      但它有一套流水線,把「準備→掃描→驗證→去重→證明」五個階段拆開,每個階段用不同的 Agent、不同的模型去跑。

      審計 Agent 和辯論 Agent 分開,發現漏洞和證明漏洞分開,重度推理用大模型、高頻驗證用蒸餾小模型。


      關鍵在于,這套系統對底層模型不綁定。

      新模型出來,換個配置跑 A/B 測試就行,前面積累的所有工程資產全部復用。

      微軟在博客里特別強調了這一點——「the model is one input」,模型只是眾多輸入之一。


      這對 Anthropic 和 OpenAI 構成一種新型威脅。

      它們燒了天文數字的美元訓出來的模型優勢,被一個系統層的競爭者用工程手段消解了。

      更扎心的是,微軟用的還是它們自己的模型。

      這將對 ASI 終局帶來哪些潛在變數

      在前沿模型這張牌桌上,真正有籌碼的只有 Anthropic 和 OpenAI。

      微軟雖然是 OpenAI 最大的投資方和云計算合作伙伴,但它自己并沒有訓出過一個真正進入第一梯隊的旗艦大模型。

      這次 CyberGym 的結果把一個問題擺上了臺面,通往 ASI 的路徑,到底是一條還是兩條?

      路徑一是 Anthropic 和 OpenAI 正在走的,把單一模型推到極致。

      Mythos 在安全領域的能力已經強到需要限制發布,GPT-5.5 在多個基準上持續刷新紀錄。


      Mythos 僅通過 Project Glasswing 測試

      這條路需要海量算力、海量數據、頂尖的研究團隊,門檻極高。

      路徑二就是微軟用 MDASH 展示的,不追求造出最強的單一模型,轉而構建一個能把現有模型能力最大化的系統。

      100 多個 Agent 各司其職,模型之間的分歧變成信號,多階段流水線把單次推理做不到的事情通過任務分解實現。

      MDASH 的成績證明了路徑二至少在特定領域是可行的。

      但這不代表路徑二可以替代路徑一。

      MDASH 用的底層模型仍然來自路徑一的公司。

      如果 Anthropic 和 OpenAI 停止訓練更強的模型,MDASH 的天花板也會停滯。

      這件事不只關乎微軟

      多 Agent 系統作為一種范式,正在從實驗走向生產。

      MDASH 團隊的多位核心成員來自 Team Atlanta,就是在 DARPA AI 網絡挑戰賽中贏得 2950 萬美元獎金的隊伍。

      他們驗證過的一個核心判斷是,讓 AI 做到專業級別的安全審計,工程量遠超模型本身。

      微軟這次同時公布了 16 個由 MDASH 輔助發現的 Windows 漏洞,其中 4 個是 Critical(關鍵)級別的遠程代碼執行。

      這些漏洞大多可以在無需認證的情況下從網絡側觸發,已在 5 月 Patch Tuesday 中修復。

      在內部回溯測試中,MDASH 對 Windows 核心組件 clfs.sys 過去五年的已確認漏洞召回率達到 96%,tcpip.sys 達到 100%。


      這些數字的分量在于,它們來自實戰,不只是跑分。

      16 個 CVE 已經進入微軟的正式補丁流程,96% 的召回率對標的是過去五年真實被攻擊者利用過的漏洞。

      微軟在博客中說,以后的 Patch Tuesday 會越來越大。

      AI 正在加速漏洞發現的速度,補丁規模自然水漲船高。

      這句話的另一面同樣成立,攻擊者也能用同樣的技術。

      MDASH 用的全是公開可用的模型,沒有任何技術上的獨占壁壘。

      還該關注些什么

      對行業來說,MDASH 的意義大于 MDASH 本身。

      它驗證了一個猜想:在 AI 能力的下一階段競爭中,「圍繞模型構建系統」可能和「訓練更強模型」同等重要。

      這對三類人有不同的含義。

      對模型公司(Anthropic、OpenAI),它敲響了一個警鐘。

      模型能力的領先不能自動轉化為應用層的領先。

      別人可以用你的模型,在你的地盤上贏你。

      對平臺公司(谷歌、微軟),它指出了一條差異化路徑。

      沒有最強模型?沒關系,構建最強系統。

      但前提是,你得深刻理解具體領域的工程細節,100 多個 Agent 的分工設計、領域插件、驗證流水線,這些東西的積累門檻同樣很高。

      對普通用戶,這件事的直接影響很簡單,及時打補丁,否則不懂技術的人也能借助 AI 利用這類漏洞。

      MDASH 目前也像 Mythos 和 GPT-5.5 Cyber 一樣,正在進行小范圍客戶私測,微軟未公布定價和正式發布時間。

      參考資料:

      https://www.microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人老才發現,不管兒媳婦對你怎樣,記住這五句話,你就贏了

      人老才發現,不管兒媳婦對你怎樣,記住這五句話,你就贏了

      熱心市民小黃
      2026-05-15 18:33:52
      沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰正式打響

      沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰正式打響

      薦史
      2026-05-03 13:48:04
      網傳上海交通大學某學生用AI偽造競賽獎金發放記錄,想私吞團隊獎金?

      網傳上海交通大學某學生用AI偽造競賽獎金發放記錄,想私吞團隊獎金?

      文憶天下
      2026-05-15 22:57:01
      斯諾克戰報:0-5,2位世錦賽冠軍一輪游,8強對陣出爐火箭墨菲在列

      斯諾克戰報:0-5,2位世錦賽冠軍一輪游,8強對陣出爐火箭墨菲在列

      光輝記
      2026-05-15 08:04:50
      白左圣母被驅趕出家:還會說有一天我們也是難民嗎

      白左圣母被驅趕出家:還會說有一天我們也是難民嗎

      番外行
      2026-05-15 09:08:27
      特朗普訪華剛結束,高市早苗就對外宣稱已與其通電話,還表明立場

      特朗普訪華剛結束,高市早苗就對外宣稱已與其通電話,還表明立場

      老踝是個手藝人
      2026-05-16 02:04:28
      張藝謀也沒想到,養了27年的陳婷,竟會親手摘掉張藝謀妻子的認證

      張藝謀也沒想到,養了27年的陳婷,竟會親手摘掉張藝謀妻子的認證

      混沌錄
      2026-05-14 15:58:14
      美國歌手隆胸3年后反悔:太大了,準備取出

      美國歌手隆胸3年后反悔:太大了,準備取出

      影視情報室
      2026-05-15 01:37:14
      遲到成癮!教練都管不住!被隊友吐槽!!

      遲到成癮!教練都管不住!被隊友吐槽!!

      柚子說球
      2026-05-15 22:03:01
      5位北舞走出的女星,北舞老師:我培養的人才,都被拐去當演員了

      5位北舞走出的女星,北舞老師:我培養的人才,都被拐去當演員了

      阿纂看事
      2026-05-15 19:27:53
      全球最大的公司誕生!市值35萬億,相當于15個阿里,利潤超8000億

      全球最大的公司誕生!市值35萬億,相當于15個阿里,利潤超8000億

      混沌錄
      2026-05-11 22:34:09
      醫生:只要糖化血紅蛋白沒超7%,糖尿病并發癥風險或不用太焦慮?

      醫生:只要糖化血紅蛋白沒超7%,糖尿病并發癥風險或不用太焦慮?

      岐黃傳人孫大夫
      2026-05-15 20:25:03
      日本網民的真正破防,開始了

      日本網民的真正破防,開始了

      這里是東京
      2026-05-15 17:19:46
      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      三農老歷
      2026-04-13 17:10:06
      俄多地爆炸,近400架烏克蘭無人機襲擊俄羅斯

      俄多地爆炸,近400架烏克蘭無人機襲擊俄羅斯

      山河路口
      2026-05-15 20:02:31
      商業航天翻倍股被立案,股價一年漲超300%

      商業航天翻倍股被立案,股價一年漲超300%

      21世紀經濟報道
      2026-05-15 21:30:45
      伊朗外長很尷尬:在新德里呼吁金磚反美,革命衛隊卻擊沉印度貨輪

      伊朗外長很尷尬:在新德里呼吁金磚反美,革命衛隊卻擊沉印度貨輪

      養牛的大昆
      2026-05-15 18:14:04
      特朗普稱美伊停火系“應其他國家要求”

      特朗普稱美伊停火系“應其他國家要求”

      新京報
      2026-05-15 21:44:04
      筑牢防災減災救災人民防線

      筑牢防災減災救災人民防線

      人民網
      2026-05-14 08:49:06
      G1輸上海發布會!許利民直指遺憾,回應雙塔組合與manman傷勢!

      G1輸上海發布會!許利民直指遺憾,回應雙塔組合與manman傷勢!

      籃球資訊達人
      2026-05-15 22:19:54
      2026-05-16 05:15:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15220文章數 66869關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      藝術
      親子
      家居
      教育
      軍事航空

      藝術要聞

      1008米!沙特“世界第一高樓”項目,為何極有可能建成?

      親子要聞

      孕婦補鈣怕刺激怎么選?液體鈣無添加配方實測,藍帽認證更靠譜

      家居要聞

      110㎡淡而有致的生活表達

      教育要聞

      兒子不讓用水刷鞋,無知家長被嘲:非要孩子考不上大學,你才高興

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黑人牲交视频全部| 无遮挡aaaaa大片免费看| 日本三级网| 亚洲欧美日韩久久一区二区三区| 成人a毛片免费观看网站| 狠狠色成人综合首页| 亚洲人成在线影院| 51国产黑色丝袜高跟鞋| 亚洲人成网站色www| 亚洲熟妇AV一区二区三区浪潮| 视频二区亚洲精品| 亚洲国产精品自在在线观看| 亚洲综合欧美在线一区在线播放| 最新亚洲中文av在线不卡| 国产福利深夜在线播放| 夜夜嗨av| 伊人久久大香线蕉综合bd高清| 灵寿县| 亚洲精品一区二区区别| 亚洲色频| 激情综合五月花| 亚洲欧美人成电影在线观看| 伊人色综合一区二区三区| 欧美v亚洲v日韩v最新在线| 男人下面疯狂进女人下部视频| 国语自产精品视频在 视频| 日韩极品在线观看| 国产AV无区亚洲AV麻豆| 亚洲成a人片在线网站| 日韩乱码人妻无码中文字幕视频 | 午夜AV| 欧美特黄一级大黄录像| 色成人精品免费视频| 色噜噜狠狠一区二区三区果冻| 最新国产精品久久精品| 国产精品久久久久久久久免费观看| 67194欧洲| 精品综合网| 亚洲色欲色欲www在线看| 老妇xxxxx性开放| 曰韩一级|