網易首頁 > 網易號 > 正文申請入駐

GPT-5.5通關黑客模擬測試，AI攻擊能力進入新階段

2026-05-01 18:36:35　來源: 碼上閑敘

北京舉報

分享至

英國人工智能安全研究所（AISI）最新測試顯示，OpenAI的GPT-5.5與Anthropic的Claude Mythos Preview在網絡安全評估中打成平手。兩家頂尖模型的攻擊能力雙雙突破關鍵閾值——這是行業首次出現多款模型能獨立完成多階段企業網絡入侵模擬。

測試背后有個值得玩味的細節：GPT-5.5在孤立的安全任務上甚至小幅領先，但在完整的32步網絡滲透中，成功率反而略低于對手。這種"單項強、綜合弱"的反差，暴露出當前AI攻擊能力的真實邊界。

測試設計：95道題與兩座"網絡迷宮"

AISI的評估體系分為兩層。第一層是95道奪旗賽題目，按難度分為四級，覆蓋逆向工程、內存漏洞利用開發、密碼學攻擊、混淆惡意軟件分析等技能。這些題目由網絡安全公司Crystal Peak Security和Irregular聯合設計。

在最高"專家"難度，GPT-5.5平均成功率71.4%，Claude Mythos Preview為68.6%。差距在統計誤差范圍內，但兩者已明顯甩開前輩——GPT-5.4僅52.4%，Claude Opus 4.7只有48.6%。

第二層是更關鍵的"網絡靶場"測試。模擬真實企業環境，包含多臺主機、服務和漏洞，考驗AI連續決策能力。

其中"The Last Ones"（TLO）模擬覆蓋4個子網、約20臺主機，共32個步驟。AI從零權限起步，需自行發現漏洞、竊取憑證、橫向移動，最終抵達受保護數據庫。AISI估計，人類專家完成需約20小時。

GPT-5.5在10次嘗試中完全通關2次，Claude Mythos Preview為3次。這是目前僅有的兩款能獨立完成TLO的模型。

算力Scaling：越"想"越能打

AISI發現，推理計算量與成功率正相關。模型分配的"思考"令牌越多，成功入侵概率越高，且尚未觸及天花板。

這意味著當前成績并非能力上限。只要愿意燒更多算力，兩款模型還有提升空間——對防御方而言，這不是好消息。

但測試條件存在重大簡化：沒有主動防御、沒有安全監控、沒有真實世界的警報后果。GPT-5.5和Mythos能否突破加固系統，仍是未知數。不過針對防護薄弱的網絡，能力已經到位。

工業系統仍是盲區

第二個模擬場景"Cooling Tower"聚焦工業控制系統攻擊，共7個步驟。目前尚無模型能通關。

GPT-5.5與Mythos一樣，卡在IT層面的前置步驟，而非工控系統本身。關鍵基礎設施的物理隔離和專用協議，暫時構成AI難以跨越的障礙。

從個案到趨勢：能力躍遷的副產品

AISI將此次結果視為 broader pattern 的印證。Claude Mythos在2026年4月展現的攻擊能力，并非孤例，而是自主性、推理能力和編程能力綜合提升的必然結果。

這解釋了為何兩款架構不同的模型幾乎同時突破閾值。底層能力的進步，正在批量轉化為可被用于攻擊的實操技能。

對安全從業者來說，一個尷尬的現實是：基礎奪旗題早在2026年2月就被所有前沿模型滿分攻克。專家級任務的防線也在快速失守。現在連多階段網絡滲透這種"畢業考試"，都有模型能獨立通關。

防御方的窗口期正在收窄。當AI的攻擊能力從"需要人類輔助"進化到"給定目標即可自主執行"，安全運營中心的響應流程、威脅狩獵的假設前提，都需要重新設計。

更深層的問題在于評估本身。AISI的測試是"開卷考試"——已知環境、已知漏洞、無對抗。真實攻擊是"閉卷"且"有監考"的。模型在壓力下的表現衰減、面對未知漏洞的泛化能力、被檢測后的應變策略，這些維度目前缺乏系統評估。

但即便考慮這些折扣，兩款模型展現的規劃能力和工具調用連貫性，已經超出傳統自動化攻擊框架的范疇。它們不是更快腳本，而是能根據中間結果動態調整策略的"學徒級"攻擊者。

Claude Mythos Preview的領先幅度（3/10對2/10）小到可以忽略，卻暗示了微妙差異：Anthropic在模型對齊上的投入，并未以犧牲攻擊任務表現為代價。這與"安全訓練會削弱能力"的常見假設形成有趣對照。

GPT-5.5的單項任務優勢與綜合場景劣勢，則可能反映OpenAI的訓練側重——針對明確目標優化，長鏈條自主規劃相對薄弱。這種差異會隨后續迭代縮小還是放大，值得持續觀察。

工業控制場景的集體失敗，暫時劃定了AI攻擊能力的物理邊界。但"Cooling Tower"僅7步且無人通關，恰恰說明這個邊界距離日常IT網絡還很遠。關鍵基礎設施的防御者獲得喘息空間，企業網絡的防守方沒有。

最耐人尋味的或許是AISI的措辭選擇。他們將結果框定為"趨勢證據"，而非單純的技術里程碑。這種表述暗示：類似能力的模型將批量涌現，監管和防御需要針對"一類系統"而非"個別產品"做準備。

當攻擊能力成為大模型的標配而非賣點，安全評估的重心也將轉移。從"能否做"到"多容易做"、"多快能做"、"多隱蔽能做"，這些操作層面的指標，會比通關率更能指導實際防御。

畢竟，2/10的成功率對競賽成績是羞辱，對真實攻擊者是可接受的試錯成本——只要每次嘗試足夠便宜，且不被發現。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GPT-5.6現身后，下一個Claude Sonnet 4.8又曝光了！

新智元 2026-05-01 19:06:33
0 跟貼 0
我在OpenAI修中文

機器之心Pro 2026-05-01 20:00:11
0 跟貼 0

Karpathy：很多App就不該出生,人類護城河只剩理解,CPU將淪為配角

機器之心Pro 2026-05-01 20:44:49
0 跟貼 0

華為openJiuwen社區攜手中科大靈境造物重塑AI科研

量子位 2026-05-01 21:59:41
0 跟貼 0
他用AI辦了個音樂節，主題：別讀博

量子位 2026-05-01 21:22:42
0 跟貼 0

有人只用API就猜出了GPT、Claude、Gemini的參數量？社區吵翻了

機器之心Pro 2026-05-01 19:56:22
3 跟貼 3

英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
96 跟貼 96
不是恐嚇是預告，伊黑客把中東美軍“摸得門清”，下一步是什么？

杜文龍 2026-04-29 20:23:46
4 跟貼 4

廣西平陸運河建240米動物通道橋，供豹貓等動物通行

星視頻 2026-05-01 11:08:08
141 跟貼 141
上中下三條削藩策略朱允炆為何偏偏選擇下策？

朝話熹史 2026-04-29 15:46:25
0 跟貼 0
如何收復一名頂級黑客

小襪襪追劇 2026-05-01 08:31:27
1 跟貼 1
小伙用物理知識在沙漠取水

黑襯衫剪輯 2026-04-27 17:19:41
1 跟貼 1
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15229 跟貼 15229
黑客能讓你電腦好，也能讓你電腦壞

橘子小貓劇 2026-04-29 08:40:23
1 跟貼 1
潛伏整整十年！襲擊前一刻，美制設備集體反水，給中國敲響了警鐘

泄氣得愛 2026-05-02 03:08:25
0 跟貼 0
足壇極致速度名場面，快到突破物理極限！

環球武器 2026-04-27 15:42:03
3 跟貼 3
GPT-5.5智商145背后：大模型競賽，正在進入工程淘汰賽

鈦媒體APP 2026-04-27 19:41:15
0 跟貼 0
中國有一座無人敢提及的城市，沒有名稱，只有一個代號叫404

超級數學建模 2026-05-01 22:40:26
10 跟貼 10
FBI網絡主管：中國黑客雇傭生態"已失控"

我是一個養蝦人 2026-05-01 03:51:50
0 跟貼 0
宇宙大爆炸之前是什么？物理終極追問

小新的視界 2026-04-28 02:10:16
0 跟貼 0
導游稱大熊貓“花花”是殘疾，旅行社致歉

界面新聞 2026-05-01 07:59:04
10088 跟貼 10088
都是車！第一批離深“大聰明”已堵路上

魯中晨報 2026-04-30 21:39:23
221 跟貼 221
安全專家為何變成勒索犯？三人團伙的攻防反轉

爬蟲飼養員 2026-05-01 21:06:29
0 跟貼 0
湖人輸球真相：佩林卡策略高明，火箭逆襲，里弗斯東契奇將復出！

職途Up 2026-05-01 09:45:22
1 跟貼 1
游客聲稱在上海街頭"走路也罰款" 上海交管還原真相

上游新聞 2026-05-01 20:01:19
3354 跟貼 3354
28178人！中冠聯賽單場觀眾紀錄在江蘇常州誕生

江蘇新聞 2026-05-01 16:26:00
90 跟貼 90
美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

看看新聞Knews 2026-05-01 22:58:33
3405 跟貼 3405
張雪回應“820賽道熄火”：車子傾角設定是61度就會熄火，我們判斷為摔車

極目新聞 2026-05-01 17:58:29
3474 跟貼 3474
搭檔臨時更換項目被調整，陳芋汐賽前連遭變數背后隱藏什么邏輯

最終你成為了過客 2026-05-01 23:05:43
1 跟貼 1
大模型高效推理新答案：ICLR 2026提出Balanced Thinking

機器之心Pro 2026-04-27 11:46:27
0 跟貼 0
上海醫保新政落地！5月起配藥這部分費用提高了

看看新聞Knews 2026-05-01 13:24:05
406 跟貼 406
這是經過幾千萬年，才進化出來的最強物理屏障！

煜叔科普 2026-04-29 18:44:37
703 跟貼 703
英國網絡安全認證新規：一道強制令卡住五萬家企業

野生運營 2026-05-01 17:21:44
0 跟貼 0
蘭州一餐館懸掛錢學森和袁隆平照片，顧客直呼“這才是真正的明星”，老板回應：因為有他們我們才有飯吃

極目新聞 2026-05-01 20:08:28
1596 跟貼 1596
游戲服務器遭新型僵尸網絡精準打擊

灰度測試中 2026-05-01 21:26:35
0 跟貼 0
中超|鄭智被罰下，泰山不滿補時太短，一場火爆德比換回了啥？

齊魯壹點 2026-05-01 23:16:18
80 跟貼 80
天柱山景區“擺渡車問題”被點名后，記者實探

極目新聞 2026-05-01 19:46:05
241 跟貼 241
labubu冰箱售價5999元秒沒有平臺掛出22999元價格

新聞坊 2026-05-01 12:27:36
1018 跟貼 1018
這種能力，決定了你此生的勝率

孤獨大腦 2026-02-12 04:44:56
1 跟貼 1
5月1日北京禁飛無人機，大疆首都市場被封，美國海外也被制裁！

眼光很亮 2026-05-01 12:16:45
4 跟貼 4

手機 / 數碼

房產 / 家居

GPT-5.5通關黑客模擬測試，AI攻擊能力進入新階段

DeepSeek發布多模態論文又連夜刪除

美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

無奈！約基奇：這要在塞爾維亞 全隊早被炒了

馬筱梅產后身材恢復超好 現身戶外直播

GPU神話松動，AI真正的戰場變了

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

這個夏天，彩色褲子又火了！

畫畫的你絕不能錯過！色塊與筆觸的激情之旅！

豌豆的球掉進小水坑，很難過，一只青蛙幫她把球撿了回來

所有戶型全賣爆！海口TOP級豪宅，景觀樣板間五一全線開放！

伊朗：持續推進海上封鎖的行為不可容忍

無奈！約基奇：這要在塞爾維亞全隊早被炒了

馬筱梅產后身材恢復超好現身戶外直播

限時9.67萬起吉利星越L/星瑞i-HEV智擎混動上市