<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      這套題,GPT-5.5、Opus 4.7加起來沒考到1分,人類卻拿了滿分100

      0
      分享至



      機(jī)器之心編輯部

      在大模型「卷生卷死」的今天,大家似乎已經(jīng)習(xí)慣了模型在各大榜單上刷出逼近滿分準(zhǔn)確率。然而,在一項(xiàng)名為 ARC-AGI-3 的基準(zhǔn)測試中,堪稱當(dāng)下「最紅炸子雞」的兩款頂尖模型 ——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7,卻雙雙「折戟」……

      近日,ARC Prize 官方發(fā)布了針對(duì)這兩款頂級(jí)模型的詳細(xì)分析報(bào)告,結(jié)果令人震驚:在面對(duì)未見過的邏輯任務(wù)時(shí),兩者的表現(xiàn)得分均低于 1%,GPT-5.5 得分 0.43%,Claude Opus 4.7 得分 0.18%。



      這意味著,即便擁有千億級(jí)參數(shù)和近乎無限的算力,這些模型在處理「全新邏輯環(huán)境」時(shí)的表現(xiàn),甚至不如一個(gè) 6 歲的兒童。

      這是怎么一回事?

      ARC-AGI-3:智能的「真?zhèn)卧嚱鹗?/strong>

      為了更好理解這一成績,首先我們來了解一下 ARC-AGI-3,這是由 Keras 之父 Fran?ois Chollet 創(chuàng)立的基準(zhǔn)測試系列的最新一代,于今年 3 月分布。

      Fran?ois Chollet 當(dāng)時(shí)稱,當(dāng)一個(gè) AI 系統(tǒng)在首次接觸所有環(huán)境時(shí),其行動(dòng)效率能夠達(dá)到或超過人類水平,才算真正「攻克」ARC-AGI-3。

      而根據(jù)團(tuán)隊(duì)進(jìn)行的大量的人類測試結(jié)果來看:在沒有任何先驗(yàn)訓(xùn)練、沒有任何說明的情況下,人類在第一次接觸時(shí)可以 100% 解決這些環(huán)境中難題,與此同時(shí),目前所有前沿的 AI 推理模型在這一測試上的表現(xiàn)都低于 1%。



      彼時(shí),OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 還沒有發(fā)布,如今來看,這兩個(gè)模型也同樣難逃這一結(jié)果。

      具體來看,ARC-AGI-3 是由 135 個(gè)全新環(huán)境組成的測試集,每個(gè)環(huán)境都由人類手工設(shè)計(jì),用來測試模型面對(duì)「未知」的能力。

      對(duì)于測試者來說,無論人類還是 AI,進(jìn)入環(huán)境中將不會(huì)獲得任何的玩法說明,要前進(jìn),取得進(jìn)展,必須做到以下幾點(diǎn):

      • 探索未知界面 ;
      • 從稀疏反饋中推斷規(guī)則(構(gòu)建世界模型) ;
      • 提出并驗(yàn)證假設(shè) ;
      • 從錯(cuò)誤中恢復(fù) ;
      • 將經(jīng)驗(yàn)遷移到下一關(guān)(持續(xù)學(xué)習(xí))。

      每個(gè)環(huán)境的構(gòu)建都缺乏模型通常依賴的文化知識(shí),只保留「抽象推理能力本身」。

      換句話說,可以把 ARC-AGI-3 理解為,一個(gè)在「新穎性、模糊性、規(guī)劃、適應(yīng)性」上的最低共同測試集合,而這些,正是現(xiàn)實(shí)世界任務(wù)對(duì)智能體的核心要求。因此,ARC-AGI-3 也被公認(rèn)為目前最接近「人類智能本質(zhì)」的測試。

      頂尖模型紛紛「敗北」背后的三大失敗模式

      此次,GPT-5.5 和 Claude Opus 4.7 的表現(xiàn)得分均低于 1% 的成績固然令人「心痛」,但比起成績,知道背后的失敗原因似乎更重要。

      ARC Prize 研究團(tuán)隊(duì)通過分析 160 組完整運(yùn)行軌跡,包括模型的每一步操作和推理過程,總結(jié)出了導(dǎo)致模型「崩潰」的三大核心失敗模式:

      一、真實(shí)的局部反饋,虛假的世界模型

      模型能夠理解哪一步動(dòng)作產(chǎn)生了變化(局部反饋),但無法將這種因果效應(yīng)轉(zhuǎn)化為一套通用的全局規(guī)則。

      這是一個(gè)最為明顯的原因。比如,在一個(gè)需要旋轉(zhuǎn)物體以匹配插槽的任務(wù)中,模型能夠識(shí)別出「我按下這個(gè)鍵,物體可以旋轉(zhuǎn)」這一局部規(guī)律,但它無法將此邏輯上升為全局目標(biāo),進(jìn)一步推理出:「旋轉(zhuǎn)會(huì)影響結(jié)果,因此我需要在行動(dòng)前調(diào)整物體方向以匹配目標(biāo)。」

      換句話說,模型失敗不是因?yàn)樗鼈儭缚床灰姟梗谟跓o法把觀察的事物整合成一個(gè)完整的世界模型。

      比例,Claude Opus 4.7 在運(yùn)行任務(wù) 「cd82」 時(shí),在第 4 步已經(jīng)意識(shí)到執(zhí)行 「ACTION3」 可以旋轉(zhuǎn)容器,隨后在第 6 步也觀察到執(zhí)行 「ACTION5」 可以傾倒或蘸取油漆。然而,它始終無法將這些碎片化的認(rèn)知轉(zhuǎn)化為一個(gè)完整的邏輯策略,即「先調(diào)整桶的方向,然后再蘸取油漆,以還原左上角的目標(biāo)圖像」。



      Claude Opus 4.7 理解 ACTION3 旋轉(zhuǎn)物體,但未能理解游戲的概念。

      或者在任務(wù) 「cn04」 中,Claude Opus 4.7 雖然發(fā)現(xiàn)了一個(gè)成功的「旋轉(zhuǎn)后放置」交互邏輯(這是正確的假設(shè),見第 23 步),但隨后卻陷入了追求「整體形狀重疊」的誤區(qū)(錯(cuò)誤假設(shè)),并為了追求「頂行進(jìn)度」的假象而偏離了目標(biāo)(見第 60 步)。



      二、被訓(xùn)練數(shù)據(jù)「綁架」的抽象思維

      模型對(duì)當(dāng)前環(huán)境產(chǎn)生了誤判,由于受到訓(xùn)練數(shù)據(jù)的影響,它們會(huì)將一個(gè)全新的「ARC-AGI-3」任務(wù)誤認(rèn)為是在玩另一種已知的游戲。

      這種失敗模式源于模型對(duì)訓(xùn)練數(shù)據(jù)的「錯(cuò)誤抽象」,在多次運(yùn)行中,模型反復(fù)嘗試通過將其映射到已知游戲來解釋陌生的機(jī)制,這些游戲包括:「俄羅斯方塊」「青蛙過河」「推箱子」「粉末游戲」「填充顏色」「打磚塊」等。

      雖然從核心先驗(yàn)知識(shí)中提取抽象概念在理論上有助于解決問題,但這些來自訓(xùn)練數(shù)據(jù)的字面類比反而「綁架」了模型的動(dòng)作選擇,從而演變成:局部視覺相似、導(dǎo)致被誤認(rèn)為完整的游戲規(guī)則、行動(dòng)方向被帶偏。

      比如,在任務(wù) 「cd82」 中,GPT-5.5 的思維被錨定在了流沙、物理模擬或 「填充顏色」的游戲機(jī)制上;而在任務(wù) 「ls20」 中,它將本應(yīng)是按鍵組合的邏輯誤判為了「打磚塊」。



      三、通關(guān)了關(guān)卡,卻沒學(xué)會(huì)規(guī)則

      模型僥幸通過了某個(gè)特定關(guān)卡,卻無法利用那個(gè)成功的獎(jiǎng)勵(lì)信號(hào)來強(qiáng)化并執(zhí)行正確的后續(xù)操作。這說明,「通關(guān)并不等于理解」。

      Claude Opus 4.7 的兩次記錄很好地說明了這一點(diǎn)。

      在任務(wù)「ka59」中,Claude Opus 4.7 用 37 步完成了 Level 1,但它對(duì)「點(diǎn)擊」這一操作的理解其實(shí)是錯(cuò)誤的 —— 它認(rèn)為點(diǎn)擊是在「傳送當(dāng)前角色」。雖然結(jié)果看起來像是一次干凈利落的勝利,但本質(zhì)上只是對(duì)底層機(jī)制的誤讀,恰好碰上了一個(gè)比較寬容的關(guān)卡。

      因此,當(dāng)進(jìn)入 Level 2,需要真正的機(jī)制(形狀匹配與推動(dòng))時(shí),Opus 將這種錯(cuò)誤理解進(jìn)一步固化為「點(diǎn)擊每個(gè)目標(biāo)來填充它」,結(jié)果可想而知,整個(gè)過程徹底偏離、崩潰,且無法恢復(fù)。



      Opus 4.7 正在運(yùn)行任務(wù) 「ka59」,陷入了「盲目點(diǎn)擊(Click-fishing)」的死循環(huán),游戲得分:2.04%。

      在「ar25」任務(wù)中也是如此。Opus 在 Level 1 通過對(duì)「鏡像移動(dòng)」的正確解讀成功通關(guān)(見第 4 步);隨后在 Level 2,它實(shí)際上已經(jīng)發(fā)現(xiàn)了新的「可移動(dòng)軸」機(jī)制(見第 227 步),但緊接著它又陷入了幻覺,開始臆想出諸如「打孔」或「需要翻轉(zhuǎn)」等并不存在的規(guī)則。



      在這兩種情況下,Level 1 的成功掩蓋了模型對(duì)底層機(jī)制的缺失或扭曲,這種「局部勝利」反而為錯(cuò)誤的 Level 2 策略提供了一個(gè)看似自信的支撐框架。

      這也說明,早期關(guān)卡的推進(jìn)并不能可靠反映模型是否真正理解了任務(wù)。如果沒有明確檢驗(yàn)?zāi)P汀笧槭裁茨苓^關(guān)」,它就會(huì)把錯(cuò)誤的認(rèn)知帶入下一關(guān),并在此基礎(chǔ)上不斷放大偏差。

      GPT-5.5 vs Opus 4.7:不同的「翻車」姿勢

      有意思的是,雖然 GPT-5.5 和 Opus 4.7 的得分成績都不盡如人意,但研究團(tuán)隊(duì)通過對(duì)比兩者的運(yùn)行記錄發(fā)現(xiàn),它們的失敗方式完全不同。

      簡單來說就是,Claude Opus 4.7 的問題是「壓縮錯(cuò)了」,而 GPT-5.5 的問題則在于「壓縮不了」。

      具體來看,Opus 4.7 在短周期的機(jī)制發(fā)現(xiàn)方面表現(xiàn)更強(qiáng)。例如在任務(wù)「ar25」中,它幾乎立刻識(shí)別出鏡像結(jié)構(gòu),并順利通過 Level 1;在任務(wù)「ka59」中,即便世界模型并不完整,它也能讀出「雙角色、雙目標(biāo)」的布局,并完成較短的 Level 1 操作序列。

      但問題在于,它也更容易抓住一個(gè)錯(cuò)誤的「恒定特征」,并堅(jiān)定執(zhí)行下去。

      比如在任務(wù)「cn04」中,它構(gòu)建了一套「進(jìn)度 / 計(jì)時(shí) / 轉(zhuǎn)換」的錯(cuò)誤理論,并在這一假設(shè)下不斷嘗試操作(第 60 步)。它確實(shí)形成了一套「可運(yùn)行的解釋」,只是這套解釋是錯(cuò)的。

      GPT-5.5 則是另一個(gè)極端。它的「假設(shè)生成」更廣泛,這使得它更有可能說出正確的思路,但同時(shí)也更難將其轉(zhuǎn)化為具體行動(dòng)。

      比如在任務(wù)「ar25」中,它識(shí)別出了鏡像效應(yīng),但不斷重新打開「可能的游戲類型空間」,在「俄羅斯方塊」「青蛙過河」「乒乓球」「漢諾塔」之間反復(fù)橫跳,始終無法堅(jiān)定地執(zhí)行鏡像邏輯。而在任務(wù)「ka59」中,它也構(gòu)建出了正確的對(duì)象結(jié)構(gòu) —— 兩個(gè)目標(biāo)輪廓和一個(gè)可切換的第二角色 —— 但始終沒有真正執(zhí)行這一理解。

      換句話說,Claude Opus 4.7 有點(diǎn)像「過度自信的直覺主義者」,GPT-5.5 則像「思維發(fā)散的理論家」。

      而歸根結(jié)底,兩者之間的這種差異在于「壓縮」能力的區(qū)別:Claude Opus 4.7 將觀察壓縮成了一個(gè)「自信但錯(cuò)誤」的理論,而 GPT-5.5 則幾乎無法完成壓縮,始終停留在分散的可能性之中。

      不得不說,此次 Claude Opus 4.7 和 GPT-5.5 雙雙在 ARC-AGI-3,這一堪稱目前最接近「人類智能本質(zhì)」的測試上的低分表現(xiàn),揭示了一個(gè)事實(shí):AGI 之路「道阻且長」啊。

      你呢,如何看待 AI 的這一成績?歡迎在評(píng)論區(qū)留言、交流!

      https://x.com/fchollet/status/2050328852107612559

      https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis

      https://x.com/GregKamradt/status/2050262126120632554

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      炸鍋!ESPN曝?zé)峄痼@天交易,梭哈倫納德,萊利這次賭太大了

      炸鍋!ESPN曝?zé)峄痼@天交易,梭哈倫納德,萊利這次賭太大了

      體育大朋說
      2026-05-02 15:00:03
      北影30年后再聚首:陳坤老了,黃曉明精致了,意想不到的人也來了

      北影30年后再聚首:陳坤老了,黃曉明精致了,意想不到的人也來了

      往史過眼云煙
      2026-04-30 19:28:05
      歷史第8次黑七!76人掀翻綠軍創(chuàng)造歷史 前7支球隊(duì)走了多遠(yuǎn)?

      歷史第8次黑七!76人掀翻綠軍創(chuàng)造歷史 前7支球隊(duì)走了多遠(yuǎn)?

      羅說NBA
      2026-05-03 10:43:20
      五一假期回農(nóng)村發(fā)現(xiàn)的4大怪象,村村都有,簡直一個(gè)比一個(gè)真實(shí)

      五一假期回農(nóng)村發(fā)現(xiàn)的4大怪象,村村都有,簡直一個(gè)比一個(gè)真實(shí)

      科技講者66
      2026-05-03 12:33:35
      瓦倫丁也太真實(shí)了!奪冠后直言獎(jiǎng)金先還房貸,原來他早已成家有娃,妥妥的家庭頂梁柱!

      瓦倫丁也太真實(shí)了!奪冠后直言獎(jiǎng)金先還房貸,原來他早已成家有娃,妥妥的家庭頂梁柱!

      阿廢冷眼觀察所
      2026-05-03 08:59:36
      近照嚴(yán)重韓化,47歲高齡拼二胎的湯唯,這次要為自己的選擇買單了

      近照嚴(yán)重韓化,47歲高齡拼二胎的湯唯,這次要為自己的選擇買單了

      白面書誏
      2026-05-01 18:02:02
      劉少奇家保姆“趙姥姥”:伺候全家?guī)资辏R終前說了8個(gè)字讓劉家后人淚崩

      劉少奇家保姆“趙姥姥”:伺候全家?guī)资辏R終前說了8個(gè)字讓劉家后人淚崩

      文史明鑒
      2026-03-16 16:08:24
      本澤馬為了釣到歐美各路名媛,皇馬鋒霸究竟付出了多大的代價(jià)?

      本澤馬為了釣到歐美各路名媛,皇馬鋒霸究竟付出了多大的代價(jià)?

      羅氏八卦
      2026-05-02 18:05:03
      “蘇超”最新積分榜公布:鹽城隊(duì)3場皆勝9分領(lǐng)跑,南京隊(duì)1勝1負(fù)位居第9,鎮(zhèn)江隊(duì)2戰(zhàn)全負(fù)位居榜尾

      “蘇超”最新積分榜公布:鹽城隊(duì)3場皆勝9分領(lǐng)跑,南京隊(duì)1勝1負(fù)位居第9,鎮(zhèn)江隊(duì)2戰(zhàn)全負(fù)位居榜尾

      揚(yáng)子晚報(bào)
      2026-05-02 22:12:44
      約基奇打不了硬仗?系列賽6次面對(duì)50+勝球隊(duì)從未晉級(jí)!

      約基奇打不了硬仗?系列賽6次面對(duì)50+勝球隊(duì)從未晉級(jí)!

      籃球大圖
      2026-05-03 11:04:56
      美國警告立陶宛等國,背后什么情況?

      美國警告立陶宛等國,背后什么情況?

      新民周刊
      2026-05-03 09:39:42
      歐盟要下狠手!只要參加俄軍打?yàn)蹩颂m,終身禁入歐洲!

      歐盟要下狠手!只要參加俄軍打?yàn)蹩颂m,終身禁入歐洲!

      探源歷史
      2026-04-29 00:30:48
      太颯了!張雪機(jī)車再奪冠,最后一圈反超2位選手,團(tuán)隊(duì)瘋狂慶祝

      太颯了!張雪機(jī)車再奪冠,最后一圈反超2位選手,團(tuán)隊(duì)瘋狂慶祝

      湘楚風(fēng)云聊體育
      2026-05-02 22:19:52
      一女子15年前在杭州一中國黃金柜臺(tái)花1萬2買2根20克金條,稱重竟只有9克多,且檢測出完全不含黃金,店長:不是我們賣的,你可以報(bào)警

      一女子15年前在杭州一中國黃金柜臺(tái)花1萬2買2根20克金條,稱重竟只有9克多,且檢測出完全不含黃金,店長:不是我們賣的,你可以報(bào)警

      大象新聞
      2026-05-01 23:50:09
      清朝滅亡不過一百余年,上千萬的滿族人,為什么滿語迅速消亡了?

      清朝滅亡不過一百余年,上千萬的滿族人,為什么滿語迅速消亡了?

      銘記歷史呀
      2026-04-29 00:04:12
      “一秒一公里”,現(xiàn)實(shí)排隊(duì)半天?閃充背后的天價(jià)賬單與技術(shù)真相

      “一秒一公里”,現(xiàn)實(shí)排隊(duì)半天?閃充背后的天價(jià)賬單與技術(shù)真相

      阿芒娛樂說
      2026-05-02 18:32:06
      堪比曹操的一炮:特朗普這一下,把美國霸權(quán)的四根柱子全干塌了

      堪比曹操的一炮:特朗普這一下,把美國霸權(quán)的四根柱子全干塌了

      紀(jì)史行者
      2026-05-02 11:36:37
      警察絕對(duì)不能插手的5件事,真不能管,否則違法!

      警察絕對(duì)不能插手的5件事,真不能管,否則違法!

      細(xì)說職場
      2026-04-20 15:52:21
      男子地鐵噴辣椒水后續(xù):人已被抓,正臉被扒已社死,更多黑料流出

      男子地鐵噴辣椒水后續(xù):人已被抓,正臉被扒已社死,更多黑料流出

      暖心萌阿菇?jīng)?/span>
      2026-05-02 11:53:43
      委內(nèi)瑞拉代總統(tǒng)干了什么,換下馬杜羅后整個(gè)國家蒸蒸日上?

      委內(nèi)瑞拉代總統(tǒng)干了什么,換下馬杜羅后整個(gè)國家蒸蒸日上?

      錯(cuò)過美好
      2026-05-02 14:40:24
      2026-05-03 13:27:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12904文章數(shù) 142639關(guān)注度
      往期回顧 全部

      科技要聞

      庫克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

      頭條要聞

      上海科技大學(xué)王晨輝教授因營救至親不幸去世 年僅39歲

      頭條要聞

      上海科技大學(xué)王晨輝教授因營救至親不幸去世 年僅39歲

      體育要聞

      裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

      娛樂要聞

      蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

      財(cái)經(jīng)要聞

      后巴菲特時(shí)代,首場股東會(huì)透露了啥

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺(tái)

      態(tài)度原創(chuàng)

      健康
      教育
      藝術(shù)
      公開課
      軍事航空

      干細(xì)胞治燒燙傷面臨這些“瓶頸”

      教育要聞

      能者不想干,中學(xué)行政“空心化”何時(shí)休?

      藝術(shù)要聞

      Dale terbush:當(dāng)代美國風(fēng)景畫家

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗公布伊方最新談判方案

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 四虎亚洲国产成人久久精品| 人妻体内射精一区二区三区| www.蜜臀av.com| 午夜tv视频免费国产区4| 欧美亚视频| 久久天天躁狠狠躁夜夜不卡| 亚洲中文乱码一区二区| 在线不卡| 波多野结衣高清一区二区三区| 国产精品国产高清国产专区| 在线播放ww| 中文字幕变态另类| 婷婷开心激情综合五月天| 国产亚洲精品成人无码精品网站 | 色综合中文| 亚洲国产美女黄色精品| 国产精品高潮呻吟av久久| 亚洲人成网站在线观看播放不卡| 欧美XXXX做受欧美| 久久这里只有精品2| 亚洲无码av一区二区| 亚洲人成无码网www动漫| 国产99视频精品免费视频7| 国产精品美女| 中文字幕亚洲国产精品| 六月丁香婷婷综合亚洲| 曰韩精品无码一区二区三区| 亚洲天堂无码| 久久久久成人网站| 欧美最猛黑人xxxx黑人猛交 | 粉嫩极品国产在线观看| 一区二区三区精品| yy6080影院理论一级久久| 亚洲欧美日韩综合一区二区| 99在线精品国自产拍中文字幕| 伊人久久大香线蕉在观看| 91福利导航| 无码中出人妻| 夫妻自拍偷拍| 亚洲中文字幕av每天更新| 国产av一区二区久久蜜臀|