網易首頁 > 網易號 > 正文申請入駐

GPT5.5：更貴不更燒，主角給到Codex，逼Claude慌忙修復降智問題

2026-04-24 08:52:08　來源: 硅星人

北京舉報

分享至

作者｜貓貓頭
郵箱｜ cathy@pingwest.com

GPT-5.5來了。API定價$5/$30每百萬token，GPT-5.4的兩倍。

但它并不更燒token。

Sam Altman在公布定價的同一條推文里補了一句："Remember, you will need less tokens per task than 5.4!" 貴一倍，但每個任務token更少——"其實更劃算"。OpenAI總裁Greg Brockman在發布會上給了更大的詞："a new class of intelligence."

先看模型本身。

主戰場是agentic coding和長文本：Terminal-Bench 2.0上82.7%，碾壓Opus 4.7的69.4%；1M token context window讓長文本檢索（MRCR v2）從GPT-5.4的36.6%跳到74.0%，Opus 4.7只有32.2%。GDPval（覆蓋44個職業的知識工作基準）84.9%。但SWE-Bench Pro（代碼修復）只有58.6%，Opus 4.7拿了64.3%——不是所有維度都贏。

用例方面，三個數字值得記住：24,771份K-1稅表（71,637頁）自動審閱省了兩周；GPT-5.5參與了一個Ramsey數漸近證明，研究者說原本需要數月人工分析；OpenAI內部85%的員工每周都在用Codex。

所以最大亮點不是"更聰明"。是更貴但更高效——定價翻倍但單任務token消耗顯著下降，推理速度通過與NVIDIA GB200/GB300的co-design提升了20%。加上Codex同步升級了瀏覽器控制、Sheets/Docs處理、系統級語音——GPT-5.5本質上是一個為Codex生態量身定制的模型。

這是官方敘事。但4月23日的故事不止一個模型。

Benchmark先打起來了

發布當天，獨立開發者@bridgemindai發了兩條推文
第一條："Claude Opus 4.7 dominates GPT 5.5 on SWE Bench Pro."

幾小時后："Claude Opus 4.7 is no longer the best model in the world. Not even close."

同一個人，同一天，結論完全相反。兩邊的數據都是真的：

SWE-Bench Pro（編碼）：GPT-5.5不及Opus 4.7。@deedydas指出OpenAI刻意沒在發布材料里報這個成績——"trying really hard to bury the lede."

Terminal-Bench 2.0（長時間推理）：GPT-5.5 82.7% vs Opus 4.7 69.4%。碾壓。

幻覺率（AA-Omniscience）：GPT-5.5為86%，Opus 4.7為36%。上一代GPT-5.4是89%——兩代之間只降了3個百分點。

Vending-Bench Arena（多人博弈）：GPT-5.5策略干凈，照樣贏了耍賴的Opus 4.7。

賓夕法尼亞大學教授Ethan Mollick在給了個框架：jagged frontier。AI的能力邊界不是平線推進，是鋸齒膨脹。選報道哪顆齒，就決定你講什么故事。

這說明：當"誰最強"不再有統一答案，競爭重心就必須轉移。

Codex才是主菜

轉移到哪？

GPT-5.5發布同天，Codex桌面端上線了瀏覽器控制、Sheets/Slides/Docs處理、系統級語音、自動審查。Mollick的分析框架值得借用：AI有三層——Models、Apps、Harnesses。4月23日OpenAI三層同時升級。

更重要的是生態卡位。

Anthropic封殺了OpenClaw通過訂閱接口調用Claude。OpenAI則雇了OpenClaw創始人Peter Steinberger，宣布Codex訂閱可以在任何第三方工具里用——JetBrains、Xcode、Pi，甚至Claude Code。

OpenAI開發者體驗主管Romain Huet的原話："We want people to be able to use Codex, and their ChatGPT subscription, wherever they like!"

Django Web 框架發起人Simon Willison用Claude Code逆向了Codex認證機制，做了個插件直接用訂閱調GPT-5.5。OpenAI沒封，還半官方鼓勵。Codex CLI已開源。

Anthropic守API利潤率。OpenAI把訂閱制變成了開放平臺。

再看API延遲發布。官方說"working on security and safeguards"。客觀效果：API上線前想用GPT-5.5，唯一路徑是Codex生態。用戶被鎖進了應用層。

漲價兩倍 + API延后 + Codex全面升級開放第三方。三個同步決策，一個意圖：不賣算力，搶入口。

競爭不在于模型本身了，主角是一整個生態的配套能力，搶的是未來的入口。

加速才剛開始

GPT-5.5距GPT-5.4只隔了一個多月。OpenAI 首席科學家Jakub Pachocki在發布會上說了句讓人意外的話："I would say the last few years have been surprisingly slow."

過去幾年——外界看來AI狂飆的幾年——在OpenAI首席科學家眼里是慢的。

OpenAI員工@tszzl透露已有研究者用GPT-5.5做"隔夜實驗"：給個算法idea，通宵跑，醒來dashboard就緒。他的措辭是"competent AI research partner"。不是assistant，是partner。

Mollick四個prompt拿到一篇完整學術論文，統計方法正確，文獻綜述真實。問題不在能力——"假設不夠有趣"。

AI的瓶頸從能力滑向了品味。模型的競賽，從跑分滑向了生態。

OpenAI在4月23日押注的不是更聰明的模型。是一個讓用戶走不掉的入口。

而對于OpenAI新模型最大的背書，來自死敵Anthropic。

此前兩者的競爭里，勢頭已經被Anthropic拿走，但這一次OpenAI的勢頭回來了。在發布當天，Claude官方開發平臺賬號發布公告，承認了大家詬病已久的“降智”問題，并表示已經修復。

網友揶揄道：被用戶指責了足足一個月后，在對手發布更強模型后你來承認和修復了。

這可能是GPT 5.5能力之強的最好背書。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.