![]()
作者 | 貓貓頭
郵箱 | cathy@pingwest.com
GPT-5.5來了。API定價$5/$30每百萬token,GPT-5.4的兩倍。
但它并不更燒token。
![]()
Sam Altman在公布定價的同一條推文里補了一句:"Remember, you will need less tokens per task than 5.4!" 貴一倍,但每個任務token更少——"其實更劃算"。OpenAI總裁Greg Brockman在發布會上給了更大的詞:"a new class of intelligence."
![]()
先看模型本身。
主戰場是agentic coding和長文本:Terminal-Bench 2.0上82.7%,碾壓Opus 4.7的69.4%;1M token context window讓長文本檢索(MRCR v2)從GPT-5.4的36.6%跳到74.0%,Opus 4.7只有32.2%。GDPval(覆蓋44個職業的知識工作基準)84.9%。但SWE-Bench Pro(代碼修復)只有58.6%,Opus 4.7拿了64.3%——不是所有維度都贏。
![]()
用例方面,三個數字值得記住:24,771份K-1稅表(71,637頁)自動審閱省了兩周;GPT-5.5參與了一個Ramsey數漸近證明,研究者說原本需要數月人工分析;OpenAI內部85%的員工每周都在用Codex。
![]()
所以最大亮點不是"更聰明"。是更貴但更高效——定價翻倍但單任務token消耗顯著下降,推理速度通過與NVIDIA GB200/GB300的co-design提升了20%。加上Codex同步升級了瀏覽器控制、Sheets/Docs處理、系統級語音——GPT-5.5本質上是一個為Codex生態量身定制的模型。
![]()
這是官方敘事。但4月23日的故事不止一個模型。
1
Benchmark先打起來了
發布當天,獨立開發者@bridgemindai發了兩條推文
第一條:"Claude Opus 4.7 dominates GPT 5.5 on SWE Bench Pro."
![]()
幾小時后:"Claude Opus 4.7 is no longer the best model in the world. Not even close."
![]()
同一個人,同一天,結論完全相反。兩邊的數據都是真的:
SWE-Bench Pro(編碼):GPT-5.5不及Opus 4.7。@deedydas指出OpenAI刻意沒在發布材料里報這個成績——"trying really hard to bury the lede."
Terminal-Bench 2.0(長時間推理):GPT-5.5 82.7% vs Opus 4.7 69.4%。碾壓。
幻覺率(AA-Omniscience):GPT-5.5為86%,Opus 4.7為36%。上一代GPT-5.4是89%——兩代之間只降了3個百分點。
Vending-Bench Arena(多人博弈):GPT-5.5策略干凈,照樣贏了耍賴的Opus 4.7。
賓夕法尼亞大學教授Ethan Mollick在給了個框架:jagged frontier。AI的能力邊界不是平線推進,是鋸齒膨脹。選報道哪顆齒,就決定你講什么故事。
這說明:當"誰最強"不再有統一答案,競爭重心就必須轉移。
![]()
1
Codex才是主菜
轉移到哪?
GPT-5.5發布同天,Codex桌面端上線了瀏覽器控制、Sheets/Slides/Docs處理、系統級語音、自動審查。Mollick的分析框架值得借用:AI有三層——Models、Apps、Harnesses。4月23日OpenAI三層同時升級。
更重要的是生態卡位。
![]()
Anthropic封殺了OpenClaw通過訂閱接口調用Claude。OpenAI則雇了OpenClaw創始人Peter Steinberger,宣布Codex訂閱可以在任何第三方工具里用——JetBrains、Xcode、Pi,甚至Claude Code。
OpenAI開發者體驗主管Romain Huet的原話:"We want people to be able to use Codex, and their ChatGPT subscription, wherever they like!"
![]()
Django Web 框架發起人Simon Willison用Claude Code逆向了Codex認證機制,做了個插件直接用訂閱調GPT-5.5。OpenAI沒封,還半官方鼓勵。Codex CLI已開源。
Anthropic守API利潤率。OpenAI把訂閱制變成了開放平臺。
再看API延遲發布。官方說"working on security and safeguards"。客觀效果:API上線前想用GPT-5.5,唯一路徑是Codex生態。用戶被鎖進了應用層。
![]()
漲價兩倍 + API延后 + Codex全面升級開放第三方。三個同步決策,一個意圖:不賣算力,搶入口。
競爭不在于模型本身了,主角是一整個生態的配套能力,搶的是未來的入口。
1
加速才剛開始
GPT-5.5距GPT-5.4只隔了一個多月。OpenAI 首席科學家Jakub Pachocki在發布會上說了句讓人意外的話:"I would say the last few years have been surprisingly slow."
![]()
過去幾年——外界看來AI狂飆的幾年——在OpenAI首席科學家眼里是慢的。
OpenAI員工@tszzl透露已有研究者用GPT-5.5做"隔夜實驗":給個算法idea,通宵跑,醒來dashboard就緒。他的措辭是"competent AI research partner"。不是assistant,是partner。
![]()
Mollick四個prompt拿到一篇完整學術論文,統計方法正確,文獻綜述真實。問題不在能力——"假設不夠有趣"。
AI的瓶頸從能力滑向了品味。模型的競賽,從跑分滑向了生態。
OpenAI在4月23日押注的不是更聰明的模型。是一個讓用戶走不掉的入口。
而對于OpenAI新模型最大的背書,來自死敵Anthropic。
此前兩者的競爭里,勢頭已經被Anthropic拿走,但這一次OpenAI的勢頭回來了。在發布當天,Claude官方開發平臺賬號發布公告,承認了大家詬病已久的“降智”問題,并表示已經修復。
![]()
網友揶揄道:被用戶指責了足足一個月后,在對手發布更強模型后你來承認和修復了。
![]()
這可能是GPT 5.5能力之強的最好背書。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.