網易首頁 > 網易號 > 正文申請入駐

突發！GPT-5.5深夜炸場，天選“牛馬”，OpenAI悟了？

2026-04-24 07:54:22　來源: 雷科技

廣東舉報

分享至

北京時間 4 月 24 日凌晨，OpenAI 突然發布了 GPT-5.5，以及更高規格的 GPT-5.5 Pro。

這不是一次常規的小版本迭代。在 OpenAI 看來，GPT-5.5 不僅是他們最強的模型，更是新的智能模型，即專為真實工作和智能體任務打造的模型。

說白了，其實就是各家最近都在講的「智能體模型」，模型的定位更多是作為智能體的「智能引擎」。

所以不出意外，圍繞「聊天」的各項能力就沒那么重點了，圍繞「工作」來講才是王道。而從紙面參數和 benchmark 看，GPT-5.5 的確延續了 OpenAI 過去半年的技術路線，更多以「真實工作場景」為導向，在一些取向更貼近實際的基準測試中又刷了新高，比如：

- Terminal-Bench 2.0：82.7%（復雜命令行任務）
- GDPval：84.9%（跨 44 種職業的知識工作）
- OSWorld-Verified：78.7%（真實電腦操作能力）
- Tau2-bench Telecom：98.0%（復雜客服流程）

圖片來源：OpenAI

不過基準測試也就「圖一樂」，即便是這些取向更接近實際工作的測試，也很難逃過「高分低能」的問題。所以，GPT-5.5 真的就像 OpenAI 新聞稿開篇所言，會是我們邁向 PC 工作新方式的下一步嗎？

從 AI Coding 到 AI 辦公，GPT 也是認真干活了

根據 OpenAI 公布的信息，GPT-5.5 Pro 僅支持 Pro 及以上訂閱用戶，GPT-5.5 則支持 Plus 及以上的訂閱用戶，將在今天正式上線 ChatGPT 以及 Codex。不過包括我在內，很多 Plus 還未收到 GPT-5.5 的新模型推送，理論上應該采取了分批推送的方式。

不過官方也展示了一些實際的使用案例，共同點是都不怎么「干凈」，更像我們實際面臨工作任務，也不是一步就能完成。而對于現階段重點推 Codex 的 OpenAI 來說，Agentic Coding 肯定是最重要的。

這一代 GPT-5.5 也在正式發布前被拿去做代碼重構、跨文件 bug 修復、測試補全這些更接近真實工程流程的工作。

外部開發者的實測也證實了 GPT-5.5 在代碼工作上進步。MagicPath CEO Pietro Schirano 就用 GPT-5.5 將一個包含數百個前端和重構變更的分支合并為一個同樣有重大變化的主分支，只花了 20 分鐘就一次性解決了所有工作，「我真的感覺自己在和一個更高的智慧共事。」

圖片來源：X

不是說它一次就肯定全對，關鍵是它更容易「走在正確的軌道上」，中途不用頻繁拉回方向。

CodeRabbit 的評測里有一個細節很有意思。他們沒有強調模型能寫出多復雜的代碼，反而更多夸贊它在 code review 里更「克制」，更傾向于指出真正會影響上線的問題，而不是泛泛而談。

同時 Cursor、Windsurf 團隊的使用報告也都指出，GPT-5.5 在長時任務、處理歧義方面都比 GPT-5.4 明顯更好。

另外，OpenAI 的財務團隊還用它審核了 24771 份 K-1 稅表、總計 71637 頁文件，并稱這套流程比上一年提前了兩周完成。換個角度看，它其實揭示了 GPT-5.5 在長流程里的穩定性。而兩萬多份稅表、七萬多頁文檔，是一個極容易出錯、需要持續校驗的重復性工作。

圖片來源：OpenAI

過去模型在這種場景里最大的問題，是中途漂移，或者在細節上逐漸失真。而無論是表格處理、報告生成，還是多文檔整合，GPT-5.5 的輸出更有一致性，格式更穩定，前后邏輯也更連貫。法律 AI 公司 Harvey 就強調了 GPT-5.5 的推理結構、引用、排版這些細節更像一個合格的專業人士。

而且這類案例的價值還不在規模，因為模型不僅在分析數據，還在構建流程、生成規則并接入實際業務系統，已經非常接近典型的知識工作流程。

可以說，這次 GPT-5.5 最核心的升級就是現代社會圍繞計算機構建的工作場景。英偉達創始人兼 CEO 黃仁勛還在一封全員信呼吁所有人使用基于 GPT-5.5 的 Codex，「讓我們跳到光速。歡迎來到人工智能時代。」

如果說 GPT-4 解決的是「答對」，GPT-5.4 在解決處理更復雜的問題和任務，到了 GPT-5.5，問題變成了能不能更高效、穩定地做好一件事。畢竟，做完和做好完全是兩碼事，中間也是一道「天塹」。

這也是為什么 OpenAI 在這一代里不斷強調「智能體」這個詞。

圖片來源：OpenAI

GPT-5.5 從模型層面改進了智能體最核心的幾個特征：理解目標、拆解步驟、調用工具、修正過程，并最終交付結果。能力上看，每一項都不是全新能力，但被放到同一個系統里之后，體驗開始發生變化。

外部反饋也基本印證了這一點。無論是開發者還是企業用戶，討論的焦點都在變。從「答得準不準」，變成「要改幾次」「能不能一次跑通」。這兩個問題的差別，其實就是模型角色的變化從輔助決策，變成參與執行。

當然，這種變化還遠沒有到「可以完全放手」的程度。多個第三方評測都提到了 GPT-5.5 對任務邊界的依賴更強。需求描述不清，它不會主動幫你補全，而是按現有信息執行。這種「聽話」在某些場景是優點，在另一些場景反而是限制。

但這恰恰說明，它正在變得更像一個真實世界里的協作者。能力沒有突然跨越一代，工作方式確實變了。

GPT-5.5 到底升級了什么？

過去兩年，大模型的升級路徑很清晰：更強的推理、更長的上下文、更高的準確率。GPT-5.5 仍然在做這些，但重點還是變了，OpenAI 就強調了模型更早理解任務、更少依賴提示、更會使用工具，并且能夠持續推進直到完成。

這句話其實也對應的是過去一直存在、但始終沒被徹底解決的一些問題。

一種適合真正工作的新型智能，圖片來源：OpenAI

其一是理解問題，但不理解任務。很多模型在復雜場景里的表現是單步回答很好，但一旦涉及多步驟流程，就會開始偏離，甚至需要用戶不斷修正。GPT-5.5 的變化，是它開始在一開始就建立任務結構，而不是等用戶一步步喂。

其二是會用工具，但不會組織工具。從去年開始，工具調用已經成為大模型的主流能力，但大多數模型只是把工具當成外掛。GPT-5.5 在 Terminal-Bench 和 OSWorld 這類評測中的提升，更重要的是它不只是調用工具，而是把工具變成工作流程的一部分。

其三則是實際的交付質量。過去模型的輸出是「答案」，現在越來越多場景要求的是「結果」，而且是更好、更準確。GPT-5.5 的目標就是減少中斷，讓任務可以連續推進，直到形成一個可以直接使用的輸出。

游戲生成，圖片來源：OpenAI

當然，GPT-5.5 更強了，但也沒有強到「改寫一切」。問題在于，這一輪競爭早就不是單點模型能力的比拼。

今年以來，一個變化已經非常明確。無論是 OpenAI，還是 Google、Anthropic，甚至包括國內的阿里、字節，都在把重點從「更強模型」轉向「智能體系統」。模型只是底座，真正的競爭在于能不能把模型接入工具、接入數據、接入業務流程，讓它真正參與工作。

行業里的關鍵詞也從「推理能力」「上下文長度」，逐漸變成了「agent（智能體）」「workflow（工作流）」「computer use（計算機使用）」。

OpenAI 自己的動作最典型。Codex 的重新被推到臺前，也不是偶然，它天然就是最適合承載智能體能力的入口。

但現在還有一個問題是，GPT-5.5 真的很貴。

前段時間 Claude Opus 4.7 的價格已經勸退了很多，而 OpenAI 雖然強調 GPT-5.5 幾乎是在不犧牲速度和 Token 用量的情況下實現了全面升級，延遲和 GPT-5.4 相當甚至更低，還能用更少的 Token 在 Codex 上完成同樣的任務，但實際 API 價格流出后，還是讓很多開發者心涼了半截：

輸入 5 美元/百萬 tokens、緩存輸入 0.5 美元/百萬 tokens、輸出 30 美元/百萬 tokens，直接在 GPT-5.4 的基礎上翻了一番。

圖片來源：X

頂級模型還是太貴了。只能期待一下傳聞將在本周發布的 DeepSeek V4，希望能夠復刻 2025 年的奇跡，通過這次的多模態升級把智能體模型也能打成白菜價。

寫在最后

從能力上看，它確實更強了，但這種「更強」已經很難再用一次發布就被感知到。沒有那種一上手就明顯不同的驚艷，更像是把過去幾代模型的短板一點點補齊，把原本不穩定的地方變得更可靠。

但換個角度看，這反而是一個更重要的信號。過去大家比的是誰更聰明，現在開始比的是誰更穩定、誰更能融入實際工作、誰能在復雜流程里少出錯。

GPT-5.5 就落在這個階段。它沒有重新定義模型能力的上限，但在「把事情做完」這件事上往前走了一步。而當模型開始能夠真正承擔一部分工作時，真正被改變的就不再只是效率，還有新的工作方式，包括人與 AI 之間的分工關系。

當然，這個過程還遠沒有結束。GPT-5.5 的成本仍然高，能力也還不夠通用，很多場景依然需要人類不斷干預。智能體這件事，從概念走向現實，還要經歷一段很長的打磨周期。

但方向已經很清楚了。當模型開始進入流程，當工具、數據和系統逐漸圍繞它重新組織，當越來越多公司把它當成「工作的一部分」而不是「輔助工具」，這一輪變化就不再只是技術升級。

2026第十九屆北京國際汽車展覽會將于4月24日至5月3日在北京?中國國際展覽中心（順義館）和首都國際會展中心（新國展二期）舉行，本屆車展以“領時代·智未來”為主題，集中展現汽車工業的更多黑科技。
比亞迪、小米、鴻蒙智行（問界等）、小鵬、蔚來、嵐圖等頭部品牌集結，多款重磅新車首秀；地平線、Momenta、卓馭等供應商集體秀肌肉，AI大模型深度賦能，高階智駕、動力電池、超快充技術等前沿科技集中亮相，看點拉滿！
雷科技旗下「電車通」將派出報道團直擊現場，以“關注電動車，更懂智能化”的專業視角，帶來一線獨家報道，敬請關注！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.