網易首頁 > 網易號 > 正文申請入駐

最強大模型GPT-5.5來了，實測：不止是會說人話了

2026-04-24 08:45:08　來源: Ai學習的老章

北京舉報

分享至

今天繼續聊新模型

剛剛，OpenAI 放出了 GPT-5.5

我第一反應是：這節奏有點兇

昨天還在看各家模型打架，今天 OpenAI 又把桌子往前推了一截。官方說它是“最聰明、最直覺化”的模型，重點能力放在 Agentic Coding、電腦操作、知識工作、科研分析這些硬活上

說人話：更適合讓它接一整段活，而非只回答一個問題

升級 Codex 之后，已經能直接用了

先說結論

我簡單測試了一圈，感覺很明確：

GPT-5.5 最大的變化，是它更懂“我要干什么”

很多模型很強，但用起來像在帶實習生。你得把邊界、格式、語氣、步驟、例外都交代清楚，少說一句就開始自由發揮

GPT-5.5 給我的感覺是，它會更快抓住任務形狀。尤其是寫代碼、改稿子、做前端、整理信息這些場景，它少繞路，少廢話，少自我感動

當然，也沒成神

我拿經典數手指挑戰試了一下，失敗

這個測試很適合潑冷水

別看到新模型就以為天下無敵，視覺細節、復雜空間關系、奇怪的人類刁鉆題，模型依然會翻車

但另一個測試，我讓它做閱讀理解 + SVG 代碼生成 + 審美表達

確實是一流水平

這個地方我挺有感觸

過去很多模型做 SVG，會把“能畫出來”當目標。GPT-5.5 更像是在理解內容之后，順手把視覺層級、構圖、文字密度一起處理了。最終效果談不上設計師畢業作品，但已經明顯脫離“AI 生成味兒太沖”的階段

還有一個測試，作為彩蛋，文末公布

官方到底說了什么

OpenAI 官方文章標題很直接：

這張圖里最關鍵的詞，其實是：real work

OpenAI 這次想講的，不只是“模型分數更高了”，它更想強調 GPT-5.5 是一個能干活的模型

我把官方信息拆成一張表，讀起來更清楚：

方向

官方強調

老章翻譯

Agentic Coding

寫代碼、調試、跨文件改動、長期任務

更適合丟給它一整個工程問題

Computer Use

操作軟件、跨工具移動、看屏幕、點擊、輸入

更像能一起用電腦干活的搭子

Knowledge Work

調研、分析數據、生成文檔、表格、PPT

辦公室里那些雜活，它能接更多

Scientific Research

多階段科研分析、代碼、數據、論文上下文

能陪研究人員從問題走到實驗結果

Inference Efficiency

速度接近 GPT-5.4，但能力更強，token 更省

貴歸貴，但復雜任務上少返工

Safety

網絡安全、生物能力做了更強評估和限制

能力越強，護欄也越厚

官方原文里有一句話很重要：你可以給 GPT-5.5 一個混亂的、多步驟任務，讓它自己規劃、用工具、檢查結果、穿過模糊地帶繼續推進

這句話我覺得比 benchmark 更關鍵

因為過去我們用模型，很多時候像在寫“超詳細說明書”；現在 OpenAI 想把它推進到“你說目標，它自己拆活”的階段

從官方給出的能力圖譜看，GPT-5.5 主要有四條主線：

第一，代碼能力繼續增強

官方給出的 Terminal-Bench 2.0 是 82.7%，GPT-5.4 是 75.1%

SWE-Bench Pro 是 58.6%，GPT-5.4 是 57.7%

Expert-SWE 內部評測是 73.1%，GPT-5.4 是 68.5%

這個提升看起來有的很大，有的沒那么夸張。但我更在意 Terminal-Bench 這種命令行長期任務，因為它真正測的是規劃、執行、出錯后修正、繼續往前走

編碼評測

GPT-5.5

GPT-5.4

我的理解

Terminal-Bench 2.0

82.7%

75.1%

長程命令行任務更穩

SWE-Bench Pro

58.6%

57.7%

真實 GitHub issue 略有提升

Expert-SWE

73.1%

68.5%

長周期工程任務更強

第二，知識工作更像真人工作流

官方提到，GPT-5.5 在 Codex 里生成文檔、表格、幻燈片更強，也更適合做運營調研、財務建模、把混亂業務輸入整理成計劃

OpenAI 自己也給了幾個內部例子：

通訊團隊用它分析 6 個月演講請求數據，做評分和風險框架
財務團隊用它審查 24,771 份 K-1 稅表，總計 71,637 頁
Go-to-Market 團隊有人用它自動生成周報，每周節省 5 到 10 小時

這幾個例子很有代表性

AI 真正進入工作流，核心價值常常在處理這些又碎、又長、又不能隨便錯的東西

第三，長上下文終于更有意義了

Codex 里 GPT-5.5 是 400K context window，API 計劃給到 1M context window

但長上下文不能只看長度，還要看能不能在長上下文里找對東西

官方長上下文評測里，Graphwalks BFS 1mil f1，GPT-5.5 是 45.4%，GPT-5.4 是 9.4%；OpenAI MRCR v2 8-needle 512K-1M，GPT-5.5 是 74.0%，GPT-5.4 是 36.6%

這兩個數字的意思很樸素：上下文拉長以后，GPT-5.5 更不容易迷路

長上下文評測

GPT-5.5

GPT-5.4

Graphwalks BFS 1mil f1

45.4%

9.4%

Graphwalks parents 1mil f1

58.5%

44.4%

MRCR 512K-1M

74.0%

36.6%

這對讀 PDF、審代碼庫、看會議記錄、整理大項目文檔都很關鍵

以前模型上下文很長，但你總擔心它“看是看了，腦子沒帶上”

這次至少從官方數據看，長上下文檢索和推理能力往前走了一步

第四，科研和安全能力都被單獨拎出來了

官方頁里這張圖挺有代表性，是 GPT-5.5 在 Codex 里從一句 prompt 做出來的代數幾何可視化應用：

GPT-5.5 生成的代數幾何可視化應用

科研這塊，官方重點提到 GeneBench、BixBench、FrontierMath、GPQA Diamond 等評測

比如 GeneBench，GPT-5.5 是 25.0%，GPT-5.4 是 19.0%；BixBench 是 80.5%，GPT-5.4 是 74.0%；FrontierMath Tier 4 是 35.4%，GPT-5.4 是 27.1%

這些題已經超出普通聊天，更接近“讀數據、理解實驗、寫代碼、找問題、解釋結果”的組合題

安全這塊也很明顯

Capture-the-Flags 內部任務，GPT-5.5 是 88.1%，GPT-5.4 是 83.7%；CyberGym 是 81.8%，GPT-5.4 是 79.0%

這說明它在安全攻防理解上也更強了，所以官方同時強調了更嚴格的防護策略

這地方我挺支持

模型越來越能寫代碼、找漏洞、操作工具，如果護欄跟不上，麻煩會很大

第五，推理效率這次也值得看

OpenAI 說 GPT-5.5 在真實服務里的 per-token latency 能接近 GPT-5.4，同時能力更強

更有意思的是，他們還說 Codex 和 GPT-5.5 參與了服務它自己的基礎設施優化

其中一個例子是負載均衡和分區啟發式算法，分析了數周生產流量模式后，token 生成速度提升超過 20%

這段很科幻

模型幫助優化運行模型的系統，聽起來像套娃，但這大概率就是未來 AI 基建的常態

最后說可用性和價格：

使用入口

可用范圍

關鍵信息

ChatGPT

Plus、Pro、Business、Enterprise

可用 GPT-5.5 Thinking

ChatGPT Pro

Pro、Business、Enterprise

可用 GPT-5.5 Pro

Codex

Plus、Pro、Business、Enterprise、Edu、Go

400K context window

Codex Fast mode

Codex 中可選

token 生成速度 1.5 倍，費用 2.5 倍

API

即將上線

gpt-5.5

是 1M context window

API 價格也公布了：

API 模型

輸入價格

輸出價格

gpt-5.5

5 美元 / 100 萬 token

30 美元 / 100 萬 token

gpt-5.5-pro

30 美元 / 100 萬 token

180 美元 / 100 萬 token

Batch 和 Flex 是標準 API 價格的一半，Priority 是標準價格的 2.5 倍

這個價格不便宜

所以我的建議很簡單：日常碎活用普通模型，復雜工程、長文檔、多步驟任務，再把 GPT-5.5 請出來

編程：少一點折騰

我最關心的還是 Codex

因為現在 AI 編程模型的問題，很多時候已經從“會不會寫代碼”，變成了“會不會添亂”

你讓它修一個小 bug，它順手重構半個項目；

你讓它補一個測試，它開始發明一套新架構；

你讓它按現有風格改，它偏要展示一下自己的抽象能力

這些事，大家應該都遇到過

GPT-5.5 給我的第一印象是：它更收得住

它更愿意先讀上下文，再判斷改哪里；更愿意沿著原項目風格走；也更能理解“這只是一個小改動”

這點對工程師很重要

模型智商高當然好，但真正讓人愿意長期使用的，是它能不能降低心智負擔。你交代一句，它往正確方向走三步，這才叫生產力

官方也提到，GPT-5.5 在 Codex 里更擅長長程任務，能做實現、重構、調試、測試、驗證這些連續動作

說白了，就是更像一個能扛事的 Agent

前端：審美終于往前走了

前端這個方向，我之前對很多模型都很苛刻

原因很簡單：前端差一點就很丑

按鈕間距差一點，信息層級差一點，顏色克制差一點，整個頁面立刻變成“后臺管理系統 2016 懷舊版”

GPT-5.5 這次在前端上確實有進步

網友實測也提到，同樣提示下，它生成的 dashboard 比 GPT-5.4 更自然；如果先用 GPT Image 2 做設計方向，再讓 GPT-5.5 實現，組合效果會更穩

這個思路很值得借鑒

以后做前端原型，可以這樣玩：

先讓圖像模型給視覺方向
再讓 GPT-5.5 還原交互和代碼
最后人工收口細節

我試下來也有類似感覺

GPT-5.5 對“看起來像一個真實產品”這件事更敏感了。它會注意留白、卡片密度、圖標按鈕、狀態提示這些小東西

當然，如果你完全不給設計約束，它也會偶爾走回老路。所以前端提示詞里，還是建議明確說清楚：目標用戶、產品類型、信息密度、交互狀態、移動端適配

寫作：它真的更會說人話

這次最讓我意外的，其實是寫作

很多模型寫中文，有一種很微妙的“正確廢話感”

每句話都沒錯，每段都很完整，讀完什么也沒留下

GPT-5.5 這個問題好了一些

它更愿意直接進入重點，句子也沒那么端著。寫消息、郵件、帖子、小段文案時，它更容易貼近人的表達習慣

我看到一段網友日常使用后的評價，說得挺準：

? GPT-5.5 感覺更直接、更專注，也更能理解我真正想問什么

這句話我認可

尤其是“更直接”

AI 時代，模型越來越聰明之后，真正稀缺的反倒是克制。別動不動就寫小論文，別每次都強行平衡觀點，別把一句人話翻譯成三段企業公文

這也是為什么我把標題寫成：會說人話了

Claude 這邊也很熱鬧
先生，你剛剛被 GPT 5.5 擊敗了

這兩天還有一個很有意思的小插曲

Anthropic 官方發了一篇復盤，解釋最近 Claude Code 質量波動的問題

重點有三個：

3 月 4 日，Claude Code 的默認 reasoning effort 從 high 調成了 medium，目的是降低延遲，但用戶明顯感到變笨；4 月 7 日撤回
3 月 26 日，一個緩存優化 bug 導致舊 thinking 在部分會話里持續丟失，模型會顯得健忘、重復、工具選擇奇怪；4 月 10 日修復
4 月 16 日，一個減少 verbosity 的系統提示影響了編碼質量；4 月 20 日撤回

這個復盤很真誠，也很有參考價值

大模型產品現在已經復雜到一個程度：能力不只來自模型本體，還來自默認參數、系統提示、上下文管理、工具調用、緩存策略、產品 UI

所以你感覺一個模型“突然變笨”，有時候真未必是幻覺

更有意思的是，這個復盤剛好在 GPT-5.5 發布當天出來

時間點過于微妙

商戰，精彩

我的使用建議

如果你問 GPT-5.5 值不值得用，我的建議是：

值得，但別把它當萬能藥

適合用 GPT-5.5 的場景：

大型項目里的復雜代碼修改
多文件重構、調試、補測試
需要跨工具完成的資料整理
長文檔閱讀、歸納、改寫
前端原型實現
有明確目標的科研/數據分析輔助

暫時沒必要用 GPT-5.5 的場景：

簡單問答
日常翻譯
普通摘要
幾十行以內的小腳本
低價值批量生成內容

原因也很現實：它貴

貴模型要干貴活

One More Thing

文末放個彩蛋

菜單公布：本文由 GPT-5.5 輔助撰寫，我做了些許修改

你看出來了嗎？

如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.