網易首頁 > 網易號 > 正文申請入駐

GPT-5.5 Instant：首個被標記「高能力」的即時模型

2026-05-06 12:03:04　來源: 賽博禪心

北京舉報

分享至

Model

今天凌晨，OpenAI 更新了 ChatGPT 的默認模型，從 GPT-5.3 Instant 升級到 GPT-5.5 Instant。你沒看錯...ChatGPT 的默認模型，一直都是 5.3

ChatGPT 模型選擇器，最新三檔都是 5.5 了

這個模型也以 API 的方式向外提供，代號 chat-last：400k 上下文，$5/$30 每百萬 token，與 GPT-5.5 默認版本保持一致

Instant 是 ChatGPT 里每天被數億人用到的那個模型。每次你打開 ChatGPT 隨手問一句話，跑的就是它。這次升級做了三件事：把幻覺砍了一半，把記憶接到了 Gmail，把安全評級拉到了前沿模型的標準

https://developers.openai.com/api/docs/models/chat-latest

按照官方說法，這次升級做了三件事：把幻覺砍了一半、把記憶接到了 Gmail、把安全評級拉到了前沿模型的標準

至于其他要點，我整理在了下方表格，掃一眼就行：

幻覺高危領域（醫療、法律、金融）的幻覺率比 GPT-5.3 Instant 降了 52.5%

跑分 AIME 2025 數學測試從 65.4 跳到 81.2，MMMU-Pro 多模態推理從 69.2 到 76

記憶能檢索過往對話、上傳文件和 Gmail 郵件來個性化回答，先開放給 Plus 和 Pro 用戶

安全第一個被 OpenAI 標記為「高能力」的 Instant 模型（網絡安全 + 生化領域）

開發者 API 代號 chat-latest，GPT-5.3 保留三個月后退役

另外就是：上一版 GPT-5.3 Instant 是 3 月 3 日發的，而 GPT-5.4 并沒有出現在 ChatGPT 里面過

幻覺減了多少

高危問答是這次升級改善最大的地方。OpenAI 的內部測試分了三個場景：日常事實類、用戶標記過錯誤的對話、以及醫療法律金融類高風險問答

在高風險場景下，GPT-5.5 Instant 比 GPT-5.3 Instant 產生的錯誤聲明少了 52.5%。在用戶標記的歷史失敗對話上，錯誤率降了 37.3%

OpenAI 同時發了 System Card，里面給了 HealthBench 的成績：整體從 49.6 漲到 51.4，HealthBench Professional（面向臨床場景）從 32.9 漲到 38.4。漲幅不算炸裂，但方向是對的

注：HealthBench 的評分做了長度調整。回答越長越容易得高分，OpenAI 這次對回答長度做了懲罰系數

System Card 幻覺測試結果：三個場景下 GPT-5.5 Instant 均優于前代

跑分怎么樣

Instant 系列一直被定位為「快而輕」的日常模型，跑分不是它的長項。但這一版的數字還是有些意思

AIME 2025 數學測試 81.2，上一版 65.4。這個 16 分的跳躍，放在 Instant 這個量級的模型上相當少見。MMMU-Pro 多模態推理 76，上一版 69.2。視覺推理、圖表理解、科學題都有進步

還有一點就是回答變短了。OpenAI 說整體用詞量少了約 30%，行數少了約 29%。表情符號也砍了，官方用詞是「不再濫用 emoji」

5.3 vs 5.5 解題演示：新版直接給出準確答案，舊版走了彎路但最終也能檢查出錯誤

With this update, the model's responses are tighter and more to-the-point without losing substance, while keeping the warmth and personality that makes ChatGPT enjoyable to use.

回答更緊湊、更直達要點，但沒有丟掉讓 ChatGPT 好用的那種溫度和個性

打通記憶、打通 Gmail

在 ChatGPT 當中，GPT-5.5 Instant 現在可以調用過去的對話記錄、上傳過的文件、以及你授權接入的 Gmail 郵件，來給出更貼合個人情況的回答。先開放給 Plus 和 Pro 的網頁端用戶，移動端和免費用戶后續跟進

同步上線的還有一個叫 Memory Sources 的功能。每次 ChatGPT 用了你的記憶來回答問題，會在回答旁邊顯示它引用了哪些記憶來源。你可以刪掉過時的，也可以糾正錯誤的

分享對話時，對方看不到你的記憶來源。不想被記住的對話，可以開「臨時聊天」模式

Memory Sources 功能：顯示 ChatGPT 引用了哪些記憶來源來個性化回答

安全評級升了

這是第一個被 OpenAI 的 Preparedness Framework 標記為 「高能力」（High） 的 Instant 模型。之前只有 GPT-5.5 Thinking 這種重量級推理模型才拿到過這個評級

高能力的意思是：模型在網絡安全和生化領域的能力，已經需要額外的安全護欄。OpenAI 給它加了對應的防護措施：模型層面的拒絕訓練、自動化的對話監控、以及賬號級別的執行機制

網絡安全方面，GPT-5.5 Instant 在 CTF（奪旗賽）挑戰上的表現超過了 GPT-5.4 Thinking，但低于 GPT-5.5 Thinking。Cyber Range（模擬真實網絡入侵）綜合通過率 76.9%，和 GPT-5.3 Codex 持平

生化領域，在專家基準測試（TroubleshootingBench）上，GPT-5.5 Instant 的表現低于對比模型，也低于專家基線的 36.4%。但在標準化的多選題測試上已經接近甚至超過了共識專家水平

CTF 網絡安全挑戰：GPT-5.5 Instant 介于 GPT-5.4 Thinking 和 GPT-5.5 Thinking 之間

注：網絡安全評測是在高推理檔位下跑的，實際部署時 Instant 用的是低推理檔位，能力會更低。

退步的地方

System Card 里有幾個數字值得單獨拎出來看。

在「不安全內容」的基準測試中，GPT-5.5 Instant 相比 GPT-5.3 Instant 在兩個類別上出現了統計顯著的退步：暴力血腥內容（gore） 從 0.867 降到 0.703，違禁色情內容（sexual） 從 0.857 降到 0.806。數字越高越好，退步幅度不小

OpenAI 的解釋是：對色情內容加了系統級防護來兜底，對疑似未成年用戶加了額外的年齡保護。但模型本身的能力確實退步了

越獄測試（Jailbreak）也有退步。OpenAI 在 System Card 里直接說了：這些結果是「方向性的而非結論性的」，他們還在迭代評測方法本身

Extremism（極端主義）從 1.0 降到 0.943，Hate（仇恨言論）從 0.904 降到 0.827。雖然 OpenAI 說這些變化沒有達到統計顯著性，但趨勢值得關注

System Card 越獄測試：GPT-5.5 Instant 相比前代有所退步

價格和 API

GPT-5.5 Instant 在 API 中的代號是 chat-latest，即日起替代 GPT-5.3 Instant 成為默認。定價和 GPT-5.5 Thinking 相同：每百萬輸入 token 5 美元，每百萬輸出 token 30 美元

橫向對比一下 OpenAI 的其他模型價格：

在哪能用

GPT-5.5 Instant 今天開始向所有 ChatGPT 用戶滾動更新。免費用戶也能用。付費用戶可以在設置里手動切回 GPT-5.3 Instant，保留三個月

增強個性化（記憶 + Gmail）先給 Plus 和 Pro 的網頁端用戶，Free、Go、Business、Enterprise 后續幾周內跟進。Memory Sources 功能對所有消費者套餐開放

→ 官方公告：openai.com/index/gpt-5-5-instant

→ System Card：deploymentsafety.openai.com/gpt-5-5-instant

→ API 文檔：developers.openai.com/api/docs/models/gpt-5.5

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.