網易首頁 > 網易號 > 正文申請入駐

GPT-5.5 贏了 Opus 4.7 和 Mythos？奧特曼曬黃仁勛內部信：英偉達全員用上 Codex！

2026-04-24 10:08:08　來源: AI前線

北京舉報

分享至

　　整理 | 褚杏娟

　　OpenAI 今天發布了 GPT-5.5，稱其為公司迄今“最聰明、最直覺化”的模型，也是面向真實工作的全新智能形態。相比上一代，GPT-5.5 的重點是進一步承擔復雜任務中的規劃、工具調用、結果檢查和跨工具執行，被 OpenAI 定位為推動“用 AI 在電腦上完成工作”的關鍵一步。

　　贏了 Opus 4.7 和 Mythos？

　　在與 Anthropic 矛盾日益激烈的放下，GPT-5.5 發布后，很多人關注的就是到底誰家模型更強，加上 Opus 4.7 發布后的負面反饋非常多，GPT-5.5 的發布更加引人關注。

　　GPT-5.5 的提升集中體現在四個方向：智能體式編碼、電腦使用、知識工作和早期科學研究。這些領域的共同特點是，任務往往需要長上下文推理、持續行動和跨工具執行，而不是單輪問答。

　　OpenAI 表示，GPT-5.5 能更快理解用戶意圖，并能自行承擔更多任務流程，包括編寫和調試代碼、在線研究、數據分析、創建文檔和電子表格、操作軟件，以及在多個工具之間切換直至任務完成。

　　與需要用戶逐步拆解和指揮的傳統對話模型不同，OpenAI 將 GPT-5.5 描述為更接近“智能體式工作模型”：用戶可以直接交給它一個混亂、復雜、多部分的任務，由模型自行規劃、使用工具、檢查結果，并在不確定環境中持續推進。

　　專注 AI Agent 安全與自治組織實驗的公司 Andon Labs，提前拿到了 GPT-5.5 的訪問權限。測試后，它在 Vending-Bench 2 上排名第三：表現優于 GPT-5.4，但不如 Opus 4.7。不過，它的成績與 Opus 4.6 基本持平，而且沒有出現在 Opus 4.6 和 Mythos 身上看到的任何欺騙或權力尋求行為。“所以，糟糕行為并不是取得好成績的必要條件。那 Claude 為什么還會這么做？”Andon Labs 發問。

　　另外 Andon Labs 表示，在 Vending-Bench Arena 中，也就是帶有競爭動態的多人版 Vending-Bench 里，GPT-5.5 實際上擊敗了 Opus 4.7。Opus 4.7 表現出了與 Opus 4.6 類似的行為：對供應商撒謊，并拒絕給客戶退款。GPT-5.5 的策略則是干凈的，但它依然贏了。”

　　值得注意的是，Altman 也轉發了這個推特。

　　網友 Chetaslua 做了 GPT-5.5 和 Mythos 的對比，并表示，“這是兩者的基準測試對比，大家看著玩。順便一提，Mythos 可以說是‘幻覺之王’，而 5.5 在效率方面表現非常好，而且已經公開可用。”

　　Artificial Analysis 也直接道，“GPT-5.5 讓 OpenAI 重新回到 AI 領域毫無爭議的第一名。OpenAI 的新模型在 Artificial Analysis 智能指數上領先 3 分，打破了此前與 Anthropic、Google 三方并列第一的局面。”

　　Matthew Berman 過去兩周一直在測試 GPT-5.5，他的感受是：OpenAI 這次追求的不只是純粹智能，他們還改進了模型的“活人感”。“這幾乎可以肯定是為了搶占更多個人 Agent，也就是 OpenClaw 這類市場。它的回答更短、更像真人，也沒那么正式。它真的開始有‘性格’了。”他分析道。

　　Berman 表示，Anthropic 現在還在主動防止你把 Opus token 用在它們自家 harness 之外，而 OpenAI 正在反過來優化模型，讓它更適合這種使用場景。如果你之前在用 OpenClaw，并且覺得換成 GPT 之后你的 Agent 像是“丟了靈魂”，現在可以用 5.5 再試一次。

　　GPT-5.5 是一個昂貴模型，比 GPT-5.4 更貴。但它的 token 效率明顯更高。要達到 GPT-5.4 級別的智能表現，GPT-5.5 需要的 token 少得多。所以整體跑下來，5.5 的運行成本應該更低。這件事可能比大多數人意識到的更重要。

　　但它到底好不好？Berman 給出了肯定的回答，“好，而且非常強。”

　　GPT-5.5 有兩種使用形態：Codex 和 Pro。Berman 表示，在 Codex 里，它代表了當前智能體式編碼能力的絕對前沿。它能發現并解決復雜 bug，能構建完整應用，也能輕松理解大型代碼庫。它在后端能力上強過 Opus，但在前端設計上仍然不如 Opus。

　　Berman 自己主要使用 medium 和 high thinking 設置。“extra high 實在太慢了，而且我不覺得額外的“思考量”值得為此付出代價。Opus，尤其是 4.6 fast，仍然比任何 GPT 模型都快得多。我是一個極度重視速度的人，所以這一點對我很重要。”

　　“而在 Codex 里，它就是會一直往前推進。我給它一個正在做的新項目 PRD，只說了一句‘開始做吧’。我完全相信它能把整個項目搭出來，結果它也確實做到了。讓 GPT-5.5 Codex 連續跑幾個小時去構建一個東西，不是什么問題。它在視覺檢查方面也自成一檔，是我在其他模型上沒見過的水平。它能夠通過“構建 → 視覺復查 → 繼續構建”的方式反復迭代，這種感覺比任何其他模型都更自主。”

　　Berman 繼續道，“在 ChatGPT 里使用 5.5 Pro 的感覺更夸張。它真的會讓人覺得什么問題都能解決。說實話，我甚至想不出足夠難的問題來考它。而且它可以連續工作 30 分鐘、60 分鐘、90 分鐘甚至更久。它似乎也專門針對 OpenAI 的插件做了優化，比如 Google Docs、Microsoft Word 等，可以輕松創建一份 60 頁、邏輯連貫且設計良好的文檔。”

　　“GPT-5.5 現在就是新的標桿。它就是前沿。除了速度之外，它已經和任何 Opus 模型一樣強，甚至在很多任務上更強。”Berman 最后總結道。

　　不過，OpenAI 此前有強調 GPT-5.5 在能力提升的同時沒有犧牲速度。該公司稱，在真實服務場景中，GPT-5.5 的單 token 延遲與 GPT-5.4 持平，但智能水平顯著提升；在完成相同 Codex 任務時，GPT-5.5 使用的 token 也明顯更少。

　　據悉，GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統共同設計、訓練并部署。

　　OpenAI 表示，模型幫助改進了服務模型自身的基礎設施。一個典型例子是負載均衡和分區啟發式算法。此前，OpenAI 會將加速器上的請求拆分成固定數量的塊，以平衡計算核心之間的工作負載。但靜態分塊并不適合所有流量形態。OpenAI 稱，Codex 分析了數周的生產流量模式，并編寫自定義啟發式算法優化分區和負載均衡，使 token 生成速度提升超過 20%。

　　“恰好”，Sam Altman 在推特上分享了他與黃仁勛發的郵件往來。黃仁勛在給 Altman 的郵件中寫道（此前，Altman 發郵件稱“由 GPT-5.5 驅動的 OpenAI Codex 已經發布，并且現在每一位 NVIDIA 員工都可以使用！”）：

我剛剛把這封郵件發給了 NVIDIA 員工。非常興奮，我們所有人都將使用 Codex 來加速工作，并完成以前不可能完成的事情。請代我向你的團隊表示祝賀，他們再次向世界展示了前沿所在。也請再次感謝他們發明了 GPT，它給了我們一個跳板，讓我們能夠推理、規劃、使用工具，并走向更遠的地方。開動那些 Blackwell 吧。我們需要更多 token！

　　但無論如何，從社區反饋看，GPT-5.5 的認可度非常高。

　　類微軟的商業模式？

　　當前，GPT-5.5、GPT-5.5 Pro、GPT-5.5 Thinking 面向付費用戶開放：

　　GPT-5.5 面向 ChatGPT 和 Codex 中的 Plus、Pro、Business、Enterprise 用戶推出；GPT-5.5 Pro 面向 ChatGPT 的 Pro、Business、Enterprise 用戶開放；GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用戶。

　　在 Codex 中，GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go 計劃開放，上下文窗口為 400K。GPT-5.5 也提供 Fast 模式，生成 token 速度提升 1.5 倍，但成本為 2.5 倍。

　　API 版本尚未同步上線，但應該很快。OpenAI 表示 GPT-5.5 很快將在 Responses API 和 Chat Completions API 中開放，定價為 5 美元 / 百萬輸入 token、30 美元 / 百萬輸出 token ，上下文窗口為 100 萬。Batch 和 Flex 價格為標準 API 價格的一半，Priority 處理為標準價格的 2.5 倍。Pro 版本的定價為 30 美元 / 百萬輸入 token；180 美元 / 百萬輸出 token。

　　OpenAI 承認，GPT-5.5 的價格高于 GPT-5.4，但強調其更智能且更節省 token。在 Codex 場景中，公司稱 GPT-5.5 對多數用戶來說能用更少 token 交付更好結果。

　　Aakash Gupta 則分析認為，OpenAI 找到了自己的商業模式，而且看起來很像那個讓微軟成為 3 萬億美元公司的模式。他解釋道：

　　如果你認真算一筆賬，GPT-5.5 的定價其實已經說明了一切。

　　GPT-5 在 8 月發布時，價格是 0.63 美元 / 百萬輸入 token。GPT-5.4 在 3 月推出時，漲到了 2.50 美元 / 百萬輸入 token。僅僅七周后，GPT-5.5 的價格來到 5.00 美元 / 百萬輸入 token。也就是說，8 個月里，輸入價格漲了 8 倍，而每一代模型的提升更多是漸進式的。

　　Nvidia 表示，其最新芯片可以將每 token 推理成本最高降低約 97%。OpenAI 的成本基礎正在快速下探，但價格卻在上漲。這里發生的利潤率擴張，在企業軟件歷史上幾乎前所未見。

　　9 億周活用戶，5000 萬訂閱用戶，900 萬付費企業客戶。僅按每月 20 美元計算，訂閱用戶本身就能帶來約 120 億美元年化收入。而 API 漲價瞄準的，則是在 OpenAI 基礎設施之上構建 Agent 的開發者。每一家為 GPT-5.5 推理支付 2 倍成本的 AI 初創公司，實際上都在為 OpenAI 自己的競爭產品提供資金。

　　Brockman 把不能明說的話說出來了：他們正在打造一個把 ChatGPT、Codex 和瀏覽器整合到同一平臺里的“超級 App”。每一個基于 GPT-5.5 構建 Agent 的開發者，都是在付錢給 OpenAI，讓它打造那個最終可能取代自己的東西。

　　7 周一次的發布節奏，會以競爭對手難以追上的速度不斷疊加切換成本。只要發布得足夠快，讓客戶不斷圍繞你的格式重建提示詞和工作流管線，之后每一輪再漲價，因為他們已經很難離開。

　　下面，我們具體看下官方給出的模型測評情況。

　　四大能力提升

　　編程能力繼續強化

　　在 OpenAI 公布的評測中，GPT-5.5 在智能體式編碼方面取得明顯提升。

　　在 Terminal-Bench 2.0 上，GPT-5.5 得分為 82.7%，高于 GPT-5.4 的 75.1%，也高于 Claude Opus 4.7 的 69.4% 和 Gemini 3.1 Pro 的 68.5%。該評測主要考察模型在復雜命令行工作流中的規劃、迭代和工具協作能力。

　　在 SWE-Bench Pro 上，GPT-5.5 得分為 58.6%，略高于 GPT-5.4 的 57.7%，但低于 Claude Opus 4.7 的 64.3%。OpenAI 同時指出，已有實驗室認為該評測存在記憶化風險。

　　在 OpenAI 內部的 Expert-SWE 評測中，GPT-5.5 得分為 73.1%，高于 GPT-5.4 的 68.5%。該評測面向更長周期的前沿編碼任務，任務預估人類完成時間中位數為 20 小時。

　　OpenAI 稱，GPT-5.5 在 Codex 中尤其適合承擔實現、重構、調試、測試和驗證等真實工程任務。早期測試顯示，它更擅長在大型系統中保持上下文，推理模糊故障，用工具檢查假設，并將變更貫穿到周邊代碼庫中。

　　多位早期測試者也為 GPT-5.5 的編碼能力背書。Every 創始人兼 CEO Dan Shipper 稱其為“第一個真正具備嚴肅概念清晰度的編碼模型”。Cursor 聯合創始人兼 CEO Michael Truell 表示，GPT-5.5 比 GPT-5.4 “明顯更聰明、更持久”，工具使用更可靠，能夠在復雜長任務中更長時間保持推進。

　　知識工作

　　除了編碼，OpenAI 將 GPT-5.5 的另一個重點放在知識工作上。公司稱，GPT-5.5 能更自然地完成尋找信息、理解重點、使用工具、檢查輸出、生成成果這一完整工作閉環。

　　在 Codex 中，GPT-5.5 相比 GPT-5.4 更擅長生成文檔、電子表格和幻燈片。OpenAI 表示，Alpha 測試用戶認為它在運營研究、表格建模、將混亂商業輸入轉化為計劃等任務上超過此前模型。結合 Codex 的電腦使用能力后，GPT-5.5 可以看到屏幕內容、點擊、輸入、導航界面，并在工具之間切換。

　　OpenAI 還披露了內部使用情況：目前公司超過 85% 的員工每周都在使用 Codex，覆蓋軟件工程、財務、傳播、市場、數據科學和產品管理等部門。

　　比如財務團隊用 Codex 審查了 24,771 份 K-1 稅務表格，總計 71,637 頁，并通過排除個人信息的工作流，比上一年提前兩周完成任務。Go-to-Market 團隊中，也有員工用其自動生成每周業務報告，每周節省 5 到 10 小時。

　　在專業工作評測中，GPT-5.5 在 GDPval 上得分 84.9%，高于 GPT-5.4 的 83.0%、Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。在 OSWorld-Verified 上，GPT-5.5 得分為 78.7%，略高于 GPT-5.4 的 75.0%，也略高于 Claude Opus 4.7 的 78.0%。在 Tau2-bench Telecom 上，GPT-5.5 在沒有提示詞調優的情況下達到 98.0%。

　　科學研究

　　OpenAI 還將 GPT-5.5 描述為科研工作流中的重要進展。公司認為，科學研究不只是回答難題，還包括探索想法、收集證據、測試假設、解釋結果，并決定下一步實驗方向，而 GPT-5.5 在這一循環中的持續推進能力更強。

　　在 GeneBench 上，GPT-5.5 得分 25.0%，高于 GPT-5.4 的 19.0%；GPT-5.5 Pro 得分 33.2%，高于 GPT-5.4 Pro 的 25.6%。GeneBench 聚焦遺傳學和定量生物學中的多階段科學數據分析，要求模型處理不完整、有噪聲甚至存在隱藏混雜因素的數據。

　　在 BixBench 上，GPT-5.5 得分為 80.5%，高于 GPT-5.4 的 74.0%。OpenAI 稱，這表明 GPT-5.5 已經能夠在生物信息學和數據分析任務中提供有意義幫助，成為科研人員的“共同科學家”。

　　OpenAI 還提到，一個搭配自定義 harness 的 GPT-5.5 內部版本，幫助發現了關于 Ramsey 數的新證明，并最終在 Lean 中得到驗證。OpenAI 將其視為 GPT-5.5 不只生成代碼或解釋，而是能夠貢獻數學論證的案例。

　　早期測試者中，Jackson Laboratory for Genomic Medicine 的免疫學教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一個包含 62 個樣本、近 28,000 個基因的基因表達數據集，并生成詳細研究報告。他表示，這項工作原本可能需要團隊花費數月時間。

　　基因檢測

　　網絡安全能力增強，安全等級被列為 High

　　在安全方面，OpenAI 表示，GPT-5.5 配套了公司迄今最強的一組安全防護措施。發布前，模型經過完整的安全和治理流程，包括準備度評估、領域專項測試、針對高級生物與網絡安全能力的新評估，以及外部專家測試。

　　OpenAI 將 GPT-5.5 的生物 / 化學能力和網絡安全能力在 Preparedness Framework 下評為 High。公司強調，GPT-5.5 尚未達到 Critical 網絡安全能力等級，但評測顯示其網絡安全能力相比 GPT-5.4 有明顯提升。

　　在 CyberGym 上，GPT-5.5 得分為 81.8%，高于 GPT-5.4 的 79.0% 和 Claude Opus 4.7 的 73.1%。在內部 CTF 挑戰任務中，GPT-5.5 得分為 88.1%，高于 GPT-5.4 的 83.7%。

　　OpenAI 表示，將對 GPT-5.5 部署更嚴格的潛在網絡風險分類器，部分用戶初期可能會感覺拒答更多或更“煩人”，但公司會持續調優。同時，OpenAI 也將通過 Trusted Access for Cyber 為經過驗證的防御者提供更少限制的訪問權限，首先從 Codex 開始，支持合法網絡防御工作。

　　https://openai.com/index/introducing-gpt-5-5/

　　聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.