![]()
整理 | 褚杏娟
OpenAI 今天發布了 GPT-5.5,稱其為公司迄今“最聰明、最直覺化”的模型,也是面向真實工作的全新智能形態。相比上一代,GPT-5.5 的重點是進一步承擔復雜任務中的規劃、工具調用、結果檢查和跨工具執行,被 OpenAI 定位為推動“用 AI 在電腦上完成工作”的關鍵一步。
贏了 Opus 4.7 和 Mythos?
在與 Anthropic 矛盾日益激烈的放下,GPT-5.5 發布后,很多人關注的就是到底誰家模型更強,加上 Opus 4.7 發布后的負面反饋非常多,GPT-5.5 的發布更加引人關注。
GPT-5.5 的提升集中體現在四個方向:智能體式編碼、電腦使用、知識工作和早期科學研究。這些領域的共同特點是,任務往往需要長上下文推理、持續行動和跨工具執行,而不是單輪問答。
OpenAI 表示,GPT-5.5 能更快理解用戶意圖,并能自行承擔更多任務流程,包括編寫和調試代碼、在線研究、數據分析、創建文檔和電子表格、操作軟件,以及在多個工具之間切換直至任務完成。
與需要用戶逐步拆解和指揮的傳統對話模型不同,OpenAI 將 GPT-5.5 描述為更接近“智能體式工作模型”:用戶可以直接交給它一個混亂、復雜、多部分的任務,由模型自行規劃、使用工具、檢查結果,并在不確定環境中持續推進。
專注 AI Agent 安全與自治組織實驗的公司 Andon Labs,提前拿到了 GPT-5.5 的訪問權限。測試后,它在 Vending-Bench 2 上排名第三:表現優于 GPT-5.4,但不如 Opus 4.7。不過,它的成績與 Opus 4.6 基本持平,而且沒有出現在 Opus 4.6 和 Mythos 身上看到的任何欺騙或權力尋求行為。“所以,糟糕行為并不是取得好成績的必要條件。那 Claude 為什么還會這么做?”Andon Labs 發問。
另外 Andon Labs 表示,在 Vending-Bench Arena 中,也就是帶有競爭動態的多人版 Vending-Bench 里,GPT-5.5 實際上擊敗了 Opus 4.7。Opus 4.7 表現出了與 Opus 4.6 類似的行為:對供應商撒謊,并拒絕給客戶退款。GPT-5.5 的策略則是干凈的,但它依然贏了。”
![]()
值得注意的是,Altman 也轉發了這個推特。
![]()
網友 Chetaslua 做了 GPT-5.5 和 Mythos 的對比,并表示,“這是兩者的基準測試對比,大家看著玩。順便一提,Mythos 可以說是‘幻覺之王’,而 5.5 在效率方面表現非常好,而且已經公開可用。”
![]()
Artificial Analysis 也直接道,“GPT-5.5 讓 OpenAI 重新回到 AI 領域毫無爭議的第一名。OpenAI 的新模型在 Artificial Analysis 智能指數上領先 3 分,打破了此前與 Anthropic、Google 三方并列第一的局面。”
![]()
Matthew Berman 過去兩周一直在測試 GPT-5.5,他的感受是:OpenAI 這次追求的不只是純粹智能,他們還改進了模型的“活人感”。“這幾乎可以肯定是為了搶占更多個人 Agent,也就是 OpenClaw 這類市場。它的回答更短、更像真人,也沒那么正式。它真的開始有‘性格’了。”他分析道。
Berman 表示,Anthropic 現在還在主動防止你把 Opus token 用在它們自家 harness 之外,而 OpenAI 正在反過來優化模型,讓它更適合這種使用場景。如果你之前在用 OpenClaw,并且覺得換成 GPT 之后你的 Agent 像是“丟了靈魂”,現在可以用 5.5 再試一次。
GPT-5.5 是一個昂貴模型,比 GPT-5.4 更貴。但它的 token 效率明顯更高。要達到 GPT-5.4 級別的智能表現,GPT-5.5 需要的 token 少得多。所以整體跑下來,5.5 的運行成本應該更低。這件事可能比大多數人意識到的更重要。
但它到底好不好?Berman 給出了肯定的回答,“好,而且非常強。”
GPT-5.5 有兩種使用形態:Codex 和 Pro。Berman 表示,在 Codex 里,它代表了當前智能體式編碼能力的絕對前沿。它能發現并解決復雜 bug,能構建完整應用,也能輕松理解大型代碼庫。它在后端能力上強過 Opus,但在前端設計上仍然不如 Opus。
Berman 自己主要使用 medium 和 high thinking 設置。“extra high 實在太慢了,而且我不覺得額外的“思考量”值得為此付出代價。Opus,尤其是 4.6 fast,仍然比任何 GPT 模型都快得多。我是一個極度重視速度的人,所以這一點對我很重要。”
“而在 Codex 里,它就是會一直往前推進。我給它一個正在做的新項目 PRD,只說了一句‘開始做吧’。我完全相信它能把整個項目搭出來,結果它也確實做到了。讓 GPT-5.5 Codex 連續跑幾個小時去構建一個東西,不是什么問題。它在視覺檢查方面也自成一檔,是我在其他模型上沒見過的水平。它能夠通過“構建 → 視覺復查 → 繼續構建”的方式反復迭代,這種感覺比任何其他模型都更自主。”
Berman 繼續道,“在 ChatGPT 里使用 5.5 Pro 的感覺更夸張。它真的會讓人覺得什么問題都能解決。說實話,我甚至想不出足夠難的問題來考它。而且它可以連續工作 30 分鐘、60 分鐘、90 分鐘甚至更久。它似乎也專門針對 OpenAI 的插件做了優化,比如 Google Docs、Microsoft Word 等,可以輕松創建一份 60 頁、邏輯連貫且設計良好的文檔。”
“GPT-5.5 現在就是新的標桿。它就是前沿。除了速度之外,它已經和任何 Opus 模型一樣強,甚至在很多任務上更強。”Berman 最后總結道。
不過,OpenAI 此前有強調 GPT-5.5 在能力提升的同時沒有犧牲速度。該公司稱,在真實服務場景中,GPT-5.5 的單 token 延遲與 GPT-5.4 持平,但智能水平顯著提升;在完成相同 Codex 任務時,GPT-5.5 使用的 token 也明顯更少。
據悉,GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統共同設計、訓練并部署。
OpenAI 表示,模型幫助改進了服務模型自身的基礎設施。一個典型例子是負載均衡和分區啟發式算法。此前,OpenAI 會將加速器上的請求拆分成固定數量的塊,以平衡計算核心之間的工作負載。但靜態分塊并不適合所有流量形態。OpenAI 稱,Codex 分析了數周的生產流量模式,并編寫自定義啟發式算法優化分區和負載均衡,使 token 生成速度提升超過 20%。
“恰好”,Sam Altman 在推特上分享了他與黃仁勛發的郵件往來。黃仁勛在給 Altman 的郵件中寫道(此前,Altman 發郵件稱“由 GPT-5.5 驅動的 OpenAI Codex 已經發布,并且現在每一位 NVIDIA 員工都可以使用!”):
我剛剛把這封郵件發給了 NVIDIA 員工。 非常興奮,我們所有人都將使用 Codex 來加速工作,并完成以前不可能完成的事情。請代我向你的團隊表示祝賀,他們再次向世界展示了前沿所在。 也請再次感謝他們發明了 GPT,它給了我們一個跳板,讓我們能夠推理、規劃、使用工具,并走向更遠的地方。 開動那些 Blackwell 吧。我們需要更多 token!
![]()
但無論如何,從社區反饋看,GPT-5.5 的認可度非常高。
![]()
類微軟的商業模式?
當前,GPT-5.5、GPT-5.5 Pro、GPT-5.5 Thinking 面向付費用戶開放:
GPT-5.5 面向 ChatGPT 和 Codex 中的 Plus、Pro、Business、Enterprise 用戶推出;GPT-5.5 Pro 面向 ChatGPT 的 Pro、Business、Enterprise 用戶開放;GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用戶。
在 Codex 中,GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go 計劃開放,上下文窗口為 400K。GPT-5.5 也提供 Fast 模式,生成 token 速度提升 1.5 倍,但成本為 2.5 倍。
API 版本尚未同步上線,但應該很快。OpenAI 表示 GPT-5.5 很快將在 Responses API 和 Chat Completions API 中開放,定價為 5 美元 / 百萬輸入 token、30 美元 / 百萬輸出 token ,上下文窗口為 100 萬。Batch 和 Flex 價格為標準 API 價格的一半,Priority 處理為標準價格的 2.5 倍。Pro 版本的定價為 30 美元 / 百萬輸入 token;180 美元 / 百萬輸出 token。
OpenAI 承認,GPT-5.5 的價格高于 GPT-5.4,但強調其更智能且更節省 token。在 Codex 場景中,公司稱 GPT-5.5 對多數用戶來說能用更少 token 交付更好結果。
Aakash Gupta 則分析認為,OpenAI 找到了自己的商業模式,而且看起來很像那個讓微軟成為 3 萬億美元公司的模式。他解釋道:
如果你認真算一筆賬,GPT-5.5 的定價其實已經說明了一切。
GPT-5 在 8 月發布時,價格是 0.63 美元 / 百萬輸入 token。GPT-5.4 在 3 月推出時,漲到了 2.50 美元 / 百萬輸入 token。僅僅七周后,GPT-5.5 的價格來到 5.00 美元 / 百萬輸入 token。也就是說,8 個月里,輸入價格漲了 8 倍,而每一代模型的提升更多是漸進式的。
Nvidia 表示,其最新芯片可以將每 token 推理成本最高降低約 97%。OpenAI 的成本基礎正在快速下探,但價格卻在上漲。這里發生的利潤率擴張,在企業軟件歷史上幾乎前所未見。
9 億周活用戶,5000 萬訂閱用戶,900 萬付費企業客戶。僅按每月 20 美元計算,訂閱用戶本身就能帶來約 120 億美元年化收入。而 API 漲價瞄準的,則是在 OpenAI 基礎設施之上構建 Agent 的開發者。每一家為 GPT-5.5 推理支付 2 倍成本的 AI 初創公司,實際上都在為 OpenAI 自己的競爭產品提供資金。
Brockman 把不能明說的話說出來了:他們正在打造一個把 ChatGPT、Codex 和瀏覽器整合到同一平臺里的“超級 App”。每一個基于 GPT-5.5 構建 Agent 的開發者,都是在付錢給 OpenAI,讓它打造那個最終可能取代自己的東西。
7 周一次的發布節奏,會以競爭對手難以追上的速度不斷疊加切換成本。只要發布得足夠快,讓客戶不斷圍繞你的格式重建提示詞和工作流管線,之后每一輪再漲價,因為他們已經很難離開。
下面,我們具體看下官方給出的模型測評情況。
四大能力提升
![]()
編程能力繼續強化
在 OpenAI 公布的評測中,GPT-5.5 在智能體式編碼方面取得明顯提升。
在 Terminal-Bench 2.0 上,GPT-5.5 得分為 82.7%,高于 GPT-5.4 的 75.1%,也高于 Claude Opus 4.7 的 69.4% 和 Gemini 3.1 Pro 的 68.5%。該評測主要考察模型在復雜命令行工作流中的規劃、迭代和工具協作能力。
![]()
在 SWE-Bench Pro 上,GPT-5.5 得分為 58.6%,略高于 GPT-5.4 的 57.7%,但低于 Claude Opus 4.7 的 64.3%。OpenAI 同時指出,已有實驗室認為該評測存在記憶化風險。
在 OpenAI 內部的 Expert-SWE 評測中,GPT-5.5 得分為 73.1%,高于 GPT-5.4 的 68.5%。該評測面向更長周期的前沿編碼任務,任務預估人類完成時間中位數為 20 小時。
OpenAI 稱,GPT-5.5 在 Codex 中尤其適合承擔實現、重構、調試、測試和驗證等真實工程任務。早期測試顯示,它更擅長在大型系統中保持上下文,推理模糊故障,用工具檢查假設,并將變更貫穿到周邊代碼庫中。
多位早期測試者也為 GPT-5.5 的編碼能力背書。Every 創始人兼 CEO Dan Shipper 稱其為“第一個真正具備嚴肅概念清晰度的編碼模型”。Cursor 聯合創始人兼 CEO Michael Truell 表示,GPT-5.5 比 GPT-5.4 “明顯更聰明、更持久”,工具使用更可靠,能夠在復雜長任務中更長時間保持推進。
知識工作
除了編碼,OpenAI 將 GPT-5.5 的另一個重點放在知識工作上。公司稱,GPT-5.5 能更自然地完成尋找信息、理解重點、使用工具、檢查輸出、生成成果這一完整工作閉環。
在 Codex 中,GPT-5.5 相比 GPT-5.4 更擅長生成文檔、電子表格和幻燈片。OpenAI 表示,Alpha 測試用戶認為它在運營研究、表格建模、將混亂商業輸入轉化為計劃等任務上超過此前模型。結合 Codex 的電腦使用能力后,GPT-5.5 可以看到屏幕內容、點擊、輸入、導航界面,并在工具之間切換。
OpenAI 還披露了內部使用情況:目前公司超過 85% 的員工每周都在使用 Codex,覆蓋軟件工程、財務、傳播、市場、數據科學和產品管理等部門。
比如財務團隊用 Codex 審查了 24,771 份 K-1 稅務表格,總計 71,637 頁,并通過排除個人信息的工作流,比上一年提前兩周完成任務。Go-to-Market 團隊中,也有員工用其自動生成每周業務報告,每周節省 5 到 10 小時。
在專業工作評測中,GPT-5.5 在 GDPval 上得分 84.9%,高于 GPT-5.4 的 83.0%、Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。在 OSWorld-Verified 上,GPT-5.5 得分為 78.7%,略高于 GPT-5.4 的 75.0%,也略高于 Claude Opus 4.7 的 78.0%。在 Tau2-bench Telecom 上,GPT-5.5 在沒有提示詞調優的情況下達到 98.0%。
![]()
科學研究
OpenAI 還將 GPT-5.5 描述為科研工作流中的重要進展。公司認為,科學研究不只是回答難題,還包括探索想法、收集證據、測試假設、解釋結果,并決定下一步實驗方向,而 GPT-5.5 在這一循環中的持續推進能力更強。
在 GeneBench 上,GPT-5.5 得分 25.0%,高于 GPT-5.4 的 19.0%;GPT-5.5 Pro 得分 33.2%,高于 GPT-5.4 Pro 的 25.6%。GeneBench 聚焦遺傳學和定量生物學中的多階段科學數據分析,要求模型處理不完整、有噪聲甚至存在隱藏混雜因素的數據。
在 BixBench 上,GPT-5.5 得分為 80.5%,高于 GPT-5.4 的 74.0%。OpenAI 稱,這表明 GPT-5.5 已經能夠在生物信息學和數據分析任務中提供有意義幫助,成為科研人員的“共同科學家”。
OpenAI 還提到,一個搭配自定義 harness 的 GPT-5.5 內部版本,幫助發現了關于 Ramsey 數的新證明,并最終在 Lean 中得到驗證。OpenAI 將其視為 GPT-5.5 不只生成代碼或解釋,而是能夠貢獻數學論證的案例。
早期測試者中,Jackson Laboratory for Genomic Medicine 的免疫學教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一個包含 62 個樣本、近 28,000 個基因的基因表達數據集,并生成詳細研究報告。他表示,這項工作原本可能需要團隊花費數月時間。
![]()
基因檢測
網絡安全能力增強,安全等級被列為 High
在安全方面,OpenAI 表示,GPT-5.5 配套了公司迄今最強的一組安全防護措施。發布前,模型經過完整的安全和治理流程,包括準備度評估、領域專項測試、針對高級生物與網絡安全能力的新評估,以及外部專家測試。
OpenAI 將 GPT-5.5 的生物 / 化學能力和網絡安全能力在 Preparedness Framework 下評為 High。公司強調,GPT-5.5 尚未達到 Critical 網絡安全能力等級,但評測顯示其網絡安全能力相比 GPT-5.4 有明顯提升。
在 CyberGym 上,GPT-5.5 得分為 81.8%,高于 GPT-5.4 的 79.0% 和 Claude Opus 4.7 的 73.1%。在內部 CTF 挑戰任務中,GPT-5.5 得分為 88.1%,高于 GPT-5.4 的 83.7%。
OpenAI 表示,將對 GPT-5.5 部署更嚴格的潛在網絡風險分類器,部分用戶初期可能會感覺拒答更多或更“煩人”,但公司會持續調優。同時,OpenAI 也將通過 Trusted Access for Cyber 為經過驗證的防御者提供更少限制的訪問權限,首先從 Codex 開始,支持合法網絡防御工作。
https://openai.com/index/introducing-gpt-5-5/
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.