<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,GPT-5.5 發布!Claude Code 連夜治好降智,「奧特曼癱倒」喜提續集

      0
      分享至

      據外媒 Business Insider 報道,Anthropic 在私募二級市場的估值已突破 1 萬億美元。作為參照,OpenAI 今年 3 月末最新一輪融資的估值,仍停留在 8520 億美元。

      除了業內老生常談的「AI 泡沫論」,這組對比數據也表明了曾經穩坐頭把交椅的 OpenAI,如今正在直面被追趕、被超越的壓力,但沒有讓我們等待多久,OpenAI 的反擊旋即而至。


      就在剛剛,GPT-5.5 正式發布,同步亮相的還有面向更高階任務的 GPT-5.5 Pro 版本。

      如果用一句話總結 GPT-5.5 的核心設計思路,那就是讓用戶把一團雜亂、多步驟的復雜任務直接拋給模型,由它自主規劃路徑、調用工具、校驗結果、消解歧義,并一路推進。

      看似只是 0.1 的版本號迭代,在推理效率上卻判若大版本更新——同樣的 Codex 任務,GPT-5.5 消耗的 token 顯著更少,既更聰明,也更省。


      吐槽了一個多月,偏偏等到 GPT-5.5 發布,Anthropic 才想起要解決降智問題

      GPT-5.5 登場,不講武德的屠榜

      GPT-5.5 的紙面成績非常可觀。

      在知名第三方評測機構 Artificial Analysis 的綜合智能指數榜單上,OpenAI 憑借 GPT-5.5 系列拿下了第一名和第二名,前六席中包攬了四席,競爭對手幾乎毫無招架之力。


      基準測試結果顯示,在 Terminal-Bench 2.0(測試復雜命令行工作流)上,GPT-5.5 達到 82.7%,GPT-5.4 為 75.1%,Claude Opus 4.7 為 69.4%。

      在 SWE-Bench Pro(評估真實 GitHub 問題解決能力)上,GPT-5.5 達到 58.6%,能在單次運行中端到端完成更多任務,超過 GPT-5.4 的 57.7%。


      在 OpenAI 內部的 Expert-SWE 評測上,任務的人類預計完成時間中位數為 20 小時,GPT-5.5 達到 73.1%,GPT-5.4 為 68.5%。且在三項評測上,GPT-5.5 均以更少 token 完成任務。


      只不過,OpenAI 這次也玩起了腳注里的小心思,用一行小字暗戳戳質疑 Claude Opus 4.7 部分成績的可信度。但網友 Deedy 對此并不買賬,在他看來,這行備注更像是轉移注意力 —— 畢竟 OpenAI 自己也沒能拿出一套更透明的公開基準,正面佐證 GPT-5.5 的實力。


      在智能體編碼、computer use(計算機使用)、知識工作和早期科學研究等領域,GPT-5.5 的提升尤為顯著。

      早期測試者反饋,GPT-5.5 在理解大型代碼庫整體結構方面明顯更強,能主動預判潛在問題,提前考慮測試和審查需求,無需額外提示。

      知名評測博主、Every 創始人 Dan Shipper 分享了一個具體案例:他的應用上線后出現問題,自己調試數天未果,最終請來工程師重寫了部分系統。他用 GPT-5.5 重現這一場景,結果模型給出了與工程師相同的解決思路,而 GPT-5.4 則無能為力。

      Cursor 聯合創始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聰明、更有韌性,工具調用更可靠,面對復雜長期任務時能堅持更久而不中途停下。

      更夸張的是,一位英偉達工程師在早期體驗后直言:「失去 GPT-5.5 的訪問權限,感覺就像是我的肢體被截肢了一樣。」


      如無意外,又一個名梗的誕生

      (哈??)不過,考慮到奧特曼看完 GPT-5 演示之后,直接「眩暈無力、癱倒在地」,而且這件事到今天也沒有一個正經解釋,英偉達工程師這句話,好像也沒那么夸張了。


      而在知識工作場景,GPT-5.5 也有著出色的表現。

      在衡量模型橫跨 44 種職業知識工作能力的 GDPval 評測中,GPT-5.5 獲勝或打平比例達 84.9%,GPT-5.4 為 83.0%,Claude Opus 4.7 為 80.3%,Gemini 3.1 Pro 僅 67.3%。

      在 OSWorld-Verified(測試模型能否自主操作真實計算機環境)上,GPT-5.5 達到 78.7%,GPT-5.4 為 75.0%,Claude Opus 4.7 為 78.0%。

      在 Tau2-bench Telecom(測試復雜客服工作流)上,GPT-5.5 在無提示詞調整的情況下達到 98.0%,GPT-5.4 為 92.8%,差距相當明顯。

      在其他專項評測上,GPT-5.5 在 FinanceAgent v1.1 達到 60.0%,內部投行建模任務達到 88.5%,OfficeQA Pro 達到 54.1%(Claude Opus 4.7 為 43.6%,Gemini 3.1 Pro 僅為 18.1%)。

      在 BixBench(圍繞真實生物信息學和數據分析設計)上,GPT-5.5 達到 80.5%,GPT-5.4 為 74.0%,在已發布分數的模型中排名第一。在 GeneBench(測試遺傳學和定量生物學的多階段數據分析)上,GPT-5.5 達到 25.0%,GPT-5.4 為 19.0%,Pro 版本達到 33.2%。這些任務通常對應科學專家數天的工作量。

      OpenAI 內部有超過 85% 的員工每周使用 Codex,覆蓋軟件工程、財務、傳播、市場、數據科學和產品管理等部門。


      財務團隊用 GPT-5.5 審查了 24771 份 K-1 稅務文件,共計 71637 頁,最終比上一年提前兩周完成。傳播團隊打造了一套自動化 Slack 機器人,負責處理低風險請求自動處理,市場團隊的一名員工則用它自動生成每周業務報告,每周節省 5 到 10 小時。

      此外,GPT-5.5 的一大亮點還在于推理基礎設施的協同升級。

      GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統聯合設計和訓練。其中一項關鍵改進是負載均衡和分區策略,Codex 分析了數周的生產流量數據,編寫了自定義啟發式算法來動態優化分區和負載均衡,最終將 token 生成速度提升了超過 20%。

      OpenAI 還指出,GPT-5.5 本身也參與了改進自身推理基礎設施的過程。

      GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 用戶開放,Codex 支持最高 400K 上下文窗口,并提供 1.5 倍速的 Fast 模式(費用為標準價格的 2.5 倍)。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 用戶推出。


      API 版本即將上線,標準定價為每百萬輸入 token 5 美元、每百萬輸出 token 30 美元,上下文窗口為 1M token。批量處理和彈性定價為標準價格的一半,優先處理模式為標準價格的 2.5 倍。

      GPT-5.5 Pro 的 API 定價為每百萬輸入 token 30 美元、每百萬輸出 token 180 美元。OpenAI 表示,由于 token 效率的提升,大多數用戶的實際使用成本不會有明顯增加。閉口不提 Claude Opus 4.7,卻句句都在內涵。

      OpenAI 要做 AI 時代的超級入口

      沒有哪一款模型能收獲一邊倒的評價,GPT-5.5 同樣如此。網友 @chetaslua 用一條提示詞在 Codex 中生成了一個帶有風效應物理引擎的完整網站,物理交互和界面設計一并到位,感嘆「這是我第一次覺得 ChatGPT 可以成為解決一切問題的首選 AI 工具」。


      網友 @petergostev 讓模型生成了一個包含倫敦地標和季節變化的玩具鐵路場景,與 GPT-5.4 的輸出對比后,他的結論是「GPT-5.5 更有野心、一致性更強,錯誤更少」,并在更復雜的應用遷移任務中讓模型連續工作數小時,沒有出現卡殼。


      當然,吐槽的聲音同樣存在。網友 @arrakis_ai 發現,GPT-5.5 在遇到復雜布局時有時會直接生成一張圖片了事,處理圖標需求時會從頭硬寫 SVG 而不調用現成庫,同時頻繁暫停追問用戶,執行力反而不如從前果斷。


      文筆方面, 我的個人體驗也有類似感受。GPT-5.5 確實比前代更會組織語言了,至少已經能說點人話,但依然有一股怪味:「我就在這里,不躲,不藏,不繞,不逃, 穩穩地接住你 」。

      并且, 不少網友也注意到,OpenAI 在基準測試榜單上也動了些營銷的心思。


      網友 Haider 認為,GPT-5.5 和 Mythos 的差距沒有預想的那么懸殊,而 Mythos 定價是 GPT-5.5 的兩倍,且不公開發售。他的判斷是,下一代 GPT 趕上 Mythos 應該問題不大。


      據外媒 Techcrunch 報道,面對記者關于「GPT-5.5 是否具備類似 Mythos 能力」的刺探時,OpenAI 技術人員 Mia Glaese 給出了一個滴水不漏卻暗藏鋒芒的回答:「我們在網絡安全方面有著長期且強有力的戰略,并且已經完善了一套持久的、安全推出模型的方法。」

      話外之音已經十分明朗:單一的強大模型終究只是過客。真到了拼數字防御和企業級落地的深水區,OpenAI 的生態壁壘,才是 B 端客戶唯一穩妥的安全牌。

      而隨著 GPT-5.5 的登場,OpenAI 的野心已經足夠清晰:他們不再滿足于做一個聰明的聊天機器人,而是要親手打造一個吞噬一切工作流的「AI 超級應用(Super app)」。

      在接受外媒采訪時,OpenAI 總裁 Greg Brockman 用了一個詞「自主性(Agentic)」來形容這次模型的進步跨越。與前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、邏輯更清晰,開始展現出主動解決復雜問題的能力。

      這正是邁向超級應用的堅實底座。


      奧特曼今晚異常興奮,還更換頭像了

      所謂超級應用,便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統一服務。想象未來的工作流:人們不必再在瀏覽器、代碼編輯器、數據分析工具之間反復切換。只需對著這個超級應用下達一個宏觀指令,GPT-5.5 就能自主在后臺打開網頁搜集資料、編寫爬蟲代碼、清洗數據,最終直接交付一份完整的分析報告。

      當然,猶如 Claude 與 Claude Code 的強綁定,OpenAI 也意在替 Codex 的增長勢頭加一把火。最近,奧特曼表示,Codex 活躍用戶在突破 300 萬不到兩周后便直逼 400 萬大關,OpenAI 隨之重置速率限制,以「量大管飽」的姿態收割開發者生態。

      一方面,憑借 GPT-5.5 與 GPT-Image-2 的強勢表現,正面回擊了 Anthropic 在估值預期上的壓力;另一方面,則利用 Codex 的生態粘性緊鎖開發者陣地,穩步構筑起橫跨 C 端消費與 B 端企業級服務的完整服務體系。

      攻守之勢異也,今年以來被詬病掉隊的 OpenAI,終于重新找回兩年前的進攻節奏,并將精力放在了踏踏實實打磨產品上。


      附上 OpenAI 官方博客地址:

      https://openai.com/index/introducing-gpt-5-5/

      *封面由 AI 生成

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      21死!1.5萬罰單兌成一朵百米高蘑菇云,華盛煙花廠處罰決定流出

      21死!1.5萬罰單兌成一朵百米高蘑菇云,華盛煙花廠處罰決定流出

      火山詩話
      2026-05-05 10:31:47
      逐漸鬧大!女子玩“懸崖秋千”墜亡,閨蜜玩笑竟一語成讖,通報了

      逐漸鬧大!女子玩“懸崖秋千”墜亡,閨蜜玩笑竟一語成讖,通報了

      阿雹娛樂
      2026-05-06 05:21:05
      瀏陽爆炸已致26人死亡,工廠的“防爆距離”,為什么沒起效?

      瀏陽爆炸已致26人死亡,工廠的“防爆距離”,為什么沒起效?

      社會醬
      2026-05-05 15:44:11
      湖南瀏陽煙花廠爆炸事故已致26人死亡61人受傷,“發布會現場,全體起立,向遇難人員默哀”

      湖南瀏陽煙花廠爆炸事故已致26人死亡61人受傷,“發布會現場,全體起立,向遇難人員默哀”

      都市快報橙柿互動
      2026-05-05 13:48:29
      上海最被“嫌棄”的地鐵線,憑啥逆襲成了漲價之王?

      上海最被“嫌棄”的地鐵線,憑啥逆襲成了漲價之王?

      娛樂洞察點點
      2026-05-05 13:49:15
      A股科技股印鈔機,毛利率40%凈利率20%,社保基金最新重倉5家

      A股科技股印鈔機,毛利率40%凈利率20%,社保基金最新重倉5家

      長風價值掘金
      2026-05-05 18:36:52
      阿森納2-1淘汰馬競!20年后再進歐冠決賽+14場不敗 1.2億巨星制勝

      阿森納2-1淘汰馬競!20年后再進歐冠決賽+14場不敗 1.2億巨星制勝

      我愛英超
      2026-05-06 04:56:33
      墨菲對英國斯諾克前景憂心忡忡:中國現在有二三十個年輕天才球手

      墨菲對英國斯諾克前景憂心忡忡:中國現在有二三十個年輕天才球手

      楊華評論
      2026-05-05 20:44:18
      連續3場3-0橫掃!國乒男團完勝澳大利亞,強勢躋身世乒賽16強

      連續3場3-0橫掃!國乒男團完勝澳大利亞,強勢躋身世乒賽16強

      全景體育V
      2026-05-05 18:28:04
      繩子斷裂女游客已經死亡,事發前一直喊沒綁緊,嚇得快哭了

      繩子斷裂女游客已經死亡,事發前一直喊沒綁緊,嚇得快哭了

      映射生活的身影
      2026-05-05 21:19:42
      性羞辱能教出什么樣的女孩?

      性羞辱能教出什么樣的女孩?

      維舟
      2026-05-05 20:51:46
      一女游客體驗景區懸崖秋千項目高空墜落,景區公告臨時閉園,當地回應

      一女游客體驗景區懸崖秋千項目高空墜落,景區公告臨時閉園,當地回應

      極目新聞
      2026-05-05 18:58:13
      吉利一聲不響換上“朱雀”新車標! 被18個國家搶購,網友:太帥了

      吉利一聲不響換上“朱雀”新車標! 被18個國家搶購,網友:太帥了

      沙雕小琳琳
      2026-05-06 03:36:13
      白洋淀,你欠游客一個道歉:五一空碼頭,是最好的報應!

      白洋淀,你欠游客一個道歉:五一空碼頭,是最好的報應!

      蜉蝣說
      2026-05-05 18:44:40
      俄烏戰爭以來曝俄軍首次大規模敗退!烏克蘭炸毀俄后勤大橋

      俄烏戰爭以來曝俄軍首次大規模敗退!烏克蘭炸毀俄后勤大橋

      項鵬飛
      2026-05-05 19:02:50
      肖磊:剛剛,穆斯林世界第一大“叛徒”誕生了

      肖磊:剛剛,穆斯林世界第一大“叛徒”誕生了

      肖磊看世界
      2026-05-05 16:21:09
      正式確認!再見了,雷霆!兩億頂薪后衛退出G1

      正式確認!再見了,雷霆!兩億頂薪后衛退出G1

      籃球實戰寶典
      2026-05-05 23:31:44
      高市早苗在澳大利亞這一跪,跪出了日本最丑陋的一面!

      高市早苗在澳大利亞這一跪,跪出了日本最丑陋的一面!

      朋筆生輝
      2026-05-05 15:10:25
      里弗斯狂噴追夢:你這輩子全靠庫里,還有臉說我拼爹?

      里弗斯狂噴追夢:你這輩子全靠庫里,還有臉說我拼爹?

      仰臥撐FTUer
      2026-05-06 06:57:13
      魯比奧確認對伊朗“史詩怒火”軍事行動已結束

      魯比奧確認對伊朗“史詩怒火”軍事行動已結束

      財聯社
      2026-05-06 04:08:05
      2026-05-06 07:27:00
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6342文章數 26831關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      旅游
      親子
      數碼
      教育
      公開課

      旅游要聞

      “沒想到,開封這么會‘留人’”(新視窗·聚焦體驗經濟)

      親子要聞

      這個五一,帶寶寶來北海看海啦~銀灘細沙海浪,是小朋友最愛的天

      數碼要聞

      微星“MAG 276QRDY54”27英寸顯示器發售,6299元

      教育要聞

      富人才不會把女兒養這么胖!家長曬女兒喝60元礦泉水,被網友群嘲

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青草伊人久久综在合线亚洲| 成人午夜无码福利视频| 亚洲人成无码WWW久久久| sss亚洲国产欧美一区二区| 制服丝袜中文字幕在线| 日韩全网av在线| 国产成人精品一区二区三区视频| 91成人社区| 国产精品国产三级国产a| 国产在线精品福利一区二区三区| 日本不卡免费新一区二区三区| 亚洲人成人网站色WWW| 精品无码一区在线观看| 无码www毛片一区二区| 久久精品成人无码观看免费| 色就综合8888| 蜜臀av黑人亚洲精品| 国内精品伊人久久久久妇| 四虎国产精品久久免费地址| 91精品人人妻人人澡人人爽人人精东影业 | 亚洲永久网址在线观看| 亚洲AV中文无码字幕色最新| 少妇高潮太爽了在线观看| 中文字幕亚洲一区| 伊人www| 欧洲一级无码AV毛片免费| 亚亚洲乱码一二三四区| 中文字幕无码久久一区| 国产精品美女久久久久久麻豆| 亚洲乱码日产精品一二三| 午夜社区| 日韩欧美+自拍| 久久大香伊蕉在人线免费AV| 亚洲熟妇中文字幕五十av| 男男车车的车车网站w98免费| av在线观看地址| 日本乱码在线| 国产爆乳无码av在线播放| 亚洲h网一区二区三区| 日本www视频男人的天堂| 日本熟妇浓毛|