<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      最強大模型GPT-5.5來了,實測:不止是會說人話了

      0
      分享至


      今天繼續聊新模型

      剛剛,OpenAI 放出了 GPT-5.5

      我第一反應是:這節奏有點兇

      昨天還在看各家模型打架,今天 OpenAI 又把桌子往前推了一截。官方說它是“最聰明、最直覺化”的模型,重點能力放在 Agentic Coding、電腦操作、知識工作、科研分析這些硬活上

      說人話:更適合讓它接一整段活,而非只回答一個問題

      升級 Codex 之后,已經能直接用了


      先說結論

      我簡單測試了一圈,感覺很明確:

      GPT-5.5 最大的變化,是它更懂“我要干什么”

      很多模型很強,但用起來像在帶實習生。你得把邊界、格式、語氣、步驟、例外都交代清楚,少說一句就開始自由發揮

      GPT-5.5 給我的感覺是,它會更快抓住任務形狀。尤其是寫代碼、改稿子、做前端、整理信息這些場景,它少繞路,少廢話,少自我感動

      當然,也沒成神

      我拿經典數手指挑戰試了一下,失敗


      這個測試很適合潑冷水

      別看到新模型就以為天下無敵,視覺細節、復雜空間關系、奇怪的人類刁鉆題,模型依然會翻車

      但另一個測試,我讓它做閱讀理解 + SVG 代碼生成 + 審美表達

      確實是一流水平


      這個地方我挺有感觸

      過去很多模型做 SVG,會把“能畫出來”當目標。GPT-5.5 更像是在理解內容之后,順手把視覺層級、構圖、文字密度一起處理了。最終效果談不上設計師畢業作品,但已經明顯脫離“AI 生成味兒太沖”的階段

      還有一個測試,作為彩蛋,文末公布

      官方到底說了什么

      OpenAI 官方文章標題很直接:

      這張圖里最關鍵的詞,其實是:real work

      OpenAI 這次想講的,不只是“模型分數更高了”,它更想強調 GPT-5.5 是一個能干活的模型

      我把官方信息拆成一張表,讀起來更清楚:

      方向

      官方強調

      老章翻譯

      Agentic Coding

      寫代碼、調試、跨文件改動、長期任務

      更適合丟給它一整個工程問題

      Computer Use

      操作軟件、跨工具移動、看屏幕、點擊、輸入

      更像能一起用電腦干活的搭子

      Knowledge Work

      調研、分析數據、生成文檔、表格、PPT

      辦公室里那些雜活,它能接更多

      Scientific Research

      多階段科研分析、代碼、數據、論文上下文

      能陪研究人員從問題走到實驗結果

      Inference Efficiency

      速度接近 GPT-5.4,但能力更強,token 更省

      貴歸貴,但復雜任務上少返工

      Safety

      網絡安全、生物能力做了更強評估和限制

      能力越強,護欄也越厚

      官方原文里有一句話很重要:你可以給 GPT-5.5 一個混亂的、多步驟任務,讓它自己規劃、用工具、檢查結果、穿過模糊地帶繼續推進

      這句話我覺得比 benchmark 更關鍵

      因為過去我們用模型,很多時候像在寫“超詳細說明書”;現在 OpenAI 想把它推進到“你說目標,它自己拆活”的階段

      從官方給出的能力圖譜看,GPT-5.5 主要有四條主線:

      第一,代碼能力繼續增強

      官方給出的 Terminal-Bench 2.0 是 82.7%,GPT-5.4 是 75.1%

      SWE-Bench Pro 是 58.6%,GPT-5.4 是 57.7%

      Expert-SWE 內部評測是 73.1%,GPT-5.4 是 68.5%

      這個提升看起來有的很大,有的沒那么夸張。但我更在意 Terminal-Bench 這種命令行長期任務,因為它真正測的是規劃、執行、出錯后修正、繼續往前走

      編碼評測

      GPT-5.5

      GPT-5.4

      我的理解

      Terminal-Bench 2.0

      82.7%

      75.1%

      長程命令行任務更穩

      SWE-Bench Pro

      58.6%

      57.7%

      真實 GitHub issue 略有提升

      Expert-SWE

      73.1%

      68.5%

      長周期工程任務更強

      第二,知識工作更像真人工作流

      官方提到,GPT-5.5 在 Codex 里生成文檔、表格、幻燈片更強,也更適合做運營調研、財務建模、把混亂業務輸入整理成計劃

      OpenAI 自己也給了幾個內部例子:

      • 通訊團隊用它分析 6 個月演講請求數據,做評分和風險框架

      • 財務團隊用它審查 24,771 份 K-1 稅表,總計 71,637 頁

      • Go-to-Market 團隊有人用它自動生成周報,每周節省 5 到 10 小時

      這幾個例子很有代表性

      AI 真正進入工作流,核心價值常常在處理這些又碎、又長、又不能隨便錯的東西

      第三,長上下文終于更有意義了

      Codex 里 GPT-5.5 是 400K context window,API 計劃給到 1M context window

      但長上下文不能只看長度,還要看能不能在長上下文里找對東西

      官方長上下文評測里,Graphwalks BFS 1mil f1,GPT-5.5 是 45.4%,GPT-5.4 是 9.4%;OpenAI MRCR v2 8-needle 512K-1M,GPT-5.5 是 74.0%,GPT-5.4 是 36.6%

      這兩個數字的意思很樸素:上下文拉長以后,GPT-5.5 更不容易迷路

      長上下文評測

      GPT-5.5

      GPT-5.4

      Graphwalks BFS 1mil f1

      45.4%

      9.4%

      Graphwalks parents 1mil f1

      58.5%

      44.4%

      MRCR 512K-1M

      74.0%

      36.6%

      這對讀 PDF、審代碼庫、看會議記錄、整理大項目文檔都很關鍵

      以前模型上下文很長,但你總擔心它“看是看了,腦子沒帶上”

      這次至少從官方數據看,長上下文檢索和推理能力往前走了一步

      第四,科研和安全能力都被單獨拎出來了

      官方頁里這張圖挺有代表性,是 GPT-5.5 在 Codex 里從一句 prompt 做出來的代數幾何可視化應用:


      GPT-5.5 生成的代數幾何可視化應用

      科研這塊,官方重點提到 GeneBench、BixBench、FrontierMath、GPQA Diamond 等評測

      比如 GeneBench,GPT-5.5 是 25.0%,GPT-5.4 是 19.0%;BixBench 是 80.5%,GPT-5.4 是 74.0%;FrontierMath Tier 4 是 35.4%,GPT-5.4 是 27.1%

      這些題已經超出普通聊天,更接近“讀數據、理解實驗、寫代碼、找問題、解釋結果”的組合題

      安全這塊也很明顯

      Capture-the-Flags 內部任務,GPT-5.5 是 88.1%,GPT-5.4 是 83.7%;CyberGym 是 81.8%,GPT-5.4 是 79.0%

      這說明它在安全攻防理解上也更強了,所以官方同時強調了更嚴格的防護策略

      這地方我挺支持

      模型越來越能寫代碼、找漏洞、操作工具,如果護欄跟不上,麻煩會很大

      第五,推理效率這次也值得看

      OpenAI 說 GPT-5.5 在真實服務里的 per-token latency 能接近 GPT-5.4,同時能力更強

      更有意思的是,他們還說 Codex 和 GPT-5.5 參與了服務它自己的基礎設施優化

      其中一個例子是負載均衡和分區啟發式算法,分析了數周生產流量模式后,token 生成速度提升超過 20%

      這段很科幻

      模型幫助優化運行模型的系統,聽起來像套娃,但這大概率就是未來 AI 基建的常態

      最后說可用性和價格:

      使用入口

      可用范圍

      關鍵信息

      ChatGPT

      Plus、Pro、Business、Enterprise

      可用 GPT-5.5 Thinking

      ChatGPT Pro

      Pro、Business、Enterprise

      可用 GPT-5.5 Pro

      Codex

      Plus、Pro、Business、Enterprise、Edu、Go

      400K context window

      Codex Fast mode

      Codex 中可選

      token 生成速度 1.5 倍,費用 2.5 倍

      API

      即將上線

      gpt-5.5

      是 1M context window

      API 價格也公布了:

      API 模型

      輸入價格

      輸出價格

      gpt-5.5

      5 美元 / 100 萬 token

      30 美元 / 100 萬 token

      gpt-5.5-pro

      30 美元 / 100 萬 token

      180 美元 / 100 萬 token

      Batch 和 Flex 是標準 API 價格的一半,Priority 是標準價格的 2.5 倍

      這個價格不便宜

      所以我的建議很簡單:日常碎活用普通模型,復雜工程、長文檔、多步驟任務,再把 GPT-5.5 請出來

      編程:少一點折騰

      我最關心的還是 Codex

      因為現在 AI 編程模型的問題,很多時候已經從“會不會寫代碼”,變成了“會不會添亂”

      你讓它修一個小 bug,它順手重構半個項目;

      你讓它補一個測試,它開始發明一套新架構;

      你讓它按現有風格改,它偏要展示一下自己的抽象能力

      這些事,大家應該都遇到過

      GPT-5.5 給我的第一印象是:它更收得住

      它更愿意先讀上下文,再判斷改哪里;更愿意沿著原項目風格走;也更能理解“這只是一個小改動”

      這點對工程師很重要

      模型智商高當然好,但真正讓人愿意長期使用的,是它能不能降低心智負擔。你交代一句,它往正確方向走三步,這才叫生產力

      官方也提到,GPT-5.5 在 Codex 里更擅長長程任務,能做實現、重構、調試、測試、驗證這些連續動作

      說白了,就是更像一個能扛事的 Agent

      前端:審美終于往前走了

      前端這個方向,我之前對很多模型都很苛刻

      原因很簡單:前端差一點就很丑

      按鈕間距差一點,信息層級差一點,顏色克制差一點,整個頁面立刻變成“后臺管理系統 2016 懷舊版”

      GPT-5.5 這次在前端上確實有進步

      網友實測也提到,同樣提示下,它生成的 dashboard 比 GPT-5.4 更自然;如果先用 GPT Image 2 做設計方向,再讓 GPT-5.5 實現,組合效果會更穩

      這個思路很值得借鑒

      以后做前端原型,可以這樣玩:

      先讓圖像模型給視覺方向
      再讓 GPT-5.5 還原交互和代碼
      最后人工收口細節

      我試下來也有類似感覺

      GPT-5.5 對“看起來像一個真實產品”這件事更敏感了。它會注意留白、卡片密度、圖標按鈕、狀態提示這些小東西

      當然,如果你完全不給設計約束,它也會偶爾走回老路。所以前端提示詞里,還是建議明確說清楚:目標用戶、產品類型、信息密度、交互狀態、移動端適配

      寫作:它真的更會說人話

      這次最讓我意外的,其實是寫作

      很多模型寫中文,有一種很微妙的“正確廢話感”

      每句話都沒錯,每段都很完整,讀完什么也沒留下

      GPT-5.5 這個問題好了一些

      它更愿意直接進入重點,句子也沒那么端著。寫消息、郵件、帖子、小段文案時,它更容易貼近人的表達習慣

      我看到一段網友日常使用后的評價,說得挺準:

      ? GPT-5.5 感覺更直接、更專注,也更能理解我真正想問什么

      這句話我認可

      尤其是“更直接”

      AI 時代,模型越來越聰明之后,真正稀缺的反倒是克制。別動不動就寫小論文,別每次都強行平衡觀點,別把一句人話翻譯成三段企業公文

      這也是為什么我把標題寫成:會說人話了

      Claude 這邊也很熱鬧
      先生,你剛剛被 GPT 5.5 擊敗了

      這兩天還有一個很有意思的小插曲

      Anthropic 官方發了一篇復盤,解釋最近 Claude Code 質量波動的問題

      重點有三個:

      • 3 月 4 日,Claude Code 的默認 reasoning effort 從 high 調成了 medium,目的是降低延遲,但用戶明顯感到變笨;4 月 7 日撤回

      • 3 月 26 日,一個緩存優化 bug 導致舊 thinking 在部分會話里持續丟失,模型會顯得健忘、重復、工具選擇奇怪;4 月 10 日修復

      • 4 月 16 日,一個減少 verbosity 的系統提示影響了編碼質量;4 月 20 日撤回

      這個復盤很真誠,也很有參考價值

      大模型產品現在已經復雜到一個程度:能力不只來自模型本體,還來自默認參數、系統提示、上下文管理、工具調用、緩存策略、產品 UI

      所以你感覺一個模型“突然變笨”,有時候真未必是幻覺


      更有意思的是,這個復盤剛好在 GPT-5.5 發布當天出來

      時間點過于微妙

      商戰,精彩

      我的使用建議

      如果你問 GPT-5.5 值不值得用,我的建議是:

      值得,但別把它當萬能藥

      適合用 GPT-5.5 的場景:

      • 大型項目里的復雜代碼修改

      • 多文件重構、調試、補測試

      • 需要跨工具完成的資料整理

      • 長文檔閱讀、歸納、改寫

      • 前端原型實現

      • 有明確目標的科研/數據分析輔助

      暫時沒必要用 GPT-5.5 的場景:

      • 簡單問答

      • 日常翻譯

      • 普通摘要

      • 幾十行以內的小腳本

      • 低價值批量生成內容

      原因也很現實:它貴

      貴模型要干貴活

      One More Thing

      文末放個彩蛋

      菜單公布:本文由 GPT-5.5 輔助撰寫,我做了些許修改

      你看出來了嗎?


      如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賴清德專機繞路返航,4架戰機護航盡顯心虛

      賴清德專機繞路返航,4架戰機護航盡顯心虛

      音樂時光的娛樂
      2026-05-05 14:30:00
      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      晚霧空青
      2026-05-06 00:58:31
      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是??怂梗●R刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      每日經濟新聞
      2026-05-05 23:40:29
      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      抽象派大師
      2026-05-03 00:24:53
      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      史海孤雁
      2026-05-05 17:07:19
      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上?;虮笨??

      呀古銅
      2026-05-06 06:09:06
      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      明月清風閣
      2026-05-05 21:25:06
      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      木言觀
      2026-05-05 07:09:57
      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      子芫伴你成長
      2026-05-02 22:50:39
      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      夢想總會變成真
      2026-05-05 21:36:52
      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      最美的巧合
      2026-05-05 16:00:24
      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      行者聊官
      2026-05-05 10:20:23
      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      三農雷哥
      2026-05-04 11:49:13
      百億私募暴雷,52人近1億血汗錢被套!

      百億私募暴雷,52人近1億血汗錢被套!

      三農老歷
      2026-05-05 05:42:41
      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      敘說醫療健康
      2026-05-06 05:00:06
      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      三農老歷
      2026-05-05 15:01:13
      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      懂球帝
      2026-05-06 05:45:10
      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      都市快報橙柿互動
      2026-05-06 00:20:04
      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      孤傲何妨初
      2026-05-06 04:31:12
      2026-05-06 06:56:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      親子
      游戲
      健康
      家居
      教育

      親子要聞

      這個五一,帶寶寶來北海看海啦~銀灘細沙海浪,是小朋友最愛的天

      《生化》電影被噴!游戲黨別在意 新片單純為嚇人

      干細胞治燒燙傷面臨這些“瓶頸”

      家居要聞

      靈動實用 生活藝術場

      教育要聞

      富人才不會把女兒養這么胖!家長曬女兒喝60元礦泉水,被網友群嘲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 男人的天堂va在线无码| 久久国产精品99国产精| 伊人AV在线| 中文字幕天天色色干干| 久久九九久精品国产| 亚洲色大成永久WW网站| 国产女人18毛片水真多1| 亚洲国产av一区二区| 国产V片免费A片视频| 中国精品18videosex性中国| 国产麻豆va精品视频| 中文无码一区二区视频在线播放量| 欧美天天综合色影久久精品| 亚洲第一页综合| 亚洲精品一区二区三区婷婷月| 加勒比伊人久久| 国产又大又硬又粗| 亚洲成AV人片在线观看WWW| 亚洲AV无码一区二区三区性色| 羞羞影院成人午夜爽爽在线| 桃色91| 久久久久久综合网天天| 五月综合激情在线观看视频| 汾阳市| 欧美另类视频一区二区三区| 国产蜜臀精品一区二区三区| 亚洲高清一区二区三区四区| 亚洲真人无码永久在线| 成年网站未满十八禁视频天堂| 国产美熟女乱又伦av果冻传媒| 国产精品成年片在线观看| 国产视频欧美| 日韩免费美熟女中文av| 中文字字幕在线中文乱码| 9丨精品国产高清自在线看| 色婷婷综合久久久久中文| 亚洲日韩欧美自拍他拍| 国产成人无码精品久久涩吧| 色偷偷一区| 久久精品亚洲精品国产色婷 | 亚洲AV综合色区无码|