<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.6和GPT 5.3 Codex同時更新,這波貪了,應該留到春晚再看的

      0
      分享至

      AI圈迎來了新年的第一個雙響炮啊,

      Anthropic剛發了Claude Opus 4.6,OpenAI也發了GPT?5.3-Codex,在Codex app里已經能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評分,它們強化了那些點,以及除了模型本身,還帶來了什么更新。

      先看跑分。

      Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試里,比Sonnet 4.5高了57個點,我第一反應就是我一定要在clawdbot體驗一把Opus 4.6。

      除了記憶好,Opus 4.6在GDPval-AA(44個不同崗位的知識工作任務)上也超了GPT5.2 200多分,感覺Cowork又可以升級一波了。


      隔壁的GPT?5.3-Codex定位是個編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業知識,速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個點,

      夯爆了。


      我仔細對比了一下兩張官方表,發現它們重合的數據集只有一個,Terminal-Bench 2.0,是在終端命令行里進行編程的測試。光看這個評分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個點。

      其他展示出來的數據不能直接拿來硬比,

      SWE-Bench(Agent編程)數據集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評的SWE-Bench Verified只測試Python。

      OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評出來的分數會更加可信,因為Verified修復了300多個數據問題。

      還是來看看它們單個都更新了啥,

      Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個點,在多學科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態下,比GPT5.2Pro多了3個點。



      GPT-5.3-Codex有個指標高到離譜,

      OSWorld-Verified(視覺桌面操作),

      用人話說就是讓AI看截圖換成各種電腦任務,人類基準是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

      融合這個兩個模型的優勢的GPT-5.3-Codex直接干到64.7%,跟這個比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰)的5,6個點的提升都是常規操作了。


      再來看看應用案例。

      Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產品線更新了,

      Claude Code新功能agent teams(智能體團隊),可以讓多個Agent并行工作,適合用在像大規模代碼檢查之類可以被拆成很多個獨立子任務的場景。

      Claude in Excel也更新了,更新了規劃模式,還能給亂七八糟的非結構化數據,自動做一個合適的表格結構。

      還給PPT新出了 research preview,Claude能識別公司品牌的ppt模版,保證布局,字體,顏色都不會變,能針對單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調。


      OpenAI把更多時間放在showcase上,

      他們放了兩個用GPT-5.3-Codex構建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

      兩個游戲我都完整打了一把,這個賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

      潛水我也玩了,本來是想當個超人,一口氣潛到最底的,但是潛到一半就體驗到為什么神秘園會說,那些專業人士潛進去就出不來了。。。

      他們還放出來一個我覺得很蠢的網頁case,理由是GPT-5.3-Codex做這個價格頁面的時候,會把年費展示成打個折的月費,而不是總金額。。。

      奧特曼沒活了可以去咬個打火機

      關于API和定價,Anthropic這次給API加了Adaptive thinking(自適應思考),由Claude 來判斷什么時候打開thinking模式。

      還有四檔Effort(努力程度)可選,默認是high(高),還有low(低),medium(中)和max(最大)。

      還有一個beta功能,當長期對話或者Agent任務快到打到上下文上限的時候,會自動把上下文壓縮成摘要,用摘要替換上下文。價格我做成表格了,


      GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網頁版都能用了,上線就全量,這很不openai。

      說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時代的眼淚了。


      最后說說安全。

      這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


      Anthropic上來先亮了個圖,說這次升級沒有影響我們模型的安全性,這段時間我們做了兩件事。

      第一件事,努力搞清楚模型腦子里到底在想什么。

      他們在做一種可解釋性的新方法,目標是讓研究人員能看見模型為什么會在某些情況下給出某種回答。這樣做的好處是,很多問題在標準測評里不一定暴露,但當你能追到原因,就更容易提前發現風險,比如模型在某些邊緣場景會突然變得很會誤導人。

      第二件事,在模型擅長的領域加了更嚴的防護。

      他們發現 Opus 4.6 在網絡安全上能力更強,能修bug,也能拿去攻擊。所以他們做了六個新的網絡安全探針,用來檢測模型有沒有在輸出可能被濫用的內容。

      隔壁OpenAI在安全上也下了苦功夫,

      他們現在給開源項目免費做體驗,把一些熟悉的壞套路整理成話術識別規則,當我們給gpt發的問題跟某個套路很像的時候,模型就會自動降低問答的詳細程度。

      這次模型更新后,

      明顯感覺我的預期值變高了,以前更新模型我通常還會去測一下文本,代碼,3D的表現,

      但現在隨著Claude Code,Cowork,Clawdbot三連擊,我對于模型的表現處于薛定諤的貓狀態。

      太簡單的測起來沒意思,

      我們現在用Claude Code加一些模型,

      也能夠做到這樣的上限。

      太復雜的,我想以Agent的形式,

      放到我們已有的工作流里長時間來評估它的差異。

      說不定后面模型的更新會成為一種日常的迭代,

      發布會也不開了,

      開始卷Agent形態了,

      我就一個愿望,

      別光跟整理桌面較勁了,

      我桌面都快沒文件了。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

      如果想要第一時間收到推送,不妨給我個星標

      如果你有更有趣的玩法,歡迎在評論區和我聊聊

      更多的內容正在不斷填坑中……


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄烏打完后,俄國際地位會下降到何種地步?看俄羅斯周邊就知道!

      俄烏打完后,俄國際地位會下降到何種地步?看俄羅斯周邊就知道!

      忠于法紀
      2026-05-16 17:49:52
      樊振東正式告別!新征程開啟,國乒態度依舊:王楚欽一個人不行

      樊振東正式告別!新征程開啟,國乒態度依舊:王楚欽一個人不行

      攬星河的筆記
      2026-05-16 22:42:23
      華為贏麻了!微信800人天團適配鴻蒙,安卓、iOS慕了

      華為贏麻了!微信800人天團適配鴻蒙,安卓、iOS慕了

      雷科技
      2026-05-14 18:51:01
      “殺他全家也不解恨”,討薪1560元20次遭拒,農民工怒殺老板全家

      “殺他全家也不解恨”,討薪1560元20次遭拒,農民工怒殺老板全家

      易玄
      2026-05-12 18:58:46
      南京人均GDP,回落到世界平均水平的2倍

      南京人均GDP,回落到世界平均水平的2倍

      安安小小姐姐說城市
      2026-05-14 06:40:14
      菲律賓彈劾大戰升級!眾議院直指參議院混亂“就是沖著莎拉來的”

      菲律賓彈劾大戰升級!眾議院直指參議院混亂“就是沖著莎拉來的”

      秋月寒江
      2026-05-15 22:33:39
      26歲民警因急性白血病引發腦出血,不幸離世!從確診到離世僅11天……妹妹:他生前身體狀況一直很好,我感覺整個世界崩塌了

      26歲民警因急性白血病引發腦出血,不幸離世!從確診到離世僅11天……妹妹:他生前身體狀況一直很好,我感覺整個世界崩塌了

      都市快報橙柿互動
      2026-05-16 00:36:27
      廣東高三9月1號才開學沖上熱搜!網友:廣東終于打破幾十年老規矩

      廣東高三9月1號才開學沖上熱搜!網友:廣東終于打破幾十年老規矩

      輝哥說動漫
      2026-05-16 15:46:00
      76歲的萬科創始人王石,最近徹底成了全網焦點。

      76歲的萬科創始人王石,最近徹底成了全網焦點。

      夢錄的西方史話
      2026-04-23 14:36:39
      撿漏英超大腿!曼聯突襲利物浦舊將,克洛普曾舍不得放走

      撿漏英超大腿!曼聯突襲利物浦舊將,克洛普曾舍不得放走

      瀾歸序
      2026-05-16 06:47:35
      國家一級女演員陳麗云被逮捕!

      國家一級女演員陳麗云被逮捕!

      許三歲
      2026-03-28 09:24:30
      特朗普43歲小兒媳穿旗袍赴宴,華裔設計師作品,前私教自認普通

      特朗普43歲小兒媳穿旗袍赴宴,華裔設計師作品,前私教自認普通

      譯言
      2026-05-15 12:26:05
      加拿大女星穿"牙齒裙"走紅毯,540顆假牙引兩極反應

      加拿大女星穿"牙齒裙"走紅毯,540顆假牙引兩極反應

      熱搜摘要官
      2026-05-16 01:05:51
      維拉4比2擊潰利物浦,鎖定歐冠席位

      維拉4比2擊潰利物浦,鎖定歐冠席位

      慢享生活集
      2026-05-17 01:53:30
      5-1!凱恩踢瘋了:轟入3球,全場最佳,超越萊萬歷史神紀錄

      5-1!凱恩踢瘋了:轟入3球,全場最佳,超越萊萬歷史神紀錄

      足球狗說
      2026-05-16 23:28:26
      褲子上這兩根繩,一定還有它存在的道理!

      褲子上這兩根繩,一定還有它存在的道理!

      新住家居
      2026-05-12 06:06:10
      中微子擁有恐怖極致穿透力,就連一光年厚度的鉛板都無法阻擋,這種微觀粒子背后隱藏著怎樣特殊原理。

      中微子擁有恐怖極致穿透力,就連一光年厚度的鉛板都無法阻擋,這種微觀粒子背后隱藏著怎樣特殊原理。

      心中的麥田
      2026-05-15 20:53:28
      《教父》柯里昂的告誡:利益面前,能力、忠誠都不算數,真正決定你地位的,是這兩個不外露的籌碼

      《教父》柯里昂的告誡:利益面前,能力、忠誠都不算數,真正決定你地位的,是這兩個不外露的籌碼

      心理觀察局
      2026-05-10 09:23:15
      癌癥是基因注定的躲也躲不掉?父母患上5種癌,可能會遺傳下一代

      癌癥是基因注定的躲也躲不掉?父母患上5種癌,可能會遺傳下一代

      芹姐說生活
      2026-05-16 23:17:34
      廣西草根足球巔峰對決“縣超”總決賽開賽,自治區主席韋韜為比賽開球

      廣西草根足球巔峰對決“縣超”總決賽開賽,自治區主席韋韜為比賽開球

      澎湃新聞
      2026-05-16 21:58:30
      2026-05-17 02:04:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
      263文章數 135關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      又想“抹黑”中國 福克斯新聞“翻車”了

      頭條要聞

      又想“抹黑”中國 福克斯新聞“翻車”了

      體育要聞

      馬刺2號,少年老成,這集看過?

      娛樂要聞

      謝霆鋒北京街頭騎行被偶遇,側顏帥炸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      大五座SUV卷王!樂道L80上市 租電15.68萬元起

      態度原創

      藝術
      游戲
      房產
      健康
      公開課

      藝術要聞

      驚!艾米·亞當斯竟是墜入凡間的仙女?

      曝索尼大量神作真有計劃復活!PS日系經典IP已在路上

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      專家揭秘干細胞回輸的安全風險

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产手机在线亚洲精品观看| 亚洲国产精品无码专区| 久久中文字幕日本| 午夜免费福利小电影| **级国产不卡毛片| 男人视频一区二区三区| 亚洲欧美日产综合在线| 亚洲av成人精品免费看| 91伊人网| 午夜福利影院不卡影院| 国产精品自在线拍国产手机版| 日韩欧美亚洲中字幕在线播放| 精品国产自在现线看久久| 在线观看国产精美视频| 亚洲一区二区三区久久受| 九九国产视频| a毛片基地免费大全| 精品97国产免费人成视频| 国产成人久久777777| 99久久精品国产一区二区蜜芽| 无码一区二区三区av免费| av二区三区| 丁香五香天堂网| 国产乱人激情H在线观看| 久久精品无码av| 日韩卡一卡2卡3卡4卡| 尹人97| 91国产超碰在线观看| 人妻少妇精品视频三区二区一区| 国产精品日日摸夜夜添夜夜添无码| 无码av高潮抽搐流白浆在线| 麻豆精品久久久久久久99蜜桃| 国产精品77777| 国产精品综合一区二区三区| 妺妺窝人体色www聚色窝| 国产日产韩国精品视频,| 欧美人做人爱a全程免费| 日韩的一区二区| 国产v亚洲v天堂a无码99| 国产乱XXXXX97国语对白| 性欧美老妇另类xxxx|