<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.7深夜上線,評分碾壓

      0
      分享至


      想不到,風口浪尖上的 Claude 又大更新了。

      周四晚間,Anthropic 宣布旗下最新款基礎模型 Claude Opus 4.7 全面上市。

      Opus 4.7 在高級軟件工程方面相比 Opus 4.6 有了顯著提升,尤其是在處理最復雜的任務方面。用戶反饋表示,他們現在可以放心地將以前需要密切監督的最棘手的編碼工作交給 Opus 4.7 處理。Opus 4.7 能夠嚴謹且一致地處理復雜、耗時的任務,精準地執行指令,并在返回結果之前設計出驗證自身輸出的方法。

      該模型還擁有明顯更佳的視覺效果:它能夠識別更高分辨率的圖像,完成專業任務時,更具品味和創造力,能夠制作出更高質量的界面、幻燈片和文檔。而且,盡管它的功能不如剛公布的最強模型 Claude Mythos Preview 全面,但在多項基準測試中,它的表現都優于 Opus 4.6:


      可見 SWE-bench Pro 的分數達到了 64.3%,遠高于 GPT-5.4 的 57.7%。

      Opus 4.7 已在所有 Claude 產品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平臺上推出。定價與 Opus 4.6 相同:每百萬個輸入 token 5 美元,每百萬個輸出 token 25 美元。開發者可通過 Claude API 使用。

      根據目前大家的使用反饋,新模型更加嚴謹,復雜任務的一致性也更強了,在最困難的編程任務上進步明顯。當然這也不是沒有代價的:


      以下是 Opus 4.7 早期測試的一些亮點:

      • 指令執行能力,Opus 4.7 的表現有了顯著提升。有趣的是,這意味著之前版本編寫的提示信息現在有時可能會產生意想不到的結果:之前的版本對指令的解釋較為寬泛,甚至完全跳過某些部分,而 Opus 4.7 則會嚴格按照指令執行。用戶應據此調整提示信息和相關設置。

      • 改進的多模態支持。Opus 4.7 對高分辨率圖像的處理能力更強:它可以處理長邊高達 2576 像素(約 375 萬像素)的圖像,是之前 Claude 型號的三倍以上。這為依賴精細視覺細節的多模態應用開辟了廣闊的空間:智能體可以讀取密集屏幕截圖、從復雜圖表中提取數據以及需要像素級精確參考的工作。

      • 實際應用能力提升。除了在財務代理評估中獲得領先水平(見上表)外,Anthropic 的內部測試表明,Opus 4.7 比 Opus 4.6 更高效地進行財務分析,能夠生成嚴謹的分析和模型,呈現更專業的演示文稿,并在各項任務之間實現更緊密的整合。Opus 4.7 在 GDPval-AA 評估中也處于領先水平。

      • 內存占用方面,Opus 4.7 更擅長利用文件系統內存。它能記住長時間、多會話工作中的重要筆記,并利用這些筆記繼續執行新的任務,因此這些新任務對預先獲取的上下文信息要求更低。








      Claude Code 負責人 Boris Cherny 介紹了 Claude Opus 4.7 的一些最新特性。

      #01

      自動模式

      Opus 4.7 喜歡執行復雜、長時間運行的任務,比如深度研究、重構代碼、構建復雜功能、迭代直到達到性能基準。過去,你要么得在模型執行這類長時間任務時全程監督,要么使用 --dangerously-skip-permissions。

      自動模式作為一種更安全的替代方案,在這種模式下,權限提示會被路由到一個基于模型的分類器,來決定命令是否安全執行。如果安全,它就會自動批準。

      這意味著模型運行時不再需要全程監督。更重要的是,這意味著你可以并行運行更多 Claude。一旦一個 Claude 開始運行,你就可以將注意力轉向下一個 Claude。


      #02

      新的/fewer-permission-prompts 技能

      它會掃描你的會話歷史記錄,找出常見的 bash 和 MCP 命令,這些命令是安全的,也導致了重復的權限提示。然后,它會推薦一個命令列表,將其添加到你的權限白名單中。

      你可以使用此功能來優化你的權限設置,避免不必要的權限提示。

      #03

      「回顧」

      回顧是對智能體所做的事情及下一步行動的簡短總結,它可以在幾分鐘或幾小時后返回一個長時間運行的會話。


      #04

      專注模式

      CLI 中加入了專注模式,它會隱藏所有中間步驟,只專注于最終結果。新模型已經達到了這樣一個程度,我們通常信任它會運行正確的命令并進行正確的編輯,只需要查看最終結果。

      你可以使用 /focus 進行開關。

      #05

      自適應的思考深度

      Opus 4.7 使用自適應思考而非思考預算。要調整模型的思考多 / 少程度,Anthropic 推薦調整努力程度。

      使用較低努力程度可獲得更快的響應和更低的令牌使用量。使用較高努力程度可獲得最高智能和能力。

      Boris Cherny 表示,大多數任務可以使用 xhigh 努力程度,對最困難的任務使用 max 努力程度。Max 僅適用于當前的會話;其他努力程度是粘性的,并將在下一次會話中持續存在。

      /effort 用于設置努力程度。


      #06

      給 Claude 一個驗證其工作的方式

      最后,確保 Claude 有一種驗證其工作的方式。這一直是一種能讓你從 Claude 獲得 2-3 倍產出的方法,而且在 4.7 版本中,這比以往任何時候都更重要。

      驗證方式因任務而異。對于后端工作,確保 Claude 知道如何啟動您的服務器 / 服務來進行端到端測試;對于前端工作,使用 Claude Chromium 擴展程序,讓 Claude 能夠控制您的瀏覽器;對于桌面應用,使用 computer use。

      Boris Cherny 稱自己最近的許多提示都像這樣:「Claude 做 blah blah /go」。/go 是一種技能,它讓 Claude 1)使用 bash、瀏覽器或 computer use 進行端到端自我測試;2)運行 /simplify 技能;3)提交一個 PR。

      上周 Anthropic 發布了 「Project Glasswing」項目,重點闡述了人工智能模型在網絡安全領域的風險與優勢。Anthropic 宣布將限制 Claude Mythos Preview 的發布范圍,并首先在功能較弱的模型上測試新的網絡安全防護措施。

      Opus 4.7 即是首個此類模型:其網絡安全能力不如 Mythos Preview(Anthropic 表示在訓練過程中嘗試了多種方法來逐步降低其網絡安全能力)。發布時的 Opus 4.7 配備了安全防護措施,能夠自動檢測并阻止表明存在違禁或高風險網絡安全用途的請求。

      Anthropic 將從這些安全防護措施的實際部署中獲得經驗,從而最終實現 Mythos 級模型的廣泛發布目標。

      總體而言,Opus 4.7 的安全性能與 Opus 4.6 相似:Anthropic 的評估顯示,其出現欺騙、奉承和與濫用者合作等令人擔憂的行為的比例較低。在某些指標上,例如誠實度和抵御惡意「快速注入」攻擊的能力,Opus 4.7 比 Opus 4.6 有所改進;但在其他指標,例如在管制藥物方面提供過于詳細的減害建議的傾向上 Opus 4.7 略有不足。

      Anthropic 的一致性評估得出結論,該模型「總體上一致性良好且值得信賴,但其行為并非完全理想」。值得注意的是,根據評估,Mythos Preview 仍然是一致性最佳的模型。


      根據自動化行為審核,總體行為偏差得分如上。

      除了 Claude Opus 4.7 本身之外,Anthropic 還將推出以下更新:

      更精細的難度控制:Opus 4.7 新增了一個介于 high 和 max 之間的 xhigh「超高」級別,使用戶能夠更精確地控制在解決難題時推理速度和延遲之間的權衡。在 Claude Code 中,Anthropic 已將所有套餐的默認級別提升至 xhigh。在測試 Opus 4.7 的編碼和智能體應用場景時,建議從 high 或 xhigh 級別開始。

      在 Claude 平臺(API)上:除了支持更高分辨率的圖像外,Anthropic 還在公開測試版中推出了任務預算,讓開發者能夠引導 Claude 的 token 支出,以便它可以優先處理較長時間內的工作。

      在 Claude Code 中:新增的 /ultrareview 斜杠命令會創建一個專門的審查會話,讀取所有更改并標記出細心的審查員能夠發現的錯誤和設計問題。Anthropic 為 Claude Code Pro 和 Max 用戶提供三次免費的超強審查機會供試用。Anthropic 還將自動模式擴展到了 Max 用戶。自動模式是一項新的權限選項,Claude 會替你做出決策,這意味著可以運行更長時間的任務,減少中斷,并且比人類選擇跳過所有權限的風險更低。

      Opus 4.7 是 Opus 4.6 的直接升級版,但有兩個變化值得關注,因為它們會影響 token 的使用。首先,Opus 4.7 使用了更新的分詞器,改進了模型處理文本的方式。因此外界認為它大概率是一個新的基礎模型,甚至可能是從 Mythos 提煉而來的。

      但代價是,相同的輸入可能會映射到更多的詞元 —— 根據內容類型的不同,大約增加 1.0 到 1.35 倍。其次,Opus 4.7 在高難度任務下會進行更多思考,尤其是在主動語態場景的后期回合。這提高了模型在解決難題時的可靠性,但也意味著它會產生更多的輸出 token。

      人們也發現,Opus 4.7 的知識截止日期更新了:


      用戶可以通過多種方式控制 token 的使用:例如使用工作量參數、調整任務預算或引導模型簡化代碼。在 Anthropic 自己的測試中,最終效果是積極的 —— 內部編碼評估顯示,所有工作量級別的令牌使用率均有所提高(如下所示)—— 但 Anthropic 建議在實際流量上進行評估。

      Anthropic 還編寫了遷移指南(https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7),提供了從 Opus 4.6 升級到 Opus 4.7 的更多建議。


      根據每個工作量級別下 token 使用情況,對內部智能編碼評估進行評分。在此評估中,模型在單個用戶提示下自主運行,因此結果可能無法代表交互式編碼中的 token 使用情況。

      在 Opus 4.7 發布后,人們開始大規模測試評價,大多數使用者認為新模型效果不錯,也有人表示其 token 消耗非常驚人(pro 問兩三個問題就沒額度了)。

      同樣是在昨天晚上,千問開源了 Qwen3.6-35B-A3B(350 億參數,激活 30 億),有人還表示,在自己 MacBook Pro M5 上通過 LM Studio(以及 llm-lmstudio 插件)運行的千問模型生成「鵜鶘騎自行車」效果要比 Opus 4.7 好。


      當然這不能就說明 Qwen3.6-35B-A3B 更強了。

      更多的使用情況,還有待大家的進一步驗證。

      參考內容:

      https://www.anthropic.com/news/claude-opus-4-7

      https://x.com/bcherny/status/2044847848035156457

      https://qwen.ai/blog?id=qwen3.6-35b-a3b

      https://simonwillison.net/2026/Apr/16/qwen-beats-opus/

      公眾號最近更改了推送規則,不再按時間順序推送,而是根據人工智能算法有選擇性向用戶推送,有可能以后你無法看到賴博士的文章推送了。

      解決方法是將《賴博士說》的公眾號“星標”,順手點下文末右下角的“在看”,系統會默認我們公眾號的文章符合你的喜好,以后賴博士的文章就會在第一時間推送到你面前。


      死亡螺旋已開啟:深度拆解2026白銀軋空背后的金錢博弈

      賴博士說


      解密“川普QE”:一場繞過美聯儲的隱形放水

      賴博士說

      幫你站在高處,重新理解財富


      賴博士說

      公眾號:@賴博士說

      視頻號:@賴博士說

      小紅書:@賴博士說

      今日頭條:@賴博士說

      Youtube:@賴博士說

      免責聲明:本公眾微信平臺“賴博士說”所載的資料及說明只可作一般性參考資料來閱讀。平臺不會就文章內資料、或因使用此等資料之正確性、準確性、可靠性或其他方面所導致的后果作出任何保證或其他聲明。平臺有酌情權隨時刪除、暫時停載或修改本帳號上的各項資料而無須給予任何通知或理由。若資料內容涉及產品資料,一概只可作一般性參考且并非適用于各產品及服務的所有條款及細則。詳細資料請參閱有關產品及服務之協議。本文內容僅供內部參考及培訓使用,并不構成任何法律、稅務、投資或其他專業意見。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      割四賠五后續,夫妻倆宣布回家:不能讓河南的小麥再發芽了

      割四賠五后續,夫妻倆宣布回家:不能讓河南的小麥再發芽了

      映射生活的身影
      2026-05-26 20:37:31
      導彈還是搗蛋?俄軍兩枚“榛樹”先后脫靶,8千萬美元打了寂寞

      導彈還是搗蛋?俄軍兩枚“榛樹”先后脫靶,8千萬美元打了寂寞

      史政先鋒
      2026-05-26 20:53:29
      割四賠五上熱搜,當地書記都無可奈何,只能自掏腰包進行補償

      割四賠五上熱搜,當地書記都無可奈何,只能自掏腰包進行補償

      映射生活的身影
      2026-05-26 15:56:12
      從世界第4到117位,鄭欽文只用了10個月,詹俊:根源在這兩點

      從世界第4到117位,鄭欽文只用了10個月,詹俊:根源在這兩點

      酷侃體壇
      2026-05-26 18:11:48
      “根本不敢出門”!廣州發高溫健康風險預警,高風險區域在這些區

      “根本不敢出門”!廣州發高溫健康風險預警,高風險區域在這些區

      南方都市報
      2026-05-26 19:33:07
      武契奇試駕小米汽車,幽默回應“想不想買一輛”:買不起,但車很漂亮

      武契奇試駕小米汽車,幽默回應“想不想買一輛”:買不起,但車很漂亮

      大風新聞
      2026-05-26 17:48:04
      黃仁勛陪父母普通小店吃飯,曾回憶:我的英文是不懂英語的母親用字典教的

      黃仁勛陪父母普通小店吃飯,曾回憶:我的英文是不懂英語的母親用字典教的

      爆角追蹤
      2026-05-26 09:37:26
      越扒越有,景甜又被曝猛料,富商要求2億和解費,張繼科太無辜

      越扒越有,景甜又被曝猛料,富商要求2億和解費,張繼科太無辜

      八斗小先生
      2026-05-26 11:25:19
      越打越強?莫斯科全面限制私人飛行!烏克蘭首次空襲加里寧格勒

      越打越強?莫斯科全面限制私人飛行!烏克蘭首次空襲加里寧格勒

      項鵬飛
      2026-05-26 17:51:41
      大潤發創始人今日去世

      大潤發創始人今日去世

      中國基金報
      2026-05-26 18:02:51
      華為韜定律改寫半導體規則!博主感慨1.4萬買麒麟手機為支持 突破美國封鎖這錢花的值

      華為韜定律改寫半導體規則!博主感慨1.4萬買麒麟手機為支持 突破美國封鎖這錢花的值

      快科技
      2026-05-25 15:52:16
      雞蛋獸藥殘留嚴重超標!山東、河南、安徽等地通告雞蛋抽檢不合格

      雞蛋獸藥殘留嚴重超標!山東、河南、安徽等地通告雞蛋抽檢不合格

      新浪財經
      2026-05-26 22:02:15
      武漢28歲孕婦失聯后續:時隔10天,首位目擊人發聲,丈夫行為反常

      武漢28歲孕婦失聯后續:時隔10天,首位目擊人發聲,丈夫行為反常

      李晚書
      2026-05-26 12:04:16
      伊朗關鍵軍事基地,突遭打擊

      伊朗關鍵軍事基地,突遭打擊

      中國新聞周刊
      2026-05-26 17:38:14
      林志玲風波影響大!遭楊紫新劇除名,綜藝也被下架,底線不可碰!

      林志玲風波影響大!遭楊紫新劇除名,綜藝也被下架,底線不可碰!

      萌神木木
      2026-05-25 12:42:08
      強制出境!美趕人“新規”,百萬華人一旦回國,十年都沒法再入境

      強制出境!美趕人“新規”,百萬華人一旦回國,十年都沒法再入境

      共工之錨
      2026-05-26 15:05:21
      蘇超丑聞!曝20歲球員與5拉拉隊員淫亂+有未成年 疑是雙胞胎之一

      蘇超丑聞!曝20歲球員與5拉拉隊員淫亂+有未成年 疑是雙胞胎之一

      念洲
      2026-05-26 16:59:20
      為老不尊!大爺地鐵偷拍,要求刪照片不配合,被女子當場扇耳光!

      為老不尊!大爺地鐵偷拍,要求刪照片不配合,被女子當場扇耳光!

      川渝視覺
      2026-05-26 21:29:26
      傳奇謝幕!大潤發創始人尹衍梁去世,混混到百億富豪,捐95%身家

      傳奇謝幕!大潤發創始人尹衍梁去世,混混到百億富豪,捐95%身家

      川渝視覺
      2026-05-26 16:17:15
      見了死不救,還要倒打一耙——藍天救援隊的通報打了誰的臉?

      見了死不救,還要倒打一耙——藍天救援隊的通報打了誰的臉?

      土家鐵拳
      2026-05-26 20:48:35
      2026-05-27 07:35:00
      賴博士說
      賴博士說
      分享海外投資、金融理財、讀書心得,關注一切與成長和賺錢的人與事。幫你站在高處,重新理解財富。
      116文章數 7關注度
      往期回顧 全部

      科技要聞

      中國AI要向外卷,而不只是做第二個OpenAI

      頭條要聞

      武契奇獲授"友誼勛章":父母特意打電話 我們都哭了

      頭條要聞

      武契奇獲授"友誼勛章":父母特意打電話 我們都哭了

      體育要聞

      上賽季差點降入英甲,下賽季要踢英超了

      娛樂要聞

      臺媒貼臉!S媽被問大S嗑藥當場沉默

      財經要聞

      中國鋁行業爆單 下一個“煤炭”大周期?

      汽車要聞

      涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

      態度原創

      藝術
      手機
      游戲
      公開課
      軍事航空

      藝術要聞

      笑不活了!500 年前倭寇 “光屁股作戰”!

      手機要聞

      榮耀600系列線下上手:體驗之后,說說真實感受

      獵魂世界:千仞雪/王秋兒售后盤點!售后是越多越好還是越少越好

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊在阿巴斯港附近短暫交火 交戰過程披露

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻系列无码专区免费| 黑人狂躁日本妞| 日韩精品中文字幕人妻 | 国产精品第| 亚洲成aⅴ人在线电影 | 中文字幕欧洲有码无码| 精品无码成人久久久久久| 国内揄拍国内精品对久久| 午夜精品久久久久久久久| 色综合久久无码中文字幕| 国产成人无码免费视频79| 日韩综合| 日韩成人综合| 狠狠躁夜夜躁无码中文字幕| 亚洲Av男男| av中文天堂| 久久熟| 91性爱| 中文字幕无码不卡免费视频| 美女久久久久久久久久久| 国产精品永久免费嫩草研究院| 久久综合伊人77777| 乱精品一区字幕二区| 99久久久无码国产精品免费砚床| 91高潮视频| 国产乱码精品一区| 特黄大片又粗又大又暴| 久久亚洲国产中v天仙www| 国产精品先锋资源在线看| 国产亚洲精品自在久久vr| 九九99久久精品午夜剧场免费 | 中文字幕亚洲无级av| 国产无遮挡又黄又爽不要vip软件| 国产精品99区一区二区三| 91色在线| 久久99久久99精品免费看动漫| 中出人妻中文字幕无码| 国产精品国产高清国产专区| 国产性爱片| 久久色窝窝| 常宁市|