![]()
別的AI廠商發(fā)模型,上來(lái)一定會(huì)告訴你“我們這次的產(chǎn)品多厲害多強(qiáng)大”。但Anthropic不一樣,他們說(shuō)“我們有更強(qiáng)的,但先不能給你。”
于是在2026年4月17日,Anthropic發(fā)布了Claude Opus 4.7。
這次發(fā)布沒(méi)有太多懸念,官方博客按部就班地列出了跑分、能力提升和應(yīng)用場(chǎng)景。但如果你仔細(xì)讀完整篇公告,會(huì)發(fā)現(xiàn)一些不太尋常的地方。
Opus 4.7緊跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他們剛剛宣布Mythos Preview因?yàn)榫W(wǎng)絡(luò)安全能力過(guò)強(qiáng),暫時(shí)限制發(fā)布。
因此Opus 4.7被明確定位為“第一款用來(lái)測(cè)試新網(wǎng)絡(luò)安全護(hù)欄的公開(kāi)模型”。
官方甚至還說(shuō),他們?cè)谟?xùn)練過(guò)程中實(shí)驗(yàn)性地削弱了這個(gè)模型的網(wǎng)絡(luò)安全能力。
那Opus 4.7具體如何呢?
01
Opus 4.7的性能如何?
先說(shuō)常規(guī)部分。
Opus 4.7在多個(gè)基準(zhǔn)測(cè)試上超過(guò)了Opus 4.6,尤其是在高級(jí)軟件工程任務(wù)上。
官方圖表里,Opus 4.7在SWE-Bench Verified上為87.6%,Opus 4.6為80.8%;在更難的SWE-Bench Pro上,Opus 4.7為64.3%,Opus 4.6為53.4%;在Terminal-Bench 2.0上,Opus 4.7為69.4%,Opus 4.6為65.4%;Finance agent v11上,Opus 4.7為64.4%,Opus 4.6為60.1%。
![]()
讓我們用人話來(lái)解釋一下這一串?dāng)?shù)字:你現(xiàn)在可以把更復(fù)雜的編程工作交給Opus 4.7,它會(huì)更嚴(yán)謹(jǐn)?shù)靥幚黹L(zhǎng)時(shí)間運(yùn)行的任務(wù),更精確地遵循指令,還會(huì)在匯報(bào)之前想辦法驗(yàn)證自己的輸出。
在Opus 4.7早期測(cè)試者的反饋里,有幾個(gè)點(diǎn)值得注意。
第一個(gè)是指令遵循能力大幅提升。
Opus 4.7會(huì)嚴(yán)格按照字面意思理解指令,而之前的模型往往會(huì)松散解讀或者跳過(guò)某些部分。
這聽(tīng)起來(lái)是好事,但實(shí)際上可能帶來(lái)麻煩。其表現(xiàn)為Opus 4.7更“聽(tīng)話”了,但這反而會(huì)讓一些舊提示詞失效。
以前的Claude可能會(huì)比較“會(huì)意”。你寫一個(gè)模糊指令,它會(huì)自動(dòng)補(bǔ)全你的真實(shí)意圖,或者忽略一些不太重要、互相沖突、寫得不清楚的要求。很多用戶的提示詞,其實(shí)是在這種舊模型習(xí)慣上調(diào)出來(lái)的。
但Opus 4.7官方說(shuō),它更傾向于嚴(yán)格按字面意思執(zhí)行指令。這樣一來(lái),舊提示詞里那些以前被模型自動(dòng)忽略的小細(xì)節(jié),現(xiàn)在可能會(huì)被認(rèn)真執(zhí)行。而以前模型會(huì)靈活處理的模糊表達(dá),現(xiàn)在反而會(huì)按最直接的方式理解。
結(jié)果就是模型明明更強(qiáng)了,但輸出反而和用戶預(yù)期不一樣。
第二個(gè)是多模態(tài)支持改進(jìn)。
Opus 4.7可以接受長(zhǎng)邊最高2576像素的圖像,大約3.75兆像素,是之前Claude模型的三倍多。
這不是普通的“識(shí)圖能力”升級(jí),而是為了讓AI能看懂軟件界面,服務(wù)于Anthropic的Computer Use功能。
Opus 4.7的視覺(jué)升級(jí),不是為了讓用戶問(wèn)“這張圖里有什么”,而是為了讓agent能看懂軟件界面。
agent如果看不清密集表格、終端輸出、設(shè)計(jì)稿細(xì)節(jié)、代碼截圖,它的操作能力再?gòu)?qiáng)也沒(méi)用,因?yàn)樗恢涝趺锤苫睿瑓s不知道去哪上班。
Anthropic把圖像分辨率往上提,本質(zhì)上是在給Claude裝更清楚的眼睛。
未來(lái)AI辦公、AI測(cè)試、AI安全、AI前端開(kāi)發(fā),很多任務(wù)都不是純文本任務(wù),而是屏幕任務(wù)。
第三個(gè)是實(shí)際工作表現(xiàn)。
內(nèi)部測(cè)試顯示,Opus 4.7在金融分析任務(wù)上比Opus 4.6更有效,能產(chǎn)出更嚴(yán)謹(jǐn)?shù)姆治龊湍P汀⒏鼘I(yè)的演示文稿,以及更緊密的跨任務(wù)整合。
它在GPQAval-AA這個(gè)第三方評(píng)估中也是最高分,這是一個(gè)覆蓋金融、法律等領(lǐng)域的評(píng)估。
第四個(gè)是記憶能力。
Opus 4.7更會(huì)使用基于文件系統(tǒng)的記憶。它能在長(zhǎng)周期、多會(huì)話的工作中記住重要筆記,后續(xù)任務(wù)需要的前置信息更少。
這個(gè)點(diǎn)在官方公告里不顯眼,但我認(rèn)為可能是長(zhǎng)期使用中最關(guān)鍵的一個(gè)更新特性。
一個(gè)能跨會(huì)話記住項(xiàng)目約束、用戶偏好、架構(gòu)決策和上次失敗原因的agent,才可能從“聰明臨時(shí)工”變成“穩(wěn)定同事”。
安全性和對(duì)齊方面,Opus 4.7和Opus 4.6的整體表現(xiàn)相似。
它在誠(chéng)實(shí)度和抵抗惡意提示注入攻擊的能力上有所提升,在給出危害建議的能力上有所下降,比如如何制作使用管制刀具這類問(wèn)題。
官方的對(duì)齊評(píng)估結(jié)論是,這個(gè)模型“基本對(duì)齊且值得信賴,但行為上還不完全理想”。
價(jià)格方面,Opus 4.7和Opus 4.6保持一致。輸入每百萬(wàn)token 5美元,輸出每百萬(wàn)token 25美元。
但遷移指南里提到了兩個(gè)成本變化。新的tokenizer可能讓相同輸入變成1.0到1.35倍的token。在強(qiáng)思考模式下,尤其是agent的多輪對(duì)話,模型會(huì)思考更多,輸出的token也可能更多。
所以這就是Anthropic耍小心思的地方了,名義上價(jià)格確實(shí)沒(méi)變,但跑多了就會(huì)變貴。
過(guò)去模型計(jì)費(fèi)主要看輸入輸出長(zhǎng)度,現(xiàn)在還要看思考的等級(jí)、任務(wù)預(yù)算、agent跑了幾輪、工具失敗后有沒(méi)有繼續(xù)推理。
Anthropic新增的x-high effort和task budgets,說(shuō)明高端模型的使用方式正在走當(dāng)年云計(jì)算的那套邏輯。你買的不是一次回答,而是在給一個(gè)會(huì)思考、會(huì)試錯(cuò)、會(huì)驗(yàn)證的任務(wù)過(guò)程付費(fèi)。
02
Anthropic為何會(huì)發(fā)布閹割模型?
話又說(shuō)回來(lái),Opus 4.7的真正賣點(diǎn)之一,恰恰是它沒(méi)有完全釋放能力。
這聽(tīng)起來(lái)有點(diǎn)反直覺(jué),但可能是下一代模型公司的常態(tài)。
模型越接近真實(shí)生產(chǎn)環(huán)境,越不能只追求更強(qiáng)。它要知道哪些事能做、哪些事不能做、哪些用戶能開(kāi)放更多權(quán)限,哪些請(qǐng)求必須攔住。
Anthropic在發(fā)布Opus 4.7的同時(shí),推出了Cyber Verification Program。
這個(gè)項(xiàng)目本質(zhì)上是在給能力分級(jí)。普通用戶拿到的是有護(hù)欄的Opus,經(jīng)過(guò)驗(yàn)證的安全專家才能申請(qǐng)更寬的網(wǎng)絡(luò)安全用途。
模型會(huì)自動(dòng)檢測(cè)和阻止那些表明禁止或高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全用途的請(qǐng)求。
Anthropic說(shuō),他們會(huì)從Opus 4.7的真實(shí)部署中學(xué)習(xí),為未來(lái)Mythos級(jí)別模型的廣泛發(fā)布做準(zhǔn)備。
不得不說(shuō)還是Anthropic會(huì)玩,他們認(rèn)為Opus目前的能力是過(guò)剩的,所以他們就把安全這件事,變成了產(chǎn)品能力。
過(guò)去幾年,AI公司的競(jìng)爭(zhēng)邏輯是“我比你強(qiáng)”。跑分更高、參數(shù)更多、能做的事更復(fù)雜。但當(dāng)模型能力達(dá)到某個(gè)臨界點(diǎn)后,這個(gè)邏輯開(kāi)始失效。
一個(gè)在網(wǎng)絡(luò)安全測(cè)試中表現(xiàn)太好的模型,可能意味著它也能被惡意使用。一個(gè)完全不設(shè)限的agent,就有可能會(huì)在用戶不知情的情況下做出危險(xiǎn)決策。
Anthropic選擇的路徑是,先把最強(qiáng)的模型鎖起來(lái),用稍弱但足夠好的模型來(lái)測(cè)試安全機(jī)制。這不是技術(shù)上做不到,而是主動(dòng)選擇不做。這種“克制”本身成了產(chǎn)品差異化的一部分。
這個(gè)策略能不能成功,取決于市場(chǎng)是否認(rèn)可“謹(jǐn)慎”這個(gè)概念。
如果用戶只在乎“能不能做到”,那Anthropic的做法會(huì)顯得保守。但如果企業(yè)客戶開(kāi)始重視“會(huì)不會(huì)出事”,那這種分級(jí)發(fā)布、主動(dòng)削弱某些能力的做法,反而可能成為競(jìng)爭(zhēng)優(yōu)勢(shì)。
在發(fā)布Opus 4.7的同時(shí),Anthropic還更新了Claude Code,新增了auto mode和/ultrareview功能。
auto mode不是模型自動(dòng)選型,而是權(quán)限選項(xiàng)。它允許Claude替用戶做一些權(quán)限決策,讓長(zhǎng)任務(wù)少被打斷,但風(fēng)險(xiǎn)低于完全跳過(guò)權(quán)限確認(rèn)。
這個(gè)設(shè)計(jì)針對(duì)的是agent產(chǎn)品的核心矛盾:?jiǎn)柼啵琣gent像實(shí)習(xí)生;不問(wèn),風(fēng)險(xiǎn)又太大。
agent時(shí)代最難設(shè)計(jì)的按鈕,不是“開(kāi)始”,而是“允許”。
過(guò)去AI只是回答問(wèn)題,權(quán)限很少。
現(xiàn)在它要改代碼、讀文件、跑命令、開(kāi)網(wǎng)頁(yè)、提交PR,每一步都牽涉風(fēng)險(xiǎn)。
如果每個(gè)操作都要用戶確認(rèn),agent的自主性就失去了意義。但如果完全放手,用戶又會(huì)擔(dān)心AI做出不可逆的錯(cuò)誤決策。
auto mode的本質(zhì),就是在“別煩我”和“別亂來(lái)”之間找平衡。
它會(huì)根據(jù)操作的風(fēng)險(xiǎn)級(jí)別,決定是自動(dòng)執(zhí)行、提示用戶、還是要求明確授權(quán)。
這也是agent從“能干什么”,到“能不能用”之間巨大的飛躍。
/ultrareview是一個(gè)專門的代碼審查會(huì)話,讀取變更并指出bug和設(shè)計(jì)問(wèn)題。
這個(gè)功能可比寫代碼好玩多了,因?yàn)樗f(shuō)明AI編程正式進(jìn)入了第二階段,讓AI自己審查AI自己生成的代碼。
AI寫代碼已經(jīng)不稀奇,真正稀缺的是AI能不能審自己的代碼。
/ultrareview像是Anthropic給Claude Code補(bǔ)上的第二雙眼睛。
一個(gè)agent負(fù)責(zé)寫,另一個(gè)更謹(jǐn)慎的會(huì)話負(fù)責(zé)審。
不用看數(shù)據(jù)我都能猜到,這兩個(gè)功能一定是高頻功能。因?yàn)楸举|(zhì)上,這兩個(gè)功能過(guò)去就是所有使用Claude Code的程序員干的活。
生成代碼只是開(kāi)發(fā)流程的一部分,審查、測(cè)試、重構(gòu)、文檔同樣重要。如果AI只能做第一步,它永遠(yuǎn)只是輔助工具。如果它能參與整個(gè)流程,它才可能真正改變軟件開(kāi)發(fā)的方式。
這次發(fā)布還有一個(gè)細(xì)節(jié)值得注意。官方在遷移指南里專門提醒廣大用戶,Opus 4.7的token使用可能增加,但在實(shí)際編程評(píng)估中,整體效率反而提升了。
這說(shuō)明他們?cè)趦?yōu)化的不是單次調(diào)用的成本,而是完成任務(wù)的總成本。一個(gè)agent如果第一次就把事情做對(duì),即使單次調(diào)用貴一點(diǎn),總成本也比反復(fù)試錯(cuò)要低。
這是一種更成熟的產(chǎn)品思路。早期AI產(chǎn)品追求的是“便宜”和“快”,現(xiàn)在開(kāi)始追求“靠譜”。
Opus 4.7不是最強(qiáng)的模型,Anthropic也沒(méi)有把它包裝成最強(qiáng)的模型。
它是在能力、安全、成本之間的一個(gè)平衡點(diǎn)。但是說(shuō)它是不是真的平衡,我不知道,這個(gè)要等市場(chǎng)來(lái)驗(yàn)證。
至少在發(fā)布策略上,Anthropic給出了一種新思路,因?yàn)橛袝r(shí)候“不做什么”比“能做什么”更重要。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.