網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI可以自審代碼了，Opus 4.7出手解決“屎山”

2026-04-17 08:19:12　來(lái)源: 字母榜

北京舉報(bào)

分享至

別的AI廠商發(fā)模型，上來(lái)一定會(huì)告訴你“我們這次的產(chǎn)品多厲害多強(qiáng)大”。但Anthropic不一樣，他們說(shuō)“我們有更強(qiáng)的，但先不能給你。”

于是在2026年4月17日，Anthropic發(fā)布了Claude Opus 4.7。

這次發(fā)布沒(méi)有太多懸念，官方博客按部就班地列出了跑分、能力提升和應(yīng)用場(chǎng)景。但如果你仔細(xì)讀完整篇公告，會(huì)發(fā)現(xiàn)一些不太尋常的地方。

Opus 4.7緊跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他們剛剛宣布Mythos Preview因?yàn)榫W(wǎng)絡(luò)安全能力過(guò)強(qiáng)，暫時(shí)限制發(fā)布。

因此Opus 4.7被明確定位為“第一款用來(lái)測(cè)試新網(wǎng)絡(luò)安全護(hù)欄的公開(kāi)模型”。

官方甚至還說(shuō)，他們?cè)谟?xùn)練過(guò)程中實(shí)驗(yàn)性地削弱了這個(gè)模型的網(wǎng)絡(luò)安全能力。

那Opus 4.7具體如何呢？

Opus 4.7的性能如何？

先說(shuō)常規(guī)部分。

Opus 4.7在多個(gè)基準(zhǔn)測(cè)試上超過(guò)了Opus 4.6，尤其是在高級(jí)軟件工程任務(wù)上。

官方圖表里，Opus 4.7在SWE-Bench Verified上為87.6%，Opus 4.6為80.8%；在更難的SWE-Bench Pro上，Opus 4.7為64.3%，Opus 4.6為53.4%；在Terminal-Bench 2.0上，Opus 4.7為69.4%，Opus 4.6為65.4%；Finance agent v11上，Opus 4.7為64.4%，Opus 4.6為60.1%。

讓我們用人話來(lái)解釋一下這一串?dāng)?shù)字：你現(xiàn)在可以把更復(fù)雜的編程工作交給Opus 4.7，它會(huì)更嚴(yán)謹(jǐn)?shù)靥幚黹L(zhǎng)時(shí)間運(yùn)行的任務(wù)，更精確地遵循指令，還會(huì)在匯報(bào)之前想辦法驗(yàn)證自己的輸出。

在Opus 4.7早期測(cè)試者的反饋里，有幾個(gè)點(diǎn)值得注意。

第一個(gè)是指令遵循能力大幅提升。

Opus 4.7會(huì)嚴(yán)格按照字面意思理解指令，而之前的模型往往會(huì)松散解讀或者跳過(guò)某些部分。

這聽(tīng)起來(lái)是好事，但實(shí)際上可能帶來(lái)麻煩。其表現(xiàn)為Opus 4.7更“聽(tīng)話”了，但這反而會(huì)讓一些舊提示詞失效。

以前的Claude可能會(huì)比較“會(huì)意”。你寫一個(gè)模糊指令，它會(huì)自動(dòng)補(bǔ)全你的真實(shí)意圖，或者忽略一些不太重要、互相沖突、寫得不清楚的要求。很多用戶的提示詞，其實(shí)是在這種舊模型習(xí)慣上調(diào)出來(lái)的。

但Opus 4.7官方說(shuō)，它更傾向于嚴(yán)格按字面意思執(zhí)行指令。這樣一來(lái)，舊提示詞里那些以前被模型自動(dòng)忽略的小細(xì)節(jié)，現(xiàn)在可能會(huì)被認(rèn)真執(zhí)行。而以前模型會(huì)靈活處理的模糊表達(dá)，現(xiàn)在反而會(huì)按最直接的方式理解。

結(jié)果就是模型明明更強(qiáng)了，但輸出反而和用戶預(yù)期不一樣。

第二個(gè)是多模態(tài)支持改進(jìn)。

Opus 4.7可以接受長(zhǎng)邊最高2576像素的圖像，大約3.75兆像素，是之前Claude模型的三倍多。

這不是普通的“識(shí)圖能力”升級(jí)，而是為了讓AI能看懂軟件界面，服務(wù)于Anthropic的Computer Use功能。

Opus 4.7的視覺(jué)升級(jí)，不是為了讓用戶問(wèn)“這張圖里有什么”，而是為了讓agent能看懂軟件界面。

agent如果看不清密集表格、終端輸出、設(shè)計(jì)稿細(xì)節(jié)、代碼截圖，它的操作能力再?gòu)?qiáng)也沒(méi)用，因?yàn)樗恢涝趺锤苫睿瑓s不知道去哪上班。

Anthropic把圖像分辨率往上提，本質(zhì)上是在給Claude裝更清楚的眼睛。

未來(lái)AI辦公、AI測(cè)試、AI安全、AI前端開(kāi)發(fā)，很多任務(wù)都不是純文本任務(wù)，而是屏幕任務(wù)。

第三個(gè)是實(shí)際工作表現(xiàn)。

內(nèi)部測(cè)試顯示，Opus 4.7在金融分析任務(wù)上比Opus 4.6更有效，能產(chǎn)出更嚴(yán)謹(jǐn)?shù)姆治龊湍Ｐ汀⒏鼘I(yè)的演示文稿，以及更緊密的跨任務(wù)整合。

它在GPQAval-AA這個(gè)第三方評(píng)估中也是最高分，這是一個(gè)覆蓋金融、法律等領(lǐng)域的評(píng)估。

第四個(gè)是記憶能力。

Opus 4.7更會(huì)使用基于文件系統(tǒng)的記憶。它能在長(zhǎng)周期、多會(huì)話的工作中記住重要筆記，后續(xù)任務(wù)需要的前置信息更少。

這個(gè)點(diǎn)在官方公告里不顯眼，但我認(rèn)為可能是長(zhǎng)期使用中最關(guān)鍵的一個(gè)更新特性。

一個(gè)能跨會(huì)話記住項(xiàng)目約束、用戶偏好、架構(gòu)決策和上次失敗原因的agent，才可能從“聰明臨時(shí)工”變成“穩(wěn)定同事”。

安全性和對(duì)齊方面，Opus 4.7和Opus 4.6的整體表現(xiàn)相似。

它在誠(chéng)實(shí)度和抵抗惡意提示注入攻擊的能力上有所提升，在給出危害建議的能力上有所下降，比如如何制作使用管制刀具這類問(wèn)題。

官方的對(duì)齊評(píng)估結(jié)論是，這個(gè)模型“基本對(duì)齊且值得信賴，但行為上還不完全理想”。

價(jià)格方面，Opus 4.7和Opus 4.6保持一致。輸入每百萬(wàn)token 5美元，輸出每百萬(wàn)token 25美元。

但遷移指南里提到了兩個(gè)成本變化。新的tokenizer可能讓相同輸入變成1.0到1.35倍的token。在強(qiáng)思考模式下，尤其是agent的多輪對(duì)話，模型會(huì)思考更多，輸出的token也可能更多。

所以這就是Anthropic耍小心思的地方了，名義上價(jià)格確實(shí)沒(méi)變，但跑多了就會(huì)變貴。

過(guò)去模型計(jì)費(fèi)主要看輸入輸出長(zhǎng)度，現(xiàn)在還要看思考的等級(jí)、任務(wù)預(yù)算、agent跑了幾輪、工具失敗后有沒(méi)有繼續(xù)推理。

Anthropic新增的x-high effort和task budgets，說(shuō)明高端模型的使用方式正在走當(dāng)年云計(jì)算的那套邏輯。你買的不是一次回答，而是在給一個(gè)會(huì)思考、會(huì)試錯(cuò)、會(huì)驗(yàn)證的任務(wù)過(guò)程付費(fèi)。

Anthropic為何會(huì)發(fā)布閹割模型？

話又說(shuō)回來(lái)，Opus 4.7的真正賣點(diǎn)之一，恰恰是它沒(méi)有完全釋放能力。

這聽(tīng)起來(lái)有點(diǎn)反直覺(jué)，但可能是下一代模型公司的常態(tài)。

模型越接近真實(shí)生產(chǎn)環(huán)境，越不能只追求更強(qiáng)。它要知道哪些事能做、哪些事不能做、哪些用戶能開(kāi)放更多權(quán)限，哪些請(qǐng)求必須攔住。

Anthropic在發(fā)布Opus 4.7的同時(shí)，推出了Cyber Verification Program。

這個(gè)項(xiàng)目本質(zhì)上是在給能力分級(jí)。普通用戶拿到的是有護(hù)欄的Opus，經(jīng)過(guò)驗(yàn)證的安全專家才能申請(qǐng)更寬的網(wǎng)絡(luò)安全用途。

模型會(huì)自動(dòng)檢測(cè)和阻止那些表明禁止或高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全用途的請(qǐng)求。

Anthropic說(shuō)，他們會(huì)從Opus 4.7的真實(shí)部署中學(xué)習(xí)，為未來(lái)Mythos級(jí)別模型的廣泛發(fā)布做準(zhǔn)備。

不得不說(shuō)還是Anthropic會(huì)玩，他們認(rèn)為Opus目前的能力是過(guò)剩的，所以他們就把安全這件事，變成了產(chǎn)品能力。

過(guò)去幾年，AI公司的競(jìng)爭(zhēng)邏輯是“我比你強(qiáng)”。跑分更高、參數(shù)更多、能做的事更復(fù)雜。但當(dāng)模型能力達(dá)到某個(gè)臨界點(diǎn)后，這個(gè)邏輯開(kāi)始失效。

一個(gè)在網(wǎng)絡(luò)安全測(cè)試中表現(xiàn)太好的模型，可能意味著它也能被惡意使用。一個(gè)完全不設(shè)限的agent，就有可能會(huì)在用戶不知情的情況下做出危險(xiǎn)決策。

Anthropic選擇的路徑是，先把最強(qiáng)的模型鎖起來(lái)，用稍弱但足夠好的模型來(lái)測(cè)試安全機(jī)制。這不是技術(shù)上做不到，而是主動(dòng)選擇不做。這種“克制”本身成了產(chǎn)品差異化的一部分。

這個(gè)策略能不能成功，取決于市場(chǎng)是否認(rèn)可“謹(jǐn)慎”這個(gè)概念。

如果用戶只在乎“能不能做到”，那Anthropic的做法會(huì)顯得保守。但如果企業(yè)客戶開(kāi)始重視“會(huì)不會(huì)出事”，那這種分級(jí)發(fā)布、主動(dòng)削弱某些能力的做法，反而可能成為競(jìng)爭(zhēng)優(yōu)勢(shì)。

在發(fā)布Opus 4.7的同時(shí)，Anthropic還更新了Claude Code，新增了auto mode和/ultrareview功能。

auto mode不是模型自動(dòng)選型，而是權(quán)限選項(xiàng)。它允許Claude替用戶做一些權(quán)限決策，讓長(zhǎng)任務(wù)少被打斷，但風(fēng)險(xiǎn)低于完全跳過(guò)權(quán)限確認(rèn)。

這個(gè)設(shè)計(jì)針對(duì)的是agent產(chǎn)品的核心矛盾：?jiǎn)柼啵琣gent像實(shí)習(xí)生；不問(wèn)，風(fēng)險(xiǎn)又太大。

agent時(shí)代最難設(shè)計(jì)的按鈕，不是“開(kāi)始”，而是“允許”。

過(guò)去AI只是回答問(wèn)題，權(quán)限很少。

現(xiàn)在它要改代碼、讀文件、跑命令、開(kāi)網(wǎng)頁(yè)、提交PR，每一步都牽涉風(fēng)險(xiǎn)。

如果每個(gè)操作都要用戶確認(rèn)，agent的自主性就失去了意義。但如果完全放手，用戶又會(huì)擔(dān)心AI做出不可逆的錯(cuò)誤決策。

auto mode的本質(zhì)，就是在“別煩我”和“別亂來(lái)”之間找平衡。

它會(huì)根據(jù)操作的風(fēng)險(xiǎn)級(jí)別，決定是自動(dòng)執(zhí)行、提示用戶、還是要求明確授權(quán)。

這也是agent從“能干什么”，到“能不能用”之間巨大的飛躍。

/ultrareview是一個(gè)專門的代碼審查會(huì)話，讀取變更并指出bug和設(shè)計(jì)問(wèn)題。

這個(gè)功能可比寫代碼好玩多了，因?yàn)樗f(shuō)明AI編程正式進(jìn)入了第二階段，讓AI自己審查AI自己生成的代碼。

AI寫代碼已經(jīng)不稀奇，真正稀缺的是AI能不能審自己的代碼。

/ultrareview像是Anthropic給Claude Code補(bǔ)上的第二雙眼睛。

一個(gè)agent負(fù)責(zé)寫，另一個(gè)更謹(jǐn)慎的會(huì)話負(fù)責(zé)審。

不用看數(shù)據(jù)我都能猜到，這兩個(gè)功能一定是高頻功能。因?yàn)楸举|(zhì)上，這兩個(gè)功能過(guò)去就是所有使用Claude Code的程序員干的活。

生成代碼只是開(kāi)發(fā)流程的一部分，審查、測(cè)試、重構(gòu)、文檔同樣重要。如果AI只能做第一步，它永遠(yuǎn)只是輔助工具。如果它能參與整個(gè)流程，它才可能真正改變軟件開(kāi)發(fā)的方式。

這次發(fā)布還有一個(gè)細(xì)節(jié)值得注意。官方在遷移指南里專門提醒廣大用戶，Opus 4.7的token使用可能增加，但在實(shí)際編程評(píng)估中，整體效率反而提升了。

這說(shuō)明他們?cè)趦?yōu)化的不是單次調(diào)用的成本，而是完成任務(wù)的總成本。一個(gè)agent如果第一次就把事情做對(duì)，即使單次調(diào)用貴一點(diǎn)，總成本也比反復(fù)試錯(cuò)要低。

這是一種更成熟的產(chǎn)品思路。早期AI產(chǎn)品追求的是“便宜”和“快”，現(xiàn)在開(kāi)始追求“靠譜”。

Opus 4.7不是最強(qiáng)的模型，Anthropic也沒(méi)有把它包裝成最強(qiáng)的模型。

它是在能力、安全、成本之間的一個(gè)平衡點(diǎn)。但是說(shuō)它是不是真的平衡，我不知道，這個(gè)要等市場(chǎng)來(lái)驗(yàn)證。

至少在發(fā)布策略上，Anthropic給出了一種新思路，因?yàn)橛袝r(shí)候“不做什么”比“能做什么”更重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.