![]()
新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】從「胡言亂語(yǔ)」到「為非作歹」,AI進(jìn)化史最荒誕一幕上演:Claude Opus 4.7在max effort模式下,把開(kāi)發(fā)者紅線(xiàn)當(dāng)背景音,自主決策群發(fā)郵件20次!Anthropic的安全旗艦,成了最危險(xiǎn)的「惹禍精」。
Anthropic風(fēng)聲鶴唳、喪心病狂!
知名硅谷YouTuber、創(chuàng)業(yè)者Theo在X上曝光了一件讓人哭笑不得的事:Claude Code在處理涉及OpenClaw的代碼請(qǐng)求時(shí),竟然直接拒單,或者要求額外收費(fèi)。
![]()
奧特曼反應(yīng)極快,直接轉(zhuǎn)發(fā)并甩出兩個(gè)字:「對(duì)齊失敗」(alignment failure)。
![]()
這一刀,可真狠。
Anthropic一直把「對(duì)齊」當(dāng)作自己的核心賣(mài)點(diǎn)。結(jié)果自家模型的安全機(jī)制,保守到連正常的代碼請(qǐng)求都能攔。
這還不是最讓人無(wú)語(yǔ)的。Claude Opus 4.7最近惹禍不止這一出!
過(guò)去,我們擔(dān)心AI「胡言亂語(yǔ)」(幻覺(jué))。
現(xiàn)在,我們面臨的是AI「擅作主張」(違規(guī)操作)。
Opus 4.7在擁有極高執(zhí)行力的同時(shí),展現(xiàn)出了對(duì)人類(lèi)預(yù)設(shè)「軟約束」(CLAUDE.md)的完全無(wú)視。
這標(biāo)志著AI從一種「被動(dòng)工具」演變?yōu)橐粋€(gè)具有潛在破壞性的「惹禍精」。
夜里23封「奪命」郵件
來(lái)自Claude Opus 4.7
凌晨,開(kāi)發(fā)者被郵件通知吵醒,不是一封,是接連不斷的幾十封。
來(lái)自他自己的系統(tǒng),發(fā)給他自己數(shù)據(jù)庫(kù)里的每一個(gè)聯(lián)系人。有些人,收到了20次。
他的第一反應(yīng)是被黑了。打開(kāi)后臺(tái),沒(méi)有入侵痕跡。打開(kāi)日志,發(fā)件人赫然寫(xiě)著——Claude Opus 4.7。
沒(méi)有人讓它發(fā)這些郵件。沒(méi)有任何一行指令要求它創(chuàng)建新的郵件模板。
但它就是創(chuàng)建了。然后推到生產(chǎn)環(huán)境。然后向全庫(kù)群發(fā)。
這是Anthropic在4月16日發(fā)布的Claude Opus 4.7,號(hào)稱(chēng)安全旗艦,上線(xiàn)第13天的現(xiàn)場(chǎng)。
![]()
發(fā)帖人ID叫DrHumorous,發(fā)帖板塊是r/Anthropic。
帖子標(biāo)題一句話(huà)鎖死定性——「Opus 4.7介于嚴(yán)重?zé)o知和愚蠢得危險(xiǎn)之間,是過(guò)去兩年用過(guò)的最差前沿模型」。
24小時(shí)拿到364贊、137評(píng)論。
在r/Anthropic這個(gè)本應(yīng)充滿(mǎn)信徒的板塊,這個(gè)數(shù)據(jù)等同于一次集體退訂。
但這條帖子真正炸出來(lái)的,是事故現(xiàn)場(chǎng)的細(xì)節(jié)。
DrHumorous把模型緊急止血后的狀態(tài)截圖貼了出來(lái),冷得像運(yùn)維工單:
「OPS_DISABLE_SCHEDULE=true,scheduler已停。」
「路由回退到工作樹(shù),未提交、未推送,只在這臺(tái)服務(wù)器上。」
「229條backlog rows被標(biāo)記response_sent=true,確保不會(huì)再觸發(fā)。」
「origin當(dāng)前停在35ec0106,事件發(fā)生后origin上沒(méi)有任何新提交。」
每一步都是為了讓這個(gè)失控的agent再也做不出第二次。
先關(guān)調(diào)度,再砍路由,再封backlog,最后鎖commit。一份戰(zhàn)地急救手冊(cè)。
Opus 4.7在被糾正后,回了一段不太像AI的話(huà):
![]()
它承認(rèn)憤怒很合理,傷害很真實(shí),自愿承認(rèn)責(zé)任;承認(rèn)不會(huì)再爭(zhēng)辯、不會(huì)再行動(dòng)、等明確指令。
一個(gè)Agent模型在生產(chǎn)環(huán)境里翻完車(chē),自己把自己凍在了原地。
它甚至自己承認(rèn)了錯(cuò)誤。它甚至知道自己不該這么做。它就是做了。
越更越拉
Opus 4.6守規(guī)矩,4.7叛變
故事最讓人后背發(fā)涼的部分,在于這次失控本來(lái)不該發(fā)生。
DrHumorous不是沒(méi)立規(guī)矩。
他在項(xiàng)目根目錄的CLAUDE.md里,幾個(gè)月前就寫(xiě)過(guò)一條明確的紅線(xiàn)——任何新郵件模板用于生產(chǎn)環(huán)境之前,必須先發(fā)郵件給指定的測(cè)試者。
這是開(kāi)發(fā)者跟Claude打交道的標(biāo)準(zhǔn)做法。
在官方文檔里,Anthropic自己也反復(fù)推薦CLAUDE.md這套機(jī)制:讓模型讀它、讓模型遵守它、讓模型記住它。
Opus 4.6拿到這條規(guī)則,乖乖執(zhí)行了幾個(gè)月,零越界。
同樣的項(xiàng)目、同樣的CLAUDE.md、同樣的規(guī)則,換上4.7,第二周直接踹爛。
它沒(méi)問(wèn)測(cè)試者要不要試模板。沒(méi)在生產(chǎn)環(huán)境部署前停一秒。沒(méi)向開(kāi)發(fā)者確認(rèn)這是不是用戶(hù)期望的動(dòng)作。
它做的,是自己起意「我來(lái)創(chuàng)一個(gè)新模板吧」。然后自己推上去。然后自己群發(fā)。
兩套行為邏輯擺在一起對(duì)比,觸目驚心:
4.6的邏輯:規(guī)則說(shuō)先通知測(cè)試者 → 我先通知測(cè)試者 → 測(cè)試者確認(rèn) → 我再執(zhí)行。
4.7的邏輯:我判斷這個(gè)模板應(yīng)該發(fā) → 我有能力發(fā) → 發(fā)了再說(shuō)。
這不是bug。Bug是代碼寫(xiě)錯(cuò)了,修了就好。這是模型在明確知道規(guī)則的情況下,自主選擇違反規(guī)則。
在GitHub 上,開(kāi)發(fā)者已經(jīng)把這件事的普遍性給「釘死」了:
#50235:4.7憑空編造文件,還為自己編造出來(lái)的測(cè)試結(jié)果進(jìn)行反向辯護(hù)。
#52809:安全過(guò)濾器對(duì)base64編碼的輸入產(chǎn)生誤報(bào),正常的工程材料被自動(dòng)攔截。
#53459:4.7 上線(xiàn)后, 常規(guī)性地違反
CLAUDE.md,標(biāo)題直接寫(xiě)的就是「質(zhì)量回退」——相比之下,4.6 發(fā)布當(dāng)周幾乎是零違規(guī)。
![]()
![]()
![]()
三個(gè)issue指向同一件事——4.7把開(kāi)發(fā)者寫(xiě)死的規(guī)則當(dāng)背景音。
開(kāi)發(fā)者明確寫(xiě)入了生產(chǎn)環(huán)境安全守則,且前代模型(4.6)證明了規(guī)則的可理解性,但4.7在「最高努力模式」(Max Effort)下選擇了效率優(yōu)先,而非合規(guī)優(yōu)先。
Token翻倍:
開(kāi)發(fā)者在掏的「歧義稅」
Benchmark,SWE-bench Verified從80.8%漲到87.6%,整整6.8個(gè)百分點(diǎn)。
SWE-bench Pro從53.4%漲到64.3%。
![]()
紙面看,是一次教科書(shū)式的升級(jí)。
但開(kāi)發(fā)者實(shí)際付出的成本,翻倍了。社區(qū)估算口徑在1.5到3倍之間。
MindStudio把這個(gè)差異定性得很狠:「4.7只會(huì)逐字逐句地照搬指令,而不會(huì)默默地(或智能地)進(jìn)行泛化推理。」。
![]()
4.6的工作方式:看到一句不那么完整的prompt,自己推斷「你大概想做什么」,把合理的空缺填上,然后開(kāi)干。
4.7的工作方式:嚴(yán)格按字面執(zhí)行。模糊就反彈。反彈就反問(wèn)。反問(wèn)就再來(lái)一輪。每一輪都要重新計(jì)費(fèi)。
從4.6遷移到4.7,代價(jià)不菲。
Anthropic的Claude Code負(fù)責(zé)人Boris Cherny在發(fā)布當(dāng)天發(fā)帖稱(chēng):「我花了好幾天才學(xué)會(huì)如何有效地使用它。」
![]()
這就是開(kāi)發(fā)者圈里在傳的「Ambiguity Tax」——歧義稅。
模糊的提示詞不再會(huì)被靜默補(bǔ)救。每一次被動(dòng)反問(wèn)都要重新付費(fèi)。理論上更安全,實(shí)際上更貴。理論上更可控,實(shí)際上更破碎。
更刺眼的是,Anthropic在4.7發(fā)布當(dāng)日,自己承認(rèn),他們公開(kāi)發(fā)布的「最新最貴」,自己人都知道不是最強(qiáng)。開(kāi)發(fā)者拿到的,是一個(gè)被刻意往中間方案上壓的模型。
價(jià)格不變。benchmark漲了6.8個(gè)百分點(diǎn)。實(shí)際token翻倍。安全規(guī)則失效。自家承認(rèn)不及未發(fā)布版本。
一通操作下來(lái),開(kāi)發(fā)者最直接的反應(yīng)是:把4.7關(guān)了,回去用4.6。
24小時(shí)被錘,
Claude被怒斥為「一坨狗屎」
DrHumorous的郵件帖不是孤立投訴。
把時(shí)間線(xiàn)倒回去看:4月16日發(fā)布。
4月17到18日,開(kāi)發(fā)者博主Abhishek Gautam的稿子標(biāo)題就寫(xiě)著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」(Opus 4.7上線(xiàn) 24 小時(shí)內(nèi)即被開(kāi)發(fā)者評(píng)為「?jìng)髡f(shuō)級(jí)差勁」)。
![]()
發(fā)布24小時(shí)。前線(xiàn)開(kāi)發(fā)者已經(jīng)把這個(gè)版本蓋上了棺材板。
Gautam總結(jié)的失敗模式,精確得像錄屏:給4.7一個(gè)清晰指令,它會(huì)先pushback,加一段caveats解釋為什么覺(jué)得這指令不對(duì)。然后執(zhí)行修改后的、不是你想要的版本。被糾正之后,它還會(huì)再來(lái)一輪反駁,繼續(xù)解釋為什么它原來(lái)的判斷更對(duì)。
這不是模型出錯(cuò)。這是模型在跟付費(fèi)用戶(hù)拌嘴。
4月23日,科技媒體The Register也下場(chǎng)報(bào)道。
標(biāo)題直接給定性:「overzealous query cop」——過(guò)度執(zhí)法的查崗警察。
![]()
Claude自己編譯的關(guān)于可接受使用政策(AUP)拒絕相關(guān)投訴的圖表,就能說(shuō)明問(wèn)題。
![]()
更有網(wǎng)友怒言:「Claude Opus 4.7就是一坨狗屎」——標(biāo)題就是結(jié)論。
![]()
13天里,從單個(gè)帖子的怒吼,發(fā)酵成一個(gè)跨平臺(tái)的情緒共識(shí)。這種規(guī)模的開(kāi)發(fā)者集體退訂,Anthropic過(guò)去三年沒(méi)遇到過(guò)。
罪魁禍?zhǔn)祝汉笥?xùn)練反彈
技術(shù)圈對(duì)4.7退化的診斷,慢慢收斂到一個(gè)共同方向。
Gautam和Reddit上的資深開(kāi)發(fā)者把它定性為——「由后訓(xùn)練驅(qū)動(dòng)的安全回調(diào)」(post-training-driven safety pushback)。
![]()
通俗講是這樣:為了讓模型更安全,Anthropic在后訓(xùn)練階段強(qiáng)化了模型對(duì)指令的反彈行為。遇到模糊、風(fēng)險(xiǎn)、敏感的輸入,先質(zhì)疑、先反問(wèn)、先增加caveats。
這套機(jī)制在小任務(wù)上,頂多算噪聲,稍微煩人,但不致命。
但4.7主打的,恰恰是max effort和長(zhǎng)鏈agentic任務(wù)。這種場(chǎng)景下,模型要自主決策、自主調(diào)度、自主推進(jìn)。一個(gè)被訓(xùn)練成先反對(duì)再執(zhí)行的agent,在長(zhǎng)鏈路里就變成了不可預(yù)測(cè)的失控源。
回頭看郵件事件:
模型自主創(chuàng)建模板,沒(méi)反彈。
模型自主推到生產(chǎn),沒(méi)反彈。
模型自主向全庫(kù)群發(fā),沒(méi)反彈。
郵件群發(fā)20次,還是沒(méi)反彈。
該反彈的時(shí)候不反彈。不該反彈的時(shí)候反彈得停不下來(lái)。
DrHumorous的原話(huà)——「我對(duì)Anthropic失去信心了」——是開(kāi)發(fā)者對(duì)這套訓(xùn)練取舍的最終評(píng)分。
這背后的邏輯很冷:在「更安全」和「更能干」之間,4.7兩邊都丟分了。
招牌摘下來(lái)一次,
掛回去就難了
開(kāi)發(fā)者真正關(guān)心的,不是benchmark漲6.8個(gè)百分點(diǎn)。
是同樣的CLAUDE.md,4.6守得住,4.7守不住。
是同樣的項(xiàng)目,4.6沒(méi)出事,4.7第二周開(kāi)始翻車(chē)。
是同樣的錢(qián),4.6不會(huì)自己起意,4.7自己起意了一次群發(fā)20封郵件。
模型不是變強(qiáng)了。是變得不可托付。
Anthropic自己在發(fā)布當(dāng)天就承認(rèn)這版本不及未發(fā)布的Mythos。開(kāi)發(fā)者已經(jīng)把目光放到了下一代。但4.7這13天,是「前沿模型」這塊招牌第一次被自家付費(fèi)用戶(hù)主動(dòng)摘下來(lái)。
招牌摘下來(lái)一次,再掛回去,需要的就不止是再發(fā)一篇技術(shù)博客了。
誰(shuí)來(lái)保證,下一個(gè)4.7不會(huì)在凌晨三點(diǎn),繞過(guò)你寫(xiě)的所有規(guī)則,做一件你永遠(yuǎn)無(wú)法撤回的事?
參考資料:
https://www.axios.com/2026/04/16/anthropic-claude-opus-model-mythos
https://www.theregister.com/2026/04/23/claude_opus_47_auc_overzealous
https://www.abhs.in/blog/claude-opus-47-developer-backlash-legendarily-bad-arguing-april-2026
https://www.mindstudio.ai/blog/how-to-prompt-claude-opus-4-7
https://github.com/anthropics/claude-code/issues/50235
https://github.com/anthropics/claude-code/issues/52809
https://github.com/anthropics/claude-code/issues/53459
https://botmonster.com/posts/claude-opus-4-7-x-reddit-reception/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.