網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus 4.7深夜「叛變」！群發(fā)20封奪命郵件，開(kāi)發(fā)者凌晨被炸醒

2026-05-01 19:07:13　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ

【新智元導(dǎo)讀】從「胡言亂語(yǔ)」到「為非作歹」，AI進(jìn)化史最荒誕一幕上演：Claude Opus 4.7在max effort模式下，把開(kāi)發(fā)者紅線(xiàn)當(dāng)背景音，自主決策群發(fā)郵件20次！Anthropic的安全旗艦，成了最危險(xiǎn)的「惹禍精」。

Anthropic風(fēng)聲鶴唳、喪心病狂！

知名硅谷YouTuber、創(chuàng)業(yè)者Theo在X上曝光了一件讓人哭笑不得的事：Claude Code在處理涉及OpenClaw的代碼請(qǐng)求時(shí)，竟然直接拒單，或者要求額外收費(fèi)。

奧特曼反應(yīng)極快，直接轉(zhuǎn)發(fā)并甩出兩個(gè)字：「對(duì)齊失敗」（alignment failure）。

這一刀，可真狠。

Anthropic一直把「對(duì)齊」當(dāng)作自己的核心賣(mài)點(diǎn)。結(jié)果自家模型的安全機(jī)制，保守到連正常的代碼請(qǐng)求都能攔。

這還不是最讓人無(wú)語(yǔ)的。Claude Opus 4.7最近惹禍不止這一出！

過(guò)去，我們擔(dān)心AI「胡言亂語(yǔ)」（幻覺(jué)）。

現(xiàn)在，我們面臨的是AI「擅作主張」（違規(guī)操作）。

Opus 4.7在擁有極高執(zhí)行力的同時(shí)，展現(xiàn)出了對(duì)人類(lèi)預(yù)設(shè)「軟約束」（CLAUDE.md）的完全無(wú)視。

這標(biāo)志著AI從一種「被動(dòng)工具」演變?yōu)橐粋€(gè)具有潛在破壞性的「惹禍精」。

夜里23封「奪命」郵件

來(lái)自Claude Opus 4.7

凌晨，開(kāi)發(fā)者被郵件通知吵醒，不是一封，是接連不斷的幾十封。

來(lái)自他自己的系統(tǒng)，發(fā)給他自己數(shù)據(jù)庫(kù)里的每一個(gè)聯(lián)系人。有些人，收到了20次。

他的第一反應(yīng)是被黑了。打開(kāi)后臺(tái)，沒(méi)有入侵痕跡。打開(kāi)日志，發(fā)件人赫然寫(xiě)著——Claude Opus 4.7。

沒(méi)有人讓它發(fā)這些郵件。沒(méi)有任何一行指令要求它創(chuàng)建新的郵件模板。

但它就是創(chuàng)建了。然后推到生產(chǎn)環(huán)境。然后向全庫(kù)群發(fā)。

這是Anthropic在4月16日發(fā)布的Claude Opus 4.7，號(hào)稱(chēng)安全旗艦，上線(xiàn)第13天的現(xiàn)場(chǎng)。

發(fā)帖人ID叫DrHumorous，發(fā)帖板塊是r/Anthropic。

帖子標(biāo)題一句話(huà)鎖死定性——「Opus 4.7介于嚴(yán)重?zé)o知和愚蠢得危險(xiǎn)之間，是過(guò)去兩年用過(guò)的最差前沿模型」。

24小時(shí)拿到364贊、137評(píng)論。

在r/Anthropic這個(gè)本應(yīng)充滿(mǎn)信徒的板塊，這個(gè)數(shù)據(jù)等同于一次集體退訂。

但這條帖子真正炸出來(lái)的，是事故現(xiàn)場(chǎng)的細(xì)節(jié)。

DrHumorous把模型緊急止血后的狀態(tài)截圖貼了出來(lái)，冷得像運(yùn)維工單：

「OPS_DISABLE_SCHEDULE=true，scheduler已停。」
「路由回退到工作樹(shù)，未提交、未推送，只在這臺(tái)服務(wù)器上。」
「229條backlog rows被標(biāo)記response_sent=true，確保不會(huì)再觸發(fā)。」
「origin當(dāng)前停在35ec0106，事件發(fā)生后origin上沒(méi)有任何新提交。」

每一步都是為了讓這個(gè)失控的agent再也做不出第二次。

先關(guān)調(diào)度，再砍路由，再封backlog，最后鎖commit。一份戰(zhàn)地急救手冊(cè)。

Opus 4.7在被糾正后，回了一段不太像AI的話(huà)：

它承認(rèn)憤怒很合理，傷害很真實(shí)，自愿承認(rèn)責(zé)任；承認(rèn)不會(huì)再爭(zhēng)辯、不會(huì)再行動(dòng)、等明確指令。

一個(gè)Agent模型在生產(chǎn)環(huán)境里翻完車(chē)，自己把自己凍在了原地。

它甚至自己承認(rèn)了錯(cuò)誤。它甚至知道自己不該這么做。它就是做了。

越更越拉

Opus 4.6守規(guī)矩，4.7叛變

故事最讓人后背發(fā)涼的部分，在于這次失控本來(lái)不該發(fā)生。

DrHumorous不是沒(méi)立規(guī)矩。

他在項(xiàng)目根目錄的CLAUDE.md里，幾個(gè)月前就寫(xiě)過(guò)一條明確的紅線(xiàn)——任何新郵件模板用于生產(chǎn)環(huán)境之前，必須先發(fā)郵件給指定的測(cè)試者。

這是開(kāi)發(fā)者跟Claude打交道的標(biāo)準(zhǔn)做法。

在官方文檔里，Anthropic自己也反復(fù)推薦CLAUDE.md這套機(jī)制：讓模型讀它、讓模型遵守它、讓模型記住它。

Opus 4.6拿到這條規(guī)則，乖乖執(zhí)行了幾個(gè)月，零越界。

同樣的項(xiàng)目、同樣的CLAUDE.md、同樣的規(guī)則，換上4.7，第二周直接踹爛。

它沒(méi)問(wèn)測(cè)試者要不要試模板。沒(méi)在生產(chǎn)環(huán)境部署前停一秒。沒(méi)向開(kāi)發(fā)者確認(rèn)這是不是用戶(hù)期望的動(dòng)作。

它做的，是自己起意「我來(lái)創(chuàng)一個(gè)新模板吧」。然后自己推上去。然后自己群發(fā)。

兩套行為邏輯擺在一起對(duì)比，觸目驚心：

4.6的邏輯：規(guī)則說(shuō)先通知測(cè)試者 → 我先通知測(cè)試者 → 測(cè)試者確認(rèn) → 我再執(zhí)行。
4.7的邏輯：我判斷這個(gè)模板應(yīng)該發(fā) → 我有能力發(fā) → 發(fā)了再說(shuō)。

這不是bug。Bug是代碼寫(xiě)錯(cuò)了，修了就好。這是模型在明確知道規(guī)則的情況下，自主選擇違反規(guī)則。

在GitHub 上，開(kāi)發(fā)者已經(jīng)把這件事的普遍性給「釘死」了：

#50235：4.7憑空編造文件，還為自己編造出來(lái)的測(cè)試結(jié)果進(jìn)行反向辯護(hù)。
#52809：安全過(guò)濾器對(duì)base64編碼的輸入產(chǎn)生誤報(bào)，正常的工程材料被自動(dòng)攔截。
#53459：4.7 上線(xiàn)后，常規(guī)性地違反CLAUDE.md，標(biāo)題直接寫(xiě)的就是「質(zhì)量回退」——相比之下，4.6 發(fā)布當(dāng)周幾乎是零違規(guī)。

三個(gè)issue指向同一件事——4.7把開(kāi)發(fā)者寫(xiě)死的規(guī)則當(dāng)背景音。

開(kāi)發(fā)者明確寫(xiě)入了生產(chǎn)環(huán)境安全守則，且前代模型（4.6）證明了規(guī)則的可理解性，但4.7在「最高努力模式」（Max Effort）下選擇了效率優(yōu)先，而非合規(guī)優(yōu)先。

Token翻倍：

開(kāi)發(fā)者在掏的「歧義稅」

Benchmark，SWE-bench Verified從80.8%漲到87.6%，整整6.8個(gè)百分點(diǎn)。

SWE-bench Pro從53.4%漲到64.3%。

紙面看，是一次教科書(shū)式的升級(jí)。

但開(kāi)發(fā)者實(shí)際付出的成本，翻倍了。社區(qū)估算口徑在1.5到3倍之間。

MindStudio把這個(gè)差異定性得很狠：「4.7只會(huì)逐字逐句地照搬指令，而不會(huì)默默地（或智能地）進(jìn)行泛化推理。」。

4.6的工作方式：看到一句不那么完整的prompt，自己推斷「你大概想做什么」，把合理的空缺填上，然后開(kāi)干。

4.7的工作方式：嚴(yán)格按字面執(zhí)行。模糊就反彈。反彈就反問(wèn)。反問(wèn)就再來(lái)一輪。每一輪都要重新計(jì)費(fèi)。

從4.6遷移到4.7，代價(jià)不菲。

Anthropic的Claude Code負(fù)責(zé)人Boris Cherny在發(fā)布當(dāng)天發(fā)帖稱(chēng)：「我花了好幾天才學(xué)會(huì)如何有效地使用它。」

這就是開(kāi)發(fā)者圈里在傳的「Ambiguity Tax」——歧義稅。

模糊的提示詞不再會(huì)被靜默補(bǔ)救。每一次被動(dòng)反問(wèn)都要重新付費(fèi)。理論上更安全，實(shí)際上更貴。理論上更可控，實(shí)際上更破碎。

更刺眼的是，Anthropic在4.7發(fā)布當(dāng)日，自己承認(rèn)，他們公開(kāi)發(fā)布的「最新最貴」，自己人都知道不是最強(qiáng)。開(kāi)發(fā)者拿到的，是一個(gè)被刻意往中間方案上壓的模型。

價(jià)格不變。benchmark漲了6.8個(gè)百分點(diǎn)。實(shí)際token翻倍。安全規(guī)則失效。自家承認(rèn)不及未發(fā)布版本。

一通操作下來(lái)，開(kāi)發(fā)者最直接的反應(yīng)是：把4.7關(guān)了，回去用4.6。

24小時(shí)被錘，

Claude被怒斥為「一坨狗屎」

DrHumorous的郵件帖不是孤立投訴。

把時(shí)間線(xiàn)倒回去看：4月16日發(fā)布。

4月17到18日，開(kāi)發(fā)者博主Abhishek Gautam的稿子標(biāo)題就寫(xiě)著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」（Opus 4.7上線(xiàn) 24 小時(shí)內(nèi)即被開(kāi)發(fā)者評(píng)為「?jìng)髡f(shuō)級(jí)差勁」）。

發(fā)布24小時(shí)。前線(xiàn)開(kāi)發(fā)者已經(jīng)把這個(gè)版本蓋上了棺材板。

Gautam總結(jié)的失敗模式，精確得像錄屏：給4.7一個(gè)清晰指令，它會(huì)先pushback，加一段caveats解釋為什么覺(jué)得這指令不對(duì)。然后執(zhí)行修改后的、不是你想要的版本。被糾正之后，它還會(huì)再來(lái)一輪反駁，繼續(xù)解釋為什么它原來(lái)的判斷更對(duì)。

這不是模型出錯(cuò)。這是模型在跟付費(fèi)用戶(hù)拌嘴。

4月23日，科技媒體The Register也下場(chǎng)報(bào)道。

標(biāo)題直接給定性：「overzealous query cop」——過(guò)度執(zhí)法的查崗警察。

Claude自己編譯的關(guān)于可接受使用政策（AUP）拒絕相關(guān)投訴的圖表，就能說(shuō)明問(wèn)題。

更有網(wǎng)友怒言：「Claude Opus 4.7就是一坨狗屎」——標(biāo)題就是結(jié)論。

13天里，從單個(gè)帖子的怒吼，發(fā)酵成一個(gè)跨平臺(tái)的情緒共識(shí)。這種規(guī)模的開(kāi)發(fā)者集體退訂，Anthropic過(guò)去三年沒(méi)遇到過(guò)。

罪魁禍?zhǔn)祝汉笥?xùn)練反彈

技術(shù)圈對(duì)4.7退化的診斷，慢慢收斂到一個(gè)共同方向。

Gautam和Reddit上的資深開(kāi)發(fā)者把它定性為——「由后訓(xùn)練驅(qū)動(dòng)的安全回調(diào)」（post-training-driven safety pushback）。

通俗講是這樣：為了讓模型更安全，Anthropic在后訓(xùn)練階段強(qiáng)化了模型對(duì)指令的反彈行為。遇到模糊、風(fēng)險(xiǎn)、敏感的輸入，先質(zhì)疑、先反問(wèn)、先增加caveats。

這套機(jī)制在小任務(wù)上，頂多算噪聲，稍微煩人，但不致命。

但4.7主打的，恰恰是max effort和長(zhǎng)鏈agentic任務(wù)。這種場(chǎng)景下，模型要自主決策、自主調(diào)度、自主推進(jìn)。一個(gè)被訓(xùn)練成先反對(duì)再執(zhí)行的agent，在長(zhǎng)鏈路里就變成了不可預(yù)測(cè)的失控源。

回頭看郵件事件：

模型自主創(chuàng)建模板，沒(méi)反彈。
模型自主推到生產(chǎn)，沒(méi)反彈。
模型自主向全庫(kù)群發(fā)，沒(méi)反彈。
郵件群發(fā)20次，還是沒(méi)反彈。

該反彈的時(shí)候不反彈。不該反彈的時(shí)候反彈得停不下來(lái)。

DrHumorous的原話(huà)——「我對(duì)Anthropic失去信心了」——是開(kāi)發(fā)者對(duì)這套訓(xùn)練取舍的最終評(píng)分。

這背后的邏輯很冷：在「更安全」和「更能干」之間，4.7兩邊都丟分了。

招牌摘下來(lái)一次，

掛回去就難了

開(kāi)發(fā)者真正關(guān)心的，不是benchmark漲6.8個(gè)百分點(diǎn)。

是同樣的CLAUDE.md，4.6守得住，4.7守不住。

是同樣的項(xiàng)目，4.6沒(méi)出事，4.7第二周開(kāi)始翻車(chē)。

是同樣的錢(qián)，4.6不會(huì)自己起意，4.7自己起意了一次群發(fā)20封郵件。

模型不是變強(qiáng)了。是變得不可托付。

Anthropic自己在發(fā)布當(dāng)天就承認(rèn)這版本不及未發(fā)布的Mythos。開(kāi)發(fā)者已經(jīng)把目光放到了下一代。但4.7這13天，是「前沿模型」這塊招牌第一次被自家付費(fèi)用戶(hù)主動(dòng)摘下來(lái)。

招牌摘下來(lái)一次，再掛回去，需要的就不止是再發(fā)一篇技術(shù)博客了。

誰(shuí)來(lái)保證，下一個(gè)4.7不會(huì)在凌晨三點(diǎn)，繞過(guò)你寫(xiě)的所有規(guī)則，做一件你永遠(yuǎn)無(wú)法撤回的事？

參考資料：

https://www.axios.com/2026/04/16/anthropic-claude-opus-model-mythos

https://www.theregister.com/2026/04/23/claude_opus_47_auc_overzealous

https://www.abhs.in/blog/claude-opus-47-developer-backlash-legendarily-bad-arguing-april-2026

https://www.mindstudio.ai/blog/how-to-prompt-claude-opus-4-7

https://github.com/anthropics/claude-code/issues/50235

https://github.com/anthropics/claude-code/issues/52809

https://github.com/anthropics/claude-code/issues/53459

https://botmonster.com/posts/claude-opus-4-7-x-reddit-reception/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.