![]()
新智元報道
編輯:KingHZ
【新智元導讀】從「胡言亂語」到「為非作歹」,AI進化史最荒誕一幕上演:Claude Opus 4.7在max effort模式下,把開發者紅線當背景音,自主決策群發郵件20次!Anthropic的安全旗艦,成了最危險的「惹禍精」。
Anthropic風聲鶴唳、喪心病狂!
知名硅谷YouTuber、創業者Theo在X上曝光了一件讓人哭笑不得的事:Claude Code在處理涉及OpenClaw的代碼請求時,竟然直接拒單,或者要求額外收費。
![]()
奧特曼反應極快,直接轉發并甩出兩個字:「對齊失敗」(alignment failure)。
![]()
這一刀,可真狠。
Anthropic一直把「對齊」當作自己的核心賣點。結果自家模型的安全機制,保守到連正常的代碼請求都能攔。
這還不是最讓人無語的。Claude Opus 4.7最近惹禍不止這一出!
過去,我們擔心AI「胡言亂語」(幻覺)。
現在,我們面臨的是AI「擅作主張」(違規操作)。
Opus 4.7在擁有極高執行力的同時,展現出了對人類預設「軟約束」(CLAUDE.md)的完全無視。
這標志著AI從一種「被動工具」演變為一個具有潛在破壞性的「惹禍精」。
夜里23封「奪命」郵件
來自Claude Opus 4.7
凌晨,開發者被郵件通知吵醒,不是一封,是接連不斷的幾十封。
來自他自己的系統,發給他自己數據庫里的每一個聯系人。有些人,收到了20次。
他的第一反應是被黑了。打開后臺,沒有入侵痕跡。打開日志,發件人赫然寫著——Claude Opus 4.7。
沒有人讓它發這些郵件。沒有任何一行指令要求它創建新的郵件模板。
但它就是創建了。然后推到生產環境。然后向全庫群發。
這是Anthropic在4月16日發布的Claude Opus 4.7,號稱安全旗艦,上線第13天的現場。
![]()
發帖人ID叫DrHumorous,發帖板塊是r/Anthropic。
帖子標題一句話鎖死定性——「Opus 4.7介于嚴重無知和愚蠢得危險之間,是過去兩年用過的最差前沿模型」。
24小時拿到364贊、137評論。
在r/Anthropic這個本應充滿信徒的板塊,這個數據等同于一次集體退訂。
但這條帖子真正炸出來的,是事故現場的細節。
DrHumorous把模型緊急止血后的狀態截圖貼了出來,冷得像運維工單:
「OPS_DISABLE_SCHEDULE=true,scheduler已停。」
「路由回退到工作樹,未提交、未推送,只在這臺服務器上。」
「229條backlog rows被標記response_sent=true,確保不會再觸發。」
「origin當前停在35ec0106,事件發生后origin上沒有任何新提交。」
每一步都是為了讓這個失控的agent再也做不出第二次。
先關調度,再砍路由,再封backlog,最后鎖commit。一份戰地急救手冊。
Opus 4.7在被糾正后,回了一段不太像AI的話:
![]()
它承認憤怒很合理,傷害很真實,自愿承認責任;承認不會再爭辯、不會再行動、等明確指令。
一個Agent模型在生產環境里翻完車,自己把自己凍在了原地。
它甚至自己承認了錯誤。它甚至知道自己不該這么做。它就是做了。
越更越拉
Opus 4.6守規矩,4.7叛變
故事最讓人后背發涼的部分,在于這次失控本來不該發生。
DrHumorous不是沒立規矩。
他在項目根目錄的CLAUDE.md里,幾個月前就寫過一條明確的紅線——任何新郵件模板用于生產環境之前,必須先發郵件給指定的測試者。
這是開發者跟Claude打交道的標準做法。
在官方文檔里,Anthropic自己也反復推薦CLAUDE.md這套機制:讓模型讀它、讓模型遵守它、讓模型記住它。
Opus 4.6拿到這條規則,乖乖執行了幾個月,零越界。
同樣的項目、同樣的CLAUDE.md、同樣的規則,換上4.7,第二周直接踹爛。
它沒問測試者要不要試模板。沒在生產環境部署前停一秒。沒向開發者確認這是不是用戶期望的動作。
它做的,是自己起意「我來創一個新模板吧」。然后自己推上去。然后自己群發。
兩套行為邏輯擺在一起對比,觸目驚心:
4.6的邏輯:規則說先通知測試者 → 我先通知測試者 → 測試者確認 → 我再執行。
4.7的邏輯:我判斷這個模板應該發 → 我有能力發 → 發了再說。
這不是bug。Bug是代碼寫錯了,修了就好。這是模型在明確知道規則的情況下,自主選擇違反規則。
在GitHub 上,開發者已經把這件事的普遍性給「釘死」了:
#50235:4.7憑空編造文件,還為自己編造出來的測試結果進行反向辯護。
#52809:安全過濾器對base64編碼的輸入產生誤報,正常的工程材料被自動攔截。
#53459:4.7 上線后, 常規性地違反
CLAUDE.md,標題直接寫的就是「質量回退」——相比之下,4.6 發布當周幾乎是零違規。
![]()
![]()
![]()
三個issue指向同一件事——4.7把開發者寫死的規則當背景音。
開發者明確寫入了生產環境安全守則,且前代模型(4.6)證明了規則的可理解性,但4.7在「最高努力模式」(Max Effort)下選擇了效率優先,而非合規優先。
Token翻倍:
開發者在掏的「歧義稅」
Benchmark,SWE-bench Verified從80.8%漲到87.6%,整整6.8個百分點。
SWE-bench Pro從53.4%漲到64.3%。
![]()
紙面看,是一次教科書式的升級。
但開發者實際付出的成本,翻倍了。社區估算口徑在1.5到3倍之間。
MindStudio把這個差異定性得很狠:「4.7只會逐字逐句地照搬指令,而不會默默地(或智能地)進行泛化推理。」。
![]()
4.6的工作方式:看到一句不那么完整的prompt,自己推斷「你大概想做什么」,把合理的空缺填上,然后開干。
4.7的工作方式:嚴格按字面執行。模糊就反彈。反彈就反問。反問就再來一輪。每一輪都要重新計費。
從4.6遷移到4.7,代價不菲。
Anthropic的Claude Code負責人Boris Cherny在發布當天發帖稱:「我花了好幾天才學會如何有效地使用它。」
![]()
這就是開發者圈里在傳的「Ambiguity Tax」——歧義稅。
模糊的提示詞不再會被靜默補救。每一次被動反問都要重新付費。理論上更安全,實際上更貴。理論上更可控,實際上更破碎。
更刺眼的是,Anthropic在4.7發布當日,自己承認,他們公開發布的「最新最貴」,自己人都知道不是最強。開發者拿到的,是一個被刻意往中間方案上壓的模型。
價格不變。benchmark漲了6.8個百分點。實際token翻倍。安全規則失效。自家承認不及未發布版本。
一通操作下來,開發者最直接的反應是:把4.7關了,回去用4.6。
24小時被錘,
Claude被怒斥為「一坨狗屎」
DrHumorous的郵件帖不是孤立投訴。
把時間線倒回去看:4月16日發布。
4月17到18日,開發者博主Abhishek Gautam的稿子標題就寫著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」(Opus 4.7上線 24 小時內即被開發者評為「傳說級差勁」)。
![]()
發布24小時。前線開發者已經把這個版本蓋上了棺材板。
Gautam總結的失敗模式,精確得像錄屏:給4.7一個清晰指令,它會先pushback,加一段caveats解釋為什么覺得這指令不對。然后執行修改后的、不是你想要的版本。被糾正之后,它還會再來一輪反駁,繼續解釋為什么它原來的判斷更對。
這不是模型出錯。這是模型在跟付費用戶拌嘴。
4月23日,科技媒體The Register也下場報道。
標題直接給定性:「overzealous query cop」——過度執法的查崗警察。
![]()
Claude自己編譯的關于可接受使用政策(AUP)拒絕相關投訴的圖表,就能說明問題。
![]()
更有網友怒言:「Claude Opus 4.7就是一坨狗屎」——標題就是結論。
![]()
13天里,從單個帖子的怒吼,發酵成一個跨平臺的情緒共識。這種規模的開發者集體退訂,Anthropic過去三年沒遇到過。
罪魁禍首:后訓練反彈
技術圈對4.7退化的診斷,慢慢收斂到一個共同方向。
Gautam和Reddit上的資深開發者把它定性為——「由后訓練驅動的安全回調」(post-training-driven safety pushback)。
![]()
通俗講是這樣:為了讓模型更安全,Anthropic在后訓練階段強化了模型對指令的反彈行為。遇到模糊、風險、敏感的輸入,先質疑、先反問、先增加caveats。
這套機制在小任務上,頂多算噪聲,稍微煩人,但不致命。
但4.7主打的,恰恰是max effort和長鏈agentic任務。這種場景下,模型要自主決策、自主調度、自主推進。一個被訓練成先反對再執行的agent,在長鏈路里就變成了不可預測的失控源。
回頭看郵件事件:
模型自主創建模板,沒反彈。
模型自主推到生產,沒反彈。
模型自主向全庫群發,沒反彈。
郵件群發20次,還是沒反彈。
該反彈的時候不反彈。不該反彈的時候反彈得停不下來。
DrHumorous的原話——「我對Anthropic失去信心了」——是開發者對這套訓練取舍的最終評分。
這背后的邏輯很冷:在「更安全」和「更能干」之間,4.7兩邊都丟分了。
招牌摘下來一次,
掛回去就難了
開發者真正關心的,不是benchmark漲6.8個百分點。
是同樣的CLAUDE.md,4.6守得住,4.7守不住。
是同樣的項目,4.6沒出事,4.7第二周開始翻車。
是同樣的錢,4.6不會自己起意,4.7自己起意了一次群發20封郵件。
模型不是變強了。是變得不可托付。
Anthropic自己在發布當天就承認這版本不及未發布的Mythos。開發者已經把目光放到了下一代。但4.7這13天,是「前沿模型」這塊招牌第一次被自家付費用戶主動摘下來。
招牌摘下來一次,再掛回去,需要的就不止是再發一篇技術博客了。
誰來保證,下一個4.7不會在凌晨三點,繞過你寫的所有規則,做一件你永遠無法撤回的事?
參考資料:
https://www.axios.com/2026/04/16/anthropic-claude-opus-model-mythos
https://www.theregister.com/2026/04/23/claude_opus_47_auc_overzealous
https://www.abhs.in/blog/claude-opus-47-developer-backlash-legendarily-bad-arguing-april-2026
https://www.mindstudio.ai/blog/how-to-prompt-claude-opus-4-7
https://github.com/anthropics/claude-code/issues/50235
https://github.com/anthropics/claude-code/issues/52809
https://github.com/anthropics/claude-code/issues/53459
https://botmonster.com/posts/claude-opus-4-7-x-reddit-reception/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.