網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude越更越廢？AMD AI負(fù)責(zé)人甩出23萬(wàn)次調(diào)用記錄：已“變蠢+擺爛”，復(fù)雜工程根本干不了

2026-04-12 10:35:51　來(lái)源: 人工智能學(xué)家

北京舉報(bào)

分享至

來(lái)源：AI思想會(huì)

【前言】AI 正以前所未有的速度發(fā)展，新的機(jī)遇不斷涌現(xiàn)，如果你希望：與技術(shù)專(zhuān)家、產(chǎn)品經(jīng)理和創(chuàng)業(yè)者深度交流，一起探索 AI如何改變各行各業(yè)。歡迎在文末掃二維碼，加入「AI思想會(huì)」交流群，和一群志同道合的伙伴共同學(xué)習(xí)、思考、創(chuàng)造！

近日，曾被視為最強(qiáng) AI 編碼工具之一的 Claude Code，遭遇了前所未有的信任危機(jī)。帶頭提出質(zhì)疑的，是 AMD 人工智能部門(mén)的負(fù)責(zé)人——她直言吐槽 Claude Code 越更新越差，不僅“變蠢”，還學(xué)會(huì)了偷懶擺爛。

不僅如此，她更拿出了數(shù)萬(wàn)條實(shí)際使用數(shù)據(jù)進(jìn)行深度分析，實(shí)錘了這一說(shuō)法。

一則 GitHub issue，引全網(wǎng)熱議

這場(chǎng)爭(zhēng)議的導(dǎo)火索，源于 4 月 2 日一名昵稱(chēng)為 stellaraccident 的用戶，在 Claude Code 的 GitHub 項(xiàng)目頁(yè)面上提交的一個(gè)問(wèn)題反饋（Issue）。

她沒(méi)繞任何彎子，直接在 issue 標(biāo)題中就帶著不滿：“2 月份的更新導(dǎo)致 Claude Code 無(wú)法用于復(fù)雜的工程任務(wù)”。

根據(jù)該用戶的 GitHub 個(gè)人資料和相關(guān) Linkedln 帖子顯示，這位發(fā)帖人正是芯片制造商 AMD 人工智能部門(mén)主管 Stella Laurenzo。

她明確列出了更新后 Claude Code 的四大問(wèn)題，堪稱(chēng)“四宗罪”：

無(wú)視指令
聲稱(chēng)“最簡(jiǎn)單的修復(fù)方案”，但其實(shí)是錯(cuò)誤的
執(zhí)行與要求相反的操作
在未按要求完成的情況下聲稱(chēng)已完成

為了證明自己并非隨口吐槽，Stella Laurenzo 還拿出了團(tuán)隊(duì)幾個(gè)月的使用日志，里面詳細(xì)記錄了 6852 次會(huì)話，這些會(huì)話包含了 234760 次工具調(diào)用和 17871 個(gè)思維塊。

所有數(shù)據(jù)都指向一個(gè)結(jié)論：2月份之后的 Claude Code，就是在擺爛，稍微復(fù)雜一點(diǎn)的工程活，根本信不過(guò)。

Claude Code 到底擺爛成什么樣？

通過(guò)對(duì)會(huì)話文件的量化分析，Stella Laurenzo 指出：思考內(nèi)容脫敏功能（redact-thinking-2026-02-12）的上線，與復(fù)雜長(zhǎng)會(huì)話工程工作流的質(zhì)量退化，有著精準(zhǔn)的對(duì)應(yīng)關(guān)系。

數(shù)據(jù)顯示，擴(kuò)展思考 token 并非“錦上添花”，而是模型執(zhí)行多步驟研究、遵守規(guī)范、精細(xì)修改代碼的核心必要條件。

一旦思考深度降低，模型的工具使用模式就會(huì)從“先研究后修改”，明顯轉(zhuǎn)變?yōu)椤爸苯有薷摹保@也直接引發(fā)了用戶反饋的各類(lèi)質(zhì)量問(wèn)題。

Stella Laurenzo 以及其團(tuán)隊(duì)基于以下幾個(gè)維度剖析了 Claude Code 這幾個(gè)月間的變化：

1.思考內(nèi)容隱藏時(shí)間線與質(zhì)量回退相吻合

從會(huì)話 JSONL 文件中對(duì)思考?jí)K的分析結(jié)果來(lái)看，變化更為直觀：

調(diào)查報(bào)告顯示，質(zhì)量退化問(wèn)題于 3 月 8 日被獨(dú)立上報(bào)，而這一天，恰好是脫敏思考?jí)K占比突破 50% 的日子。據(jù)悉，脫敏功能是分階段部署的，從 1.5% 逐步提升至 25%、58.4%，最終在一周內(nèi)達(dá)到 100%。

2.脫敏前思考深度已大幅下降

1 月份時(shí)，Claude Code 每次思考的內(nèi)容大約有 2200 個(gè)字符，能看出是在認(rèn)真琢磨問(wèn)題。可到了 2 月底，思考字符數(shù)直接暴跌至 720 個(gè)，相當(dāng)于減少了三分之二的思考量，思考深度下降了 67%。

除了思考偷懶，Stella Laurenzo 和 AMD 團(tuán)隊(duì)還檢測(cè)了 Claude Code 的多項(xiàng)質(zhì)量指標(biāo)。

在思考分析完成前，他們已基于 18000 + 用戶提示詞獨(dú)立計(jì)算以下指標(biāo)：

此外，他們也編寫(xiě)了 stop-phrase-guard.sh 停止鉤子，用于自動(dòng)檢測(cè)推諉、提前停止、請(qǐng)求許可等敷衍行為。

結(jié)果顯示，3 月 8 日后的 17 天內(nèi)，這個(gè)鉤子被觸發(fā)了 173 次，而在此之前，從未被觸發(fā)過(guò)。

另外，Claude Code 的工作態(tài)度也發(fā)生了徹底轉(zhuǎn)變，最核心的變化就是修改代碼的邏輯：以前它會(huì)先認(rèn)真閱讀相關(guān)文件，再動(dòng)手修改，但對(duì) 234760 次工具調(diào)用的分析顯示，現(xiàn)在的它，已經(jīng)不再先閱讀代碼再修改了。

調(diào)查數(shù)據(jù)清晰地呈現(xiàn)了這一退化：1 月份時(shí)，Claude Code 改一次代碼平均要讀取 6.6 次文件，生怕出現(xiàn)錯(cuò)誤。這算是它的“良好期”，會(huì)先讀取目標(biāo)文件、關(guān)聯(lián)文件，全局檢索用法，查看頭文件與測(cè)試用例，再進(jìn)行精準(zhǔn)修改。

可到了 3 月底，它平均只讀 2 次文件就敢直接動(dòng)手修改，降幅超過(guò) 70%。這樣一來(lái)，問(wèn)題自然層出不窮：僅讀取當(dāng)前文件就直接修改，常常忽略上下文，進(jìn)而出現(xiàn)亂插代碼、破壞原有注釋、重復(fù)編寫(xiě)邏輯等問(wèn)題，寫(xiě)出來(lái)的代碼 Bug 滿天飛。

很多程序員反饋，后續(xù)修改這些 Bug 的時(shí)間，比自己重新寫(xiě)一段代碼還要久。

除此之外，Claude Code 全新寫(xiě)入的占比翻倍，模型更傾向于重寫(xiě)整個(gè)文件，而非精準(zhǔn)修改。這樣做雖然速度更快，但會(huì)丟失精度與上下文感知，反而得不償失。

Stella Laurenzo 還進(jìn)一部分分析了受影響的工作流，主要包括：

50 + 并發(fā)代理會(huì)話執(zhí)行系統(tǒng)編程（C、MLIR、GPU 驅(qū)動(dòng)）
30 分鐘以上自主運(yùn)行，執(zhí)行復(fù)雜多文件修改
嚴(yán)格的項(xiàng)目規(guī)范（5000 + 字 CLAUDE.md 文檔）
代碼評(píng)審、工單管理、迭代調(diào)試
良好期單周末合并 19.1 萬(wàn)行代碼

其指出，擴(kuò)展思考是模型實(shí)現(xiàn)以下能力的核心機(jī)制：

行動(dòng)前規(guī)劃多步驟方案（讀取文件、執(zhí)行順序）
recalling 并遵循項(xiàng)目規(guī)范
輸出前自我檢查錯(cuò)誤
判斷任務(wù)是否完成、會(huì)話是否繼續(xù)
數(shù)百次工具調(diào)用中保持邏輯連貫

而當(dāng)思考深度不足時(shí)，模型就會(huì)選擇最省力的操作：不讀取文件直接修改、未完成任務(wù)就停止、推諉責(zé)任、用最簡(jiǎn)單的方案替代正確方案。

從 2 月到 3 月，Claude Code API 請(qǐng)求量直接暴漲了 80 倍，輸出的 token 也增加了 64 倍。據(jù)估算，每月的使用成本從幾百美元，直接飆升到 4 萬(wàn)多美元。本來(lái)想省單次思考的算力，結(jié)果因?yàn)?Claude Code 反復(fù)改錯(cuò)、需要不斷重試，反而讓整體成本直接失控，簡(jiǎn)直是賠本賺吆喝。

訴求：雖然我已換了其他大模型，但還是希望 Anthropic 能修復(fù)產(chǎn)品

面對(duì)這樣的結(jié)果，Stella Laurenzo 表示，這不是她一個(gè)人遇到的問(wèn)題，而且情況已經(jīng)嚴(yán)重到無(wú)法在工作環(huán)境中繼續(xù)使用 Claude Code 的地步。

她說(shuō)道：“我們的工作環(huán)境復(fù)雜度高且穩(wěn)定，通過(guò)挖掘數(shù)月日志，我們明確了問(wèn)題的根源——自 2026 年 2 月起，Claude 已無(wú)法可靠完成復(fù)雜工程任務(wù)。團(tuán)隊(duì)所有資深工程師均反饋了類(lèi)似問(wèn)題，其中一位工程師擁有可復(fù)現(xiàn)的測(cè)試流程，我們基于其日志開(kāi)展實(shí)驗(yàn)與數(shù)據(jù)分析，且已嘗試所有公開(kāi)的變通方案。”

在 Stella 看來(lái)，自己發(fā)布這份反饋，并不是為了抹黑 Anthropic，而是真心希望他們能重視這個(gè)問(wèn)題，拯救 Claude Code 這個(gè)曾經(jīng)的好產(chǎn)品。“我們已切換至其他服務(wù)商，其服務(wù)質(zhì)量更優(yōu)，但 Claude 曾為我們提供良好支持，因此提交此問(wèn)題，希望 Anthropic 能修復(fù)產(chǎn)品。”

對(duì)此，其提出了四個(gè)建議：

關(guān)于思考資源分配的透明度：如果思考 token 被減少或設(shè)上限，依賴(lài)深度推理的用戶需要知情。目前的 redact-thinking header 讓外部無(wú)法驗(yàn)證這一點(diǎn)。
“最大思考”等級(jí)：執(zhí)行復(fù)雜工程工作流的用戶愿意為保證深度推理付出更高費(fèi)用。目前的訂閱模式?jīng)]有區(qū)分需要每次 200 個(gè)思考 token 的用戶和需要 20,000 個(gè)的用戶。
API 響應(yīng)中的思考 token 指標(biāo)：即使思考內(nèi)容被隱藏，如果在使用情況響應(yīng)中暴露 thinking_tokens，用戶仍可監(jiān)控自己的請(qǐng)求是否獲得了所需的推理深度。
高階用戶的金絲雀指標(biāo)：停止鉤子違規(guī)率（從 0 → 每天 10 次）是一個(gè)可機(jī)器讀取的信號(hào)，可以在整個(gè)用戶群體中監(jiān)控，作為質(zhì)量回退的領(lǐng)先指標(biāo)。

網(wǎng)友吐槽：從“封神”到“勸退”，落差太大

不光 AMD 這位高管，全網(wǎng)的程序員們看到這份反饋后，像是找到了組織，評(píng)論區(qū)里一片哀嚎。

有人表示，這段時(shí)間一直懷疑是自己技術(shù)下滑了，寫(xiě)代碼總被 Claude Code 帶偏，直到看到這份反饋才知道，原來(lái)大家都有一樣的困擾。

作為 Claude 曾經(jīng)的忠實(shí)用戶，程序員 bbecausereasonss 在 Reddit 上發(fā)帖稱(chēng)：“我已經(jīng)無(wú)法再心安理得地向客戶推薦 Claude Code 了。”

他表示：“我是 MAX 用戶。剛開(kāi)始使用 Claude Code 時(shí)，我真的被震撼到了。自 2022 年以來(lái)我一直在用 AI 做開(kāi)發(fā)，這一次確實(shí)讓我感覺(jué)像是一個(gè)重要的歷史時(shí)刻。我曾經(jīng)把 Claude Code 推薦進(jìn)客戶的項(xiàng)目和開(kāi)發(fā)流程中，在社交媒體上大力稱(chēng)贊它，也在私下里不斷安利給身邊的人。”

但他話鋒一轉(zhuǎn)，吐槽當(dāng)前版本的模型狀態(tài)：“懶惰、無(wú)知、能力退化且視野狹隘，在還沒(méi)有真正理解整體問(wèn)題和各種邊界情況之前，就盲目開(kāi)始‘修復(fù)’——而且大多數(shù)補(bǔ)丁反而把事情搞得更糟。我已經(jīng)無(wú)法再負(fù)責(zé)任地繼續(xù)推薦它了，因?yàn)檫@只會(huì)讓我看起來(lái)像個(gè)傻子，或者在胡說(shuō)八道，甚至兩者兼具。”

他還直言：“Claude Opus 在過(guò)去幾周簡(jiǎn)直是一場(chǎng)災(zāi)難——甚至還沒(méi)提到使用額度的問(wèn)題。一個(gè)很貼切的比喻是，它像是被‘做了腦葉切除手術(shù)’，智商從 135–150 直接掉到 90–100，感覺(jué)退化成了 Sonnet 3.5。真的很失望。”

還有人追問(wèn) Stella Laurenzo 究竟在用什么模型替代 Claude Code：

“Claude 已經(jīng)退化到無(wú)法被信任去完成復(fù)雜工程任務(wù)的地步。”

差不多，但我覺(jué)得更準(zhǔn)確的說(shuō)法是：Claude 已經(jīng)退化到連任何工程任務(wù)都不值得信任的程度了。

它從來(lái)沒(méi)有一次就把事情做對(duì)過(guò)，寫(xiě)出來(lái)的代碼充滿 bug 和重復(fù)邏輯，而且必須全程盯著，否則它一定會(huì)把東西搞壞。

它已經(jīng)變成了另一個(gè) AI“玩具”。挺可惜的。

能否分享一下你在用的“其他工具”？我也想試試。

不過(guò)，Stella Laurenzo 并沒(méi)有指出自己用的是哪款模型替代。而是補(bǔ)充說(shuō)道：「在 6 個(gè)月前，Claude 在推理質(zhì)量和執(zhí)行能力上幾乎是獨(dú)一檔的。但現(xiàn)在，其他競(jìng)品也需要被非常認(rèn)真地重新評(píng)估。就能力層級(jí)而言，Anthropic早已不再是唯一一個(gè)處在 Claude Opus 曾經(jīng)所在水平的玩家。」

現(xiàn)在網(wǎng)友們的呼聲其實(shí)很一致：對(duì)于 AI 編程助手，可以接受它慢一點(diǎn)，但絕對(duì)不能接受它變蠢、變懶，更不能接受它敷衍了事。畢竟大家用 AI 編程助手，不是想要一個(gè)“快但錯(cuò)”的打字機(jī)，而是想要一個(gè)能一起思考、能扛事的隊(duì)友，要是連最基本的思考都沒(méi)了，那這個(gè)工具，也就失去了它存在的意義。

對(duì)此，你在使用 Claude Code 有什么樣的感受？

參考：

https://github.com/anthropics/claude-code/issues/42796

https://github.com/stellaraccident

https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問(wèn)21世紀(jì)關(guān)鍵技術(shù)研究院的“未來(lái)知識(shí)庫(kù)”

未來(lái)知識(shí)庫(kù)是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來(lái)知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告

（加入未來(lái)知識(shí)庫(kù)，全部資料免費(fèi)閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.