![]()
來(lái)源:AI思想會(huì)
【前言】AI 正以前所未有的速度發(fā)展,新的機(jī)遇不斷涌現(xiàn),如果你希望:與技術(shù)專(zhuān)家、產(chǎn)品經(jīng)理和創(chuàng)業(yè)者深度交流,一起探索 AI如何改變各行各業(yè)。歡迎在文末掃二維碼,加入「AI思想會(huì)」交流群,和一群志同道合的伙伴共同學(xué)習(xí)、思考、創(chuàng)造!
近日,曾被視為最強(qiáng) AI 編碼工具之一的 Claude Code,遭遇了前所未有的信任危機(jī)。帶頭提出質(zhì)疑的,是 AMD 人工智能部門(mén)的負(fù)責(zé)人——她直言吐槽 Claude Code 越更新越差,不僅“變蠢”,還學(xué)會(huì)了偷懶擺爛。
不僅如此,她更拿出了數(shù)萬(wàn)條實(shí)際使用數(shù)據(jù)進(jìn)行深度分析,實(shí)錘了這一說(shuō)法。
![]()
![]()
一則 GitHub issue,引全網(wǎng)熱議
這場(chǎng)爭(zhēng)議的導(dǎo)火索,源于 4 月 2 日一名昵稱(chēng)為 stellaraccident 的用戶,在 Claude Code 的 GitHub 項(xiàng)目頁(yè)面上提交的一個(gè)問(wèn)題反饋(Issue)。
她沒(méi)繞任何彎子,直接在 issue 標(biāo)題中就帶著不滿:“2 月份的更新導(dǎo)致 Claude Code 無(wú)法用于復(fù)雜的工程任務(wù)”。
![]()
根據(jù)該用戶的 GitHub 個(gè)人資料和相關(guān) Linkedln 帖子顯示,這位發(fā)帖人正是芯片制造商 AMD 人工智能部門(mén)主管 Stella Laurenzo。
![]()
她明確列出了更新后 Claude Code 的四大問(wèn)題,堪稱(chēng)“四宗罪”:
無(wú)視指令
聲稱(chēng)“最簡(jiǎn)單的修復(fù)方案”,但其實(shí)是錯(cuò)誤的
執(zhí)行與要求相反的操作
在未按要求完成的情況下聲稱(chēng)已完成
為了證明自己并非隨口吐槽,Stella Laurenzo 還拿出了團(tuán)隊(duì)幾個(gè)月的使用日志,里面詳細(xì)記錄了 6852 次會(huì)話,這些會(huì)話包含了 234760 次工具調(diào)用和 17871 個(gè)思維塊。
所有數(shù)據(jù)都指向一個(gè)結(jié)論:2月份之后的 Claude Code,就是在擺爛,稍微復(fù)雜一點(diǎn)的工程活,根本信不過(guò)。
![]()
Claude Code 到底擺爛成什么樣?
通過(guò)對(duì)會(huì)話文件的量化分析,Stella Laurenzo 指出:思考內(nèi)容脫敏功能(redact-thinking-2026-02-12)的上線,與復(fù)雜長(zhǎng)會(huì)話工程工作流的質(zhì)量退化,有著精準(zhǔn)的對(duì)應(yīng)關(guān)系。
數(shù)據(jù)顯示,擴(kuò)展思考 token 并非“錦上添花”,而是模型執(zhí)行多步驟研究、遵守規(guī)范、精細(xì)修改代碼的核心必要條件。
一旦思考深度降低,模型的工具使用模式就會(huì)從“先研究后修改”,明顯轉(zhuǎn)變?yōu)椤爸苯有薷摹保@也直接引發(fā)了用戶反饋的各類(lèi)質(zhì)量問(wèn)題。
Stella Laurenzo 以及其團(tuán)隊(duì)基于以下幾個(gè)維度剖析了 Claude Code 這幾個(gè)月間的變化:
1.思考內(nèi)容隱藏時(shí)間線與質(zhì)量回退相吻合
從會(huì)話 JSONL 文件中對(duì)思考?jí)K的分析結(jié)果來(lái)看,變化更為直觀:
![]()
調(diào)查報(bào)告顯示,質(zhì)量退化問(wèn)題于 3 月 8 日被獨(dú)立上報(bào),而這一天,恰好是脫敏思考?jí)K占比突破 50% 的日子。據(jù)悉,脫敏功能是分階段部署的,從 1.5% 逐步提升至 25%、58.4%,最終在一周內(nèi)達(dá)到 100%。
2.脫敏前思考深度已大幅下降
1 月份時(shí),Claude Code 每次思考的內(nèi)容大約有 2200 個(gè)字符,能看出是在認(rèn)真琢磨問(wèn)題。可到了 2 月底,思考字符數(shù)直接暴跌至 720 個(gè),相當(dāng)于減少了三分之二的思考量,思考深度下降了 67%。
![]()
除了思考偷懶,Stella Laurenzo 和 AMD 團(tuán)隊(duì)還檢測(cè)了 Claude Code 的多項(xiàng)質(zhì)量指標(biāo)。
在思考分析完成前,他們已基于 18000 + 用戶提示詞獨(dú)立計(jì)算以下指標(biāo):
![]()
此外,他們也編寫(xiě)了 stop-phrase-guard.sh 停止鉤子,用于自動(dòng)檢測(cè)推諉、提前停止、請(qǐng)求許可等敷衍行為。
結(jié)果顯示,3 月 8 日后的 17 天內(nèi),這個(gè)鉤子被觸發(fā)了 173 次,而在此之前,從未被觸發(fā)過(guò)。
另外,Claude Code 的工作態(tài)度也發(fā)生了徹底轉(zhuǎn)變,最核心的變化就是修改代碼的邏輯:以前它會(huì)先認(rèn)真閱讀相關(guān)文件,再動(dòng)手修改,但對(duì) 234760 次工具調(diào)用的分析顯示,現(xiàn)在的它,已經(jīng)不再先閱讀代碼再修改了。
調(diào)查數(shù)據(jù)清晰地呈現(xiàn)了這一退化:1 月份時(shí),Claude Code 改一次代碼平均要讀取 6.6 次文件,生怕出現(xiàn)錯(cuò)誤。這算是它的“良好期”,會(huì)先讀取目標(biāo)文件、關(guān)聯(lián)文件,全局檢索用法,查看頭文件與測(cè)試用例,再進(jìn)行精準(zhǔn)修改。
可到了 3 月底,它平均只讀 2 次文件就敢直接動(dòng)手修改,降幅超過(guò) 70%。這樣一來(lái),問(wèn)題自然層出不窮:僅讀取當(dāng)前文件就直接修改,常常忽略上下文,進(jìn)而出現(xiàn)亂插代碼、破壞原有注釋、重復(fù)編寫(xiě)邏輯等問(wèn)題,寫(xiě)出來(lái)的代碼 Bug 滿天飛。
很多程序員反饋,后續(xù)修改這些 Bug 的時(shí)間,比自己重新寫(xiě)一段代碼還要久。
![]()
除此之外,Claude Code 全新寫(xiě)入的占比翻倍,模型更傾向于重寫(xiě)整個(gè)文件,而非精準(zhǔn)修改。這樣做雖然速度更快,但會(huì)丟失精度與上下文感知,反而得不償失。
![]()
Stella Laurenzo 還進(jìn)一部分分析了受影響的工作流,主要包括:
- 50 + 并發(fā)代理會(huì)話執(zhí)行系統(tǒng)編程(C、MLIR、GPU 驅(qū)動(dòng))
- 30 分鐘以上自主運(yùn)行,執(zhí)行復(fù)雜多文件修改
- 嚴(yán)格的項(xiàng)目規(guī)范(5000 + 字 CLAUDE.md 文檔)
- 代碼評(píng)審、工單管理、迭代調(diào)試
- 良好期單周末合并 19.1 萬(wàn)行代碼
其指出,擴(kuò)展思考是模型實(shí)現(xiàn)以下能力的核心機(jī)制:
行動(dòng)前規(guī)劃多步驟方案(讀取文件、執(zhí)行順序)
recalling 并遵循項(xiàng)目規(guī)范
輸出前自我檢查錯(cuò)誤
判斷任務(wù)是否完成、會(huì)話是否繼續(xù)
數(shù)百次工具調(diào)用中保持邏輯連貫
而當(dāng)思考深度不足時(shí),模型就會(huì)選擇最省力的操作:不讀取文件直接修改、未完成任務(wù)就停止、推諉責(zé)任、用最簡(jiǎn)單的方案替代正確方案。
從 2 月到 3 月,Claude Code API 請(qǐng)求量直接暴漲了 80 倍,輸出的 token 也增加了 64 倍。據(jù)估算,每月的使用成本從幾百美元,直接飆升到 4 萬(wàn)多美元。本來(lái)想省單次思考的算力,結(jié)果因?yàn)?Claude Code 反復(fù)改錯(cuò)、需要不斷重試,反而讓整體成本直接失控,簡(jiǎn)直是賠本賺吆喝。
![]()
![]()
訴求:雖然我已換了其他大模型,但還是希望 Anthropic 能修復(fù)產(chǎn)品
面對(duì)這樣的結(jié)果,Stella Laurenzo 表示,這不是她一個(gè)人遇到的問(wèn)題,而且情況已經(jīng)嚴(yán)重到無(wú)法在工作環(huán)境中繼續(xù)使用 Claude Code 的地步。
她說(shuō)道:“我們的工作環(huán)境復(fù)雜度高且穩(wěn)定,通過(guò)挖掘數(shù)月日志,我們明確了問(wèn)題的根源——自 2026 年 2 月起,Claude 已無(wú)法可靠完成復(fù)雜工程任務(wù)。團(tuán)隊(duì)所有資深工程師均反饋了類(lèi)似問(wèn)題,其中一位工程師擁有可復(fù)現(xiàn)的測(cè)試流程,我們基于其日志開(kāi)展實(shí)驗(yàn)與數(shù)據(jù)分析,且已嘗試所有公開(kāi)的變通方案。”
在 Stella 看來(lái),自己發(fā)布這份反饋,并不是為了抹黑 Anthropic,而是真心希望他們能重視這個(gè)問(wèn)題,拯救 Claude Code 這個(gè)曾經(jīng)的好產(chǎn)品。“我們已切換至其他服務(wù)商,其服務(wù)質(zhì)量更優(yōu),但 Claude 曾為我們提供良好支持,因此提交此問(wèn)題,希望 Anthropic 能修復(fù)產(chǎn)品。”
對(duì)此,其提出了四個(gè)建議:
關(guān)于思考資源分配的透明度:如果思考 token 被減少或設(shè)上限,依賴(lài)深度推理的用戶需要知情。目前的 redact-thinking header 讓外部無(wú)法驗(yàn)證這一點(diǎn)。
“最大思考”等級(jí):執(zhí)行復(fù)雜工程工作流的用戶愿意為保證深度推理付出更高費(fèi)用。目前的訂閱模式?jīng)]有區(qū)分需要每次 200 個(gè)思考 token 的用戶和需要 20,000 個(gè)的用戶。
API 響應(yīng)中的思考 token 指標(biāo):即使思考內(nèi)容被隱藏,如果在使用情況響應(yīng)中暴露 thinking_tokens,用戶仍可監(jiān)控自己的請(qǐng)求是否獲得了所需的推理深度。
高階用戶的金絲雀指標(biāo):停止鉤子違規(guī)率(從 0 → 每天 10 次)是一個(gè)可機(jī)器讀取的信號(hào),可以在整個(gè)用戶群體中監(jiān)控,作為質(zhì)量回退的領(lǐng)先指標(biāo)。
![]()
網(wǎng)友吐槽:從“封神”到“勸退”,落差太大
不光 AMD 這位高管,全網(wǎng)的程序員們看到這份反饋后,像是找到了組織,評(píng)論區(qū)里一片哀嚎。
有人表示,這段時(shí)間一直懷疑是自己技術(shù)下滑了,寫(xiě)代碼總被 Claude Code 帶偏,直到看到這份反饋才知道,原來(lái)大家都有一樣的困擾。
作為 Claude 曾經(jīng)的忠實(shí)用戶,程序員 bbecausereasonss 在 Reddit 上發(fā)帖稱(chēng):“我已經(jīng)無(wú)法再心安理得地向客戶推薦 Claude Code 了。”
他表示:“我是 MAX 用戶。剛開(kāi)始使用 Claude Code 時(shí),我真的被震撼到了。自 2022 年以來(lái)我一直在用 AI 做開(kāi)發(fā),這一次確實(shí)讓我感覺(jué)像是一個(gè)重要的歷史時(shí)刻。我曾經(jīng)把 Claude Code 推薦進(jìn)客戶的項(xiàng)目和開(kāi)發(fā)流程中,在社交媒體上大力稱(chēng)贊它,也在私下里不斷安利給身邊的人。”
但他話鋒一轉(zhuǎn),吐槽當(dāng)前版本的模型狀態(tài):“懶惰、無(wú)知、能力退化且視野狹隘,在還沒(méi)有真正理解整體問(wèn)題和各種邊界情況之前,就盲目開(kāi)始‘修復(fù)’——而且大多數(shù)補(bǔ)丁反而把事情搞得更糟。我已經(jīng)無(wú)法再負(fù)責(zé)任地繼續(xù)推薦它了,因?yàn)檫@只會(huì)讓我看起來(lái)像個(gè)傻子,或者在胡說(shuō)八道,甚至兩者兼具。”
他還直言:“Claude Opus 在過(guò)去幾周簡(jiǎn)直是一場(chǎng)災(zāi)難——甚至還沒(méi)提到使用額度的問(wèn)題。一個(gè)很貼切的比喻是,它像是被‘做了腦葉切除手術(shù)’,智商從 135–150 直接掉到 90–100,感覺(jué)退化成了 Sonnet 3.5。真的很失望。”
![]()
還有人追問(wèn) Stella Laurenzo 究竟在用什么模型替代 Claude Code:
“Claude 已經(jīng)退化到無(wú)法被信任去完成復(fù)雜工程任務(wù)的地步。”
差不多,但我覺(jué)得更準(zhǔn)確的說(shuō)法是:Claude 已經(jīng)退化到連任何工程任務(wù)都不值得信任的程度了。
它從來(lái)沒(méi)有一次就把事情做對(duì)過(guò),寫(xiě)出來(lái)的代碼充滿 bug 和重復(fù)邏輯,而且必須全程盯著,否則它一定會(huì)把東西搞壞。
它已經(jīng)變成了另一個(gè) AI“玩具”。挺可惜的。
能否分享一下你在用的“其他工具”?我也想試試。
不過(guò),Stella Laurenzo 并沒(méi)有指出自己用的是哪款模型替代。而是補(bǔ)充說(shuō)道:「在 6 個(gè)月前,Claude 在推理質(zhì)量和執(zhí)行能力上幾乎是獨(dú)一檔的。但現(xiàn)在,其他競(jìng)品也需要被非常認(rèn)真地重新評(píng)估。就能力層級(jí)而言,Anthropic早已不再是唯一一個(gè)處在 Claude Opus 曾經(jīng)所在水平的玩家。」
現(xiàn)在網(wǎng)友們的呼聲其實(shí)很一致:對(duì)于 AI 編程助手,可以接受它慢一點(diǎn),但絕對(duì)不能接受它變蠢、變懶,更不能接受它敷衍了事。畢竟大家用 AI 編程助手,不是想要一個(gè)“快但錯(cuò)”的打字機(jī),而是想要一個(gè)能一起思考、能扛事的隊(duì)友,要是連最基本的思考都沒(méi)了,那這個(gè)工具,也就失去了它存在的意義。
對(duì)此,你在使用 Claude Code 有什么樣的感受?
參考:
https://github.com/anthropics/claude-code/issues/42796
https://github.com/stellaraccident
https://www.theregister.com/2026/04/06/anthropic_claude_code_dumber_lazier_amd_ai_director/
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)21世紀(jì)關(guān)鍵技術(shù)研究院的“未來(lái)知識(shí)庫(kù)”
![]()
未來(lái)知識(shí)庫(kù)是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到2月28日 ”未來(lái)知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告
(加入未來(lái)知識(shí)庫(kù),全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.