網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

我花兩周給Claude做了個(gè)技能，測(cè)完發(fā)現(xiàn)全是坑

2026-05-01 18:49:35　來源: Ping值焦慮

北京舉報(bào)

分享至

200行文檔丟進(jìn)文件夾，重啟，搞定——這是Anthropic官方教程教的技能開發(fā)流程。我照做了，然后花了十倍時(shí)間回答一個(gè)問題：它真的有用嗎？

一、技能開發(fā)的幻覺： shipped ≠ working

技能（Skill）是Anthropic給Claude Code做的功能擴(kuò)展機(jī)制。你把團(tuán)隊(duì)的編碼規(guī)范、框架用法寫成Markdown，存進(jìn)指定目錄，Claude就能在對(duì)話中自動(dòng)調(diào)用。

官方流程極其順滑：寫文檔、放文件、重啟。三分鐘后你就能跟同事說"我們有個(gè)Claude技能了"。

但兩個(gè)關(guān)鍵問題被這個(gè)流程完全掩蓋：

第一，這200行提示詞真的比基礎(chǔ)模型更強(qiáng)嗎？還是只是給本來就會(huì)的事加了層包裝？

第二，描述語(yǔ)（description）和用戶實(shí)際提問方式匹配嗎？該觸發(fā)時(shí)沒觸發(fā)，不該觸發(fā)時(shí)亂插嘴，你根本看不見。

我選了@ngrx/signals——Angular的狀態(tài)管理庫(kù)——做實(shí)測(cè)對(duì)象。這個(gè)庫(kù)足夠新，Claude訓(xùn)練數(shù)據(jù)覆蓋不全，是技能發(fā)揮價(jià)值的典型場(chǎng)景。

二、A/B測(cè)試：技能確實(shí)有用，但代價(jià)明確

我設(shè)計(jì)了5個(gè)任務(wù)，41條斷言（assertion）。每個(gè)斷言在技能定稿前就寫好，作為驗(yàn)收標(biāo)準(zhǔn)而非事后確認(rèn)。

核心發(fā)現(xiàn)：技能把通過率從84%拉到100%。

但賬不能只算一頭。每次調(diào)用額外消耗14秒墻鐘時(shí)間、約12,000個(gè)token。按Sonnet 4.6的輸入定價(jià)，單次成本約0.04美元。

這個(gè)成本結(jié)構(gòu)意味著：技能適合復(fù)雜、低頻、高風(fēng)險(xiǎn)的代碼生成任務(wù)，不適合快速迭代場(chǎng)景。你的團(tuán)隊(duì)得自己算這筆賬。

方法論備注：我每個(gè)配置只跑了一次，不是三次取平均。下文中的±值是5個(gè)eval之間的離散度，不是標(biāo)準(zhǔn)差。

三、描述優(yōu)化器：跑三輪，全白跑

技能描述語(yǔ)決定觸發(fā)時(shí)機(jī)。Anthropic今年3月上線的新工具帶了描述優(yōu)化循環(huán)：自動(dòng)迭代描述，看哪版觸發(fā)率最高。

我跑了三輪。最終結(jié)果：沒一版比我手寫的好。

這不是我一個(gè)人的遭遇。Anthropic自己拿6個(gè)內(nèi)置文檔生成技能做測(cè)試，"5個(gè)有提升"——言下之意，1個(gè)沒提升。造系統(tǒng)的人尚且如此，你的自定義技能幾乎肯定有問題。

更強(qiáng)的證據(jù)來自Vercel。2026年1月，他們發(fā)了一篇實(shí)測(cè)：AGENTS.md在agent eval中表現(xiàn)優(yōu)于Skills。

Vercel的測(cè)試場(chǎng)景是Next.js 16任務(wù)集。關(guān)鍵數(shù)據(jù)：56%的情況下，agent明明有權(quán)限調(diào)用技能，卻根本沒調(diào)用。觸發(fā)失敗率過半。

他們的結(jié)論很直接："跳過Skills，把文檔內(nèi)聯(lián)進(jìn)對(duì)話。"

我不完全同意。對(duì)于模型已經(jīng)熟悉的庫(kù)，Skills的形態(tài)仍然有價(jià)值——團(tuán)隊(duì)特定慣用法、編碼偏好，這些用漸進(jìn)式披露比每次塞幾千token風(fēng)格指南更優(yōu)雅。

但測(cè)量結(jié)論我和Vercel完全一致：沒有eval套件，你根本不知道自己技能在干什么。

四、100%通過率：飽和信號(hào)，不是終點(diǎn)

我的v2技能最終通過了全部41條斷言。這聽起來是成功，其實(shí)是警告。

Eval飽和意味著你的測(cè)試集已經(jīng)失去區(qū)分度。可能是任務(wù)太簡(jiǎn)單，可能是斷言寫得太松，也可能是技能過度擬合了測(cè)試集。無論哪種，你都不再能從中獲得有效信號(hào)。

健康的eval應(yīng)該像篩子：總有部分任務(wù)通不過，逼你持續(xù)迭代。100%是停滯的開始，不是質(zhì)量的證明。

五、四個(gè)發(fā)現(xiàn)，多數(shù)團(tuán)隊(duì)一個(gè)都沒測(cè)

這趟實(shí)測(cè)拆出四個(gè)可量化的維度：

能力增益（84%→100%）、成本代價(jià)（14秒+12,000token）、描述優(yōu)化失效（三輪無改進(jìn)）、eval飽和（100%通過率）。

Anthropic 3月更新的技能創(chuàng)建工具把test/measure/refine流程產(chǎn)品化了。但工具只是工具，用不用、怎么用，是團(tuán)隊(duì)選擇。

現(xiàn)狀是：絕大多數(shù)技能開發(fā)者寫完Markdown就ship，四個(gè)維度一個(gè)不測(cè)。技能加載了，輸出看著還行，假設(shè)它在工作——這個(gè)假設(shè)可以持續(xù)數(shù)月。

數(shù)據(jù)收束：84%到100%的通過率提升，代價(jià)是每次調(diào)用0.04美元和14秒延遲。56%的觸發(fā)失敗率意味著你的技能可能一半時(shí)間在劃水。描述優(yōu)化器三輪迭代零改進(jìn)，100%通過率反成警報(bào)。四個(gè)數(shù)字，四個(gè)盲區(qū)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.