200行文檔丟進(jìn)文件夾,重啟,搞定——這是Anthropic官方教程教的技能開發(fā)流程。我照做了,然后花了十倍時(shí)間回答一個(gè)問題:它真的有用嗎?
一、技能開發(fā)的幻覺: shipped ≠ working
![]()
技能(Skill)是Anthropic給Claude Code做的功能擴(kuò)展機(jī)制。你把團(tuán)隊(duì)的編碼規(guī)范、框架用法寫成Markdown,存進(jìn)指定目錄,Claude就能在對(duì)話中自動(dòng)調(diào)用。
官方流程極其順滑:寫文檔、放文件、重啟。三分鐘后你就能跟同事說"我們有個(gè)Claude技能了"。
但兩個(gè)關(guān)鍵問題被這個(gè)流程完全掩蓋:
第一,這200行提示詞真的比基礎(chǔ)模型更強(qiáng)嗎?還是只是給本來就會(huì)的事加了層包裝?
第二,描述語(yǔ)(description)和用戶實(shí)際提問方式匹配嗎?該觸發(fā)時(shí)沒觸發(fā),不該觸發(fā)時(shí)亂插嘴,你根本看不見。
我選了@ngrx/signals——Angular的狀態(tài)管理庫(kù)——做實(shí)測(cè)對(duì)象。這個(gè)庫(kù)足夠新,Claude訓(xùn)練數(shù)據(jù)覆蓋不全,是技能發(fā)揮價(jià)值的典型場(chǎng)景。
二、A/B測(cè)試:技能確實(shí)有用,但代價(jià)明確
我設(shè)計(jì)了5個(gè)任務(wù),41條斷言(assertion)。每個(gè)斷言在技能定稿前就寫好,作為驗(yàn)收標(biāo)準(zhǔn)而非事后確認(rèn)。
核心發(fā)現(xiàn):技能把通過率從84%拉到100%。
但賬不能只算一頭。每次調(diào)用額外消耗14秒墻鐘時(shí)間、約12,000個(gè)token。按Sonnet 4.6的輸入定價(jià),單次成本約0.04美元。
這個(gè)成本結(jié)構(gòu)意味著:技能適合復(fù)雜、低頻、高風(fēng)險(xiǎn)的代碼生成任務(wù),不適合快速迭代場(chǎng)景。你的團(tuán)隊(duì)得自己算這筆賬。
方法論備注:我每個(gè)配置只跑了一次,不是三次取平均。下文中的±值是5個(gè)eval之間的離散度,不是標(biāo)準(zhǔn)差。
三、描述優(yōu)化器:跑三輪,全白跑
技能描述語(yǔ)決定觸發(fā)時(shí)機(jī)。Anthropic今年3月上線的新工具帶了描述優(yōu)化循環(huán):自動(dòng)迭代描述,看哪版觸發(fā)率最高。
我跑了三輪。最終結(jié)果:沒一版比我手寫的好。
這不是我一個(gè)人的遭遇。Anthropic自己拿6個(gè)內(nèi)置文檔生成技能做測(cè)試,"5個(gè)有提升"——言下之意,1個(gè)沒提升。造系統(tǒng)的人尚且如此,你的自定義技能幾乎肯定有問題。
更強(qiáng)的證據(jù)來自Vercel。2026年1月,他們發(fā)了一篇實(shí)測(cè):AGENTS.md在agent eval中表現(xiàn)優(yōu)于Skills。
Vercel的測(cè)試場(chǎng)景是Next.js 16任務(wù)集。關(guān)鍵數(shù)據(jù):56%的情況下,agent明明有權(quán)限調(diào)用技能,卻根本沒調(diào)用。觸發(fā)失敗率過半。
他們的結(jié)論很直接:"跳過Skills,把文檔內(nèi)聯(lián)進(jìn)對(duì)話。"
我不完全同意。對(duì)于模型已經(jīng)熟悉的庫(kù),Skills的形態(tài)仍然有價(jià)值——團(tuán)隊(duì)特定慣用法、編碼偏好,這些用漸進(jìn)式披露比每次塞幾千token風(fēng)格指南更優(yōu)雅。
但測(cè)量結(jié)論我和Vercel完全一致:沒有eval套件,你根本不知道自己技能在干什么。
四、100%通過率:飽和信號(hào),不是終點(diǎn)
我的v2技能最終通過了全部41條斷言。這聽起來是成功,其實(shí)是警告。
Eval飽和意味著你的測(cè)試集已經(jīng)失去區(qū)分度。可能是任務(wù)太簡(jiǎn)單,可能是斷言寫得太松,也可能是技能過度擬合了測(cè)試集。無論哪種,你都不再能從中獲得有效信號(hào)。
健康的eval應(yīng)該像篩子:總有部分任務(wù)通不過,逼你持續(xù)迭代。100%是停滯的開始,不是質(zhì)量的證明。
五、四個(gè)發(fā)現(xiàn),多數(shù)團(tuán)隊(duì)一個(gè)都沒測(cè)
這趟實(shí)測(cè)拆出四個(gè)可量化的維度:
能力增益(84%→100%)、成本代價(jià)(14秒+12,000token)、描述優(yōu)化失效(三輪無改進(jìn))、eval飽和(100%通過率)。
Anthropic 3月更新的技能創(chuàng)建工具把test/measure/refine流程產(chǎn)品化了。但工具只是工具,用不用、怎么用,是團(tuán)隊(duì)選擇。
現(xiàn)狀是:絕大多數(shù)技能開發(fā)者寫完Markdown就ship,四個(gè)維度一個(gè)不測(cè)。技能加載了,輸出看著還行,假設(shè)它在工作——這個(gè)假設(shè)可以持續(xù)數(shù)月。
數(shù)據(jù)收束:84%到100%的通過率提升,代價(jià)是每次調(diào)用0.04美元和14秒延遲。56%的觸發(fā)失敗率意味著你的技能可能一半時(shí)間在劃水。描述優(yōu)化器三輪迭代零改進(jìn),100%通過率反成警報(bào)。四個(gè)數(shù)字,四個(gè)盲區(qū)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.