Claude把車禍報告認成滑雪事故——Anthropic工程師現(xiàn)場演示,如何用五版提示詞讓大模型從胡說八道變成可靠助手。
事件現(xiàn)場:當AI開始"幻覺"滑雪
![]()
Anthropic應用AI團隊的Hannah Moran和Christian Ryan在控制臺里輸入第一版提示詞時,Claude的輸出讓人哭笑不得。
面對一份瑞典車禍保險表單,Claude信誓旦旦地寫道:"查普曼哥譚街發(fā)生了一起滑雪事故。"
完全沒有背景信息。表單上的車輛碰撞示意圖,被解讀成了滑雪場景。這是典型的"幻覺"——模型在信息真空中編造敘事。
這個案例來自真實客戶需求:用Claude自動分析瑞典車險事故表單,判定哪一方車輛負有責任。Moran和Ryan用五輪迭代,完整展示了提示工程如何從失敗走向生產(chǎn)級。
每一版的問題和修復都極具教學價值。這不是炫技,而是一份可復現(xiàn)的調試手冊。
人物動作:五輪迭代的完整路徑
Moran和Ryan的演示沒有跳過任何一步。他們故意保留早期版本的粗糙,讓觀眾看清問題如何被逐一解決。
第一版:零背景,Claude自由發(fā)揮,輸出滑雪事故。
第二版:加入基礎背景——"這是一份瑞典車險事故表單"。Claude糾正了事故類型,但判定結論依然模糊。
第三版:把表單結構寫進系統(tǒng)提示詞。17個復選框,車輛A和車輛B兩列,這些靜態(tài)信息被固定下來。Moran強調:"靜態(tài)信息屬于系統(tǒng)提示詞。"這還能最大化提示緩存的效率。
第四版:加入思考步驟的顯式排序。先讀表單,再分析示意圖,最后給出結論。"先讀表單再看圖"這個順序是關鍵——手繪示意圖單獨看毫無意義,但結合表單信息就能被正確理解。
第五版:用XML標簽包裹最終結論,讓下游應用能精確提取。
從"滑雪事故"到"車輛B負有責任",五輪迭代完成了從不可用到生產(chǎn)級的跨越。
背后邏輯:Anthropic的提示詞設計框架
Ryan在演示中系統(tǒng)梳理了Anthropic推薦的五個核心要素。這不是教條,而是經(jīng)過大量客戶案例驗證的工程實踐。
XML標簽被置于首位。相比Markdown,標簽的邊界更清晰、更省token。更重要的是,它顯式聲明了內容類型,讓Claude后續(xù)引用時更精確。
「Claude擅長處理結構化信息,」Ryan在演示中強調,「XML標簽作為分隔符是我們的首要推薦。」
對于長提示詞,Anthropic特別建議:把關鍵指令在結尾處重復一遍。這與人類閱讀時的注意力衰減規(guī)律一致——開頭和結尾的記憶最強。
系統(tǒng)提示詞與動態(tài)內容的分離是另一個關鍵。表單結構從不改變,放進系統(tǒng)提示詞既穩(wěn)定又利于緩存;具體的事故描述每次不同,留在用戶消息里。
思考步驟的顯式排序則是反直覺的。很多人會直接把示意圖和表單一起丟給模型,但Moran指出:「鏡像人類處理這類任務的天然順序。」人類理賠員不會先看圖再讀表,AI也不應該。
行業(yè)影響:從演示到生產(chǎn)的關鍵鴻溝
這個案例的價值在于展示了"最后一公里"問題。大模型的基礎能力早已足夠,但把它封裝成可靠的產(chǎn)品功能,需要大量的提示工程細節(jié)。
XML標簽看起來是小事,但它解決了結構化輸出的可解析性問題。沒有標簽包裹,應用層需要用正則表達式或更脆弱的方案從自由文本中提取結論——這在生產(chǎn)環(huán)境是不可接受的。
提示緩存的提及也很有針對性。Anthropic把靜態(tài)內容塞進系統(tǒng)提示詞,不只是為了清晰,更是為了降低延遲和成本。對于需要高頻調用的保險理賠場景,這一點直接決定商業(yè)可行性。
五輪迭代的透明展示,打破了"提示工程是黑魔法"的迷思。每一步的問題都具體可復現(xiàn),每一步的修復都有明確原理。這是可以學習的技能,而非依賴天才直覺的藝術。
實用指向
如果你正在把大模型從原型推向生產(chǎn),這份演示值得逐幀拆解。核心檢查清單:背景信息是否完整?靜態(tài)內容是否分離到系統(tǒng)提示詞?思考步驟是否按人類邏輯排序?輸出是否用標簽結構化以便解析?
滑雪事故的幻覺不是模型無能,而是提示詞設計不足的早期信號。識別這類信號,并知道如何用結構化方法修復,是2024年AI產(chǎn)品工程師的必備技能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.