3/50。這是我在一次AI崗位技術(shù)測試中的得分,換算成百分制只有6分。
但諷刺的是,我拿到了這份工作。
![]()
當(dāng)時我對完全自主的智能體架構(gòu)幾乎一無所知。雖然做過大語言模型流水線和一些小工具,但"讓AI自己決定下一步做什么"這種設(shè)計模式,對我來說是全新的領(lǐng)域。這次失敗反而讓我學(xué)到了關(guān)鍵一課——不是關(guān)于智能體本身,而是關(guān)于如何面對陌生的工程問題。
![]()
面試時,我展示了測試結(jié)果。現(xiàn)在的CTO注意到我一直在用便宜的迷你模型做 endless testing,賬單已經(jīng)相當(dāng)可觀。他順手用我的智能體跑了一遍當(dāng)時最強的Opus模型。結(jié)果更尷尬:得分從3分掉到了2分。
問題根本不在模型。
我的代碼結(jié)構(gòu)其實很干凈:基于插件的工具系統(tǒng)、一致的接口設(shè)計、半自主流水線,還加了結(jié)構(gòu)約束。我的策略是"先限制再擴展"——給智能體特定工具解決一部分問題,再圍繞這些抽象慢慢擴充能力,直到覆蓋全部場景。
紙面上,這套架構(gòu)無懈可擊。實戰(zhàn)中,它解不了題。
CTO告訴我,如果當(dāng)初我只做一個最簡單的循環(huán):大模型+while循環(huán)+Python沙盒,讓智能體執(zhí)行代碼(當(dāng)然不是完全無限制的),基準(zhǔn)測試能拿到80%的分?jǐn)?shù)。不需要提示工程,不需要特殊工具,不需要高級抽象。
這不是說生產(chǎn)環(huán)境就該放任AI隨便跑代碼。核心教訓(xùn)是:我在"知道"之前就"建造"了。我假設(shè)自己懂該用什么抽象、該造什么工具、該怎么約束智能體。實際上我完全不懂,甚至對測試題目的領(lǐng)域毫無概念。
![]()
回頭看,正確的做法是從簡單開始。
先搭一個能跑通的基線:循環(huán)結(jié)構(gòu)+安全的Python執(zhí)行環(huán)境。有了這個底子,工具、約束、抽象這些附加層才有意義——它們只服務(wù)于三個目標(biāo):可靠性、成本、延遲。
更重要的是,這次經(jīng)歷讓我真正理解了"智能體"是什么。傳統(tǒng)軟件里,要解決多種問題就得把復(fù)雜度顯式編碼進系統(tǒng)。智能體把這個邏輯顛倒了:復(fù)雜度藏在模型內(nèi)部。
我總結(jié)了兩點收獲。
第一,實踐層面。行業(yè)趨勢是給智能體更多自主權(quán),但諷刺的是,編程類智能體似乎還沒跟上。Claude這類工具反而傾向于讓我做更少自主、更"流水線化"的設(shè)計。如果給智能體安全的Python執(zhí)行能力,Python本身就是一件靈活強大的工具。而隨著Pydantic Monty這類框架出現(xiàn),這件事正變得越來越簡單。
第二,工程思維。從簡單開始。在理解問題之前,別預(yù)設(shè)自己知道答案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.