![]()
新智元報道
【新智元導(dǎo)讀】沒有信息泄漏的專業(yè)術(shù)數(shù)題庫面前,Claude、GPT等主流模型集體「翻車」。但一個叫Tianfu Agent的系統(tǒng),卻一舉將準(zhǔn)確率提升至50%,逼近本屆術(shù)數(shù)大賽人類Top20選手的53.5%平均水平。
把當(dāng)前最先進(jìn)的通用大模型,放在中國傳統(tǒng)術(shù)數(shù)專業(yè)選擇題(四選一)面前,會發(fā)生什么?
![]()
需要說明的是,評測對通用模型已經(jīng)做了「讓步」:所有基線模型的Prompt中都提供了預(yù)計(jì)算的盤面數(shù)據(jù),避免引入計(jì)算幻覺,而是直接考察推理能力。
DestinyLinker研究團(tuán)隊(duì)基于術(shù)數(shù)大賽(HKJFMA主辦,3069名選手參與)的官方題庫的評測集基準(zhǔn)Mingli-Bench,測試了當(dāng)下主流大模型,技術(shù)報告和測試結(jié)果在x上獲得了百萬關(guān)注。
![]()
MingLi-Bench開源倉庫:https://github.com/DestinyLinker/MingLi-
Bench Tianfu Agent技術(shù)報告:https://destinylinker.github.io/MingLi-Bench/
結(jié)果有點(diǎn)意外,這些模型在這套幾乎沒有信息泄漏的最新比賽選擇題上,準(zhǔn)確率清一色徘徊在23%到40%之間。
注意,四選一選擇題的隨機(jī)猜測線就是25%。
為了驗(yàn)證模型能力能否支撐專業(yè)術(shù)數(shù)推理,該團(tuán)隊(duì)研發(fā)了Tianfu Agent的系統(tǒng),實(shí)現(xiàn)一整套針對中國傳統(tǒng)術(shù)數(shù)領(lǐng)域harness工程系統(tǒng)——
200多個原子工具、3大流派規(guī)則函數(shù)庫、多Sub-Agent協(xié)作,以及一套貫穿全鏈路的置信度量化機(jī)制,一舉達(dá)到了50%的截尾準(zhǔn)確率,逼近本屆賽事人類Top 20選手的平均水平53.5%。
![]()
Harness之路
編碼智能體的經(jīng)驗(yàn)還遠(yuǎn)遠(yuǎn)不夠
本測試案例使用了馬斯克命盤,測試中的1971/12/30并非其真實(shí)生日,因?yàn)樗錾谀习肭颍鑼ζ渖竭M(jìn)行節(jié)氣轉(zhuǎn)換
Claude Code、Cursor這些工具在復(fù)雜工程任務(wù)中表現(xiàn)良好,不是因?yàn)槟P捅旧碜儚?qiáng)了,而是它被放進(jìn)了一個領(lǐng)域?qū)S玫墓ぞ攮h(huán)境里,有文件I/O,有終端,有測試反饋。
Tianfu Agent把同樣的邏輯搬進(jìn)了中國傳統(tǒng)術(shù)數(shù)領(lǐng)域,在推理鏈路上,采用多Sub-Agent協(xié)作的漸進(jìn)式發(fā)現(xiàn)策略:多個Sub-Agent各自維護(hù)獨(dú)立的工具集和上下文,并根據(jù)環(huán)境反饋逐步展開推理。
然而,僅依靠Coding Agent的成功經(jīng)驗(yàn)還是遠(yuǎn)遠(yuǎn)不夠的,例如:
除了常見的刑沖查詢、飛宮路徑等,術(shù)數(shù)領(lǐng)域還涉及大量數(shù)據(jù)邏輯運(yùn)算,此部分由大模型生成并不可靠,但一次性交給模型調(diào)用又會污染上下文;
規(guī)則需要經(jīng)驗(yàn)選擇,并非使用越多越好,且每一條規(guī)則的使用后都可能出現(xiàn)矛盾的結(jié)論;
缺乏「單元測試」等輔助驗(yàn)證手段,在長鏈路推理下,很容易積累偏差。
其他垂直領(lǐng)域應(yīng)用,如醫(yī)療、法律等很可能也面臨著類似的困境
200多個工具如何管理?
四級可見性控制
通用Agent用十幾個工具就夠了,200+工具帶來的第一個工程問題不是「能不能寫出來」,而是模型選不對。
該研究團(tuán)隊(duì)按「LLM可理解性」和「可窮舉性」兩個維度,將工具分成四級:
自動注入型(可理解+可窮舉):十神、星耀、宮位等零歧義概念,自動加載到上下文中,不需要模型選擇。
按需調(diào)用型(可理解+不可窮舉):生克關(guān)系、飛宮計(jì)算等,模型能理解語義并自行判斷參數(shù)。
轉(zhuǎn)譯調(diào)用型(不可理解+可窮舉):模型容易產(chǎn)生歧義或非市面常見的專業(yè)術(shù)語,通過預(yù)設(shè)翻譯層轉(zhuǎn)換工具名稱后調(diào)用。
觸發(fā)注入型(不可理解+不可窮舉):僅特定Sub-Agent可調(diào)用,并配備專屬背景知識和校驗(yàn)方法。
這套機(jī)制的核心是動態(tài)控制工具的可見范圍——不同推理階段、不同Sub-Agent看到的工具集不同,避免選項(xiàng)過載導(dǎo)致的選擇退化。
這個思路對其他垂直領(lǐng)域的Agent開發(fā)有一定參考價值:當(dāng)工具數(shù)量超過模型的可靠選擇閾值后,工具管理本身就成了一個獨(dú)立的工程問題。
繁雜規(guī)則怎么用?
也封裝成可調(diào)用函數(shù)
通用Agent經(jīng)常把規(guī)則寫進(jìn)System Prompt或Few-shot,本質(zhì)是讓模型「記住并遵循」。
術(shù)數(shù)領(lǐng)域規(guī)則繁雜(僅子平母法就超過百條)、適用條件互相耦合、流派之間還會互相矛盾,靠記憶遵循的直接后果就是選擇性忽略、推理路徑不可控。
Tianfu Agent的做法,是把每一條復(fù)雜規(guī)則封裝成一個帶元數(shù)據(jù)的可調(diào)用函數(shù)。
人類專家預(yù)先標(biāo)注適用場景、時間跨度、事件類型、優(yōu)先級;函數(shù)內(nèi)部可以再調(diào)LLM;輸入盤面狀態(tài),返回結(jié)論和置信度;只在滿足驗(yàn)證時才注入上下文。
這一步等于把LLM從「記規(guī)則的考生」變成「調(diào)規(guī)則的工程師」——規(guī)則不再是Prompt里一段需要模型自覺遵守的文字,而是一個有明確簽名和觸發(fā)條件的工程構(gòu)件。
沒有單元測試?
三層不確定性量化
編碼Agent的一個天然優(yōu)勢是有「測試」作為驗(yàn)證手段。
代碼寫完跑測試,通過就是正反饋,失敗就有明確的報錯信息。
術(shù)數(shù)領(lǐng)域,或者說絕大多數(shù)專業(yè)領(lǐng)域,都沒有這個條件實(shí)現(xiàn)所謂的「單元測試」。
Tianfu Agent的方案是引入不確定性量化,在三個層面給出置信度評估:
工具輸出層:非確定性工具(如強(qiáng)弱判斷、多象吉兇)由內(nèi)置算法提供置信度,直接由算法層面進(jìn)行確定性評估。
Sub-Agent層:每個子智能體在單一理論體系下完成推理后,由LLM自評本次推理結(jié)論中每個觀點(diǎn)的顯著性。
多流派合參層:不同流派的結(jié)論可能相互矛盾,通過人工經(jīng)驗(yàn)置信度加權(quán)調(diào)和,再次進(jìn)行判斷。
這不是一個能替代“自動驗(yàn)證”的方案——在報告中也坦承了這一點(diǎn)。但在缺乏驗(yàn)證手段的領(lǐng)域,「知道自己有多不確定」本身就是有價值的信息,至少給上層決策提供了量化參考,而非將所有結(jié)論等權(quán)堆砌。
![]()
如果用一句話總結(jié)這套harness的設(shè)計(jì)哲學(xué):在Tianfu Agent里,工具不僅是計(jì)算函數(shù),它還包括規(guī)則、子推理流程,乃至Sub-Agent本身。
對垂直領(lǐng)域Agent落地的啟示
拋開領(lǐng)域特殊性本身不談,這個項(xiàng)目提供了一些對垂直領(lǐng)域Agent開發(fā)有參考價值的工程經(jīng)驗(yàn):
工具化范式,在「規(guī)則密集+語料稀缺」的領(lǐng)域收益最大。通用領(lǐng)域的模型已經(jīng)從海量語料中內(nèi)化了規(guī)則,工具環(huán)境是錦上添花。但在訓(xùn)練數(shù)據(jù)極少的垂直領(lǐng)域,工具環(huán)境直接彌補(bǔ)了模型的知識盲區(qū),Tianfu Agent比最強(qiáng)通用模型高出10個百分點(diǎn)即為例證。
工具數(shù)量膨脹后,工具管理本身成為獨(dú)立的工程問題。四級分類加動態(tài)注入的思路,對其他需要大量專業(yè)工具的垂直Agent有直接借鑒意義。
在缺乏自動驗(yàn)證的領(lǐng)域,不確定性量化是務(wù)實(shí)的次優(yōu)方案。編碼Agent有測試,醫(yī)療Agent有循證指南,但很多領(lǐng)域沒有——雖然術(shù)數(shù)是一個極端案例,但這種情況下置信度機(jī)制的作用值得關(guān)注。
「知識即接口」,在規(guī)則密度高的場景比「知識即提示詞」更可靠。把規(guī)則從Prompt搬進(jìn)函數(shù),是解決模型長上下文「選擇性失憶」的一種直接手段。
Coding Agent的Harness時代已經(jīng)到來。Tianfu Agent某種程度上證明了,這條路不只屬于編程——在足夠結(jié)構(gòu)化的垂直領(lǐng)域,該范式可能同樣成立。
參考資料:
MingLi-Bench開源倉庫:https://github.com/DestinyLinker/MingLi-Bench Tianfu Agent技術(shù)報告:https://destinylinker.github.io/MingLi-Bench/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.