勝率直逼人類大師！這套Agent揭開中國AI「玄學(xué)真相」

2026-05-25 12:47:01　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導(dǎo)讀】沒有信息泄漏的專業(yè)術(shù)數(shù)題庫面前，Claude、GPT等主流模型集體「翻車」。但一個叫Tianfu Agent的系統(tǒng)，卻一舉將準(zhǔn)確率提升至50%，逼近本屆術(shù)數(shù)大賽人類Top20選手的53.5%平均水平。

把當(dāng)前最先進(jìn)的通用大模型，放在中國傳統(tǒng)術(shù)數(shù)專業(yè)選擇題（四選一）面前，會發(fā)生什么？

需要說明的是，評測對通用模型已經(jīng)做了「讓步」：所有基線模型的Prompt中都提供了預(yù)計(jì)算的盤面數(shù)據(jù)，避免引入計(jì)算幻覺，而是直接考察推理能力。

DestinyLinker研究團(tuán)隊(duì)基于術(shù)數(shù)大賽（HKJFMA主辦，3069名選手參與）的官方題庫的評測集基準(zhǔn)Mingli-Bench，測試了當(dāng)下主流大模型，技術(shù)報告和測試結(jié)果在x上獲得了百萬關(guān)注。

MingLi-Bench開源倉庫：https://github.com/DestinyLinker/MingLi-

Bench Tianfu Agent技術(shù)報告：https://destinylinker.github.io/MingLi-Bench/

結(jié)果有點(diǎn)意外，這些模型在這套幾乎沒有信息泄漏的最新比賽選擇題上，準(zhǔn)確率清一色徘徊在23%到40%之間。

注意，四選一選擇題的隨機(jī)猜測線就是25%。

為了驗(yàn)證模型能力能否支撐專業(yè)術(shù)數(shù)推理，該團(tuán)隊(duì)研發(fā)了Tianfu Agent的系統(tǒng)，實(shí)現(xiàn)一整套針對中國傳統(tǒng)術(shù)數(shù)領(lǐng)域harness工程系統(tǒng)——

200多個原子工具、3大流派規(guī)則函數(shù)庫、多Sub-Agent協(xié)作，以及一套貫穿全鏈路的置信度量化機(jī)制，一舉達(dá)到了50%的截尾準(zhǔn)確率，逼近本屆賽事人類Top 20選手的平均水平53.5%。

Harness之路

編碼智能體的經(jīng)驗(yàn)還遠(yuǎn)遠(yuǎn)不夠

本測試案例使用了馬斯克命盤，測試中的1971/12/30并非其真實(shí)生日，因?yàn)樗錾谀习肭颍鑼ζ渖竭M(jìn)行節(jié)氣轉(zhuǎn)換

Claude Code、Cursor這些工具在復(fù)雜工程任務(wù)中表現(xiàn)良好，不是因?yàn)槟Ｐ捅旧碜儚?qiáng)了，而是它被放進(jìn)了一個領(lǐng)域?qū)Ｓ玫墓ぞ攮h(huán)境里，有文件I/O，有終端，有測試反饋。

Tianfu Agent把同樣的邏輯搬進(jìn)了中國傳統(tǒng)術(shù)數(shù)領(lǐng)域，在推理鏈路上，采用多Sub-Agent協(xié)作的漸進(jìn)式發(fā)現(xiàn)策略：多個Sub-Agent各自維護(hù)獨(dú)立的工具集和上下文，并根據(jù)環(huán)境反饋逐步展開推理。

然而，僅依靠Coding Agent的成功經(jīng)驗(yàn)還是遠(yuǎn)遠(yuǎn)不夠的，例如：

除了常見的刑沖查詢、飛宮路徑等，術(shù)數(shù)領(lǐng)域還涉及大量數(shù)據(jù)邏輯運(yùn)算，此部分由大模型生成并不可靠，但一次性交給模型調(diào)用又會污染上下文；
規(guī)則需要經(jīng)驗(yàn)選擇，并非使用越多越好，且每一條規(guī)則的使用后都可能出現(xiàn)矛盾的結(jié)論；
缺乏「單元測試」等輔助驗(yàn)證手段，在長鏈路推理下，很容易積累偏差。

其他垂直領(lǐng)域應(yīng)用，如醫(yī)療、法律等很可能也面臨著類似的困境

200多個工具如何管理？

四級可見性控制

通用Agent用十幾個工具就夠了，200+工具帶來的第一個工程問題不是「能不能寫出來」，而是模型選不對。

該研究團(tuán)隊(duì)按「LLM可理解性」和「可窮舉性」兩個維度，將工具分成四級：

自動注入型（可理解+可窮舉）：十神、星耀、宮位等零歧義概念，自動加載到上下文中，不需要模型選擇。
按需調(diào)用型（可理解+不可窮舉）：生克關(guān)系、飛宮計(jì)算等，模型能理解語義并自行判斷參數(shù)。
轉(zhuǎn)譯調(diào)用型（不可理解+可窮舉）：模型容易產(chǎn)生歧義或非市面常見的專業(yè)術(shù)語，通過預(yù)設(shè)翻譯層轉(zhuǎn)換工具名稱后調(diào)用。
觸發(fā)注入型（不可理解+不可窮舉）：僅特定Sub-Agent可調(diào)用，并配備專屬背景知識和校驗(yàn)方法。

這套機(jī)制的核心是動態(tài)控制工具的可見范圍——不同推理階段、不同Sub-Agent看到的工具集不同，避免選項(xiàng)過載導(dǎo)致的選擇退化。

這個思路對其他垂直領(lǐng)域的Agent開發(fā)有一定參考價值：當(dāng)工具數(shù)量超過模型的可靠選擇閾值后，工具管理本身就成了一個獨(dú)立的工程問題。

繁雜規(guī)則怎么用？

也封裝成可調(diào)用函數(shù)

通用Agent經(jīng)常把規(guī)則寫進(jìn)System Prompt或Few-shot，本質(zhì)是讓模型「記住并遵循」。

術(shù)數(shù)領(lǐng)域規(guī)則繁雜（僅子平母法就超過百條）、適用條件互相耦合、流派之間還會互相矛盾，靠記憶遵循的直接后果就是選擇性忽略、推理路徑不可控。

Tianfu Agent的做法，是把每一條復(fù)雜規(guī)則封裝成一個帶元數(shù)據(jù)的可調(diào)用函數(shù)。

人類專家預(yù)先標(biāo)注適用場景、時間跨度、事件類型、優(yōu)先級；函數(shù)內(nèi)部可以再調(diào)LLM；輸入盤面狀態(tài)，返回結(jié)論和置信度；只在滿足驗(yàn)證時才注入上下文。

這一步等于把LLM從「記規(guī)則的考生」變成「調(diào)規(guī)則的工程師」——規(guī)則不再是Prompt里一段需要模型自覺遵守的文字，而是一個有明確簽名和觸發(fā)條件的工程構(gòu)件。

沒有單元測試？

三層不確定性量化

編碼Agent的一個天然優(yōu)勢是有「測試」作為驗(yàn)證手段。

代碼寫完跑測試，通過就是正反饋，失敗就有明確的報錯信息。

術(shù)數(shù)領(lǐng)域，或者說絕大多數(shù)專業(yè)領(lǐng)域，都沒有這個條件實(shí)現(xiàn)所謂的「單元測試」。

Tianfu Agent的方案是引入不確定性量化，在三個層面給出置信度評估：

工具輸出層：非確定性工具（如強(qiáng)弱判斷、多象吉兇）由內(nèi)置算法提供置信度，直接由算法層面進(jìn)行確定性評估。
Sub-Agent層：每個子智能體在單一理論體系下完成推理后，由LLM自評本次推理結(jié)論中每個觀點(diǎn)的顯著性。
多流派合參層：不同流派的結(jié)論可能相互矛盾，通過人工經(jīng)驗(yàn)置信度加權(quán)調(diào)和，再次進(jìn)行判斷。

這不是一個能替代“自動驗(yàn)證”的方案——在報告中也坦承了這一點(diǎn)。但在缺乏驗(yàn)證手段的領(lǐng)域，「知道自己有多不確定」本身就是有價值的信息，至少給上層決策提供了量化參考，而非將所有結(jié)論等權(quán)堆砌。

如果用一句話總結(jié)這套harness的設(shè)計(jì)哲學(xué)：在Tianfu Agent里，工具不僅是計(jì)算函數(shù)，它還包括規(guī)則、子推理流程，乃至Sub-Agent本身。

對垂直領(lǐng)域Agent落地的啟示

拋開領(lǐng)域特殊性本身不談，這個項(xiàng)目提供了一些對垂直領(lǐng)域Agent開發(fā)有參考價值的工程經(jīng)驗(yàn)：

工具化范式，在「規(guī)則密集+語料稀缺」的領(lǐng)域收益最大。通用領(lǐng)域的模型已經(jīng)從海量語料中內(nèi)化了規(guī)則，工具環(huán)境是錦上添花。但在訓(xùn)練數(shù)據(jù)極少的垂直領(lǐng)域，工具環(huán)境直接彌補(bǔ)了模型的知識盲區(qū)，Tianfu Agent比最強(qiáng)通用模型高出10個百分點(diǎn)即為例證。
工具數(shù)量膨脹后，工具管理本身成為獨(dú)立的工程問題。四級分類加動態(tài)注入的思路，對其他需要大量專業(yè)工具的垂直Agent有直接借鑒意義。
在缺乏自動驗(yàn)證的領(lǐng)域，不確定性量化是務(wù)實(shí)的次優(yōu)方案。編碼Agent有測試，醫(yī)療Agent有循證指南，但很多領(lǐng)域沒有——雖然術(shù)數(shù)是一個極端案例，但這種情況下置信度機(jī)制的作用值得關(guān)注。
「知識即接口」，在規(guī)則密度高的場景比「知識即提示詞」更可靠。把規(guī)則從Prompt搬進(jìn)函數(shù)，是解決模型長上下文「選擇性失憶」的一種直接手段。

Coding Agent的Harness時代已經(jīng)到來。Tianfu Agent某種程度上證明了，這條路不只屬于編程——在足夠結(jié)構(gòu)化的垂直領(lǐng)域，該范式可能同樣成立。

參考資料：

MingLi-Bench開源倉庫：https://github.com/DestinyLinker/MingLi-Bench Tianfu Agent技術(shù)報告：https://destinylinker.github.io/MingLi-Bench/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.