<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      勝率直逼人類大師!這套Agent揭開中國AI「玄學(xué)真相」

      0
      分享至


      新智元報道

      【新智元導(dǎo)讀】沒有信息泄漏的專業(yè)術(shù)數(shù)題庫面前,Claude、GPT等主流模型集體「翻車」。但一個叫Tianfu Agent的系統(tǒng),卻一舉將準(zhǔn)確率提升至50%,逼近本屆術(shù)數(shù)大賽人類Top20選手的53.5%平均水平。

      把當(dāng)前最先進(jìn)的通用大模型,放在中國傳統(tǒng)術(shù)數(shù)專業(yè)選擇題(四選一)面前,會發(fā)生什么?


      需要說明的是,評測對通用模型已經(jīng)做了「讓步」:所有基線模型的Prompt中都提供了預(yù)計(jì)算的盤面數(shù)據(jù),避免引入計(jì)算幻覺,而是直接考察推理能力。

      DestinyLinker研究團(tuán)隊(duì)基于術(shù)數(shù)大賽(HKJFMA主辦,3069名選手參與)的官方題庫的評測集基準(zhǔn)Mingli-Bench,測試了當(dāng)下主流大模型,技術(shù)報告和測試結(jié)果在x上獲得了百萬關(guān)注。


      MingLi-Bench開源倉庫:https://github.com/DestinyLinker/MingLi-

      Bench Tianfu Agent技術(shù)報告:https://destinylinker.github.io/MingLi-Bench/

      結(jié)果有點(diǎn)意外,這些模型在這套幾乎沒有信息泄漏的最新比賽選擇題上,準(zhǔn)確率清一色徘徊在23%到40%之間。

      注意,四選一選擇題的隨機(jī)猜測線就是25%。

      為了驗(yàn)證模型能力能否支撐專業(yè)術(shù)數(shù)推理,該團(tuán)隊(duì)研發(fā)了Tianfu Agent的系統(tǒng),實(shí)現(xiàn)一整套針對中國傳統(tǒng)術(shù)數(shù)領(lǐng)域harness工程系統(tǒng)——

      200多個原子工具、3大流派規(guī)則函數(shù)庫、多Sub-Agent協(xié)作,以及一套貫穿全鏈路的置信度量化機(jī)制,一舉達(dá)到了50%的截尾準(zhǔn)確率,逼近本屆賽事人類Top 20選手的平均水平53.5%。


      Harness之路

      編碼智能體的經(jīng)驗(yàn)還遠(yuǎn)遠(yuǎn)不夠

      本測試案例使用了馬斯克命盤,測試中的1971/12/30并非其真實(shí)生日,因?yàn)樗錾谀习肭颍鑼ζ渖竭M(jìn)行節(jié)氣轉(zhuǎn)換

      Claude Code、Cursor這些工具在復(fù)雜工程任務(wù)中表現(xiàn)良好,不是因?yàn)槟P捅旧碜儚?qiáng)了,而是它被放進(jìn)了一個領(lǐng)域?qū)S玫墓ぞ攮h(huán)境里,有文件I/O,有終端,有測試反饋。

      Tianfu Agent把同樣的邏輯搬進(jìn)了中國傳統(tǒng)術(shù)數(shù)領(lǐng)域,在推理鏈路上,采用多Sub-Agent協(xié)作的漸進(jìn)式發(fā)現(xiàn)策略:多個Sub-Agent各自維護(hù)獨(dú)立的工具集和上下文,并根據(jù)環(huán)境反饋逐步展開推理。

      然而,僅依靠Coding Agent的成功經(jīng)驗(yàn)還是遠(yuǎn)遠(yuǎn)不夠的,例如:

      • 除了常見的刑沖查詢、飛宮路徑等,術(shù)數(shù)領(lǐng)域還涉及大量數(shù)據(jù)邏輯運(yùn)算,此部分由大模型生成并不可靠,但一次性交給模型調(diào)用又會污染上下文;

      • 規(guī)則需要經(jīng)驗(yàn)選擇,并非使用越多越好,且每一條規(guī)則的使用后都可能出現(xiàn)矛盾的結(jié)論;

      • 缺乏「單元測試」等輔助驗(yàn)證手段,在長鏈路推理下,很容易積累偏差。


      其他垂直領(lǐng)域應(yīng)用,如醫(yī)療、法律等很可能也面臨著類似的困境

      200多個工具如何管理?

      四級可見性控制

      通用Agent用十幾個工具就夠了,200+工具帶來的第一個工程問題不是「能不能寫出來」,而是模型選不對

      該研究團(tuán)隊(duì)按「LLM可理解性」和「可窮舉性」兩個維度,將工具分成四級:

      • 自動注入型(可理解+可窮舉):十神、星耀、宮位等零歧義概念,自動加載到上下文中,不需要模型選擇。

      • 按需調(diào)用型(可理解+不可窮舉):生克關(guān)系、飛宮計(jì)算等,模型能理解語義并自行判斷參數(shù)。

      • 轉(zhuǎn)譯調(diào)用型(不可理解+可窮舉):模型容易產(chǎn)生歧義或非市面常見的專業(yè)術(shù)語,通過預(yù)設(shè)翻譯層轉(zhuǎn)換工具名稱后調(diào)用。

      • 觸發(fā)注入型(不可理解+不可窮舉):僅特定Sub-Agent可調(diào)用,并配備專屬背景知識和校驗(yàn)方法。

      這套機(jī)制的核心是動態(tài)控制工具的可見范圍——不同推理階段、不同Sub-Agent看到的工具集不同,避免選項(xiàng)過載導(dǎo)致的選擇退化。

      這個思路對其他垂直領(lǐng)域的Agent開發(fā)有一定參考價值:當(dāng)工具數(shù)量超過模型的可靠選擇閾值后,工具管理本身就成了一個獨(dú)立的工程問題。

      繁雜規(guī)則怎么用?

      也封裝成可調(diào)用函數(shù)

      通用Agent經(jīng)常把規(guī)則寫進(jìn)System Prompt或Few-shot,本質(zhì)是讓模型「記住并遵循」。

      術(shù)數(shù)領(lǐng)域規(guī)則繁雜(僅子平母法就超過百條)、適用條件互相耦合、流派之間還會互相矛盾,靠記憶遵循的直接后果就是選擇性忽略、推理路徑不可控。

      Tianfu Agent的做法,是把每一條復(fù)雜規(guī)則封裝成一個帶元數(shù)據(jù)的可調(diào)用函數(shù)。

      人類專家預(yù)先標(biāo)注適用場景、時間跨度、事件類型、優(yōu)先級;函數(shù)內(nèi)部可以再調(diào)LLM;輸入盤面狀態(tài),返回結(jié)論和置信度;只在滿足驗(yàn)證時才注入上下文。

      這一步等于把LLM從「記規(guī)則的考生」變成「調(diào)規(guī)則的工程師」——規(guī)則不再是Prompt里一段需要模型自覺遵守的文字,而是一個有明確簽名和觸發(fā)條件的工程構(gòu)件。

      沒有單元測試?

      三層不確定性量化

      編碼Agent的一個天然優(yōu)勢是有「測試」作為驗(yàn)證手段。

      代碼寫完跑測試,通過就是正反饋,失敗就有明確的報錯信息。

      術(shù)數(shù)領(lǐng)域,或者說絕大多數(shù)專業(yè)領(lǐng)域,都沒有這個條件實(shí)現(xiàn)所謂的「單元測試」。

      Tianfu Agent的方案是引入不確定性量化,在三個層面給出置信度評估:

      • 工具輸出層:非確定性工具(如強(qiáng)弱判斷、多象吉兇)由內(nèi)置算法提供置信度,直接由算法層面進(jìn)行確定性評估。

      • Sub-Agent層:每個子智能體在單一理論體系下完成推理后,由LLM自評本次推理結(jié)論中每個觀點(diǎn)的顯著性。

      • 多流派合參層:不同流派的結(jié)論可能相互矛盾,通過人工經(jīng)驗(yàn)置信度加權(quán)調(diào)和,再次進(jìn)行判斷。

      這不是一個能替代“自動驗(yàn)證”的方案——在報告中也坦承了這一點(diǎn)。但在缺乏驗(yàn)證手段的領(lǐng)域,「知道自己有多不確定」本身就是有價值的信息,至少給上層決策提供了量化參考,而非將所有結(jié)論等權(quán)堆砌。


      如果用一句話總結(jié)這套harness的設(shè)計(jì)哲學(xué):在Tianfu Agent里,工具不僅是計(jì)算函數(shù),它還包括規(guī)則、子推理流程,乃至Sub-Agent本身。

      對垂直領(lǐng)域Agent落地的啟示

      拋開領(lǐng)域特殊性本身不談,這個項(xiàng)目提供了一些對垂直領(lǐng)域Agent開發(fā)有參考價值的工程經(jīng)驗(yàn):

      1. 工具化范式,在「規(guī)則密集+語料稀缺」的領(lǐng)域收益最大。通用領(lǐng)域的模型已經(jīng)從海量語料中內(nèi)化了規(guī)則,工具環(huán)境是錦上添花。但在訓(xùn)練數(shù)據(jù)極少的垂直領(lǐng)域,工具環(huán)境直接彌補(bǔ)了模型的知識盲區(qū),Tianfu Agent比最強(qiáng)通用模型高出10個百分點(diǎn)即為例證。

      2. 工具數(shù)量膨脹后,工具管理本身成為獨(dú)立的工程問題。四級分類加動態(tài)注入的思路,對其他需要大量專業(yè)工具的垂直Agent有直接借鑒意義。

      3. 在缺乏自動驗(yàn)證的領(lǐng)域,不確定性量化是務(wù)實(shí)的次優(yōu)方案。編碼Agent有測試,醫(yī)療Agent有循證指南,但很多領(lǐng)域沒有——雖然術(shù)數(shù)是一個極端案例,但這種情況下置信度機(jī)制的作用值得關(guān)注。

      4. 「知識即接口」,在規(guī)則密度高的場景比「知識即提示詞」更可靠。把規(guī)則從Prompt搬進(jìn)函數(shù),是解決模型長上下文「選擇性失憶」的一種直接手段。

      Coding Agent的Harness時代已經(jīng)到來。Tianfu Agent某種程度上證明了,這條路不只屬于編程——在足夠結(jié)構(gòu)化的垂直領(lǐng)域,該范式可能同樣成立。

      參考資料:

      MingLi-Bench開源倉庫:https://github.com/DestinyLinker/MingLi-Bench Tianfu Agent技術(shù)報告:https://destinylinker.github.io/MingLi-Bench/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      兩性關(guān)系:不管你信不信,壽命長的男人,大多都有這6個好習(xí)慣

      兩性關(guān)系:不管你信不信,壽命長的男人,大多都有這6個好習(xí)慣

      白宸侃片
      2026-05-21 16:06:37
      趁丈夫洗澡,我用他微信讓婆婆轉(zhuǎn)八千,她秒轉(zhuǎn)8萬并留言:傻孩子,我兒子那420萬的婚房早就寫你名了,這錢你拿著零花

      趁丈夫洗澡,我用他微信讓婆婆轉(zhuǎn)八千,她秒轉(zhuǎn)8萬并留言:傻孩子,我兒子那420萬的婚房早就寫你名了,這錢你拿著零花

      LULU生活家
      2026-05-25 08:37:59
      外媒:中國J-16掛8枚PL-15,令美日歐恐慌

      外媒:中國J-16掛8枚PL-15,令美日歐恐慌

      世家寶
      2026-05-25 19:54:48
      雷霆提前一節(jié)繳械!SGA慘敗提前打卡竟發(fā)笑 連莊MVP被小金人嘲諷

      雷霆提前一節(jié)繳械!SGA慘敗提前打卡竟發(fā)笑 連莊MVP被小金人嘲諷

      顏小白的籃球夢
      2026-05-25 10:47:04
      本以為是爛劇,結(jié)果開播就榜單第一,終于有值得熬夜狂追的好劇了

      本以為是爛劇,結(jié)果開播就榜單第一,終于有值得熬夜狂追的好劇了

      金風(fēng)說
      2026-05-25 13:54:38
      關(guān)于金價,華爾街集體改口!花旗看低至4300美元

      關(guān)于金價,華爾街集體改口!花旗看低至4300美元

      21世紀(jì)經(jīng)濟(jì)報道
      2026-05-25 21:15:52
      距世界杯僅18天!尼科·威廉斯又傷了,西班牙飛翼要缺席世界杯?

      距世界杯僅18天!尼科·威廉斯又傷了,西班牙飛翼要缺席世界杯?

      仰臥撐FTUer
      2026-05-25 16:43:03
      成都蓉城回應(yīng)“飯局爭議”:為了解新人融入情況,吃的工作餐

      成都蓉城回應(yīng)“飯局爭議”:為了解新人融入情況,吃的工作餐

      懂球帝
      2026-05-25 14:18:30
      喜報!首個臺獨(dú)政黨服軟!宣布愿回歸中國,但提了一個條件

      喜報!首個臺獨(dú)政黨服軟!宣布愿回歸中國,但提了一個條件

      曉徙娛樂
      2026-05-26 00:58:06
      方媛被傳不再錄桃花塢,哪是她不想錄,是郭富城團(tuán)隊(duì)不敢讓她再錄了吧

      方媛被傳不再錄桃花塢,哪是她不想錄,是郭富城團(tuán)隊(duì)不敢讓她再錄了吧

      科學(xué)發(fā)掘
      2026-05-25 15:01:27
      白酒四輪至暗時刻復(fù)盤:這一次,歷史會重演嗎?

      白酒四輪至暗時刻復(fù)盤:這一次,歷史會重演嗎?

      雪球
      2026-05-25 15:53:43
      “別綠茶了,你就是個中年婦女!”女家長曬心機(jī)自拍,被戳破打臉

      “別綠茶了,你就是個中年婦女!”女家長曬心機(jī)自拍,被戳破打臉

      番外行
      2026-05-25 15:15:10
      《亢奮》女主全裸出鏡!床都塌了

      《亢奮》女主全裸出鏡!床都塌了

      娛圈觀察員
      2026-05-26 00:21:12
      “蛋白吃得好,醫(yī)院跑得少”,建議5種蛋白食物換著吃,增強(qiáng)體質(zhì)

      “蛋白吃得好,醫(yī)院跑得少”,建議5種蛋白食物換著吃,增強(qiáng)體質(zhì)

      春序娛樂
      2026-05-23 21:04:38
      胡錫進(jìn):華為會被歷史至少記住1000年,嘲諷的人讓我無法理解

      胡錫進(jìn):華為會被歷史至少記住1000年,嘲諷的人讓我無法理解

      映射生活的身影
      2026-05-26 02:07:09
      幣安創(chuàng)始人趙長鵬在迪拜沖浪失聯(lián)?本人回應(yīng):假新聞

      幣安創(chuàng)始人趙長鵬在迪拜沖浪失聯(lián)?本人回應(yīng):假新聞

      界面新聞
      2026-05-25 15:29:39
      替代常規(guī)MacBook Pro!蘋果MacBook Ultra配置曝光

      替代常規(guī)MacBook Pro!蘋果MacBook Ultra配置曝光

      CNMO科技
      2026-05-25 16:44:55
      教育異化:別讓分?jǐn)?shù)扼殺民族靈魂

      教育異化:別讓分?jǐn)?shù)扼殺民族靈魂

      烽火瞭望者
      2026-05-25 06:22:22
      年薪9萬存款1.9萬,他卻欠著6張信用卡1.3萬

      年薪9萬存款1.9萬,他卻欠著6張信用卡1.3萬

      報錯免疫體
      2026-05-25 01:16:40
      網(wǎng)友們這幾天都在吃著名毛巾集團(tuán)潔麗雅的瓜,諷刺其家族“丑聞”

      網(wǎng)友們這幾天都在吃著名毛巾集團(tuán)潔麗雅的瓜,諷刺其家族“丑聞”

      網(wǎng)絡(luò)易不易
      2026-05-17 12:29:12
      2026-05-26 02:43:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      15305文章數(shù) 66889關(guān)注度
      往期回顧 全部

      科技要聞

      華為:沒有先進(jìn)光刻機(jī)也能造出高端芯片

      頭條要聞

      伊朗媒體披露最高領(lǐng)袖就醫(yī)情況

      頭條要聞

      伊朗媒體披露最高領(lǐng)袖就醫(yī)情況

      體育要聞

      如果不好好守門,他可能早就繼承家業(yè)了

      娛樂要聞

      李晨鄭愷跑男停宣:12年元老被邊緣化

      財(cái)經(jīng)要聞

      起底煤礦“暗面”:假整改、假數(shù)據(jù)

      汽車要聞

      啟境GT7定檔5月29日預(yù)售 提供三電機(jī)版本

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      親子
      家居
      健康

      教育要聞

      罰抄10遍被投訴,一個電話讓全班沒了作業(yè),孩子就毀這類家長手里

      房產(chǎn)要聞

      工抵房騙局!134套房款入私賬!海南這個盤,坑慘買房人!

      親子要聞

      還有多少“兒童牙膏”在玩概念游戲? | 新京報快評

      家居要聞

      生與命相依 舊公寓改造

      幾百塊一瓶的外泌體精華,涂臉上是“智商稅”嗎?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 极品尤物被啪到呻吟喷水| 亚洲国产成人无码av在线影院| 久久久久久久综合| 亚洲视频小说之无码| 国产麻豆精品一区二区三区v视界 国产乱子伦视频一区二区三区 | 欧美专区第二页| 日韩在线中文| 国产成人精品日本亚洲999| 视频一区视频二区亚洲视频| 亚洲欧美另类在线| 免费无码作爱视频| 亚洲AV无码| 久久人人妻人人爽人人卡片av| 激情航班h版在线观看| 放荡的美妇在线播放| 无码人妻人妻经典| 国产熟妇婬乱A片免费看牛牛| 性饥渴熟妇乱子伦HD| 中文字幕一区二区三区在线毛片| 国产爆乳美女娇喘呻吟久久| 国产高潮流白浆视频| 我要看特黄特黄的亚洲黄片 | 久久爆乳一区二区三区| 99re视频这里只有精品| 久久国产乱子精品免费女| 亚洲成av人片天堂网九九| 国产 在线 | 日韩| 日本一区二区不卡| 天堂在线中文| 丁香综合网| 国产激情精品一区二区三区| 亚洲一区二区三区高清在线看| 99久久成人亚洲精品观看| 全球顶级metart裸体自慰全部| 在线天堂最新版资源| 久久亚洲AV无码西西人体 | 在线视频一区二区国产| 99这里只有精品| 欧美乱码伦视频免费| 亚洲久av| 国产无遮挡猛进猛出免费|