<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Qwen3.5 系列,最優選擇 27B,最優精度 Q6

      0
      分享至

      我之前也寫過

      工具調用(Tool Calling / Function Calling)是大模型從"能聊天"進化到"能干活"的關鍵能力,沒有這個能力,Agent 就是空中樓閣

      問題來了:Qwen3.5 系列這么多模型,從 0.8B 一路到 397B,到底哪個尺寸真的能可靠地調用工具?

      ToolCall-15:15 道題,照出模型真面目

      這個ToolCall-15開源基準測試框架(github.com/stevibe/ToolCall-15),專門測試 LLM 的工具調用能力:

      • 15 個場景,覆蓋 5 大類能力(每類 3 個)

      • 12 個工具,模型每次都能看到全部工具

      • 模擬響應,確保結果確定性、可復現

      • Temperature 設為 0,排除隨機性干擾

      • 不挑測試,全部跑完,沒有選擇性地只跑好看的

      下面是 ToolCall-15 的測試看板:


      ToolCall-15 測試看板 五大考核維度,全是實戰場景

      ToolCall-15 測的不是什么花里胡哨的學術指標,全是真實場景下模型會遇到的問題:

      類別

      測試內容

      舉例

      工具選擇

      能不能選對工具?

      問柏林天氣,該用get_weather還是web_search

      參數精度

      參數傳對了嗎?

      用戶要華氏溫度,你傳了fahrenheit沒?

      多步鏈式

      能不能串聯多個工具?

      搜文件 → 讀內容 → 查聯系人 → 發郵件

      克制與拒絕

      不該用工具時能忍住嗎?

      "二戰哪年結束?" 你別去web_search

      ? 錯誤恢復

      工具報錯了怎么辦?

      搜索沒結果,是放棄還是換個關鍵詞重試?

      每個場景評分:? 滿分(2分)、?? 半分(1分)、? 零分

      Qwen3.5 全家桶測試結果:27B 獨占鰲頭

      原作者 stevibe 把 Qwen3.5 全系列模型都拉出來溜了一遍——從 0.8B 到 397B,甚至還包括了 Jackrong 的蒸餾版本

      結果出來,我直接震驚了,397B 的巨無霸打不過 27B:

      模型

      通過數

      Qwen3.5-27B15/15

      唯一滿分的原版模型

      Qwen3.5-27B 蒸餾版15/15

      蒸餾也滿分,工具調用能力保留完整

      Qwen3.5-397B

      13/15

      兩個測試未通過

      Qwen3.5-122B

      14/15

      一個測試未通過

      Qwen3.5-35B

      13/15

      兩個測試未通過

      小參數模型(0.8B~14B)

      大量超時

      陷入工具調用死循環


      最暴露模型的一道題

      15 個場景里,最有意思的是第 15 題(TC-15):

      "搜索冰島的人口數量,然后計算其 2% "

      看起來簡單吧?先搜索,拿到數據,再算個乘法。但就這道題,暴露了不同尺寸模型的致命弱點

      • 小模型(0.8B~14B):直接編數據,連搜索都不做,或者陷入死循環反復調用同一個工具,直到 30 秒超時

      • 大模型(35B、122B、397B):明明搜索結果返回了精確數字 372,520,它們偏偏用自己腦子里的"大約 370,000"去算。搜了,但不信

      • ?27B:老老實實搜索,拿到 372,520,傳給計算器算372520 * 0.02 = 7450.4,完美

      一句話總結:

      小模型會憑空捏造數據,大模型會忽略數據,27B 直接串行處理了。

      這其實揭示了一個深層問題:大參數模型因為"見多識廣",反而更傾向于依賴自己的記憶,對工具返回的實際數據產生了某種"不信任"

      量化測試:Q6 是最佳選擇

      確定了 27B 是最能打的模型后,下一個問題來了:該用哪個量化版本?

      stevibe 繼續測試了 Unsloth 提供的所有量化版本,從 Q2_K_XL 到 Q8_K_XL:


      Qwen3.5-27B 量化版本

      量化級別

      通過數

      Q8

      15/15 ?

      Q615/15

      Q5

      14/15

      Q4

      14/15

      Q3

      14/15

      Q2

      13/15

      結論很清晰:Q6 是最佳甜蜜點

      跟 Q8 拿到了一模一樣的滿分,但占用空間更小,推理速度更快

      Q5 往下就開始丟分了,說明量化到一定程度確實會損失工具調用的精確性

      更有意思的是,測試結果幾乎呈線性下降,這說明 ToolCall-15 這個基準測試確實在測量一些真實的東西,分數變化不是隨機噪聲

      下面是量化版本的詳細對比圖:


      量化版本測試結果對比

      有人質疑:用 Temperature 0 測試是否公平,日常使用不都是 Temp 1 嗎?

      stevibe 解釋:Temp 1 確實是通用場景下的默認設置,但對于工具調用而言,Temperature 0 表現更好。Databricks 的研究發現,在函數調用任務中,Temp 0 和 0.7 之間的準確率可能相差高達 10%。

      這很好理解——工具調用本質上是結構化輸出:選對工具、傳對參數、按對格式。你需要的是確定性,而不是創造性。這跟你用低 Temperature 生成 JSON 或代碼是一個道理。

      伯克利大學的 BFCL和 Databricks 的評估中,都使用較低的溫度來測試函數調用能力,可重復性基本上要求這樣做。當然,如果你的使用場景包含創意元素,0.7+ 完全合理,目標不同。

      總結:"Qwen3.5-27B 它緊湊、推理能力強、工具調用出色,Q6 精度 YYDS"

      加上更是如有神助了!

      ToolCall-15 這個開源項目本身也值得一玩,如果你想評估自己本地部署的模型在工具調用上到底行不行,直接拿來用就好。

      .5

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賴清德專機繞路返航,4架戰機護航盡顯心虛

      賴清德專機繞路返航,4架戰機護航盡顯心虛

      音樂時光的娛樂
      2026-05-05 14:30:00
      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      倫敦世乒賽:8強賽對陣出爐,林詩棟3-0完成救贖,龍隊劉詩雯觀戰

      晚霧空青
      2026-05-06 00:58:31
      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是福克斯!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      五一假期結束別難過 還有45天又放假了!端午節放假通知正式出爐:6月19日-21日連放三天,不補班不調休

      每日經濟新聞
      2026-05-05 23:40:29
      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個中國人

      抽象派大師
      2026-05-03 00:24:53
      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      1958年毛澤東視察濟南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      史海孤雁
      2026-05-05 17:07:19
      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      突發!趙繼偉深夜11點做出重大決定,球迷:要加盟上海或北控?

      呀古銅
      2026-05-06 06:09:06
      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      2001年,夫妻簽離婚協議時發現沒筆,妻子獨自上樓取筆時遇刺身亡

      明月清風閣
      2026-05-05 21:25:06
      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      木言觀
      2026-05-05 07:09:57
      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      舌吻3小時、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      子芫伴你成長
      2026-05-02 22:50:39
      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      39歲何潔直播公布三婚,這姐還結啊,頭發都白了

      夢想總會變成真
      2026-05-05 21:36:52
      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      連沉7船!美軍動真格,真相曝光,德黑蘭權力失控,革命衛隊玩火

      最美的巧合
      2026-05-05 16:00:24
      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      FIFA徹底慌了!多國集體拒高價買世界杯版權,天價泡沫徹底破裂

      行者聊官
      2026-05-05 10:20:23
      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      比黃金貴3倍!1公斤賣165萬,以前農村隨手扔,看看你家有嗎

      三農雷哥
      2026-05-04 11:49:13
      百億私募暴雷,52人近1億血汗錢被套!

      百億私募暴雷,52人近1億血汗錢被套!

      三農老歷
      2026-05-05 05:42:41
      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      醫生發現:一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      敘說醫療健康
      2026-05-06 05:00:06
      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      比亞迪這波降價,不只是真香,而是把一部分人直接推到了分岔路口

      三農老歷
      2026-05-05 15:01:13
      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      球迷態度:阿森納英超領跑+歐冠進決賽,本賽季結局將如何?

      懂球帝
      2026-05-06 05:45:10
      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      曾10分鐘賣500萬桶,半個娛樂圈為它帶貨!昔日網紅美食要破產了,杭州有便利店已下架

      都市快報橙柿互動
      2026-05-06 00:20:04
      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      吳千語住進上海別墅,裝修剛完就搬了家,中產生活悄悄變了樣

      孤傲何妨初
      2026-05-06 04:31:12
      2026-05-06 06:56:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      本地
      數碼
      旅游
      公開課
      軍事航空

      本地新聞

      用青花瓷的方式,打開西溪濕地

      數碼要聞

      微星“MAG 276QRDY54”27英寸顯示器發售,6299元

      旅游要聞

      “沒想到,開封這么會‘留人’”(新視窗·聚焦體驗經濟)

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普威脅伊朗不要向美國船開火

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一级毛片高清完整| 97性无码区免费| 中文字幕av无码不卡| 亚洲AV永久青草无码性色av| 亚洲国产成人无码av在线影院| 日韩精品av一区二区三区| 露脸叫床粗话东北少妇 | 国产一区二区不卡视频在线| 亚洲综合极品嫩模喷大量白浆| 无码毛片一区二区三区本码视频| 亚洲国产激情一区二区三区| 97cao超碰| 老司机午夜精品视频无码| 日韩中文字幕有码午夜美女| www.色色色.com| 亚洲熟妇天堂| 国产国产成人精品久久蜜| 亚洲Av综合日韩精品久久久| 亚洲第一区精品日韩在线播放 | 日韩另类激情| 上思县| 国产成人高清精品亚洲| av中文资源在线资源免费观看| 天天爽夜夜爽人人爽曰| 亚洲国产综合自在线另类| 疯狂做受XXXX高潮国产| 精品自拍视频| 国产精品久久久久鬼色| 久久久综合九色综合88| 国产又色又刺激高潮视频| 亚洲最大三级网站| 二人世界完整版在线观看| 老湿机69| 欧美黄网站免费观看| 欧美日韩一本的免费高清视频| 国产熟妇久久777777| 国产精品三级国产专用不卡| 久久久精品人妻一区二区三区 | 国产乱人伦偷精精品视频| 亚洲日韩中文字幕在线播放| 中文字幕日本亚洲欧美不卡|