<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      英偉達(dá)發(fā)力了,新模型在 OpenClaw 成功率排行榜殺進(jìn)前五,目前免費(fèi)用

      0
      分享至

      我之前的文章,測試 N 多開源模型,尤其是本地部署系列,評論區(qū)永遠(yuǎn)有一個(gè)高頻問題:能不能接入 OpenClaw(小龍蝦)?

      大多數(shù)其實(shí)都不行,理由也很簡單——模型能力不足是最核心、最致命的短板。Agent 的自動(dòng)化、工具調(diào)用、多步驟任務(wù)執(zhí)行能力,全都建立在大模型的基礎(chǔ)能力之上。模型不行,Agent 就是個(gè)花瓶。

      打開 PinchBench 排行榜()就知道了,排在前面的清一色是旗艦閉源模型。你用一個(gè)小模型跑 Agent,和用筷子喝湯差不多,工具不對。

      最近英偉達(dá)有個(gè)開源模型 Nemotron-3-Super 殺進(jìn) PinchBench 前五

      直接看排行榜:


      **85.6% 的成功率超越了 Claude Opus 4.5(85.4%),只比 GPT-5.4 低了 0.4 個(gè)百分點(diǎn)。

      最關(guān)鍵的一點(diǎn):前五里面,它是唯一的開源模型。另外四個(gè)全是 Anthropic 和 OpenAI 的閉源旗艦,都是拿錢砸出來的。

      而且,它這個(gè)數(shù)據(jù)還是被CREATIVE脫了后腿的,它沒有文生圖的能力



      • Basic、Calendar、Coding、File Ops都是100%

      • Data Analysis到了98%

      • Research90%

      • Comprehension91%

      • Organization89%

      • Creativity只有18%

      • Memory甚至只有0%

      • Context這一項(xiàng)也只有70%

      這模型的強(qiáng)項(xiàng)非常像一個(gè)“干活型” Agent 大腦:寫腳本、改文件、跑流程、處理任務(wù),確實(shí)強(qiáng);但你要它靠長期上下文記憶、或者靠創(chuàng)意型表達(dá)去吃分,它就沒那么驚艷。

      換句話說,它更像一個(gè)靠譜的工程經(jīng)理加執(zhí)行助手,不太像一個(gè)文藝青年。

      PinchBench 測的是什么?

      可能有同學(xué)不了解這個(gè)榜單。

      簡單說,PinchBench 測的是模型驅(qū)動(dòng) AI Coding Agent 執(zhí)行真實(shí)編碼任務(wù)的能力。不是做選擇題,不是寫作文,而是:

      • 文件讀寫操作

      • 代碼修改和重構(gòu)

      • 工具調(diào)用和 API 交互

      • 多步驟復(fù)雜任務(wù)

      • 出錯(cuò)后的自我修復(fù)

      這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實(shí)在——它基本決定了模型驅(qū)動(dòng) Agent 的實(shí)際表現(xiàn)。

      這也是為什么我之前一直說:與小龍蝦最搭配的大模型,大多都是旗艦?zāi)P汀?/p>

      這貨憑什么這么強(qiáng)?

      先上硬參數(shù):

      指標(biāo)

      數(shù)值

      總參數(shù)量

      120B

      激活參數(shù)量

      僅 12B

      架構(gòu)

      LatentMoE(Mamba-2 + MoE + Attention 混合)

      上下文窗口

      1M tokens

      最低 GPU 需求

      1× B200-80GB 或 1× DGX Spark

      推理模式

      支持推理開/關(guān)(enable_thinking=True/False

      量化精度

      NVFP4(訓(xùn)練即量化,不是后量化)

      Nemotron 3 Super 120B A12B 不是“窮人版 Opus”,它更像是 NVIDIA 親自下場,給 Agent 賽道遞了一張旗艦級(jí)入場券。

      架構(gòu)設(shè)計(jì)有點(diǎn)東西

      Nemotron-3-Super 不是傳統(tǒng)的純 Transformer,而是一個(gè)三合一混合體:

      Mamba-2(狀態(tài)空間模型):擅長處理長序列,線性復(fù)雜度。這也是它能支持 1M 上下文的關(guān)鍵——傳統(tǒng) Transformer 的注意力機(jī)制在超長序列上會(huì)被二次復(fù)雜度卡死。

      MoE(混合專家):120B 參數(shù)里每次只激活 12B。用的是 LatentMoE,先把 token 投射到更小的潛在維度做路由,精度更高、開銷更低。

      Attention 層:在關(guān)鍵位置保留注意力機(jī)制,保證關(guān)鍵信息不丟。

      三者配合,NVIDIA 管這叫 LatentMoE 架構(gòu)。又快又準(zhǔn)。

      還有一個(gè)彩蛋:Multi-Token Prediction(MTP)。模型訓(xùn)練時(shí)不只預(yù)測下一個(gè) token,而是同時(shí)預(yù)測后面好幾個(gè) token。推理的時(shí)候可以做 speculative decoding,生成速度直接起飛。

      NVFP4 量化,幾乎零損失,畢竟就是英偉達(dá)獨(dú)創(chuàng)的

      下面這張圖是官方的基準(zhǔn)對比:


      Nemotron-3-Super 基準(zhǔn)精度對比圖

      基準(zhǔn)

      BF16 原版

      FP8

      NVFP4

      MMLU-Pro

      HMMT Feb25(含工具)

      GPQA(無工具)

      LiveCodeBench v6

      IFBench

      Arena-Hard-V2

      RULER-500 @128k

      有意思吧?NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統(tǒng)的"訓(xùn)完再量化",而是訓(xùn)練的時(shí)候就在 FP4 精度下跑,模型天然適配低精度推理。

      這才是真正的實(shí)用主義工程——精度不丟,顯存還省。

      訓(xùn)練方法論:這次是真開源

      NVIDIA 這次把"開源"兩個(gè)字做到了實(shí)處:

      • 預(yù)訓(xùn)練數(shù)據(jù):25T+ tokens,全部公開(Nemotron Pre-Training Datasets)

      • 后訓(xùn)練數(shù)據(jù):SFT + RL 數(shù)據(jù)集,全部公開(Nemotron Post-Training v3)

      • 訓(xùn)練配方:完整訓(xùn)練腳本在 GitHub 上

      • 評估工具:NeMo Evaluator SDK,可以復(fù)現(xiàn)所有 benchmark 結(jié)果

      • RL 環(huán)境:NeMo Gym,異步 GRPO 多環(huán)境強(qiáng)化學(xué)習(xí)

      訓(xùn)練三大階段:預(yù)訓(xùn)練 → SFT(合成代碼、工具調(diào)用、指令跟隨等) → RL(數(shù)學(xué)、代碼、科學(xué)、工具使用等多環(huán)境 GRPO)。

      怎么體驗(yàn)?

      方式一:NVIDIA API(最快上手)

      直接去build.nvidia.com注冊,免費(fèi)額度直接用。

      在線對話體驗(yàn),零門檻。



      方式二:OpenRouter 等第三方 API

      很多 API 平臺(tái)已經(jīng)上架了。但是要注意:PinchBench 上免費(fèi)版nemotron-3-super-120b-a12b:free只拿了 75.0%,和付費(fèi)版 85.6% 差了超過 10 個(gè)百分點(diǎn)。省錢和效果之間,得想清楚。

      方式三:本地部署(硬核玩家)

      支持 vLLM 和 SGLang,單卡 B200-80GB 即可運(yùn)行:

      # vLLM 部署
      vllm serve $MODEL_CKPT \
      --async-scheduling \
      --served-model-name nvidia/nemotron-3-super \
      --dtype auto \
      --kv-cache-dtype fp8 \
      --tensor-parallel-size 1 \
      --trust-remote-code \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_coder \
      --reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
      --reasoning-parser super_v3

      推理參數(shù)官方建議:temperature=1.0,top_p=0.95,所有場景通用。

      部署后暴露的是 OpenAI 兼容 API,可以直接接入 OpenCode 等終端 Agent:

      {
      "model": "local/nvidia-nemotron-3-super",
      "provider": {
      "local": {
      "npm": "@ai-sdk/openai-compatible",
      "options": {
      "baseURL": "http://localhost:8000/v1",
      "apiKey": "EMPTY"
      }
      }
      }
      }
      HuggingFace 模型頁(含完整部署指南):https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

      說完好的,說說現(xiàn)實(shí)問題:

      GPU 門檻還是高。B200-80GB 不是消費(fèi)級(jí)顯卡,你的 4090 跑不了,或許可以等等Unsloth對極致量化版。DGX Spark 是 NVIDIA 推的桌面方案,但價(jià)格也不便宜。對大多數(shù)個(gè)人開發(fā)者來說,API 調(diào)用更現(xiàn)實(shí)。

      Benchmark ≠ 實(shí)戰(zhàn)。PinchBench 85.6% 很好看,但實(shí)際項(xiàng)目中的復(fù)雜度、特定語言框架支持、長時(shí)間多輪對話的穩(wěn)定性,都得實(shí)測才知道。

      開源 Agent 模型的格局正在變

      Qwen 3.5-122B-A10B 也值得關(guān)注——同樣是 MoE 架構(gòu),122B 總參數(shù) / 10B 激活,和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數(shù)、10B 級(jí)別激活的 MoE 路線,這不是巧合。

      MoE + 混合架構(gòu)正在成為開源 Agent 模型的主流技術(shù)路線。用小激活量撬動(dòng)大參數(shù)量,在效率和能力之間找到一個(gè)甜點(diǎn)。

      制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      賴清德專機(jī)繞路返航,4架戰(zhàn)機(jī)護(hù)航盡顯心虛

      賴清德專機(jī)繞路返航,4架戰(zhàn)機(jī)護(hù)航盡顯心虛

      音樂時(shí)光的娛樂
      2026-05-05 14:30:00
      倫敦世乒賽:8強(qiáng)賽對陣出爐,林詩棟3-0完成救贖,龍隊(duì)劉詩雯觀戰(zhàn)

      倫敦世乒賽:8強(qiáng)賽對陣出爐,林詩棟3-0完成救贖,龍隊(duì)劉詩雯觀戰(zhàn)

      晚霧空青
      2026-05-06 00:58:31
      不是文班 不是??怂?!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是??怂?!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      五一假期結(jié)束別難過 還有45天又放假了!端午節(jié)放假通知正式出爐:6月19日-21日連放三天,不補(bǔ)班不調(diào)休

      五一假期結(jié)束別難過 還有45天又放假了!端午節(jié)放假通知正式出爐:6月19日-21日連放三天,不補(bǔ)班不調(diào)休

      每日經(jīng)濟(jì)新聞
      2026-05-05 23:40:29
      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個(gè)中國人

      美國人的歷史課本,是怎樣寫中國的?僅有20頁,記載了6個(gè)中國人

      抽象派大師
      2026-05-03 00:24:53
      1958年毛澤東視察濟(jì)南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      1958年毛澤東視察濟(jì)南,酒桌上突然猛砸杯子死盯王新亭:把你隱瞞的秘密交底吧?

      史海孤雁
      2026-05-05 17:07:19
      突發(fā)!趙繼偉深夜11點(diǎn)做出重大決定,球迷:要加盟上?;虮笨兀?>
    </a>
        <h3>
      <a href=突發(fā)!趙繼偉深夜11點(diǎn)做出重大決定,球迷:要加盟上海或北控? 呀古銅
      2026-05-06 06:09:06
      2001年,夫妻簽離婚協(xié)議時(shí)發(fā)現(xiàn)沒筆,妻子獨(dú)自上樓取筆時(shí)遇刺身亡

      2001年,夫妻簽離婚協(xié)議時(shí)發(fā)現(xiàn)沒筆,妻子獨(dú)自上樓取筆時(shí)遇刺身亡

      明月清風(fēng)閣
      2026-05-05 21:25:06
      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      “新型霸凌”正在校園悄悄流行,孩子不敢說,但家長一定牢記這些

      木言觀
      2026-05-05 07:09:57
      舌吻3小時(shí)、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      舌吻3小時(shí)、喊兒子小狼狗,狄鶯的畸形母愛終于反噬了

      子芫伴你成長
      2026-05-02 22:50:39
      39歲何潔直播公布三婚,這姐還結(jié)啊,頭發(fā)都白了

      39歲何潔直播公布三婚,這姐還結(jié)啊,頭發(fā)都白了

      夢想總會(huì)變成真
      2026-05-05 21:36:52
      連沉7船!美軍動(dòng)真格,真相曝光,德黑蘭權(quán)力失控,革命衛(wèi)隊(duì)玩火

      連沉7船!美軍動(dòng)真格,真相曝光,德黑蘭權(quán)力失控,革命衛(wèi)隊(duì)玩火

      最美的巧合
      2026-05-05 16:00:24
      FIFA徹底慌了!多國集體拒高價(jià)買世界杯版權(quán),天價(jià)泡沫徹底破裂

      FIFA徹底慌了!多國集體拒高價(jià)買世界杯版權(quán),天價(jià)泡沫徹底破裂

      行者聊官
      2026-05-05 10:20:23
      比黃金貴3倍!1公斤賣165萬,以前農(nóng)村隨手扔,看看你家有嗎

      比黃金貴3倍!1公斤賣165萬,以前農(nóng)村隨手扔,看看你家有嗎

      三農(nóng)雷哥
      2026-05-04 11:49:13
      百億私募暴雷,52人近1億血汗錢被套!

      百億私募暴雷,52人近1億血汗錢被套!

      三農(nóng)老歷
      2026-05-05 05:42:41
      醫(yī)生發(fā)現(xiàn):一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      醫(yī)生發(fā)現(xiàn):一旦吃上降血壓藥,這幾件事就別做了,別害了自己

      敘說醫(yī)療健康
      2026-05-06 05:00:06
      比亞迪這波降價(jià),不只是真香,而是把一部分人直接推到了分岔路口

      比亞迪這波降價(jià),不只是真香,而是把一部分人直接推到了分岔路口

      三農(nóng)老歷
      2026-05-05 15:01:13
      球迷態(tài)度:阿森納英超領(lǐng)跑+歐冠進(jìn)決賽,本賽季結(jié)局將如何?

      球迷態(tài)度:阿森納英超領(lǐng)跑+歐冠進(jìn)決賽,本賽季結(jié)局將如何?

      懂球帝
      2026-05-06 05:45:10
      曾10分鐘賣500萬桶,半個(gè)娛樂圈為它帶貨!昔日網(wǎng)紅美食要破產(chǎn)了,杭州有便利店已下架

      曾10分鐘賣500萬桶,半個(gè)娛樂圈為它帶貨!昔日網(wǎng)紅美食要破產(chǎn)了,杭州有便利店已下架

      都市快報(bào)橙柿互動(dòng)
      2026-05-06 00:20:04
      吳千語住進(jìn)上海別墅,裝修剛完就搬了家,中產(chǎn)生活悄悄變了樣

      吳千語住進(jìn)上海別墅,裝修剛完就搬了家,中產(chǎn)生活悄悄變了樣

      孤傲何妨初
      2026-05-06 04:31:12
      2026-05-06 06:56:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3372文章數(shù) 11146關(guān)注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內(nèi)娛真情誼!楊紫為謝娜演唱會(huì)送花籃

      財(cái)經(jīng)要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺(tái)

      態(tài)度原創(chuàng)

      健康
      教育
      本地
      房產(chǎn)
      公開課

      干細(xì)胞治燒燙傷面臨這些“瓶頸”

      教育要聞

      富人才不會(huì)把女兒養(yǎng)這么胖!家長曬女兒喝60元礦泉水,被網(wǎng)友群嘲

      本地新聞

      用青花瓷的方式,打開西溪濕地

      房產(chǎn)要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 午夜熟女插插xx免费视频| 国产AV一区二区三区| 久久国产黑丝袜视频| 国产精品久久久久久久久久红粉| 九九热99精品视频在线| 欧美精品卡一卡二| 鲁鲁免费国产高清在线观看| AV无码中文字幕不卡一二三区| 日本无码免费网站| 精品综合88久久| 漂亮少妇高潮在线观看| 免费无码肉片在线观看| 中文字幕亚洲乱码| 久久国产精品娇妻素人| 91资源在线观看| 日本AⅤ精品一区二区三区日| 好男人社区影院www| 国产女人喷潮视频免费| 97无码免费人妻超级碰碰碰| 久99久精品视频免费观看v| 97视频热人人精品免费| 野花社区视频www官网| 中文字幕无码免费久久9| 香蕉99国内自产自拍视频| 中国国产xxxx| 国产激情免费视频在线观看| 我被公睡做舒服爽中文字幕| 日韩亚洲国产激情一区浪潮av | 日本一区二区在免费观看喷水| 97超级碰碰人妻中文字幕| 日韩中文日韩中文字幕亚| 桃花岛av| 高清性欧美暴力猛交| 99热爱久久99热爱九九热爱| 精品少妇av蜜臀av| 日韩精品原创一区二区| 日韩精品av一区二区三区| 国产一区二区精品在线| 亚洲 欧美 日韩 综合aⅴ视频| 精品超清无码视频在线观看| 欧美午夜福利|