<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達的旗艦大模型,吞吐量暴打Qwen3.5七倍,技術細節披露!

      0
      分享至

      英偉達的 Nemotron 3 Super 旗艦大模型,我之前詳細介紹過:

      最近英偉達放出了技術報告(arxiv.org/abs/2604.12374),披露了很多細節

      本文一起拆解之

      簡介

      Nemotron 3 Super 是英偉達 Nemotron 3 家族的旗艦模型,總參數 1206 億,每次前向傳播只激活 127 億參數(不含 embedding 是 121 億)

      它融合了三種前沿技術:

      • Hybrid Mamba-Attention:用 Mamba-2 塊替代大部分注意力層,推理速度起飛

      • LatentMoE:全新的混合專家架構,精度和效率雙提升

      • MTP(Multi-Token Prediction):原生推測解碼,不需要外掛 draft model

      Nemotron 3 Super 三大核心技術:LatentMoE + MTP + Hybrid Mamba-Attention

      用 25 萬億 token 預訓練,支持最長100 萬 token上下文,在常見 benchmark 上和 GPT-OSS-120B、Qwen3.5-122B 打得有來有回,但推理吞吐量分別是它們的2.2 倍和 7.5 倍

      下圖是論文給的精度 - 吞吐量對比,一目了然:


      Nemotron 3 Super 精度與吞吐量對比:和 GPT-OSS-120B、Qwen3.5-122B 精度持平,但吞吐量遙遙領先 LatentMoE:重新設計 MoE 的底層邏輯

      我覺得這篇論文最有意思的創新是LatentMoE

      傳統 MoE 的問題在哪?

      大家都知道 MoE 靠"只激活部分專家"來省計算量。但英偉達指出一個被忽視的問題:現有 MoE 設計幾乎只優化了每 FLOP 的精度,忽略了每參數的精度

      什么意思呢?在實際部署中,你的成本不只是算力,還有:

      • 內存帶寬:每個專家權重矩陣是 d×m,讀取成本和隱藏維度 d 成正比

      • 通信開銷:分布式推理時 all-to-all 路由的流量和 d×K 成正比(K 是激活專家數)

      所以英偉達的思路是:把隱藏維度 d 壓下來


      標準 MoE vs LatentMoE 架構對比

      LatentMoE 的做法:

      1. 降維:先把 token 從隱藏維度 d 投影到更小的潛在空間 ?

      2. 在低維空間做路由和專家計算:內存讀取和通信量直接降低 d/? 倍

      3. 擴展專家數量:省下來的預算用來增加總專家數 N 和激活專家數 K,同比放大 d/? 倍

      4. 升維:計算完再投回原始維度

      這個 trade-off 非常精妙——維度降了,但專家數增了,總計算量基本不變,精度卻更好。因為更多專家的組合空間是指數級增長的


      LatentMoE 降維擴專家的核心思路:用 d/? 倍降維換來指數級專家組合空間

      Nemotron 3 Super 的具體配置:512 個專家,每次激活 22 個,潛在維度 1024。做個對比:DeepSeek V3 是 256 個專家激活 8 個,Qwen3.5 是 128 個專家激活 8 個

      Nemotron 的專家數和激活數都大幅領先

      MTP:內置的推測解碼加速器

      MTP(Multi-Token Prediction)也是一大亮點。DeepSeek V3 也用了 MTP,但 Nemotron 3 Super 的實現有一個關鍵改進:共享權重的 MTP head

      傳統方式:訓練 N 個獨立的預測頭,分別預測 n+2, n+3, ..., n+N+1 位置的 token。問題是推理時只能生成最多 N 個 draft token

      Nemotron 的做法:多個 MTP head共享參數,讓同一個頭在訓練中見過多種偏移量。這樣推理時可以遞歸地用同一個頭生成更長的 draft,接受率衰減更平緩


      MTP 接受率對比:Nemotron 3 Super 在各個 draft 位置都保持較高接受率

      論文用 SPEED-Bench 測的結果:Nemotron 3 Super 平均接受長度3.45,超過 DeepSeek-R1 的 2.70,和 Qwen3-Next 的 3.33 也有優勢。在 Roleplay、RAG、Summarization 這些場景下優勢尤其明顯

      配合 Blackwell 硬件,開啟 MTP draft=3 后,在同等用戶延遲下,總吞吐量顯著提升:


      MTP 關閉 vs 開啟(draft=1, draft=3)的吞吐量 - 延遲 Pareto 曲線 Hybrid Mamba-Attention:KV Cache 的終結者

      Nemotron 3 Super 的 88 層中,大部分是 Mamba-2 塊,只有少量注意力層作為"全局錨點"插入。


      Nemotron 3 Super 的層交替模式:Mamba 塊 + MoE 層為主,穿插少量 Attention 層

      這么做的好處太明顯了:

      • Mamba 塊沒有 KV Cache,生成時狀態大小恒定,不隨上下文線性增長

      • 只在關鍵位置保留注意力層做長程信息路由

      • 注意力層用 GQA(32 query heads, 2 KV heads),進一步壓縮

      最終效果:支持 100 萬 token 上下文,RULER 1M 測試得分 91.64,Qwen3.5-122B 也是 91.33,而 GPT-OSS-120B 只有 22.30

      這個差距太大了

      NVFP4 預訓練:全程 4-bit 精度訓練

      這是我覺得非常硬核的一點——Nemotron 3 Super 全程用 NVFP4(4-bit 浮點)訓練了 25 萬億 token

      大多數模型用 BF16 或 FP8 訓練,用 FP4 預訓練的幾乎沒有

      英偉達在這里踩了不少坑:

      層類型

      精度

      原因

      大部分線性層

      NVFP4

      主力精度

      網絡最后 15% 的層

      BF16

      保證訓練穩定性

      QKV & Attention 投影

      BF16

      保持注意力層精度

      Mamba 輸出投影

      MXFP8

      NVFP4 下溢太嚴重

      MTP 層

      BF16

      保留多 token 預測能力

      訓練過程中觀察到 7% 的權重梯度變成零值,主要是因為 NVFP4 量化把 BF16 下本就很小的梯度(<1e-12)直接下溢為零

      但英偉達發現這不影響最終精度——BF16 訓練到 10T token 后也會出現類似的零值梯度模式

      甚至他們試過在 19T token 處從 NVFP4 切換到 MXFP8,loss 曲線改善了,但下游任務精度沒有任何提升

      所以最終決定全程 NVFP4,不搞精度升級,這個結論很有價值。

      后訓練:21 個 RL 環境,強化 Agent 能力

      Nemotron 3 Super 的后訓練流程分四步:


      后訓練流水線全景:SFT → RLVR → SWE-RL → RLHF → MTP Healing后訓練流水線:SFT → RLVR → SWE-RL → RLHF → MTP Healing

      SFT 階段:用了超過 700 萬樣本,大幅擴充了 Agent 任務的數據量。亮點包括:

      • 從 SWE-Gym、R2E-Gym 等數據集蒸餾 Qwen3-Coder-480B 的編程軌跡

      • 專門生成了 2 萬條 Agentic CLI 任務(涵蓋 Claude Code、OpenCode、Codex 等多種 harness)

      • 合成了 150 萬條通用工具調用軌跡

      • 新增 CUDA 內核編寫/修復/優化數據(10 萬條)

      RL 階段:在21 個環境、37 個數據集上同時訓練。這個規模夠恐怖的。覆蓋數學、代碼、STEM、安全、指令遵循、長上下文、Agent 工具使用等全方位能力

      比較有意思的是PivotRL——一種新的 Agent 長程 RL 方法。它復用 SFT 的專家軌跡,只在"策略不確定的關鍵 turn"上做 RL 訓練。比端到端 RL 高效得多,又避免了 SFT 的域外退化問題

      SWE-RL 階段:每個 rollout 在 Apptainer 容器中啟動完整的 GitHub 倉庫環境,跑 OpenHands agent 循環生成補丁,然后用真實測試驗證。為了工具多樣性,他們在 OpenHands 里實現了 OpenCode 和 Codex 的 agent class,匹配 Claude Code 和 Codex CLI 的工具格式。

      量化推理:FP8 和 NVFP4 雙版本

      英偉達提供了兩個量化版本:

      • FP8(W8A8):面向 Hopper 架構 GPU

      • NVFP4(W4A4):面向 Blackwell 架構 GPU,用 AutoQuantize 做混合精度搜索

      NVFP4 量化的關鍵技巧:

      1. 權重用 MSE 最小化選擇縮放因子(離線校準,不影響運行時)

      2. 激活用 max-based 縮放(在線計算,追求效率)

      3. 敏感層自動提升到 FP8 或 BF16

      最終 NVFP4 模型達到 BF16 基線的99.8% 精度。整個量化過程在單臺 B200 8 卡節點上不到 2 小時完成

      還有一個很硬核的細節:Mamba 狀態緩存量化。直接從 FP32 轉 FP16 會導致代碼生成任務的冗余度暴漲 40%(生成太多無用 token)。原因是 Mamba 的遞歸特性會讓量化誤差逐步累積。英偉達的解決方案是隨機舍入(Stochastic Rounding),用 Philox 偽隨機數生成器消除系統性偏差。Blackwell GPU 還提供了專用的 PTX 指令來加速這個操作。

      Benchmark 成績單

      先看 Base 模型(預訓練后、后訓練前)的成績:

      任務

      Nemotron 3 Super

      Ling-flash-Base-2.0

      GLM-4.5-Air-Base

      MMLU (5-shot)

      MMLU-Pro (5-shot)

      MATH (4-shot)

      HumanEval (0-shot)

      RULER 128K

      RULER 1M

      Base 模型階段就已經全面碾壓同級別競品。

      后訓練版本 vs Qwen3.5-122B 和 GPT-OSS-120B:

      任務

      Nemotron 3 Super

      Qwen3.5-122B

      GPT-OSS-120B

      AIME25

      HMMT Feb25 (with tools)

      SWE-Bench (OpenHands)

      41.9

      RULER 1M

      Arena-Hard-V2

      說實話,精度上 Nemotron 3 Super 和 Qwen3.5-122B 各有勝負。Qwen 在編程和推理上略強,但 Nemotron 在長上下文和工具使用上更有優勢。

      真正拉開差距的是推理效率——在 8k 輸入 + 64k 輸出的設置下,Nemotron 3 Super 比 GPT-OSS-120B 快 2.2 倍,比 Qwen3.5-122B 快 7.5 倍。這才是實際部署時最關鍵的指標。

      總結

      Nemotron 3 Super 是英偉達在"效率優先"路線上的集大成之作

      三個核心創新——LatentMoE、MTP、Hybrid Mamba-Attention——分別從參數效率、解碼效率、內存效率三個維度做了優化,加上 NVFP4 全程訓練的探索,整體技術含量很高

      優點

      • 推理吞吐量確實是王炸級別,7.5 倍的差距太夸張

      • 100 萬上下文長度,且長上下文表現極其穩定

      • 全部開源(模型權重 + 訓練數據 + 訓練 recipe),真·業界良心

      • NVFP4 全程訓練驗證了低精度大規模訓練的可行性

      • Agent 能力突出,21 個 RL 環境訓練的深度投入

      不足

      • 在純推理任務(AIME、GPQA)上相比 Qwen3.5 稍有差距

      • SWE-Bench 分數落后 Qwen3.5 約 6 個點

      • 目前主要針對 NVIDIA GPU 優化(Hopper/Blackwell),其他硬件適配待觀察

      • 512 個專家的 MoE 結構對顯存要求不低,個人部署有門檻

      適合誰用:如果你是做大規模 AI 推理服務的,需要在 NVIDIA 硬件上追求極致吞吐量,或者需要超長上下文和 Agent 能力,Nemotron 3 Super 是一個非常值得考慮的選擇。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      爭議?56歲西蒙尼66分鐘便換下2大巨星 歐冠出局后怒推阿森納總監

      爭議?56歲西蒙尼66分鐘便換下2大巨星 歐冠出局后怒推阿森納總監

      我愛英超
      2026-05-06 06:09:59
      破案了!麥考爾點解沒有隨廣東隊去北京?原因揭曉

      破案了!麥考爾點解沒有隨廣東隊去北京?原因揭曉

      體育哲人
      2026-05-06 00:49:21
      臺灣當局集體跪諂斯太后,賴清德外交引爆全臺怒火

      臺灣當局集體跪諂斯太后,賴清德外交引爆全臺怒火

      阿晪美食
      2026-05-05 23:34:12
      阿森納1-0馬競,賽后評分出爐:不是薩卡第1,阿森納41號排第一

      阿森納1-0馬競,賽后評分出爐:不是薩卡第1,阿森納41號排第一

      側身凌空斬
      2026-05-06 04:54:46
      吉利一聲不響換上“朱雀”新車標! 被18個國家搶購,網友:太帥了

      吉利一聲不響換上“朱雀”新車標! 被18個國家搶購,網友:太帥了

      沙雕小琳琳
      2026-05-06 03:36:13
      俄烏戰爭以來曝俄軍首次大規模敗退!烏克蘭炸毀俄后勤大橋

      俄烏戰爭以來曝俄軍首次大規模敗退!烏克蘭炸毀俄后勤大橋

      項鵬飛
      2026-05-05 19:02:50
      歐洲情報聲稱:普京已在地下掩體度過數周,并禁止工作人員用手機

      歐洲情報聲稱:普京已在地下掩體度過數周,并禁止工作人員用手機

      激情與榮耀并存
      2026-05-05 15:34:41
      湖南煙花爆竹企業全面停產整頓

      湖南煙花爆竹企業全面停產整頓

      新華社
      2026-05-05 22:55:04
      巴媒:羅比尼奧因兒子遭內馬爾欺負很生氣,不接受其道歉了事

      巴媒:羅比尼奧因兒子遭內馬爾欺負很生氣,不接受其道歉了事

      懂球帝
      2026-05-06 03:58:55
      又一保險圈騙局曝光:銷冠任曉敏被警方帶走,涉案金額高達4億元

      又一保險圈騙局曝光:銷冠任曉敏被警方帶走,涉案金額高達4億元

      天天熱點見聞
      2026-05-05 19:59:02
      谷愛凌穿“會吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬顆玻璃泡泡,制作耗時2550小時

      谷愛凌穿“會吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬顆玻璃泡泡,制作耗時2550小時

      魯中晨報
      2026-05-05 16:26:17
      73年人生謝幕,她于2026年4月28日安詳離去

      73年人生謝幕,她于2026年4月28日安詳離去

      阿廢冷眼觀察所
      2026-05-05 11:57:43
      魯比奧確認對伊朗“史詩怒火”軍事行動已結束

      魯比奧確認對伊朗“史詩怒火”軍事行動已結束

      財聯社
      2026-05-06 04:08:05
      男子開車返滬路上看懵:旁邊的車里,主駕副駕2個女孩在睡覺?

      男子開車返滬路上看懵:旁邊的車里,主駕副駕2個女孩在睡覺?

      上觀新聞
      2026-05-05 20:34:14
      難以置信!廣東女生因拍照不滿拿萬元分手,不到3個月花男方5萬多

      難以置信!廣東女生因拍照不滿拿萬元分手,不到3個月花男方5萬多

      火山詩話
      2026-05-06 05:54:09
      當成都模式席卷全國,為何只有粵、蘇、魯、浙、閩5省選擇不跟?

      當成都模式席卷全國,為何只有粵、蘇、魯、浙、閩5省選擇不跟?

      金卡讀城
      2026-05-04 07:45:56
      1-0!薩卡立大功,阿森納淘汰馬競,挺進歐冠決賽,目標直指冠軍

      1-0!薩卡立大功,阿森納淘汰馬競,挺進歐冠決賽,目標直指冠軍

      足球狗說
      2026-05-06 04:54:03
      女性跑步:暴露這個隱私,是性感嗎?

      女性跑步:暴露這個隱私,是性感嗎?

      馬拉松跑步健身
      2026-05-05 19:18:07
      中超最新積分榜:蓉城9分領跑,泰山隊反超申花,負分球隊全清零

      中超最新積分榜:蓉城9分領跑,泰山隊反超申花,負分球隊全清零

      中超偽球迷
      2026-05-05 22:05:32
      酒局持續4小時,從下廚招待到拿刀拼命,妻子到底經歷了什么

      酒局持續4小時,從下廚招待到拿刀拼命,妻子到底經歷了什么

      笑談歷史阿晡
      2026-05-04 12:02:08
      2026-05-06 07:00:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3372文章數 11146關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      房產
      教育
      游戲
      健康
      公開課

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      教育要聞

      富人才不會把女兒養這么胖!家長曬女兒喝60元礦泉水,被網友群嘲

      《生化》電影被噴!游戲黨別在意 新片單純為嚇人

      干細胞治燒燙傷面臨這些“瓶頸”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕人妻丝袜乱一区三区| 亚洲国产亚洲国产路线久久| 精品女人久久久| 欧美一级特黄高清视频| 日本成人免费| 国产成熟女人性满足视频| a在线视频播放观看免费观看| 97成人精品区在线播放| 久久久久久久91精品免费观看| 国产精品女主播在线观看| 国产老女人免费观看黄A∨片| 无码夜色一区二区三区| 人妻斩0930无码视频| 激情欧美日韩一区二区| 无码制服丝袜中文字幕| 日韩亚洲欧洲在线com91tv| 国产一区二区视频在线| 另类 专区 欧美 制服| 国产全肉乱妇杂乱免费看视频| 人妻中文字幕在线视频无码| 加勒比综合网| 当雄县| 久久99国内精品自在现线| 久久人妻中文字幕免费| 亚洲欧美在线精品一区二区| 成人亚洲欧美久久久久| 九月婷婷人人澡人人添人人爽| 国产白浆喷水在线视频| 一区二区不卡99精品日韩| 阿城市| 久久久久久无码av成人影院| 亚洲一区二区激情| 被黑人各种姿势猛烈进出到抽搐 | 久久高清超碰AV热热久久| 欧美操逼色图| 国产丝袜无码一区二区视频| 国产免费久久精品99久久| 国产成人综合久久三区| 大色欧美| 日韩女优中文字幕在线| 精品久久久久久中文字幕|