<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      首個三模式大語言模型:4倍token吞吐量,長文本秒級時代要來了?

      0
      分享至



      編輯 | 澤南

      這是一個打破傳統大語言模型解碼限制的研究。

      英偉達提出了全球首個三模式的大語言模型系列,只需簡單更改注意力模式 / 掩碼,即可在自回歸、擴散和自推測解碼之間切換。

      一個模型,三種解碼模式,沒有額外的草稿模型,沒有架構變更。最快的模式 token 吞吐量能提升 4 倍



      我們知道,傳統上大語言模型主要采用的自回歸解碼(Autoregressive,AR)方式在低 batch sizes 時嚴重受內存限制,你必須為每個生成的 token 將海量權重從 HBM 移動到 SRAM。這種模式雖然準確率高,但由于無法并行,在并發量較低、追求單用戶極速響應的場景(如個人 AI 助手)下,GPU 算力常常無法被充分利用,導致生成速度遭遇瓶頸。

      與之相對的是,擴散模型(Diffusion Model)能夠提供并行生成的能力,但由于訓練時平等對待所有 token 排列,缺乏自回歸模型天然的從左到右的語言先驗,歷史上它們的生成質量一直落后。

      如果有一個模型能同時結合兩者的優勢,會是什么樣?英偉達這項研究的核心目的,就是通過統一的模型架構消除這兩種范式的隔閡,做到「準確率與速度兼得」。



      • HuggingFace:https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
      • 項目頁面:https://research.nvidia.com/publication/2026-05_nemotron-labs-diffusion-tri-mode-language-model-unifying-autoregressive
      • 技術報告:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL

      英偉達提出的模型不使用弱外部 MTP 模型或額外 heads,而是利用自身的擴散模式同時起草多個 token,然后在 AR 模式下使用相同的 KV cache 驗證它們。這樣,你就獲得了擴散模型的并行生成,同時具備 AR 的嚴格準確性。

      該方法比起之前的 Eagle/MTP 方法具有更高的接受率,無需額外權重,或者只需少量額外權重即可獲得更高的接受率。



      訓練時,模型同時優化兩個損失函數:AR Loss 和 Diffusion Loss,這完全改變了擴散語言模型質量的游戲規則。為了穩定訓練,團隊采用了兩階段訓練策略,并引入了 Global Loss Averaging 技術,大幅降低了擴散模型訓練中因隨機掩碼導致的梯度激增問題。

      借助這種訓練方式,模型在推理時可任意切換以下三種模式:

      • 自回歸模式(AR Mode): 傳統的從左到右逐字生成,保留完整的因果注意力機制。適合高并發、計算密集型的云端服務;
      • 擴散模式(Diffusion Mode): 采用分塊去噪(Block-wise Denoising),利用雙流注意力機制(Dual-stream Attention)在塊內進行大規模并行 token 推測。為了進一步壓榨并行的上限,英偉達還專門訓練了一個輕量化采樣器(Trained Sampler)來替代傳統的置信度閾值判定;
      • 自猜測模式(Self-Speculation Mode): 它將傳統的 Speculative Decoding(需要一個額外的小模型來墊字)改造成「單模型自我博弈」。

      該研究給出了 3B、8B、14B 三個尺寸的基座模型,展現出了對現有開源自回歸模型及擴散模型的全方位碾壓。研究人員在之前的開源 dLLM(如 LLaDA、Dream 和 SDAR)上看到了從 9% 到 22.4% 的巨大準確率提升。也就是說,現在我們有了新的 SOTA dLLM。

      在測試中,新模型匹配了 Qwen3-8B 的基線 AR 準確率,但在前向傳播中達到了 5.9 個 token(TPF)。





      dLLM 的主要優勢在于效率。

      NLD 在實際應用中的加速效果(8B 模型,單用戶場景)如下:

      • DGX Spark:FP8 精度下提速 3.14 倍;INT4 精度下提速 2.7 倍(112 token/s vs 41.8 AR);
      • RTX 6000 Pro:FP8 精度下提速 3.4 倍;INT 精度下提速 2.3 倍;
      • GB200:提速 3.3 倍(850 tok/s);若配合自定義 CUDA 內核,最高可提速 4 倍。

      在 SPEED-Bench 基準測試中,線性自推測(linear self-speculation)機制實現了 8.7 的平均接受長度,相比之下,Qwen3.5-9B-MTP 為 4.7,Qwen3-8B-Eagle3 為 2.81。該數據為針對數學、代碼、推理及多語言任務的綜合估算值。



      具體方法上,這種能力并不是單個的解決方案。

      在低到中等并發度下,自行推測絕對占據主導地位(非常適合個人 AI 和交互式代理)。但在巨大的批處理規模下(>64 個流),推理會變成計算受限。英偉達的解決方法是:只需將注意力掩碼切換回純 AR 模式。一個模型,在所有部署場景下都能實現通用高效。





      最后,英偉達公布了他們的訓練配方(從 Ministral3-3B/8B/14B 開始):

      • 1T 個 token 的 AR-only 持續預訓練
      • 300B 個 token 的聯合 AR + Diffusion 訓練
      • 隨后進行 SFT 和 VLM 對齊

      使用的關鍵技術:

      • 全局損失平均 + DP-rank 變化掩碼
      • 嚴格因果干凈流(防止標簽泄漏)
      • LoRA 增強的起草器以改進自我推測

      這項研究指明了未來大模型架構演進的一個方向:不要去刻意挑選自回歸還是擴散模型,將它們揉碎在同一個全連接 / 因果注意力切換的 Transformer 體系內或許才是正解。

      更令人興奮的是,論文最后的分析指出,如果未來能夠開發出更完美的擴散采樣器,擴散模式的理論性能上限比現有的自猜測模式還要再高出 76.5%—— 這表明擴散大語言模型依然留有巨大潛能,長文本的「秒級生成」時代可能離我們不遠了。

      更多細節詳見論文。

      參考內容:

      https://x.com/PavloMolchanov/status/2056799786377039995

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      橫跨三個年代奪冠!丁俊暉依然是亞洲職業巔峰最長的斯諾克球員!

      橫跨三個年代奪冠!丁俊暉依然是亞洲職業巔峰最長的斯諾克球員!

      世界體壇觀察家
      2026-05-22 10:03:21
      全世界苦研80年,被中國一朝突破!顛覆性技術的背后是誰做到的?

      全世界苦研80年,被中國一朝突破!顛覆性技術的背后是誰做到的?

      抽象派大師
      2026-05-23 00:15:42
      醫生提醒:一旦做過腸息肉切除手術,這6件事就別做了,要注意

      醫生提醒:一旦做過腸息肉切除手術,這6件事就別做了,要注意

      蜉蝣說
      2026-05-19 22:00:28
      “午晚餐都被中企吃掉”,德國工業巨頭崩潰:歐洲快成中國一省了

      “午晚餐都被中企吃掉”,德國工業巨頭崩潰:歐洲快成中國一省了

      潮鹿逐夢
      2026-05-22 18:17:08
      米切爾已經進了!過去10年最佳一陣球員,就恩比德沒進過分區決賽

      米切爾已經進了!過去10年最佳一陣球員,就恩比德沒進過分區決賽

      無術不學
      2026-05-22 10:15:05
      田川博英離開日產 去了比亞迪,不是辭職,是帶著整個團隊搬過去。

      田川博英離開日產 去了比亞迪,不是辭職,是帶著整個團隊搬過去。

      汽車工程師
      2026-05-22 08:26:43
      說唱巨星突襲接娃現場,直接送了輛凱迪拉克

      說唱巨星突襲接娃現場,直接送了輛凱迪拉克

      生活觀察員啊
      2026-05-23 00:07:51
      79歲特朗普放話:2028年我還在,2032年也可能

      79歲特朗普放話:2028年我還在,2032年也可能

      淺遇時光
      2026-05-22 00:23:48
      我59歲才頓悟一個道理:如果別人請客不想去,千萬別傻傻地回“有事去不了,下次再約”,高情商的人這樣回應

      我59歲才頓悟一個道理:如果別人請客不想去,千萬別傻傻地回“有事去不了,下次再約”,高情商的人這樣回應

      心理觀察局
      2026-05-13 09:07:23
      特斯拉推出重大系統更新,這界面真是絕了!

      特斯拉推出重大系統更新,這界面真是絕了!

      XCiOS俱樂部
      2026-05-22 15:31:33
      2分1板!北京天才鋒霸成張鎮麟的玩具,全身上下只剩發型最硬

      2分1板!北京天才鋒霸成張鎮麟的玩具,全身上下只剩發型最硬

      弄月公子
      2026-05-22 22:39:04
      臥槽!詹姆斯點明下家球隊,大批球隊失去希望

      臥槽!詹姆斯點明下家球隊,大批球隊失去希望

      體育新角度
      2026-05-22 22:18:22
      兩部門:禁止直接或間接從菲律賓輸入豬、野豬及其相關產品

      兩部門:禁止直接或間接從菲律賓輸入豬、野豬及其相關產品

      新京報
      2026-05-21 16:29:13
      廣東一家制衣廠僅有一位男員工,百余名女同事圍著輪流投喂呵護

      廣東一家制衣廠僅有一位男員工,百余名女同事圍著輪流投喂呵護

      搗蛋窩
      2026-04-07 13:22:20
      歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

      歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

      西樓知趣雜談
      2026-03-24 14:38:30
      超275億!貴州這條復線高速,將全線通車,強化貴陽輻射帶動能力

      超275億!貴州這條復線高速,將全線通車,強化貴陽輻射帶動能力

      華庭講美食
      2026-05-22 18:19:10
      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      趣文說娛
      2026-05-12 19:53:22
      同為清朝割讓的領土,為什么香港能收回,海參崴卻沒有動靜?

      同為清朝割讓的領土,為什么香港能收回,海參崴卻沒有動靜?

      抽象派大師
      2026-04-29 00:14:58
      看看朱元璋的親筆書法,顛覆大眾認知,無錫博物館視為“鎮館之寶”!

      看看朱元璋的親筆書法,顛覆大眾認知,無錫博物館視為“鎮館之寶”!

      書法網
      2026-04-10 17:35:27
      告別王思聰的50萬,黃一鳴迎來1米9的新男友。

      告別王思聰的50萬,黃一鳴迎來1米9的新男友。

      鯨讓我照顧海
      2026-05-21 15:35:18
      2026-05-23 02:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13063文章數 142651關注度
      往期回顧 全部

      科技要聞

      雷軍:輸給特斯拉不丟人

      頭條要聞

      特朗普兒媳:中國6000年歷史太震撼 美國才250年

      頭條要聞

      特朗普兒媳:中國6000年歷史太震撼 美國才250年

      體育要聞

      最糟糕裁判?他想要退役當市長

      娛樂要聞

      周也戀情曝光!對象身份不簡單

      財經要聞

      富途擬被罰18.5億元 老虎 長橋也回應了

      汽車要聞

      11萬級直接上四驅 銀河星耀7限時權益價9.88萬起

      態度原創

      時尚
      游戲
      旅游
      本地
      軍事航空

      中年男人特供,害慘年輕女性

      《黑旗重制》確認支持PS5 Pro神技!畫質性能要起飛

      旅游要聞

      楚雄雙柏愛尼山鄉觀鳥經濟帶動生態旅游開門紅

      本地新聞

      用云錦的方式,打開江蘇南京

      軍事要聞

      俄羅斯試射具備核打擊能力的高超音速導彈

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一区二区三区AV波多野结衣| 精品亚洲国产一区二区三区| 99无码熟妇丰满人妻啪啪| 成人性做爰aaa片免费| 亚洲风情亚aⅴ在线发布| 18成禁人视频免费| 人人做天天爱夜夜爽2020| 男女一级毛片免费视频看| 四虎成人精品| 国产精品男女午夜福利片| 中文字幕少妇人妻| 中文无码日韩欧| 青青草原在线视频| 亚洲综合偷自成人网第页色| 日本不卡三区| 欧美牲交A欧美牲交| 亚洲国产成人丁香五月激情| 久久18禁高潮出水呻吟娇喘| 国语对白熟女 硬了| 久久夜夜免费视频| 亚洲精品国产免费无码网站| 久久影院午夜理论片无码| 日韩亚洲欧美中文在线| 天天躁夜夜躁狠狠喷水| 日韩中文字幕一二三视频| 中文字幕的av| 亚洲精品666| 日韩av一国产av一中文字慕| 欧美啪啪一区| 人妻少妇无码精品视频区| 精品尤物TV福利院在线网站| 久久挑色综合网| 亚洲中文字幕无码一区无广告 | 亚洲男同志网站| 五月天中文字幕mv在线| 免费人成在线观看| 日本一区二区三区内射| 免费va国产在线观看| 扒开双腿猛进入喷水高潮视频| 欧美韩中文精品有码视频在线| 国产精品免费无遮挡无码永久视频|