<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

      0
      分享至

      編輯|冷貓


      眾所周知,大模型訓練成本極高。

      但大家又知道,降低訓練精度能夠顯著降低訓練成本。DeepSeek-V3 用 FP8 訓練把成本打到了 560 萬美元,已經讓全行業側目。

      在 FP8 成功后,行業仍然在不斷探索低精度的邊界:從 FP8 降到 FP4,訓練成本還能再降多少?

      理論上,FP4 的計算吞吐可以是 FP8 的兩倍。NVIDIA Blackwell 和 AMD MI350 系列都已經在硬件層面原生支持了 FP4 運算,前者在 B200 上標稱 FP4 算力可達 4500 TOPS(稀疏)。硬件已經準備好了,但軟件和算法那一側,一直卡在一個問題上:

      用 FP4 從頭訓練大模型,訓練過程非常不穩定。

      過去兩年里,LLM-FP4、NVFP4 預訓練等工作陸續嘗試了這條路,但鮮有方案能在 4 比特精度下干凈利落地跑通全流程預訓練,同時保持接近 FP8 的收斂質量。

      更棘手的是,崩潰的原因一直不清楚,分析認為,FP4 訓練不穩定的原因很可能來自隨機性不足。

      但就在最近,AMD 聯合賓夕法尼亞州立大學發布了一篇論文,顛覆了傳統的認知,為原生 FP4 訓練給出了一個全新的清晰診斷。



      • 論文標題:Pretraining large language models with MXFP4 on Native FP4 Hardware
      • 論文鏈接:https://arxiv.org/abs/2605.09825

      這篇論文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程預訓練,端到端訓練速度比 FP8 基線快 9-10%,token 開銷僅多 8-9%。這是目前第一個在原生 FP4 硬件(非軟件模擬)上完成大模型預訓練的完整實驗。

      更重要的是,論文揭示了核心問題:FP4 訓練的不穩定性的來源不是隨機性不足,是結構性微縮放誤差沿敏感梯度路徑累積放大。

      MXFP4 是什么

      在拆解論文之前,有必要先理解 MXFP4 這個數據格式。

      傳統的整數量化通常對整個張量使用一個縮放因子。MXFP4 的核心設計叫「微縮放」(Micro-scaling):把一個張量切成小塊(比如每 32 個元素一組),為每個小塊分配一個共享指數(E8M0 格式),塊內的每個元素用 4 比特浮點數表示。重建公式可以寫成:



      其中 E_shared 是塊內最大指數,Q_FP4 是最近舍入到 4 比特浮點可表示值。

      微縮放的好處在于:每個小塊有自己的動態范圍,不會被全局異常值「綁架」。這讓 4 比特浮點數的表示質量比樸素的全局量化好很多。

      但即便有了微縮放,FP4 訓練依然不穩定。

      排查實驗:不穩定的根源

      研究團隊先設計了一個逐步排查的控制實驗。

      一次完整的 Transformer 線性層計算,涉及三個通用矩陣乘法操作:

      • Fprop(前向傳播):計算 Y = XW^T,產出激活值
      • Dgrad(激活梯度):計算 ?X = ?Y · W,將梯度回傳給輸入
      • Wgrad(權重梯度):計算 ?W = (?Y)^T · X,產出用于更新權重的梯度

      研究團隊保持其他所有因素不變,逐步把這三個操作從 FP8 替換成 MXFP4,觀察每一步對收斂的影響。所有實驗都在 AMD Instinct MI355X 上用原生 FP4 tensor core 執行,不依賴軟件模擬。

      訓練任務是 MLPerf 標準設置,在 C4 數據集上預訓練 Llama 3.1-8B,收斂目標是驗證集困惑度達到 3.3。

      前兩步只帶來了溫和的額外 token 開銷,但一旦把 Wgrad 也換成 MXFP4,開銷直接跳到 26-27%。

      Wgrad 是 FP4 訓練的瓶頸所在。前向傳播和激活梯度對 FP4 量化有相當的容忍度,但權重梯度一旦被量化到 4 比特,收斂質量就出現了顯著退化。

      業界此前的主流直覺是:FP4 量化誤差本質上是噪聲問題,因此可以通過注入隨機性來「平滑」誤差分布。兩種常見策略是:

      • 隨機舍入(Stochastic Rounding):在量化時引入隨機性,使舍入誤差的期望值為零
      • 隨機 Hadamard 旋轉(Randomized Hadamard):在量化前用帶隨機符號翻轉的 Hadamard 變換打散數據分布



      當 Wgrad 被量化后,兩種隨機性策略不僅沒有穩定訓練,反而直接導致了不收斂。隨機性非但沒有幫忙,還在關鍵的梯度路徑上引入了更多有效量化誤差。

      相比之下,確定性 Hadamard 旋轉一把將全流程 token 開銷從 26-27% 壓回到 8-9%,訓練軌跡緊密跟蹤 FP8 基線。

      這是一個非常有診斷價值的結果。隨機和確定性 Hadamard 旋轉都是正交變換,都能打散異常值的能量分布,理論上對量化誤差的緩解效果應該類似。但它們在 Wgrad 場景下的表現截然相反,這揭示了問題的本質:

      FP4 訓練的不穩定性,是由 MXFP4 微縮放在敏感梯度路徑上產生的結構性誤差驅動的。隨機性策略失敗是因為它們在每一步引入了不同的誤差模式(pattern),而這些變化的誤差模式沿梯度路徑累積,反而放大了不穩定性。確定性旋轉之所以有效,恰恰因為它在每一步施加相同的變換,讓誤差模式保持一致,避免了誤差累積。

      端到端效率:訓練步吞吐 +20%,綜合加速 9-10%

      把確定性 Hadamard 旋轉加上全流程 MXFP4 之后,效率數據如下:



      訓練步吞吐提升了 20%,扣掉多出的 8-9% token 開銷之后,端到端綜合加速仍有9-10%。

      考慮到這是把精度從 8 比特直接砍到 4 比特,這個收斂質量和加速幅度都相當可觀。



      左圖:在 C4 數據集上進行 MLPerf 預訓練時,Llama 3.1–8B 的驗證困惑度隨訓練 token 數變化的曲線。結果顯示,MXFP4 + 確定性 Hadamard 與 FP8 的表現非常接近,而未進行穩定化處理的全流程 MXFP4 收斂速度更慢,訓練穩定性也更差。右圖:訓練后期的局部放大視圖。MLPerf 的目標困惑度為 3.3。與未穩定化的 MXFP4 運行相比,確定性 Hadamard(H16)能夠與 FP8 基線保持更緊密的一致性。

      值得注意的是,作者在論文中明確強調了一項重要限制:這套 FP4 訓練方案(MLPerf C4 數據集 + Llama 3.1-8B)的效果已經得到驗證,但不能直接假設它能無縫遷移到所有模型、所有數據集和所有訓練方法。FP4 訓練的行為可能是高度設置依賴的,具體的穩定策略需要根據場景重新驗證。

      結語

      把這篇論文放到更大的產業脈絡里,至少有三層意義。

      第一層:它回答了一個根本性的「為什么」。過去的 FP4 訓練工作大多聚焦于「怎么讓它不崩」,這篇論文第一次給出了清晰的因果診斷:崩潰源于 Wgrad 路徑上的結構性微縮放誤差,而非隨機性不足。這個診斷本身就具有方法論價值,它告訴后續研究者:在低精度訓練中遇到不穩定性時,應該優先排查結構性誤差源,而非盲目增加隨機性。

      第二層:它把 FP4 從「推理專屬」推向了「訓練可用」。此前行業共識是 FP4 只適合推理量化,訓練至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非訓練,也反映了這一判斷。這篇論文在原生 FP4 硬件上跑通了全流程預訓練,意味著 MI355X 和 Blackwell 上那些為推理準備的 FP4 算力,理論上也可以用來訓練。如果 FP4 訓練在更大模型和更多場景上被驗證可行,等于現有硬件的可用訓練算力直接翻倍。

      第三層:它使用了 OCP 開放標準。MXFP4 是 OCP Microscaling 格式標準的一部分,背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司聯合支持。基于開放標準意味著這套方法在不同廠商的硬件上都有可移植性,不會被鎖定在單一生態里。

      從 FP16 到 FP8,DeepSeek-V3 已經證明精度減半可以大幅降低訓練成本。從 FP8 到 FP4,這篇論文邁出了關鍵的第一步。精度每砍一刀,整個大模型訓練的經濟性都在發生轉變。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一覺醒來,中國金花2勝1負!張帥4連敗克星,王欣瑜雙線飄紅!

      一覺醒來,中國金花2勝1負!張帥4連敗克星,王欣瑜雙線飄紅!

      劉姚堯的文字城堡
      2026-05-27 08:27:58
      柯潔行大運!刀劍起舞力斬樸廷桓,絕境翻盤逼韓名將超時認負!

      柯潔行大運!刀劍起舞力斬樸廷桓,絕境翻盤逼韓名將超時認負!

      L76號
      2026-05-27 12:29:11
      金小刀或入獄?不到24小時,蕭旭岑抵達大陸,對民進黨喊出四個字

      金小刀或入獄?不到24小時,蕭旭岑抵達大陸,對民進黨喊出四個字

      云舟史策
      2026-05-27 07:19:02
      耿同學回應:接廣告是為了掙錢,罵杰青是為了爽,畢竟水貨從不為難水貨

      耿同學回應:接廣告是為了掙錢,罵杰青是為了爽,畢竟水貨從不為難水貨

      新浪財經
      2026-05-27 16:06:50
      536分撿漏上北大考生現狀堪憂:碩士畢業后很迷茫,不知何去何從

      536分撿漏上北大考生現狀堪憂:碩士畢業后很迷茫,不知何去何從

      育學筆談
      2026-05-27 16:22:45
      離譜了!iPhone 17 Pro Max 2TB,跌至 9999 元

      離譜了!iPhone 17 Pro Max 2TB,跌至 9999 元

      黑貓科技迷
      2026-05-27 16:47:26
      狗在交配時會鎖結30分鐘無法中斷,如此危險的動作為何沒被淘汰?

      狗在交配時會鎖結30分鐘無法中斷,如此危險的動作為何沒被淘汰?

      宇宙時空
      2026-05-27 16:00:16
      比賴清德還狂!若2028年她當臺灣地區領導人,解放軍出手武力統臺

      比賴清德還狂!若2028年她當臺灣地區領導人,解放軍出手武力統臺

      阿訊說天下
      2026-05-26 13:40:22
      1969年許世友為王近山求情,毛主席打趣:放虎歸山,哪個軍區敢要

      1969年許世友為王近山求情,毛主席打趣:放虎歸山,哪個軍區敢要

      磊子講史
      2026-05-26 18:56:24
      長不長壽,看心率就知道?醫生提醒:過了50歲,心率別超這個數!

      長不長壽,看心率就知道?醫生提醒:過了50歲,心率別超這個數!

      芹姐說生活
      2026-05-27 13:39:31
      白玉蘭提名名單炸鍋:3人實至名歸,2人成功翻身,1人爭議最大

      白玉蘭提名名單炸鍋:3人實至名歸,2人成功翻身,1人爭議最大

      橙星文娛
      2026-05-27 09:46:15
      世界杯15天后開幕 最新奪冠賠率:西班牙第1葡萄牙第6 日本排第12

      世界杯15天后開幕 最新奪冠賠率:西班牙第1葡萄牙第6 日本排第12

      風過鄉
      2026-05-27 08:21:13
      拒絕撤離,盧比奧強硬警告俄羅斯?俄議員稱不會打擊“決策中心”

      拒絕撤離,盧比奧強硬警告俄羅斯?俄議員稱不會打擊“決策中心”

      鷹眼Defence
      2026-05-27 16:55:07
      雷霆3-2馬刺,一場丑陋的勝利!亞歷山大32+9,文班空砍20分6板

      雷霆3-2馬刺,一場丑陋的勝利!亞歷山大32+9,文班空砍20分6板

      籃球掃地僧
      2026-05-27 12:18:56
      存儲三巨頭市值均超1萬億美元

      存儲三巨頭市值均超1萬億美元

      21世紀經濟報道
      2026-05-27 09:58:11
      5%永久分紅有多恐怖?每年賺3.3億美元!一紙合約讓喬丹永久躺賺

      5%永久分紅有多恐怖?每年賺3.3億美元!一紙合約讓喬丹永久躺賺

      青橘罐頭
      2026-05-26 22:10:56
      山西沁源礦難背后:淪為空文的141項煤礦安全標準,與“通風報信”式檢查

      山西沁源礦難背后:淪為空文的141項煤礦安全標準,與“通風報信”式檢查

      大風新聞
      2026-05-26 17:48:27
      “韜定律”不是華為的獨角戲

      “韜定律”不是華為的獨角戲

      觀察者網
      2026-05-26 13:25:36
      上海三大亨后人何在?一人絕后一人敗光家產,一人子孫皆成才

      上海三大亨后人何在?一人絕后一人敗光家產,一人子孫皆成才

      DELIXI
      2024-12-01 19:16:53
      法拉利首款電車遭前主席抨擊:把躍馬標志去掉,中國企業都不會借鑒這個設計

      法拉利首款電車遭前主席抨擊:把躍馬標志去掉,中國企業都不會借鑒這個設計

      金融界
      2026-05-27 15:55:24
      2026-05-27 19:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13097文章數 142653關注度
      往期回顧 全部

      數碼要聞

      谷歌稱首批Googlebooks定位高端 后續將推出平價型號

      頭條要聞

      跨省履新江西省委常委、統戰部部長8個月后 李偉被查

      頭條要聞

      跨省履新江西省委常委、統戰部部長8個月后 李偉被查

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      王鶴棣風波連累父親炸串店遭差評?

      財經要聞

      中國半導體的陽謀

      科技要聞

      韜定律:全球在卷納米數 華為換了一把尺子

      汽車要聞

      限時補貼價9.28-10.98萬 MG 4X正式上市

      態度原創

      親子
      游戲
      本地
      藝術
      軍事航空

      親子要聞

      寶寶輔食“干凈”才安心?看懂嬰幼兒輔食的安全標準

      kun哥猛料多到不知從何說起?CDPR:我先自爆了!

      本地新聞

      用剪紙的方式,打開江蘇揚州

      藝術要聞

      這個夏天去蘇州過幾天清閑安逸的日子

      軍事要聞

      以軍稱已打死哈馬斯新任軍事領導人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩av日韩| 超碰人人插| 久久www香蕉免费人成| 欧美另类3| 国产99久久九九精品无码| 无套内射在线无码播放 | 无码人妻精品一区二区蜜桃网站| 久久久久国产精品电影| 国产二级看片| 国产免费午夜福利在线播放11| 国产精品中文第一字幕| 超碰人人超碰人人| 国产女人喷潮视频免费| 国内揄拍国内精品人妻久久| 少妇和邻居做不戴套视频| 国产精品久久欧美久久一区| 国产精品a久久久久| 犍为县| 国产精品99久久免费观看| 欧美日在线| 末成年娇小性色xxxxx小说| 在线视频一区二区三区不卡| 99精品一区二区三区无码吞精| 娇小另类XXXHD| 久久精品最新免费国产成人 | 激情综合久久| 嫩草91| jizz视频在线观看| 国产又色又爽又黄刺激视频| 97在线视频免费观看费观看| 中文字幕在线观看www| 欧美在线成人午夜网站| 99国精品午夜福利视频不卡99| 亚洲一区二区约美女探花| 亚洲欧美综合人成在线| 最近中文字幕免费MV在线视频| 国内精品免费| 99热国产成人最新精品| 亚洲精品毛片一区二区三区| 成人自拍偷拍| 男人的天堂一区av在线|