<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      為什么BF16的FlashAttention會把訓練「炸掉」?清華給出機制解釋

      0
      分享至



      一句話總結:社區里困擾了多年的一個 “玄學” 現象終于被拆解清楚了:在 BF16 等低精度訓練里,FlashAttention 不是隨機出 bug,而是會在特定條件下觸發有方向的數值偏置,借助注意力中涌現的相似低秩更新方向被持續放大,最終把權重譜范數和激活推到失控,導致 loss 突然爆炸。論文還給出一個幾乎不改模型、只在 safe softmax 里做的極小修改,實測能顯著穩定訓練。



      因果鏈總覽(論文 Figure 1)



      • 標題:Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
      • 作者:邱海權,姚權銘
      • 機構:清華大學 電子工程系
      • 投稿:ICLR 2026 Oral
      • 關鍵詞:低精度訓練,BF16,FlashAttention,數值穩定性,舍入誤差(rounding error),低秩表示(low-rank)
      • 論文鏈接:https://arxiv.org/abs/2510.04212
      • 代碼鏈接:https://github.com/ucker/why-low-precision-training-fails

      背景:低精度訓練越來越 “剛需”,但注意力比你想的更敏感

      大模型訓練的現實是:顯存和吞吐決定一切。工業界普遍在混合精度里使用 BF16/FP16,甚至把 FFN 推到 FP8,以換取更高的訓練效率。但工程實踐同樣殘酷:越接近 “極限精度”,訓練越容易出現難以解釋的不穩定。

      Flash Attention 是長上下文訓練的關鍵加速組件,幾乎成了標配。問題在于,社區長期存在一個可復現卻難以解釋的失敗案例:

      • 用 FlashAttention + BF16 訓練 GPT-2,一開始正常收斂,但在幾千 step 之后突然 loss 爆炸。
      • 你可以通過回退到標準注意力、或把關鍵計算提高到 FP32 來 “救火”,但代價是吞吐和顯存優勢沒了。

      這類問題被報告了多年(相關 issue 在多個開源項目里反復出現),卻一直缺少一條能 “從數值誤差一路解釋到 loss 爆炸” 的機制鏈。



      作者的做法很工程,且足夠 “可復現”:





      機制解釋 1:相似低秩結構,讓誤差變成 “持續推力” 而不是噪聲







      結果就是:權重更新被 “帶偏”,譜范數和激活異常增長,最終把訓練推到 loss 爆炸。





      低秩結構相似性與偏置累積(論文 Figure 4/5)

      機制解釋 2:偏置從哪來?safe softmax + BF16 舍入誤差里藏著一個 “離散觸發器”



      作者把問題追到了 FlashAttention 前向里的未歸一化輸出:



















      • 檢測一行 S 中最大值是否出現多次
      • 一旦出現 “重復最大值”,就動態調整safe softmax 的行移位常數 m,讓最大位置的指數也變成嚴格小于 1

      論文給出的實現(概念上)如下:





      實驗結果:穩定訓練不再 “突然炸”

      論文在 BF16 設置下驗證了上述分析與修復:

      • GPT-2S:使用修改后的 FlashAttention,在 AdamW 與 Muon 兩種優化器下,都能穩定訓練到 600K steps
      • GPT-2M:同樣能在 AdamW 下穩定訓練(論文展示到 100K steps)
      • 論文還提到該現象與結論在多種硬件上保持一致(包括 A100、RTX 4090、Ascend 910B)



      驗證集 loss 曲線對比(論文 Figure 7)

      更重要的啟示:別把低精度誤差當成 “零均值噪聲”

      這篇論文的價值不只在 “修了一個 bug”,更在于給出了一個可遷移的診斷范式:

      • 數值誤差未必是隨機噪聲。在特定分布與離散事件(如重復最大值、概率精確為 1)下,舍入誤差可能形成系統性偏置。
      • 模型結構會放大偏置。注意力里涌現的相似低秩更新方向,讓偏置誤差更容易 “同向疊加”。
      • 經驗修復為什么有效也能被解釋:論文討論了 attention sinks 與多最大值的關系,并給出了一個數值層面的連接;同時也指出一些穩定化技巧(如 QK normalization、Gated Attention)可能通過 “打散結構相似性” 來阻止誤差同向累積。

      作者介紹

      邱海權是清華大學在讀博士研究生,研究方向涵蓋機器學習理論、表示學習與大模型機制分析。他的研究圍繞模型表達能力、結構歸納偏置以及參數空間幾何與優化動力學之間的內在聯系展開,關注模型在不同結構約束與訓練條件下的泛化行為與可組合性問題。整體上,他強調以可分析的理論框架刻畫模型的能力邊界與機制來源,從結構與原理層面理解深度模型為何有效、何時失效。

      姚權銘,清華大學電子工程系副教授。長期致力于數據高效學習與智能體系統研究,在少樣本學習、圖學習、知識圖譜與生物醫藥智能等方向取得系統性成果。發表 Nature 子刊、TPAMI、JMLR、ICML、NeurIPS、ICLR 等論文 130 余篇,被引 1.4 萬余次。代表性工作包括抗噪學習算法 Co-teaching、小樣本學習綜述、自動化圖學習方法及新藥物相互作用預測模型?,F任 TPAMI、TMLR 編委及 Neural Networks 資深編委,多次擔任 ICML、NeurIPS、ICLR 領域主席,入選 IEEE Computing Top 30、IET Fellow 等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      黃曉明貴州參加剪彩活動,戴墨鏡頭發濃密,雖然有點油膩但確實帥

      黃曉明貴州參加剪彩活動,戴墨鏡頭發濃密,雖然有點油膩但確實帥

      樂悠悠娛樂
      2026-05-03 09:43:52
      逛完五一車展,你就知道,再買這幾樣車,真就是“49年投清軍”了

      逛完五一車展,你就知道,再買這幾樣車,真就是“49年投清軍”了

      小李車評李建紅
      2026-05-02 08:00:03
      藝人嚴浩翔父親嚴軍宣布斷絕子女關系后,其母發文:嚴浩翔已給嚴軍300多萬,也承諾資助妹妹完成學業,其與嚴軍欠下的債沒關系

      藝人嚴浩翔父親嚴軍宣布斷絕子女關系后,其母發文:嚴浩翔已給嚴軍300多萬,也承諾資助妹妹完成學業,其與嚴軍欠下的債沒關系

      極目新聞
      2026-05-03 10:58:59
      豐田“小埃爾法”新車型發布,售價約13.2萬元,性價比拉滿!

      豐田“小埃爾法”新車型發布,售價約13.2萬元,性價比拉滿!

      娛樂圈的筆娛君
      2026-05-02 17:10:12
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      破防了!《爸爸去哪兒》萌娃近照曝光,全網感慨:我的青春結束了

      破防了!《爸爸去哪兒》萌娃近照曝光,全網感慨:我的青春結束了

      阿廢冷眼觀察所
      2026-05-03 02:26:23
      十年爛尾樓終迎新生,亞洲最大奧萊即將誕生!

      十年爛尾樓終迎新生,亞洲最大奧萊即將誕生!

      新浪財經
      2026-05-03 19:43:09
      姓名是否只能改一次?多地回應

      姓名是否只能改一次?多地回應

      澎湃新聞
      2026-05-03 17:02:26
      王楚欽意外磕到球臺+手部流血!著急向隊醫要濕巾:沒有你就找去

      王楚欽意外磕到球臺+手部流血!著急向隊醫要濕巾:沒有你就找去

      風過鄉
      2026-05-03 22:32:58
      斯坦福重磅研究登Nature!AI憑空造出前所未有蛋白質,超越AlphaGo

      斯坦福重磅研究登Nature!AI憑空造出前所未有蛋白質,超越AlphaGo

      新智元
      2026-05-03 13:08:51
      設計院正在集體死去:不是沒項目,是被6座大山壓垮了!

      設計院正在集體死去:不是沒項目,是被6座大山壓垮了!

      悟話八門
      2026-05-03 12:57:09
      湯杯戰報:2大世界冠軍團隊都0-3出局!李詩灃21-9!決賽中法對決

      湯杯戰報:2大世界冠軍團隊都0-3出局!李詩灃21-9!決賽中法對決

      求球不落諦
      2026-05-03 03:09:05
      這位老板娘的打扮,還是很有一套的

      這位老板娘的打扮,還是很有一套的

      美女穿搭分享
      2026-05-03 22:09:35
      韓媒:徐正源將執教遼寧鐵人

      韓媒:徐正源將執教遼寧鐵人

      足球觀察1
      2026-05-03 19:22:24
      湯杯決賽前法國隊突然改名單!“手滑”還是戰術?國羽沉默

      湯杯決賽前法國隊突然改名單!“手滑”還是戰術?國羽沉默

      曹老師評球
      2026-05-03 21:55:06
      從高點暴跌20%!華爾街預言:金價將復制2008年,3年暴漲178%!

      從高點暴跌20%!華爾街預言:金價將復制2008年,3年暴漲178%!

      觸摸史跡
      2026-05-03 19:59:43
      理想車主專享五一假期高速免費?客服回應:高速免費是國家政策,與是否為理想車主沒有關系

      理想車主專享五一假期高速免費?客服回應:高速免費是國家政策,與是否為理想車主沒有關系

      新浪財經
      2026-05-01 20:55:25
      尼克斯票價!比湖人貴三倍?。。?!

      柚子說球
      2026-05-03 20:27:58

      老師多次提醒:軍校是沒有回頭路的,如果因為軍隊待遇好而報考,建議別報!

      老師多次提醒:軍校是沒有回頭路的,如果因為軍隊待遇好而報考,建議別報!

      譚老師地理大課堂
      2026-04-24 00:05:13
      黃曉明五一帶娃去游樂場,他比兒子玩得還嗨,父子同框幸福滿溢

      黃曉明五一帶娃去游樂場,他比兒子玩得還嗨,父子同框幸福滿溢

      扒蝦侃娛
      2026-05-03 18:38:19
      2026-05-04 00:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12905文章數 142639關注度
      往期回顧 全部

      科技要聞

      庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

      頭條要聞

      高端小區多位業主拒收房:小區車位數量“蒸發”約1/3

      頭條要聞

      高端小區多位業主拒收房:小區車位數量“蒸發”約1/3

      體育要聞

      裁判準備下班,結果吳宜澤進了決賽

      娛樂要聞

      黃曉明五一帶娃去游樂場 父子幸福同框

      財經要聞

      后巴菲特時代,首場股東會透露了啥

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      游戲
      數碼
      親子
      教育
      旅游

      扶我起來 《馬拉松》未來多年將持續更新劇情

      數碼要聞

      小米手環10 Pro本月發布:5款配色 首次推出白陶瓷版

      親子要聞

      曝光毒繪本:薩琪想要個小寶寶,明顯教唆兒童學壞,家長朋友避坑

      教育要聞

      小班化,是對治理能力的一次“大考”

      旅游要聞

      “五一”打卡幻花樣:藝術展覽+特色市集 好看好逛好治愈

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: www.黄| 99福利一区二区视频| 91无码人妻精品一区二区蜜桃| 波多野结衣不打码视频| 在线观看中文字幕国产码| 番名:亲戚の子とお泊まりだから共两集[头盔]| 久久电影院久久国产| 国产精品免费一区二区三区四区| 97夜夜澡人人爽人人| 91热视频| 九九久久精彩视频| av岛国在线免费播放| 太保市| 国产日韩欧美精品区性色| 亚洲色无码播放| jizz日本版| 色在线网站免费观看| 理论片午午伦夜理片影院99| 一本色道av久久精品+网站| 国产精品成人一区二区三区| 印度成人精品| 亚洲肥老太bbw中国熟女| 亚洲中文字幕精品一区二区三区| 日韩精品亚洲色大成网站| 国产精品一亚洲AV日韩AV欧 | 韩国精品一区二区三区| 日韩人妻无码中文字幕视频 | 99视频在线精品免费观看6| 国产高清精品在线播放| 亚洲AV无码久久精品日韩| a网站免费观看| 亚洲精品宾馆在线精品酒店 | 玩弄丰满少妇人妻视频| 91导航| 午夜福利日本一区二区无码| 日韩AV无码中文一区二区三区| 欧美VA亚洲VA在线观看日本| 久久这里精品国产99丫e6| 亚洲老女人区一区二视频| 丝袜.制服.丝袜.亚洲.日韩.中文| 精品福利视频一区二区三区|