<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      華為GTS提出AI訓練數據新方法,Amazon/Google作者團隊光速跟進

      0
      分享至



      在大模型后訓練中,數據不再只是 “越多越好”,而是要像人類學習一樣,動態選擇最合適難度的樣本。華為提出的 EDCO 方法,將樣本難度估計與動態課程編排引入領域大模型微調;數月后,由 Rutgers、Amazon、Google 等作者參與的 DARE 論文即引用 EDCO,并將其作為難度感知強化學習訓練的重要對比基線。這意味著,“訓練數據如何被選擇” 正在從工程細節走向核心算法問題。

      作者來自華為 GTS 研發部 AI 數據團隊,長期聚焦領域大模型數據、訓練與評測方法。面向通信等專業場景,他們關注的不是 “再堆多少數據”,而是一個更實際的問題:當高質量領域數據稀缺且昂貴時,模型每一步究竟應該先學哪些樣本?

      訓練一個領域大模型,有時像準備一場高強度考試:題庫很貴,時間有限,但你并不知道下一道題究竟是在查漏補缺,還是在浪費訓練預算。

      在通信、醫療、法律等垂直領域,高質量數據通常稀缺且昂貴。傳統微調要么隨機采樣,要么在訓練前按照長度、困惑度等指標排好一個固定課程。但模型能力會不斷變化:昨天不會的題,今天可能已經掌握;看似基礎的樣本,也可能仍然卡在某個專業知識點上。

      于是問題來了:能不能讓模型每一步都學當前最該學的數據?

      華為 GTS 研發部 AI 數據團隊通過長期在領域大模型的訓練實踐提出EDCO(Entropy-based Dynamic Curriculum Orchestration),用推理熵動態編排訓練課程,讓模型持續面對當前最困惑、最有學習價值的樣本。該工作已被ICML 2026接收。



      • 論文標題:EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning
      • 論文地址:https://arxiv.org/pdf/2601.03725
      • 代碼地址:https://github.com/GTS-AIData/EDCO

      從 “從易到難”,到 “當前最該學”

      靜態課程學習像一張訓練前寫好的課表:先學什么、后學什么,一旦確定就不再改變。這在從零學習時很自然,但領域大模型微調不是從小學數學開始,而是在已有通用能力上補專業短板。

      尤其在通信這樣的專業領域中,“簡單” 和 “有用” 并不總是一回事。無線網絡優化任務往往不是看一條告警或一個指標就能下結論,而是要把路測軌跡、信令流程、參數配置、話統指標和專家規則放在一起分析:同樣是掉線率升高,背后可能是覆蓋問題、切換參數不合理、鄰區配置缺失,也可能是容量受限或終端行為異常。

      數通場景同樣如此。真實運維輸入通常來自多廠商、多設備、多協議的非結構化日志,文本長、術語密集、格式不統一。模型不僅要讀懂日志,還要結合網絡拓撲、路由關系和協議機制進行判斷、計算與綜合分析。這意味著,通信任務中的樣本難度并不由文本長度或表面形式決定。“同癥不同因”“短問長推理”“長文本找關鍵異常值” 在這里非常普遍:

      • 一道兩行的題,可能隱藏著復雜協議機制或關鍵參數差異;
      • 一段很長的日志,真正決定答案的可能只是少數異常指標或字段;
      • 模型在某類廠商、制式或協議場景中學會的能力,遷移到另一類場景時未必可靠。

      按困惑度(PPL)、長度這些預先算好的靜態指標甚至在部分場景中不如隨機選擇,本質因為模型的能力邊界一直變化。模型已經把 "該學的" 刷完了,剩下的訓練預算都耗在它早就掌握的題上。

      EDCO 的核心判斷很直接:樣本價值不是固定屬性,而取決于模型當下是否仍然不確定。推理熵越高,說明模型面對該樣本越猶豫,也越可能處在能力邊界附近。

      從這個角度看,EDCO 實際上把傳統 “從易到難” 的課程,改造成一種更適合領域大模型微調的動態反向課程:不是一味先喂簡單題,而是在每個訓練階段主動尋找仍能激發探索、避免模型過早自信的樣本。

      EDCO:讓模型學會挑 “難而有用” 的樣本



      圖 1:EDCO 整體框架:推理熵估計、動態課程生成與 LLM 訓練閉環。

      EDCO 的訓練閉環由三部分組成:首先估計訓練池中樣本對當前模型的推理熵;隨后選擇推理熵最高的一批樣本組成下一階段課程;最后用該課程繼續微調模型,并在下一個間隔重新計算熵值、更新樣本集合。

      1. 用推理熵衡量樣本挑戰性

      EDCO 對訓練池樣本估計當前模型的推理熵。高熵樣本不是簡單意義上的 “難題”,而是當前模型仍然拿不準、可能帶來更強學習信號的樣本。

      這種定義的好處在于,樣本是否重要不再由訓練前的靜態難度決定,而是由模型實時狀態決定。模型已經掌握的樣本會逐漸退出課程,仍然讓模型猶豫的樣本則會被保留下來繼續訓練。

      2. 用前綴熵估計把動態課程做輕

      完整序列熵估計成本很高。EDCO 通過 quick-answer prompting 讓模型盡快進入答案主體,再用前綴 token 條件熵近似完整序列熵。實驗中,單樣本熵估計時間從 2.24 秒降至 0.37 秒,計算開銷減少 83.5%

      3. 每個階段重新選 top-N 高熵樣本

      在每個訓練間隔,EDCO 基于當前模型重新估計樣本熵值,并選擇最高熵樣本組成下一階段訓練集。樣本會隨著模型狀態動態進出課程,而不是按固定順序走完一遍。

      關鍵設計:動態更新不能太貴

      動態課程聽起來很自然,但真正落地時會遇到一個直接問題:如果每次都要讓模型對整個數據池生成完整答案,再計算完整序列熵,訓練開銷會非常高。EDCO 因此設計了兩個輕量化策略。

      第一,quick-answer prompting 會引導模型盡快進入答案主體,減少長鏈路推理帶來的冗余生成;第二,前綴熵估計只使用輸出前若干 token 近似完整序列熵。論文實驗顯示,前綴估計與完整序列估計具有較強相關性,能夠保留樣本排序所需的主要不確定性信號。



      圖 2:前綴熵估計與完整序列熵估計趨勢一致,并可通過 prefix 長度控制穩定性與效率。

      進一步看效率,完整序列估計單樣本耗時 2.24 秒,前綴估計僅需 0.37 秒;在 8 卡并行時,耗時可降至 0.04 秒。對于需要周期性掃描訓練池的動態課程方法來說,這一步讓 EDCO 從 “思路可行” 變成了 “訓練中可用”。

      實驗結果:三域、兩模型、兩范式全面驗證

      研究團隊在通信、醫療、法律三個領域驗證了 EDCO,模型覆蓋 Qwen3-4B 與 Llama3.2-3B,訓練范式覆蓋 SFT 與 RLFT。其中,通信領域設置了 Datacom 與 Wireless 兩類任務,分別對應數通運維分析與無線網絡優化兩種典型高復雜度場景。

      Wireless 任務關注無線網絡問題診斷與優化建議生成,樣本涉及路測、信令、配置、話統等多類專業輸入,要求模型從長文本和結構化指標中識別關鍵異常,結合規則與經驗推理根因。Datacom 任務則面向數通網絡運維,覆蓋多廠商、多設備、多協議日志輸入,要求模型理解領域術語、判斷路由與協議狀態,并完成計算和綜合分析。



      圖 3:EDCO 在通信領域 RLFT 與 SFT 設置下的主結果。

      在通信領域 RLFT 中,EDCO 在 Datacom 上達到46.96%,高于隨機采樣的 40.43% 和 PPL 課程的 44.78%;在 Wireless 上達到38.70%,同樣優于其他基線。

      值得注意的是,在 Wireless 場景中,一些靜態策略甚至會讓性能低于未訓練模型。這說明在專業任務中,課程策略并不是 “有就比沒有好”:如果排序信號不適配模型當前能力,反而可能把訓練推向低效甚至錯誤的方向。

      在 SFT 中,EDCO 也取得最高準確率:Wireless 為33.7%,Datacom 為36.3%。在 MedQA 上達到36.7%,JEC-QA 上達到17.4%,跨領域優勢依然保持。

      更強的動態基線對比同樣說明問題:在 Datacom 上,EDCO 達到47.0%,明顯高于 Dynamic-PPL 的 41.3% 和 SEC 的 34.78%。動態更新本身還不夠,關鍵是選擇什么信號。

      機制分析:讓模型學會 “有所取舍”



      圖 4:EDCO 在訓練過程中維持更高推理熵,并持續更新課程樣本組成。

      EDCO 不只是挑更難的樣本。訓練過程分析顯示,隨機采樣與 PPL 課程下模型推理熵下降更快,而 EDCO 能在訓練過程中持續維持更高熵值,讓模型不斷接觸仍具挑戰性的樣本。

      課程組成也在不斷變化:第一次訓練間隔中有 3000 個新樣本進入課程,之后每個間隔仍會持續加入此前未被選中過的高熵樣本,同時保留部分仍未被模型掌握的舊樣本。這意味著 EDCO 并不是簡單 “一輪刷題”,而是在 “復習難點” 和 “引入新挑戰” 之間動態平衡。

      論文還在 MedQA 上固定 Qwen3-1.7B 參數,對比 EDCO 與隨機采樣誘發的梯度信號。結果顯示,EDCO 所選樣本的批次內梯度方向一致性達到0.92,高于隨機采樣的 0.82;平均推理熵為1.51,高于隨機采樣的 1.23;RL 梯度范數為3.77,高于隨機采樣的 2.62。

      這說明 EDCO 選出的樣本既能提供更強學習信號,又能減少梯度沖突。與其讓模型在所有樣本上平均用力,不如讓它把有限訓練預算花在真正能推動參數更新的地方。

      后記

      EDCO 給領域大模型微調提供了一個很有數據中心 AI 味道的啟示:數據的價值不只取決于數據本身,還取決于模型當前處在什么狀態。

      通過推理熵驅動的動態課程編排,EDCO 讓模型在訓練過程中持續面對當前最有信息增益的樣本;通過 quick-answer prompting 與前綴熵估計,它又把動態課程的額外成本控制在可接受范圍內。

      該方法不改變模型結構,也不綁定單一訓練目標,可同時接入 SFT 與 RLFT,對通信、醫療、法律等專業任務都展現出穩定收益。

      • 領域微調:優先學習當前最有信息增益的專業樣本
      • 訓練效率:用前綴熵估計降低動態評估成本
      • 方法兼容:不改變模型結構和訓練目標,可接入 SFT 與 RLFT

      在高質量領域數據越來越昂貴的今天,如何安排數據進入訓練,可能會和如何構造數據本身一樣重要。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      百歲婦科老中醫透露:2種食物我從不吃!女人一輩子的6條養生秘笈

      百歲婦科老中醫透露:2種食物我從不吃!女人一輩子的6條養生秘笈

      神奇故事
      2026-05-15 21:48:03
      泰山景區因強降雨關閉!當地已發布暴雨黃色預警信號,客服:相關時段可退票,重新開放時間未定

      泰山景區因強降雨關閉!當地已發布暴雨黃色預警信號,客服:相關時段可退票,重新開放時間未定

      極目新聞
      2026-05-18 10:10:34
      688808,A股“新股王”

      688808,A股“新股王”

      中國基金報
      2026-05-18 11:21:58
      泡泡瑪特王寧母校獲贈20億Token,網友質疑僅值幾百元

      泡泡瑪特王寧母校獲贈20億Token,網友質疑僅值幾百元

      三言科技
      2026-05-18 09:27:36
      4月授課88.6課時,實發僅7424.46元!一江蘇教培老師哭訴工資太低

      4月授課88.6課時,實發僅7424.46元!一江蘇教培老師哭訴工資太低

      火山詩話
      2026-05-17 16:52:36
      散步再次被關注!醫生發現:走得越多,腦梗患者血管或越干凈?

      散步再次被關注!醫生發現:走得越多,腦梗患者血管或越干凈?

      華庭講美食
      2026-05-18 15:38:21
      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      干史人
      2026-04-14 21:10:03
      殲-20換發航程降15%,規模超F-22達300架

      殲-20換發航程降15%,規模超F-22達300架

      占領了思想
      2026-05-15 15:32:53
      皇馬臉都打腫了!切爾西給阿隆索的特權,連穆里尼奧都沒沒有

      皇馬臉都打腫了!切爾西給阿隆索的特權,連穆里尼奧都沒沒有

      奶蓋熊本熊
      2026-05-18 02:30:01
      日本網友來中國看到超市這樣賣西瓜震驚了

      日本網友來中國看到超市這樣賣西瓜震驚了

      日本物語
      2026-05-17 21:01:35
      煮豆子總煮不爛?教你一個絕招,普通鍋5分鐘全開花

      煮豆子總煮不爛?教你一個絕招,普通鍋5分鐘全開花

      開心美食白科
      2026-05-16 20:53:40
      買了新能源車,鄰居要在我的車位旁裝充電樁,我不同意 他說我自私

      買了新能源車,鄰居要在我的車位旁裝充電樁,我不同意 他說我自私

      愛下廚的阿釃
      2026-05-18 09:48:54
      手機號迎來重大變革!移動全面推行無卡化,老用戶務必留意

      手機號迎來重大變革!移動全面推行無卡化,老用戶務必留意

      Thurman在昆明
      2026-05-18 03:31:07
      貝森特想擺譜,進大會堂時,不戴胸標,結果被攔下,現場略顯窘迫

      貝森特想擺譜,進大會堂時,不戴胸標,結果被攔下,現場略顯窘迫

      魔都姐姐雜談
      2026-05-18 12:34:03
      退休人員速查!1992年前干過這4類工作 每月多領一筆錢 別白吃虧

      退休人員速查!1992年前干過這4類工作 每月多領一筆錢 別白吃虧

      混沌錄
      2026-04-22 19:51:07
      張雪機車受到攻擊,他掀了雅馬哈的桌子,也掀了很多國人的桌子

      張雪機車受到攻擊,他掀了雅馬哈的桌子,也掀了很多國人的桌子

      真理是我親戚
      2026-05-17 13:07:17
      騎士大勝活塞進東決,連續3場比賽結果都出人意料,聯盟贏麻了

      騎士大勝活塞進東決,連續3場比賽結果都出人意料,聯盟贏麻了

      鐵甲西奇
      2026-05-18 16:15:36
      德比斯回應2天2冠:對手沒想到我會絕殺他 感謝張雪機車感謝兄弟

      德比斯回應2天2冠:對手沒想到我會絕殺他 感謝張雪機車感謝兄弟

      風過鄉
      2026-05-17 20:49:20
      報道:西漢姆聯有望效仿阿斯頓維拉、布倫特福德、桑德蘭、埃弗頓和伯恩茅斯

      報道:西漢姆聯有望效仿阿斯頓維拉、布倫特福德、桑德蘭、埃弗頓和伯恩茅斯

      綠茵情報局
      2026-05-17 17:31:21
      全線大跌,超10萬人爆倉!

      全線大跌,超10萬人爆倉!

      深圳晚報
      2026-05-18 12:13:38
      2026-05-18 17:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13025文章數 142650關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      丈夫帶人當街搶娃 清華博士媽媽時隔200多天見到幼子

      頭條要聞

      丈夫帶人當街搶娃 清華博士媽媽時隔200多天見到幼子

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      有五座有七座全系配四驅 哈弗猛龍PLUS限時售16.18萬起

      態度原創

      教育
      時尚
      數碼
      游戲
      房產

      教育要聞

      丹鳳何以朝陽:人大附中朝陽學校高中部跨越式發展的觀察與思考

      夏天褲子不用多買,提前準備幾條休閑的闊腿褲,百搭舒適顯瘦

      數碼要聞

      紅魔碳纖維游戲鼠標發布,首發價999元

      索尼不做我來做!大神歷時4年打造純原生PS2掌機

      房產要聞

      突發!海口重磅調規!碧桂園要解套;新埠島要起飛了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲AVAV天堂AV在线网阿V| 377p日本欧洲亚洲大胆张筱雨| 亚州人妻中文| 国外精品视频在线观看免费| 精品亚洲成在人线av无码| 亚洲天堂中文| 国产精品乱子伦一区二区三区| 大化| 国产一区二区三区综合视频| 草草地址线路①屁屁影院成人| 国产高清一级毛片视频直播| 日韩精品久久无码中文字幕| 久热这里有精品视频在线| 久久精品国产亚洲一区二区| 熟女一区二区三区| 五月色丁香婷婷网蜜臀av| 日韩人妻无码精品-专区| 日韩精品中文字幕一区| 女人被男人爽到呻吟的视频| 亚洲永久精品日本久精品| 国产成人有码| 亚洲日韩一区二区| 精品福利视频导航| 亚洲av成人在线一区| 男人天堂二区| 日韩av综合中文字幕| 西西大胆私密人体A片| 国产一精品一AV一免费爽爽| 亚洲v?a| 国产福利一区二区在线精品| 亚洲欧美日韩在线不卡| 国产精品一区中文字幕| 国产在线自在拍91精品黑人| 亚洲午夜久久久久久久久久| 亚洲欧美综合中文| 沾益县| 国产超碰在线| 国产午夜草莓视频在线观看| 一区二区免费高清观看国产丝瓜 | 无码午夜福利视频一区| 国产一級A片免费看|