網易首頁 > 網易號 > 正文申請入駐

華為GTS提出AI訓練數據新方法，Amazon/Google作者團隊光速跟進

2026-05-18 14:09:40　來源: 機器之心Pro

河北舉報

分享至

在大模型后訓練中，數據不再只是 “越多越好”，而是要像人類學習一樣，動態選擇最合適難度的樣本。華為提出的 EDCO 方法，將樣本難度估計與動態課程編排引入領域大模型微調；數月后，由 Rutgers、Amazon、Google 等作者參與的 DARE 論文即引用 EDCO，并將其作為難度感知強化學習訓練的重要對比基線。這意味著，“訓練數據如何被選擇” 正在從工程細節走向核心算法問題。

作者來自華為 GTS 研發部 AI 數據團隊，長期聚焦領域大模型數據、訓練與評測方法。面向通信等專業場景，他們關注的不是 “再堆多少數據”，而是一個更實際的問題：當高質量領域數據稀缺且昂貴時，模型每一步究竟應該先學哪些樣本？

訓練一個領域大模型，有時像準備一場高強度考試：題庫很貴，時間有限，但你并不知道下一道題究竟是在查漏補缺，還是在浪費訓練預算。

在通信、醫療、法律等垂直領域，高質量數據通常稀缺且昂貴。傳統微調要么隨機采樣，要么在訓練前按照長度、困惑度等指標排好一個固定課程。但模型能力會不斷變化：昨天不會的題，今天可能已經掌握；看似基礎的樣本，也可能仍然卡在某個專業知識點上。

于是問題來了：能不能讓模型每一步都學當前最該學的數據？

華為 GTS 研發部 AI 數據團隊通過長期在領域大模型的訓練實踐提出EDCO（Entropy-based Dynamic Curriculum Orchestration），用推理熵動態編排訓練課程，讓模型持續面對當前最困惑、最有學習價值的樣本。該工作已被ICML 2026接收。

論文標題：EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning
論文地址：https://arxiv.org/pdf/2601.03725
代碼地址：https://github.com/GTS-AIData/EDCO

從 “從易到難”，到 “當前最該學”

靜態課程學習像一張訓練前寫好的課表：先學什么、后學什么，一旦確定就不再改變。這在從零學習時很自然，但領域大模型微調不是從小學數學開始，而是在已有通用能力上補專業短板。

尤其在通信這樣的專業領域中，“簡單” 和 “有用” 并不總是一回事。無線網絡優化任務往往不是看一條告警或一個指標就能下結論，而是要把路測軌跡、信令流程、參數配置、話統指標和專家規則放在一起分析：同樣是掉線率升高，背后可能是覆蓋問題、切換參數不合理、鄰區配置缺失，也可能是容量受限或終端行為異常。

數通場景同樣如此。真實運維輸入通常來自多廠商、多設備、多協議的非結構化日志，文本長、術語密集、格式不統一。模型不僅要讀懂日志，還要結合網絡拓撲、路由關系和協議機制進行判斷、計算與綜合分析。這意味著，通信任務中的樣本難度并不由文本長度或表面形式決定。“同癥不同因”“短問長推理”“長文本找關鍵異常值” 在這里非常普遍：

一道兩行的題，可能隱藏著復雜協議機制或關鍵參數差異；
一段很長的日志，真正決定答案的可能只是少數異常指標或字段；
模型在某類廠商、制式或協議場景中學會的能力，遷移到另一類場景時未必可靠。

按困惑度（PPL）、長度這些預先算好的靜態指標甚至在部分場景中不如隨機選擇，本質因為模型的能力邊界一直變化。模型已經把 "該學的" 刷完了，剩下的訓練預算都耗在它早就掌握的題上。

EDCO 的核心判斷很直接：樣本價值不是固定屬性，而取決于模型當下是否仍然不確定。推理熵越高，說明模型面對該樣本越猶豫，也越可能處在能力邊界附近。

從這個角度看，EDCO 實際上把傳統 “從易到難” 的課程，改造成一種更適合領域大模型微調的動態反向課程：不是一味先喂簡單題，而是在每個訓練階段主動尋找仍能激發探索、避免模型過早自信的樣本。

EDCO：讓模型學會挑 “難而有用” 的樣本

圖 1：EDCO 整體框架：推理熵估計、動態課程生成與 LLM 訓練閉環。

EDCO 的訓練閉環由三部分組成：首先估計訓練池中樣本對當前模型的推理熵；隨后選擇推理熵最高的一批樣本組成下一階段課程；最后用該課程繼續微調模型，并在下一個間隔重新計算熵值、更新樣本集合。

1. 用推理熵衡量樣本挑戰性

EDCO 對訓練池樣本估計當前模型的推理熵。高熵樣本不是簡單意義上的 “難題”，而是當前模型仍然拿不準、可能帶來更強學習信號的樣本。

這種定義的好處在于，樣本是否重要不再由訓練前的靜態難度決定，而是由模型實時狀態決定。模型已經掌握的樣本會逐漸退出課程，仍然讓模型猶豫的樣本則會被保留下來繼續訓練。

2. 用前綴熵估計把動態課程做輕

完整序列熵估計成本很高。EDCO 通過 quick-answer prompting 讓模型盡快進入答案主體，再用前綴 token 條件熵近似完整序列熵。實驗中，單樣本熵估計時間從 2.24 秒降至 0.37 秒，計算開銷減少 83.5%

3. 每個階段重新選 top-N 高熵樣本

在每個訓練間隔，EDCO 基于當前模型重新估計樣本熵值，并選擇最高熵樣本組成下一階段訓練集。樣本會隨著模型狀態動態進出課程，而不是按固定順序走完一遍。

關鍵設計：動態更新不能太貴

動態課程聽起來很自然，但真正落地時會遇到一個直接問題：如果每次都要讓模型對整個數據池生成完整答案，再計算完整序列熵，訓練開銷會非常高。EDCO 因此設計了兩個輕量化策略。

第一，quick-answer prompting 會引導模型盡快進入答案主體，減少長鏈路推理帶來的冗余生成；第二，前綴熵估計只使用輸出前若干 token 近似完整序列熵。論文實驗顯示，前綴估計與完整序列估計具有較強相關性，能夠保留樣本排序所需的主要不確定性信號。

圖 2：前綴熵估計與完整序列熵估計趨勢一致，并可通過 prefix 長度控制穩定性與效率。

進一步看效率，完整序列估計單樣本耗時 2.24 秒，前綴估計僅需 0.37 秒；在 8 卡并行時，耗時可降至 0.04 秒。對于需要周期性掃描訓練池的動態課程方法來說，這一步讓 EDCO 從 “思路可行” 變成了 “訓練中可用”。

實驗結果：三域、兩模型、兩范式全面驗證

研究團隊在通信、醫療、法律三個領域驗證了 EDCO，模型覆蓋 Qwen3-4B 與 Llama3.2-3B，訓練范式覆蓋 SFT 與 RLFT。其中，通信領域設置了 Datacom 與 Wireless 兩類任務，分別對應數通運維分析與無線網絡優化兩種典型高復雜度場景。

Wireless 任務關注無線網絡問題診斷與優化建議生成，樣本涉及路測、信令、配置、話統等多類專業輸入，要求模型從長文本和結構化指標中識別關鍵異常，結合規則與經驗推理根因。Datacom 任務則面向數通網絡運維，覆蓋多廠商、多設備、多協議日志輸入，要求模型理解領域術語、判斷路由與協議狀態，并完成計算和綜合分析。

圖 3：EDCO 在通信領域 RLFT 與 SFT 設置下的主結果。

在通信領域 RLFT 中，EDCO 在 Datacom 上達到46.96%，高于隨機采樣的 40.43% 和 PPL 課程的 44.78%；在 Wireless 上達到38.70%，同樣優于其他基線。

值得注意的是，在 Wireless 場景中，一些靜態策略甚至會讓性能低于未訓練模型。這說明在專業任務中，課程策略并不是 “有就比沒有好”：如果排序信號不適配模型當前能力，反而可能把訓練推向低效甚至錯誤的方向。

在 SFT 中，EDCO 也取得最高準確率：Wireless 為33.7%，Datacom 為36.3%。在 MedQA 上達到36.7%，JEC-QA 上達到17.4%，跨領域優勢依然保持。

更強的動態基線對比同樣說明問題：在 Datacom 上，EDCO 達到47.0%，明顯高于 Dynamic-PPL 的 41.3% 和 SEC 的 34.78%。動態更新本身還不夠，關鍵是選擇什么信號。

機制分析：讓模型學會 “有所取舍”

圖 4：EDCO 在訓練過程中維持更高推理熵，并持續更新課程樣本組成。

EDCO 不只是挑更難的樣本。訓練過程分析顯示，隨機采樣與 PPL 課程下模型推理熵下降更快，而 EDCO 能在訓練過程中持續維持更高熵值，讓模型不斷接觸仍具挑戰性的樣本。

課程組成也在不斷變化：第一次訓練間隔中有 3000 個新樣本進入課程，之后每個間隔仍會持續加入此前未被選中過的高熵樣本，同時保留部分仍未被模型掌握的舊樣本。這意味著 EDCO 并不是簡單 “一輪刷題”，而是在 “復習難點” 和 “引入新挑戰” 之間動態平衡。

論文還在 MedQA 上固定 Qwen3-1.7B 參數，對比 EDCO 與隨機采樣誘發的梯度信號。結果顯示，EDCO 所選樣本的批次內梯度方向一致性達到0.92，高于隨機采樣的 0.82；平均推理熵為1.51，高于隨機采樣的 1.23；RL 梯度范數為3.77，高于隨機采樣的 2.62。

這說明 EDCO 選出的樣本既能提供更強學習信號，又能減少梯度沖突。與其讓模型在所有樣本上平均用力，不如讓它把有限訓練預算花在真正能推動參數更新的地方。

后記

EDCO 給領域大模型微調提供了一個很有數據中心 AI 味道的啟示：數據的價值不只取決于數據本身，還取決于模型當前處在什么狀態。

通過推理熵驅動的動態課程編排，EDCO 讓模型在訓練過程中持續面對當前最有信息增益的樣本；通過 quick-answer prompting 與前綴熵估計，它又把動態課程的額外成本控制在可接受范圍內。

該方法不改變模型結構，也不綁定單一訓練目標，可同時接入 SFT 與 RLFT，對通信、醫療、法律等專業任務都展現出穩定收益。

領域微調：優先學習當前最有信息增益的專業樣本
訓練效率：用前綴熵估計降低動態評估成本
方法兼容：不改變模型結構和訓練目標，可接入 SFT 與 RLFT

在高質量領域數據越來越昂貴的今天，如何安排數據進入訓練，可能會和如何構造數據本身一樣重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.