![]()
本文由來自上海交通大學和上海人工智能實驗室的多位研究者共同完成,受到上海市“通用人工智能大模型”基礎研究專項支持。共同第一作者為孫亦劉、陸彥超與曹家熙,共同通訊作者為來自上海交通大學自動化與感知學院的宮辰教授與劉偉副教授。團隊長期致力于機器學習及大模型方面的研究。
當訓練數(shù)據(jù)枯竭、訓練成本飆升,大語言模型(LLM)訓練之路該何去何從?
作為提升 LLM 性能的主流核心范式,持續(xù)擴充訓練數(shù)據(jù)量的傳統(tǒng)做法正面臨嚴峻挑戰(zhàn)(如圖 1 所示)。研究表明,目前互聯(lián)網(wǎng)上可獲取的高質量數(shù)據(jù)年增長率不足 10 %,難以滿足 LLM 訓練數(shù)據(jù)大規(guī)模增加的需求。同時,該范式引導的 LLM 訓練動輒需要數(shù)千萬 GPU 小時的算力開銷, 產(chǎn)生了巨額資源消耗與碳排放,讓堆數(shù)據(jù)策略難以為繼。
![]()
圖 1:左:大模型數(shù)據(jù)擴展面臨的三大挑戰(zhàn)。右:互聯(lián)網(wǎng)可用數(shù)據(jù)量與 LLM 訓練數(shù)據(jù)量的增長趨勢對比。
因而,如何在有限的數(shù)據(jù)規(guī)模下獲取更多的訓練收益,已經(jīng)成為 LLM 訓練的關鍵問題!
目前,研究者在該領域已展開了大量的探索,例如 s1、Less-Is-More Reasoning (LIMO) Hypothesis 和 Rho-1,但該領域仍缺乏統(tǒng)一的研究視角和系統(tǒng)的工作梳理,導致研究目標界定模糊,研究方法呈現(xiàn)零散化、碎片化的格局,尚未形成完備、統(tǒng)一的理論與方法體系。
在這一背景下,來自上海交通大學與上海人工智能實驗室的研究團隊發(fā)布了該領域的首篇系統(tǒng)性綜述。該綜述首次提出了 “數(shù)據(jù)價值密度”(Data Value Density,DVD)這一核心概念并給出數(shù)學定義。基于該定義,該綜述建立了系統(tǒng)的分類框架,梳理了該領域的現(xiàn)有工作,為學術界和工業(yè)界繪制了一份詳盡的指南。
![]()
- 論文標題:Data Value Density Enhancement for Large Language Model Training: A Comprehensive Survey
- 論文鏈接:https://ssrn.com/abstract=6618802
核心概念與主要貢獻
本篇 Survey 從底層邏輯出發(fā),首次提出了 “數(shù)據(jù)價值密度”(Data Value Density,DVD)這一核心概念,并給出了嚴謹?shù)臄?shù)學定義:
![]()
其中,D 表示 LLM 訓練所使用的數(shù)據(jù)集,C 表示評估數(shù)據(jù)價值所必須的上下文信息,例如當前 LLM 能力分布、目標任務特征等。
V (D∣C) 衡量數(shù)據(jù)集 D 在訓練上下文 C 下對模型性能提升的總貢獻價值,而 μ(D) 衡量數(shù)據(jù)集 D 的規(guī)模。該領域研究的目標,就是構建一個新數(shù)據(jù)集,使其價值密度大于原數(shù)據(jù)集(Δf>0)。
基于這一核心概念,作者系統(tǒng)性地梳理了現(xiàn)有文獻,作出了四大核心貢獻:
- 貢獻一:首次提出 “DVD” 這一概念,為大模型訓練全階段的數(shù)據(jù)優(yōu)化確立了明確的研究目標,即增強訓練數(shù)據(jù)的價值密度;
- 貢獻二:基于 DVD 的定義,將現(xiàn)有方法劃分為五大方向,厘清了技術發(fā)展的完整脈絡;
- 貢獻三:梳理了目前用于數(shù)據(jù)價值密度增強領域的代表性數(shù)據(jù)集,深度剖析了不同任務的數(shù)據(jù)內(nèi)在特性;
- 貢獻四:指出了數(shù)據(jù)價值密度增強領域所面臨的挑戰(zhàn),為學術界和工業(yè)界在本領域的探索指明了有潛力的方向。
框架介紹
基于 DVD 的數(shù)學定義中分子 V (D∣C) 與分母 μ(D) 的動態(tài)變化關系,作者將數(shù)據(jù)價值密度增強領域劃分為五大類別(如圖 2 所示):
- V (D∣C) 提升,μ(D) 不變:在數(shù)據(jù)規(guī)模固定的情況下,提升數(shù)據(jù)總體價值,包含數(shù)據(jù)調度,數(shù)據(jù)混合,增強式生成等策略;
- V (D∣C) 不變,μ(D) 下降:在數(shù)據(jù)總體價值不變的情況下,降低數(shù)據(jù)規(guī)模,包含重復數(shù)據(jù)去除,數(shù)據(jù)蒸餾等策略;
- V (D∣C) 提升,μ(D) 下降:在數(shù)據(jù)總體價值提升的情況下,降低數(shù)據(jù)規(guī)模,包括負價值數(shù)據(jù)去除等策略;
- V (D∣C) 略降,μ(D) 暴降:在數(shù)據(jù)總體價值輕微下降的情況下,數(shù)據(jù)規(guī)模大幅度下降,包括高價值數(shù)據(jù)篩選等策略;
- V (D∣C) 暴增,μ(D) 略增:在數(shù)據(jù)規(guī)模輕微上升的情況下,數(shù)據(jù)總體價值大幅度上升,包括數(shù)據(jù)進化等策略。
![]()
圖 2:DVD 增強方法分類框架
為了更好地理解各類 DVD 增強策略,作者用一張清晰的示意圖進行形象化的展示,示意了不同類型的 DVD 增強策略實施前后數(shù)據(jù)集內(nèi)部發(fā)生的變化(如圖 3 所示)。
![]()
圖 3:五類 DVD 增強策略的實現(xiàn)原理
主流數(shù)據(jù)集
除去方法論相關介紹,本篇 Survey 同時整理了 DVD 增強研究中高頻使用的數(shù)據(jù)集,并根據(jù)任務特性將其分為三大板塊(如表 1 所示):
- 文本理解: 從高達上萬億 Token 的無標簽預訓練語料,到少而精的有標簽后訓練數(shù)據(jù);
- 復雜推理: 針對不同類型的推理任務(如邏輯推理與常識推理),收錄了包含 MATH, GPQA, OpenThoughts、AIME 等主流的推理數(shù)據(jù)集;
- 垂直領域: 梳理了醫(yī)療、法律、金融等多個領域的相關數(shù)據(jù)集。
![]()
表 1:DVD 增強領域的主流數(shù)據(jù)集
同時,文章還將 DVD 增強與當前火熱的上下文學習(In-Context Learning)、能力密度(Capacity Density)、樣本效率(Sample Efficiency)和主動學習(Active Learning)進行了深度對比,打通了不同研究范式之間的底層邏輯。
前路與挑戰(zhàn)
盡管 DVD 增強技術已經(jīng)取得了一定的成果,本文指出了 DVD 增強當前面臨的四大挑戰(zhàn)(如圖 4 所示):
- “黑盒” 可解釋性差:現(xiàn)有方法高度依賴人類經(jīng)驗,數(shù)據(jù)對模型能力分布的影響、數(shù)據(jù)點之間的交互模式等仍缺乏嚴謹?shù)睦碚摽蚣苤危?/li>
- 實施成本昂貴:雖然大量方法減少了模型訓練所需的數(shù)據(jù)量,降低了訓練成本,但為了達成這一目的所產(chǎn)生的額外成本開銷可能是巨大的,例如調用 LLM 進行大規(guī)模采樣、訓練打分模型等;
- 人工與自動化的兩難:現(xiàn)有 DVD 增強策略通常涉及大量的數(shù)據(jù)操作。若選擇專家標注,其質量可控但成本極高,若選擇模型自動化處理,其效率極高但極易引入幻覺。因而 DVD 增強技術中的相關數(shù)據(jù)操作需要在人工和自動化之間做好平衡,在保證數(shù)據(jù)質量的前提下降低數(shù)據(jù)操作成本;
- 垂直領域研究空白:由于專業(yè)性、安全隱私、獲取成本等因素,垂直領域的數(shù)據(jù)往往是稀缺的,其更需要 DVD 增強策略來緩解這一困境。然而,目前針對垂直領域的 DVD 增強策略較少。并且,由于垂直領域的數(shù)據(jù)具有獨特的特征,針對通用任務的方法在應用于垂直領域時,性能往往較差。因而,工業(yè)界急需針對垂直領域的 DVD 增強策略。
![]()
圖 4:DVD 增強面臨的四大挑戰(zhàn)
結語
本篇 Survey 從首創(chuàng)的 DVD 視角出發(fā),系統(tǒng)地梳理了大模型訓練數(shù)據(jù)價值密度增強領域的完整路線圖。這一領域的研究有助于解決當下 LLM 訓練數(shù)據(jù)枯竭與算力開銷大等問題。
期待這篇 Survey 能為社區(qū)提供一份實用的參考指南,幫助研究者快速把握數(shù)據(jù)價值密度增強的底層邏輯,推動大模型訓練模式從粗放式數(shù)據(jù)消耗向精準化知識萃取的根本性跨越。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.