中國青年報客戶端訊(中青報·中青網記者賈驥業)高質量數據集發展進入集約化管理時代。4月29日,在第九屆數字中國建設峰會上,國家數據集管理服務平臺正式發布并啟動試運行,標志著我國高質量數據集建設工作邁入集約化管理新階段。這也是國家層面首次推出數據集管理服務平臺。
這個平臺以數據集目錄匯聚為基礎,提供覆蓋數據集全生命周期的公共服務能力,將進一步促進高質量數據集有效供給,繁榮產業生態。“當前,人工智能正處于從‘可用’邁向‘好用’的關鍵躍升期,高質量數據集作為大模型訓練的‘基石’,其供給規模和質量直接決定了人工智能創新的高度和產業落地的深度。”國家數據發展研究院副院長袁軍在接受中青報·中青網記者采訪時說。
“十五五”規劃綱要明確提出,“面向能源、交通、制造、教育、健康、金融等領域建設高質量數據集,建立人工智能訓練數據合理使用制度”。國家數據局在峰會上發布的最新數據顯示,截至2026年一季度,我國已建成高質量數據集超過11.6萬個,總體量超過960PB(拍字節,1PB=1024TB),相當于中國國家圖書館數字資源總量的336倍左右。
從人工智能時代重要的度量衡“詞元”(Token)來觀察。“詞元”是人工智能大模型處理數據的最小信息單元,2025年,全國日均詞元調用量從年初的超萬億增長到年末的100萬億,截至今年3月,這個數字則超過140萬億。“詞元”調用量的爆發式增長,體現了人工智能發展對數據尤其是高質量數據的迫切需求。
但袁軍提到,我國高質量數據集建設客觀上還面臨著3個痛點:一是建設主體分散,導致數據管理部門難以全面掌握資源底數與建設進展;二是供給側信息不對稱,容易出現重復建設、質量參差不齊等問題;三是需求側獲取成本高、周期長,制約技術創新效率。
在此背景下,國家數據局啟動了國家數據集管理服務平臺建設。“這個平臺既不是簡單的政府監管工具,也不是新的數據交易場所,而是一個覆蓋高質量數據集全生命周期的國家級公共服務基礎設施。”袁軍表示,國家數據集管理服務平臺采用“物理分散、邏輯集中”的匯聚模式,構建了全國統一的數據集資源目錄與管理體系,將推動高質量數據集供得出、流得動、用得好,實現全國“底數一本賬、調度一盤棋、協作一張網”的工作格局。
作為全國高質量數據集的統一管理樞紐,國家數據集管理服務平臺實現了全域資源可管、可查、可監測,同時進一步降低了交易成本、提高了匹配效率。值得注意的是,平臺還提供質量測評、權益激勵、工具鏈等服務,對持續繁榮產業生態有積極作用。
據了解,目前平臺已開放供需發布、全域檢索、憑證申領等基本功能,并與國家數據基礎設施以及安徽省等地方平臺完成對接。截至發布當日,平臺已認證供需主體200余家,發布數據集1000余個。
當前,人工智能加速演進,呈現從大語言模型向多模態模型拓展、從基礎模型向行業模型深化、從內容生成向智能體決策執行躍升、從數字智能向具身智能延伸等趨勢,為數據生產帶來結構性變化,也對數據集的高質量供給提出了更高要求。
展望未來,國家數據局黨組書記、局長劉烈宏表示,要打造一批集“數據集生產加工和流通利用、支撐模型訓練應用”于一體的數據賦能工場,和一批“數據×智能體”示范工程,加速推動人工智能應用落地。
![]()
國家數據集管理服務平臺頁面截圖。
來源:中國青年報客戶端
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.