![]()
2026年3月的一個周四凌晨,北京中關村某大模型廠商的會議室里,氣氛凝重。
幾位數據負責人圍坐在桌前,展開一場艱難的討論。桌上攤開的Excel表格,左邊一欄是“預訓練語料清單”,右邊是“來源備注”。此次會議的核心任務簡單卻棘手——剔除“來源不清”的語料,并尋找合適的替代品。
這已是該公司半年內第四次開展此類工作。一位參會者事后感慨:“就像給一艘已經下水的船換龍骨。”
這并非個例。從舊金山的Market Street到北京的望京,從倫敦高等法院到慕尼黑地方法院,全球AI廠商都在為同一件事憂心:訓練模型的數據是否干凈、來源是否清晰、供應能否持續……
也是在這一年,一條長期隱于幕后的產業鏈——AI數據供應鏈,被資本市場和產業記者推到了聚光燈下。Scale AI被Meta以143億美元高價收購;Surge AI傳出250億美元的驚人估值;Mercor在一年內估值從20億飆升至100億美元。
而在中國,海天瑞聲2025年上半年營收同比增長約七成,新三板上的藝恩數據也交出了一份亮眼成績單:2025年營收3735.54萬元,同比增長49.86%,數據產品業務收入同比增長127.68%,無形資產(數據資源)同比增長103.34%,海外業務更是首次實現千萬級訂單突破。
![]()
▲數據來自藝恩數據2025年報
這些數字背后是一條清晰的資本主線:大模型的天價融資正在快速向上游供應鏈溢出,數據公司的估值重構才剛剛開始。
一位長期跟蹤AI基礎設施的PE合伙人直言:“大模型的競爭,最終是數據的競爭;而數據的競爭,關鍵在于供應鏈的競爭。”
【AI數據供應鏈的五層結構】
若將大模型比作一家餐廳,算力是火,模型架構是菜譜,調參是火候,那么數據便是食材。而食材從田間到餐桌,需歷經五層關卡。
第一層是“采集層”。
這里匯聚了原始數據的持有者,包括視頻與圖文平臺(如抖音、B站、YouTube、X)、版權方(出版社、影視公司、音樂公司)、公開數據抓取方以及合規的數據經紀商,而這一層的核心問題是“誰擁有原始權利”。
Anthropic曾從LibGen這類影子圖書館下載數百萬冊圖書,2025年8月,該案以15億美元現金和解,平均每部作品約3000美元,這一數字在2026年重新定義了“原礦”的采購底價。
![]()
▲加州法院判決書
第二層是“清洗層”。數據標注工廠、結構化工具、去重與去毒管線集中于此。
海外有Scale AI、Surge AI、Mercor、Labelbox、Snorkel AI、Turing、Invisible Tech等標志性企業;國內則有海天瑞聲、云測數據、百度智能云數據眾包、字節火山引擎數據服務、數據堂、星塵數據等。
2025年,Surge AI年化營收達14億美元;Mercor單日支付給3萬名合約工的費用超過150萬美元;Snorkel提出的“Expert Data-as-a-Service”概念,將標注從“按件計酬”推向“按專家小時計酬”。
事實上,資本市場給清洗層的估值分化極其劇烈:純人力密集型的標注廠因利潤微薄甚至持續虧損,PE估值往往失效——資本市場直接用PS定價,且常常只能拿到1-2倍的PS。而產品化、專家化的公司,則可以享受到10倍甚至20倍以上的收入倍數。
第三層是“產品層”。這里的玩家不再局限于出售勞動力,而是將數據打包成“數據集/智庫/訂閱產品”對外交付。其本質是從“賣工時”轉向“賣資產”——一份數據資產可以被反復出售,邊際成本趨近于零。
第四層是“渠道層”。數據交易所(上海、北京、深圳、貴陽數據交易所)、API分發平臺、IP授權平臺以及面向海外客戶的合規出口通道構成了這一層的基礎設施。
隨著數據資產入表自2024年1月正式執行,這一層發生了會計層面的重大變革——數據首次成為可被“記錄”的資產。值得一提的是,數據資產入表的最大受益者不是數據買家,而是那些手握可審計、可評估的結構化數據資產的供應商——它們從“費用中心”變成了“資產中心”。
第五層是“應用層”。
大模型廠商、互聯網巨頭AI業務線、出海平臺、垂直Agent創業公司是這一層的買家。他們使用數據,也為數據“投票”。誰的數據能讓模型的某項指標提升,能讓一個Agent的轉化率增加幾個百分點,誰就能贏得下一個訂單。
一旦理解了這個過程,你會發現:價值并非集中在最上游。
原始數據擁有者未必盈利(平臺方面臨反爬困擾,版權方常陷入訴訟糾紛),清洗工廠利潤率也不高(依賴大量人力),真正獲得高毛利、高議價權和高估值的,是第三層產品層與第四層渠道層的復合卡位者。
Surge AI毛利率超過50%且已盈利,Scale AI在Meta入股前營收達8.7億美元并持續增長,藝恩數據2025年毛利率達48.79%,這三個數字揭示了同一產業規律:誰離“標準產品”更近,誰就離“價值”更近。
【供應鏈上的五大痛點】
在數據產業鏈的每一層,都隱藏著一個難以回避的問題。
采集層面臨“數據孤島+版權不清”的困境。一位頭部大模型廠商的數據負責人透露:“近兩年的數據采購清單中,真正能拿出授權合同的僅約七成。剩下三成,我們既不敢放心使用,又不敢完全舍棄。”
Bartz v. Anthropic案以15億美元和解后,這三成數據從“便宜”變為“昂貴”,因為一旦被起訴,單部作品的賠償中位線就是3000美元。
清洗層存在“質量波動+多模態對齊困難”的問題。
RLHF數據對標注員的學歷、專業和語言能力要求日益嚴苛,Mercor上掛單的醫生、律師、PhD時薪從100美元起跳;視頻-文本對齊、物理一致性、音視頻同步等多模態任務,使舊式的“一圖一標簽”標注流水線徹底過時。當標注員從“點擊鼠標的人”變成“行業專家”,數據清洗就從勞動密集型變成了知識密集型。
產品層面臨“垂直深度不足+通用與垂類失衡”的挑戰。
過去兩年,通用語料供給過剩,垂類語料供給稀缺,形成一種奇特現象:大模型規模不斷擴大,但垂直場景的表現卻常常不升反降。Epoch AI預測,高質量公開通用文本可能在2027年前耗盡,而垂類高質量數據還遠未得到充分開發。
渠道層存在“交易機制不成熟+跨境合規”的問題。
國內四家數據交易所成立多年,但實際成交量仍低于預期;數據資產入表雖寫入會計準則,但定價、審計、交易撮合、國際互認等問題仍有待解決。跨境方面,2025-2026年,中國數據出海和海外數據入華面臨新的監管迷宮。其實數據交易所不缺牌子,缺的是能真正交付的“標準品”。
應用層則面臨“采購缺乏基準+效果難量化+復購依賴信任”的難題。數據采購最大的成本不是價格,而是不確定性。
一位互聯網巨頭的AI業務線PM無奈表示:“我們購買數據最痛苦的不是價格高,而是不知道買得是否正確。”模型訓練具有典型的“滯后反饋”特點,今天購買的數據要到下一個版本才能知道是否有效,而下一個版本又存在諸多無法控制的變量。
五層結構,五個痛點,供應鏈上的每一層都在尋求秩序。這也是為何這個過去被視為“苦活累活”的領域,在2025-2026年突然爆發出產業級別的估值張力。
【藝恩的坐標:三層復合卡位者】
將藝恩數據置于產業鏈圖中,其位置十分清晰:它是橫跨產品層、渠道層與部分應用層的復合卡位者。
藝恩數據并非海天瑞聲那樣的“通用語料工廠”,不依賴人海戰術進行標注交付;也不像貓眼、燈塔等依托票務流水的“平臺派”,沒有天然的一方數據閉環;更不是一家純粹的咨詢公司。
它更接近海外Snorkel AI所描述的“Expert Data-as-a-Service”模式——將行業專家積累和多年沉淀的結構化數據資產,打包成訂閱化、標準化的產品對外銷售。
藝恩的資產基本盤可概括為:視頻+圖像+文本三大模態,覆蓋影視綜+社媒+電商+版權四大行業領域。產品方面,enbase數據智庫面向專業使用者,藝恩營銷智庫面向品牌與代理商。通用數據拼規模,垂類數據拼深度,藝恩選擇了后者。
2025年的財務表現,從市場角度驗證了這一坐標。營收3735.54萬元,同比增長49.86%,毛利率48.79%,凈利潤363.55萬元。這些數字在整個AI數據賽道中或許不算突出,但其中幾個結構性信號值得關注:
其一,數據產品業務收入同比增長127.68%,且毛利率同比上升16.83個百分點。這表明藝恩從“賣咨詢+項目”向“賣產品+訂閱”的轉型,在數量和質量上均取得進展。對比海外同行,Surge AI的增長曲線也是產品化曲線,Snorkel AI D輪估值13億美元,同樣得益于“數據即產品”的訂閱敘事。
其二,無形資產(數據資源)同比增長103.34%。這是數據資產入表落地后的賬本調整,也是一種“資產化”信號。當一家數據公司開始在資產負債表上將數據列為無形資產,意味著它正以資產而非服務的方式定義自身產業價值。
其三,海外業務首次實現千萬級訂單突破。Scale AI因Meta入股失去Google、OpenAI、xAI等關鍵客戶后,留下的市場真空正被Surge AI、Mercor和中國的AI數據公司填補。這并非藝恩一家公司的機遇,海天瑞聲2025年上半年在中國香港、新加坡、美國設立子公司,并購菲律賓交付基地,中國AI數據出海正開啟一條全新賽道。
從可替代性角度看,藝恩的通用咨詢能力和項目化定制能力可被替代,但在中國影視綜、代言人、劇綜軟廣、社媒聲量等細分垂類領域,其長達十余年的結構化資產積累,形成了一條難以在短時間內復制的護城河。當然,藝恩也面臨一些風險,如體量較小、客戶集中度較高、產品化比例仍在提升階段,但這些都是處于“拐點之上”的公司的真實寫照。
【海外對標:給中國AI數據公司一面估值鏡子】
將藝恩置于全球坐標系中,一些有趣的現象浮現:
![]()
顯然,高估值屬于“產品化+專家化+資產化”的復合型玩家,而非單純的人力密集型標注廠,而Scale AI的“中立性危機”,也為中國AI數據公司打開了一個原本不存在的海外窗口。
2026年初,Anthropic以1830億美元估值完成約130億美元新融資,AWS累計加注至250億美元;OpenAI以8400億美元估值完成1100億美元融資。下游資金端的充裕,直接提升了上游數據端的采購能力。Surge AI年化營收沖至14億美元、Mercor ARR突破4.5億美元、Snorkel引入Expert DaaS產品線,背后都是這股資金浪潮的推動,而中國AI數據公司也不會置身事外。
在超大規模的模型訓練中,算力支出中會分流相當比例到數據采購。下游的融資規模,本質上就是上游估值的錨。
對照全球標的,藝恩48.79%的毛利率在整體數據供應鏈中位于中上游,數據產品收入增速(127.68%)不僅已經跑贏了產業鏈大部分參與者,還表現出和Surge AI類似的快速增長態勢。其面對的正是這樣一個優勢局面:在垂類高質量數據賽道上,產品化之路已經被市場驗證,剩下的就是加速前進。
站在2026年第二季度的觀察點,中國AI數據供應鏈還存在三個結構性機會。
第一個機會是數據資產入表帶來的“資產化紅利”。財政部《企業數據資源相關會計處理暫行規定》自2024年1月起實施,數據首次作為無形資產或存貨進入資產負債表。藝恩無形資產(數據資源)同比增長103.34%,這不僅是一個會計動作,更是估值邏輯的切換——從“賣服務賺收入”轉向“攢資產賺資產溢價”。當數據資產可被審計、評估和質押,這條產業鏈的金融屬性將被重新發掘。
第二個機會是中國AI出海帶來的“合規數據出境通道”機遇。2025-2026年,中國短劇出海內購規模以“一年翻三倍”的速度增長;中國開源大模型在海外調用量一度超過美國;跨境電商AI應用、出海品牌的本地化營銷Agent需求呈井噴之勢。出海不是選項,是必答題——而數據合規是出海的第一張門票。而他們需要的不是一次性大單,而是一個可持續、合規、本地化的數據供應伙伴。藝恩海外業務首次千萬級突破,只是這條通道剛剛打通的信號。
第三個機會是多模態爆發帶來的“垂類高質量數據集”稀缺性。Sora 2、Veo 3、Kling 2.0等視頻生成模型的競賽,使視頻-文本對齊數據、幀級caption、劇情結構標注成為真正的“戰略物資”。Epoch AI的“數據墻”預言表明,通用文本將很快耗盡,未來十年的競爭將聚焦于垂類高質量數據集領域,“影視綜、代言人、社媒情緒、品牌合作、劇綜軟廣”恰好是藝恩長期積累的四大領域。
當然,藝恩體量仍小,產品化比例仍在爬坡,數據產品業務的127.68%增速需要在更高基數上再次證明;海外千萬級突破只是起點而非終點;無形資產入表的會計動作,也需要相應的審計、評估、估值方法論跟進。
但回到文章開頭的會議室,類似的產業鏈卡點,勾勒出2026年中國AI數據供應鏈的需求曲線,指向一批過去被低估的玩家——他們既非巨頭,也非網紅創業公司,而是在某一垂直領域默默積累十幾年結構化數據的“供應鏈卡位者”。
藝恩數據便是其中之一。其坐標獨特:橫跨產品層、渠道層、應用層,覆蓋三模態四領域,資產化、產品化、出海化三條曲線同時上揚。它會成為那個“被低估的供應鏈卡位者”,還是“被產業鏈新秩序重塑的老玩家”?這是2026年留給資本市場的一道開放題。
但有一點是確定的:大模型的故事已經持續迭代許多輪,而真正決定勝負的“原材料”問題,才剛剛翻開第一頁。
免責聲明
本文涉及有關上市公司的內容,為作者依據上市公司根據其法定義務公開披露的信息(包括但不限于臨時公告、定期報告和官方互動平臺等)作出的個人分析與判斷;文中的信息或意見不構成任何投資或其他商業建議,市值觀察不對因采納本文而產生的任何行動承擔任何責任。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.