2026年4月的最后一天還沒過完,科大訊飛研究院院長劉聰在業績說明會上拋出的一句話就在AI圈子里炸開了鍋。他說的大意是:訊飛星火仍然是中國主流大模型中唯一基于全國產算力訓練的通用大模型。
![]()
全網都在討論這款1.6萬億參數的巨型模型,訊飛偏偏選這個檔口拋出"我們在國產算力上比誰都快"的表態,這既是技術自信,更是戰略定位上的一次主動劃線。先說清楚一件事,很多人可能搞混了:DeepSeek V4和訊飛比的根本不是同一個維度。
DeepSeek V4技術報告中明確寫道,團隊在英偉達GPU和華為昇騰NPU兩個平臺上均驗證了細粒度EP方案。
![]()
訓練大模型好比從頭教一個孩子認識世界,需要反復運算、頻繁更新參數、處理海量數據之間的關聯關系,對算力底層的精度對齊、算子覆蓋率和萬卡級別的互聯穩定性都有極端苛刻的要求。
推理則是把學好的知識拿出來用,對時延和吞吐量敏感,但工程復雜度遠低于訓練。如今行業里絕大多數廠商走的都是"英偉達做訓練、國產芯片做推理"的折中路線,原因很簡單——英偉達CUDA經過二十年積累,擁有一套極為成熟的生態。
科大訊飛在2023年10月就和華為聯合推出了"飛星一號"萬卡算力平臺,從那以后每一版星火大模型都堅持在國產算力上做訓練,包括星火4.0 Turbo、星火X1、X1.5和今年春節前的星火X2。這條路走了兩年半,中間的痛苦程度超出外界想象。
![]()
訊飛董事長劉慶峰曾公開承認,當行業頭部企業擁有十幾萬張高性能算力卡時,科大訊飛僅靠2萬余張國產算力卡攻堅,算力資源相差達十幾倍。硬件差距擺在那里,數字不會騙人。
昇騰910B這款前一代主力芯片,顯存容量約64GB,帶寬約1.6TB/s,與英偉達H200相比在顯存容量和帶寬上存在明顯短板。訊飛的工程團隊在訓練過程中碰到的困難,遠不止跑得慢這么簡單。
算子庫的缺失導致某些運算路徑根本走不通,精度對齊問題讓訓練結果和預期之間出現漂移,910B的通信機制又讓強化學習階段的采樣推理效率大打折扣。這些坑,每一個都需要數周甚至數月去填。
![]()
劉慶峰在這次業績說明會上直言,每當國際上出了新的主流算法,在英偉達卡上可以直接上手跑,但遷移到國產卡上還得額外花三到六個月做適配。
舉個已經發生過的例子:訊飛通過算法優化和算子庫創新,將深度推理模型訓練效率從30%提升至84%,MoE模型訓練效率從30%提升至93%。這兩個數字背后是無數次集群崩潰、無數個通宵調試堆出來的工程積累。
訊飛付出了什么代價?財務報表給出了答案。
2025年,科大訊飛智慧教育業務營收89.67億元,同比增長24.04%,全年總營收271.05億元,同比增長16.12%。看起來增長不錯,但同一年公司研發投入超過53億元,占營收比重接近五分之一,這在A股科技板塊里屬于非常激進的水平。
![]()
為了給這場"持久戰"儲備彈藥,科大訊飛2026年3月拿到了證監會的40億元定增注冊批復,其中24億明確指向算力平臺建設。一家年利潤不到10億的公司,拿出24億來租國產算力卡,這不是生意人的精明算計,而是一種近乎執拗的路線選擇。
而就在訊飛默默填坑的這兩年半里,外部環境發生了劇烈變化。近年來美國對華高端AI芯片的出口管制持續收緊,從最初的A100、H100禁售,延伸至特供版H20的許可限制,到今年4月,美國高端芯片實質對華禁售。
![]()
這種步步緊逼的態勢,使得國產算力從一個"值得探索的方向"變成了"必須走通的命脈"。從這個角度再看訊飛的堅持,意義就超出了一家企業的商業邏輯。
劉聰在業績說明會上明確表示,公司在央國企落地應用上提供算力、工具鏈、定制化落地一體化服務,滿足政企合規化、私有化部署需求。這種打法精準瞄準了開源模型和DeepSeek難以覆蓋的價值區間。
值得注意的是,訊飛不再是國產算力訓練賽道上的孤勇者。
![]()
就在DeepSeek V4發布同日,美團LongCat-2.0-Preview也開放測試,據知情人士透露,其訓練推理全程依托國產算力集群完成,訓練階段動用了5萬至6萬張國產算力卡,是迄今為止國產算力上完成的規模最大的大模型訓練任務。
一家以外賣起家的互聯網公司,居然能在國產芯片上跑通萬億參數MoE模型,這個信號的含金量不亞于DeepSeek V4本身。這兩家的同日亮相絕非巧合。
圍繞DeepSeek V4的討論,很快從"模型能力如何"轉向"它運行在什么硬件和軟件生態上"。這說明中國大模型競爭已經進入更底層的階段:不僅要做出強模型,還要證明模型可以在國產算力體系中訓練、部署和規模化調用。
![]()
這是我判斷整件事走向時最看重的一個趨勢轉變。真正可能改變格局的變量,在于華為昇騰芯片的代際升級。
2026年3月華為中國合作伙伴大會上,搭載昇騰950PR處理器的Atlas 350加速卡正式上市銷售。和前一代910系列相比,這塊卡在幾個關鍵指標上實現了跨越式提升。
據華為昇騰計算業務總裁張迪煊介紹,Atlas 350的單卡算力達到了英偉達H20的2.87倍,HBM容量達到112GB,是H20的1.16倍,內存訪問顆粒度從512字節減少到128字節,小算子訪存效率提升4倍。
更關鍵的是950PR原生支持FP4和FP8低精度數據格式,這恰恰是DeepSeek V4在模型架構上大量依賴的精度類型。
![]()
DeepSeek V4技術報告披露,其MoE專家權重和稀疏注意力索引器都采用FP4精度,而FP4正好是昇騰950PR的原生支持精度。硬件和算法在精度路線上的不謀而合,預示著下半年雙方的深度協同會更順暢。
訊飛方面也已經表態,正在針對950芯片做深度對接,有望在今年"1024開發者節"上發布對標國際先進水平的旗艦模型。
還有一個不該被忽視的時間線:面向訓練場景優化的950DT計劃在2026年第四季度推出,同期還有8192卡規模的Atlas 950 SuperPoD超節點。如果這兩者按時交付,國產算力在訓練端和英偉達體系之間的差距將被大幅壓縮。
到那個時候,"訓練用英偉達、推理用國產芯片"的折中路線還有沒有存在的必要,會是整個行業需要重新回答的問題。我的看法是這樣的:訊飛說的"比DeepSeek更快",不是在比誰的模型跑分更高、API更便宜。
![]()
DeepSeek V4-Pro限時優惠后緩存輸入價格打到了0.025元/百萬Tokens,這個極致性價比是訊飛的星火系列目前拍馬都追不上的。在純模型能力維度,DeepSeek V4確實站在了國內開源模型的塔尖。
但訊飛比的是另一條賽道——誰率先跑通了從芯片到框架、從訓練到推理的全國產鏈路,而且不是實驗室驗證,是商業化交付級別的跑通。這就好比兩支艦隊在同一片海域航行。
DeepSeek V4是那艘火力最猛、航速最快的主力艦,它可以靠港加油(英偉達訓練),也開始測試用自家燃料(昇騰推理)。而訊飛星火從一開始就只用自家油庫,雖然航速暫時慢一些,但它證明了一件事:這條航線,不依賴外部補給也能跑完全程。
在當今大國博弈的棋局上,這個證明的戰略分量,可能比任何一份跑分榜單都要重。2026年一季度,科大訊飛營收52.74億元,同比增長13.23%;其中B端及C端業務增速達26.27%,境外收入激增167%,合同金額同比增長28.16%。
![]()
這組數字說明,市場正在為"自主可控"這四個字付費。劉慶峰甚至提出了一個更大膽的遠景:未來五年,AI+量子計算有望出現顛覆性突破。
科大訊飛已經和清華大學量子計算團隊成立了合資公司,在更遠的時間尺度上押注算力范式的革命。這種布局,無論是否能兌現,至少說明訊飛的思考不局限于眼前這幾萬張卡的爭奪。
比DeepSeek更快?如果把"快"定義為模型迭代的速度和社區影響力,答案顯然是否定的。
但如果把"快"理解為在一條沒有前人走過的路上率先抵達了某個可以站穩腳跟的位置,訊飛確實比同行都早出發了兩年多。中信證券研報預計,2026年國產算力芯片出貨量至少實現翻倍增長。
知名調研機構Bernstein Research甚至預測,2026年以華為昇騰為首的國產AI芯片市占率有望首次超過50%。這些數據指向一個不可逆的趨勢:國產算力不是Plan B,而是正在成為主賽道。
誰在這條賽道上積累得更深、踩的坑更多、填的坑更早,誰就離那個"不可替代"的位置更近。從這個意義上說,"比DeepSeek更快"這句話,訊飛確實有資格說。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.