網易首頁 > 網易號 > 正文申請入駐

DeepSeek不想只做大模型了

2026-04-25 01:44:43　來源: 高恒說

北京舉報

分享至

作者：高恒（中國科技新聞學會科幻傳播與未來產業專委會會員專家）

DeepSeek V4發布后，最值得看的不是跑分，而是價格表下面一行小字。

在V4的定價說明中，DeepSeek提到，受限于高端算力，目前Pro版服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro價格會大幅下調。

這句話比很多技術參數更有信息量。它說明DeepSeek的低價已經不再只是模型工程優化的結果，而開始和國產算力的供給節奏綁定。過去，模型公司降價，外界通常理解為算法效率提升、廠商補貼或新一輪價格戰。但這一次，DeepSeek把未來降價的前提，直接指向了昇騰950超節點的規模化部署。

這也是V4這次發布真正不同的地方。表面上，它是一次常規模型升級：1.6萬億參數、100萬token上下文、更強的代碼和Agent能力、更低的API價格。但往深處看，它更像是梁文鋒在同時回答三道題：DeepSeek還能不能繼續把模型做便宜；國產算力能不能進入前沿模型的關鍵路徑；一個長期以技術理想主義示人的團隊，能不能扛住融資、留人和商業化的壓力。

過去一年，DeepSeek 改變了中國大模型行業的定價方式。V3和R1發布后，國內外模型廠商被迫重新計算API價格、訓練成本和商業化路徑。到了V4，問題變得更復雜。DeepSeek不只是繼續降價，而是把降價的下一步，壓到了國產算力的規模化部署上。在筆者看來，這意味著中國大模型的競爭正在從“誰的模型能力更強”，進入“誰能把模型、芯片、工程系統和商業組織連成閉環”的階段。

01:DeepSeek把長上下文做便宜了

4月24日上午，DeepSeek宣布全新系列模型DeepSeek-V4預覽版正式上線并同步開源。

這次不是單一模型，而是兩個版本同時推出：DeepSeek-V4-Pro和DeepSeek-V4-Flash。根據 DeepSeek披露的信息，V4-Pro總參數為1.6萬億，激活參數490億，定位高性能任務；V4-Flash 總參數2840億，激活參數130億，主打低成本和高吞吐。兩款模型均采用MoE架構，也就是“混合專家模型”。

知名科技產業時評人彭德宇對筆者分析到：MoE的邏輯并不復雜。一個大模型內部可以有很多“專家”，但每次回答問題時，不需要所有專家同時工作，只調用最相關的一部分。這樣既能做大模型容量，又不會讓每一次調用都背上完整參數的算力負擔。對用戶來說，感知到的是模型更便宜、更快；對模型公司來說，關鍵是單位推理成本被壓低。

V4的另一個變化，是把100萬token上下文做成官方服務標配。這個能力對普通用戶聽起來有些抽象，但放到使用場景里就很直接：用戶可以一次性讓模型處理一整本書、一個較大的代碼庫、一份完整年報，或者一組復雜項目文檔。過去，這類長文本處理通常是高端模型的附加能力，價格高、調用慢、顯存壓力大。在筆者看來，V4的重點不是第一個做到百萬上下文，而是試圖把百萬上下文做成低成本基礎能力。

企事界北京科技有限公司執行董事李睿對筆者說到：這也是V4這次最有實際意義的變化。百萬上下文今天已經不是獨家能力，Gemini、Qwen 等模型也已經做到這一量級。DeepSeek要回答的問題不是“能不能做到”，而是“做到之后，成本能不能撐住”。如果長上下文仍然昂貴，它只是少數高端用戶的功能；如果成本被壓下來，它才可能變成企業和開發者日常可用的基礎設施。

一位大模型行業研究員對筆者表示：這背后解決的是大模型行業長期存在的一個矛盾：上下文越長，成本越高。傳統模型要理解長文本，需要計算大量token之間的相互關系，文本越長，計算量和顯存占用就越容易上升。DeepSeek V4沒有硬扛這個問題，而是通過稀疏注意力和壓縮機制，把長文本先壓縮、再抓重點。換句話說，它不是讓模型把所有內容從頭到尾反復重讀，而是先把內容整理成更濃縮的信息結構，再圍繞重點做推理。

價格延續了DeepSeek一貫的打法。按照V4公布的API定價，Pro版輸入緩存命中價格為1元/百萬token，輸出24元/百萬token；Flash版輸入緩存命中價格為0.2元/百萬token，輸出2元/百萬token。梳理對比來看，目前智譜GLM-5.1輸入緩存命中價格約為1.3-2元/百萬token，Kimi-K2.6輸入緩存命中價格約為1.1元/百萬token。也就是說，V4的輸入價格仍然處在國內主流模型低位。

在筆者看來，這次真正值得注意的是，低價和長上下文被放到了一起。百萬上下文不是一個孤立參數，它決定了模型能否進入更重的工作流。代碼、金融、法律、科研、企業知識庫，這些場景都需要模型讀長材料、處理復雜結構、保留上下文。

V4的能力變化也圍繞這些場景展開。DeepSeek披露的評測信息顯示，V4-Pro在數學、STEM、競賽型代碼等任務中超過多數公開評測中的開源模型；在Agentic Coding上進入開源模型第一梯隊，并被DeepSeek內部作為工程團隊編碼工具使用。它還針對 Claude Code、OpenClaw、CodeBuddy 等主流Agent工具做了適配，在代碼生成、文檔處理和工具調用場景中優化表現。

但這并不意味著V4已經全面拉開差距。企業戰略定位專家吳玉興如此對筆者分析：V4的性能突破相比R1當時帶來的沖擊要小一些。它依然處于第一梯隊，但在部分復雜Agent任務和最廣泛的世界知識上，與最頂尖閉源模型仍有差距。

V4的看點不是“全面碾壓”，而是以較低價格提供足夠強的長上下文和生產任務能力。這才是 DeepSeek V4 的第一層意義：它把高性能模型的使用門檻繼續往下壓。但更重要的是，DeepSeek 開始解釋這套低價還能靠什么繼續維持，答案指向了國產算力。

02:便宜的下一步，指向國產算力

V4最關鍵的點，不在參數表，而在那句關于昇騰950的說明。

DeepSeek在定價說明中明確提到，受限于高端算力，目前Pro版服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro價格會大幅下調。一個模型公司把未來降價和某一類算力集群的上市節奏直接綁定，這在行業里并不常見。它說明模型價格開始被算力結構決定。

過去DeepSeek便宜，更多被理解為模型架構和工程效率的勝利。V2用MoE降低激活參數規模；R1用更高效的訓練和推理路線沖擊行業對算力堆疊的依賴；那么V3則以極致成本控制與工程優化，瓦解了通用大模型的傳統定價邏輯。V3和R1之后，國內大模型被迫進入新一輪價格重估。但V4的不同之處在于，DeepSeek開始把低價的下一步，放到國產算力的規模化部署上。

根據DeepSeek技術報告，V4在系統底層做了細粒度專家并行，也就是EP方案。用通俗的話說，就是優化模型在芯片上的調度方式，讓計算和通信像流水線一樣重疊起來，減少芯片等待時間。同樣一批芯片，如果能處理更多請求，單位推理成本自然會下降。

技術報告提到，這套EP方案已經在英偉達GPU和華為昇騰NPU兩套體系上完成驗證，通用推理任務可實現1.5-1.73倍加速，在對延遲敏感的場景（如RL推演和高速代理服務）最高可達1.96倍。華為昇騰方面也在V4發布后宣布，超節點全系列產品支持DeepSeek V4系列模型，據了解，昇騰950通過融合kernel和多流并行技術降低Attention計算和訪存開銷，大幅提升推理性能，結合多種量化算法，實現了高吞吐、低時延的DeepSeek V4模型推理部署。

彭德宇對筆者說到：這組信息的意義不只是“推理更快”。它意味著 DeepSeek的工程優化開始具備跨平臺能力。過去，大模型公司大多圍繞英偉達CUDA體系開發。CUDA不只是一個編程工具，更像AI時代的底層操作系統。全球大量開發者、算子庫、框架和模型代碼都圍繞CUDA構建，一旦離開這個體系，很多底層代碼需要重寫，工程成本和測試成本都很高。這也是英偉達真正的護城河。

DeepSeek現在做的，不是馬上推翻CUDA，而是嘗試給自己留出第二條路。綜合媒體報道信息來看，DeepSeek通過TileLang、Tile Kernels等方式，把部分底層算子邏輯從單一CUDA路徑中抽象出來，用更通用的語言表達計算邏輯，再由編譯器生成適配不同硬件的底層代碼。這樣一來，開發者不必為每一種GPU或NPU完全重寫一套代碼，而可以先寫通用邏輯，再針對具體硬件做優化。

這對國產芯片很重要。國產AI芯片過去面臨的不只是紙面算力問題，更是軟件生態和有效利用率問題。芯片能不能用好，取決于模型、算子、編譯器、通信、顯存管理等多個環節。DeepSeek如果能在華為昇騰上跑通前沿模型，并把推理成本打下來，它帶來的不只是一個模型的適配案例，而是一次軟硬件協同的技術驗證。

但DeepSeek并沒有馬上擺脫英偉達，短期內，CUDA仍然是最成熟、最穩定的路徑。V4釋放出的信號是，國產算力已經開始進入DeepSeek的關鍵成本結構，并在一定程度上影響未來定價。它還沒有推翻CUDA，但它讓CUDA不再顯得完全不可替代。

這正是黃仁勛擔心的地方。英偉達創始人黃仁勛近期在接受Dwarkesh Patel專訪時曾表示，如果DeepSeek先在華為平臺上發布，對美國而言將是災難性的。李睿指出，這個判斷并不是因為DeepSeek某一項跑分超過了誰，而是因為一旦頂級開源模型能夠在非英偉達體系上穩定運行，開發者就有可能開始改變習慣。模型足夠好，價格足夠低，工具鏈逐漸成熟，遷移就不再只是政治選擇或供應鏈選擇，而會變成商業選擇。

所以，V4的第二層意義，是DeepSeek的低價邏輯正在從“模型優化驅動”，轉向“模型優化+算力體系驅動”。過去，大模型價格主要由算法效率、訓練成本和廠商補貼決定；現在，價格開始和芯片供給、超節點部署、軟硬件協同效率綁定。對DeepSeek來說，這是一條通向更低成本的路；對英偉達來說，這是一道暫時不大、但必須警惕的裂縫。

只是，軟硬件協同不是輕資產生意。模型越深地嵌入芯片和基礎設施，DeepSeek要承擔的成本、組織壓力和商業化壓力也越大。

03:DeepSeek開始變重

這也是為什么，V4發布前后，梁文鋒開始接觸外部融資的消息顯得同樣重要。

據新浪科技報道，近期DeepSeek還曝出了計劃融資500億元的消息，有接近DeepSeek的知情人士透露，DeepSeek融前估值為3000億元，約合440億美元，目前騰訊控股、阿里巴巴集團均正在洽談投資DeepSeek。不過，對于融資相關事宜，DeepSeek方面至今未正面回應媒體問詢。

具體估值不是最重要的。關鍵的是DeepSeek開始打開外部融資窗口。這意味著它面對的競爭已經不只是模型能力，而是延伸到了算力投入、人才穩定、員工激勵和商業化能力。

這件事重要不在于投資數額是不是一個足夠大的數字。放在今天的AI融資市場里，它并不夸張。重要的是開口融資的人是梁文鋒。DeepSeek此前長期被視為一家少見的技術理想主義公司，背后有幻方量化支持，不急著拿外部資本，也不急著講商業故事。現在它開始接觸外部融資，說明V4之后的競爭形態變重了也有壓力了：算力基礎設施、人才激勵和商業化落地，都需要比過去更穩定的資本安排。

第一重壓力來自算力。V4越往國產算力深處走，越需要基礎設施投入。模型參數從千億級走向萬億級，訓練和推理成本都會抬升。如果還要圍繞昇騰體系做更多適配、調優和部署，DeepSeek就不能只是一家輕資產模型公司。當前DeepSeek已經在內蒙古烏蘭察布招聘數據中心運維工程師，這是其首次招聘直接負責計算基礎設施運營的人才，這也被外界視為其向更重的算力基礎設施方向移動的信號。

第二重壓力來自人才。多家媒體報道顯示，目前從DeepSeek確認離開的核心技術大牛已有5位，流向字節、騰訊、小米、元戎啟行等公司，涉及基座模型、推理強化學習、多模態和OCR等方向。其中，郭達雅（DeepSeek R1核心作者）被報道加入字節Seed團隊；王炳宣（DeepSeek LLM核心作者）加入騰訊混元；阮翀（深度參與DeepSeek-VL、VL2、Janus系列等多模態模型的研發）加入元戎啟行；羅福莉（DeepSeek-V2的關鍵開發者之一，也是MLA技術的核心貢獻者）加入小米；魏浩然（DeepSeek OCR系列核心作者）的去向尚未公開。

對一家總共不到200人的公司來說，這類流動不是普通人員變化。媒體報道稱，DeepSeek核心研發團隊約100多人，幾乎不社招，主要依靠應屆生和實習生留任。在這樣的團隊里，一個核心研究員離開，可能影響的不是一個崗位，而是一條技術線的連續性。

這并不意味著DeepSeek的組織不好。相反，外界對DeepSeek的長期印象，正是它有一套大廠很難復制的組織方式：不打卡、不設 KPI，研究員可以自由組隊，也可以獨自鉆研新想法。這種組織方式適合早期技術突破，也解釋了為什么DeepSeek能在過去幾年不斷做出反常識的工程創新。但當行業進入更重的階段，問題就變了。頂級人才不只看工作自由度，也看技術方向、資源投入和落地場景。大廠能同時給錢、算力、產品場景和更大的團隊。

第三重壓力來自商業化。V4發布前，DeepSeek App已在4月8日改版，上線支持復雜推理的“專家模式”和處理簡單任務的“快速模式”。隨著V4發布，外界才知道，專家模式對應的是1.6萬億參數的 V4-Pro，快速模式對應的是2840億參數的V4-Flash。這個變化說明，DeepSeek 不再只是把模型放出來讓開發者使用，而是在開始打磨面向用戶的產品分層。

彭德宇指出，這與開源路線之間存在天然張力。開源可以快速建立技術聲量，也能讓開發者和生態伙伴更快復用DeepSeek 的路線。但開源通常意味著更薄的利潤空間，更高的成本敏感度。OpenAI、Anthropic 這類閉源公司可以通過訂閱、API、企業服務建立更直接的商業閉環；谷歌、亞馬遜、微軟可以把模型成本消化在云計算和生態體系里。DeepSeek沒有這些現成的商業緩沖層。如果它要繼續堅持低價、開源和前沿模型研發，就必須找到新的資金、算力和商業化支撐。

李睿表示，所以，V4發布和融資不是兩件獨立的事。V4是梁文鋒交給市場的答卷，證明DeepSeek仍然能做出強模型、低價格，并把國產算力推到關鍵路徑上。融資則是他交給團隊的答卷，給算力投入、員工期權、人才穩定和商業化探索留出緩沖。

吳玉興進一步說到，這里也有一個更現實的悖論。融資可以解決股權定價，可以緩解算力壓力，也可以讓公司在人才爭奪中更有籌碼。但融資解決不了全部問題。DeepSeek過去最稀缺的不是錢，而是那種愿意長期押注底層技術、愿意繞開主流路徑做工程創新的組織氣質。一旦資本、商業化和大廠人才戰同時進入，DeepSeek要守住的不只是模型領先，也包括自己原來的技術路線和組織文化。

在筆者看來，這也是V4真正暴露出來的深層問題。它證明中國大模型已經有能力在模型能力、推理價格和國產算力適配上同時向前走一步；但它也證明，大模型競爭已經不再是少數天才寫出更好算法的比賽。下一階段拼的是算力基礎設施、工程系統、產品轉化、融資能力和人才密度。

梁文鋒這一次把牌押向了國產算力。V4讓DeepSeek繼續站在行業中心，也讓外界看到CUDA生態并非完全不可撼動。但更難的題才剛開始：當模型越來越重、人才越來越貴、商業化越來越急，DeepSeek能不能在成為一家更重的AI基礎設施公司之后，仍然保持過去那種改變規則的能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.