網易首頁 > 網易號 > 正文申請入駐

梁文鋒有自己的節奏

2026-05-12 18:05:26　來源: 連線Insight

上海舉報

分享至

文/竇文雪

編輯/子夜

在綠洲資本創始合伙人張津劍的一本書中，曾分享過一個MiniMax創始人閆俊杰與DeepSeek創始人梁文鋒第一次見面時的小故事。

彼時，梁文鋒穿著一件T恤，沒有自我介紹，就問了閆俊杰很多技術問題。

“還以為是助理，我想這助理還挺懂的”閆俊杰說，直到半個小時后閆俊杰詢問“梁總什么時候來？”才知道對方就是梁文鋒。

穿著簡單，沒有什么老板的架子，對技術很專注，這是梁文鋒給外界留下為數不多的印象，他多數時間出現在周圍人的描述中，從媒體的報道中可以總結出一個低調神秘、不喜歡參與公司團建、只對編程感興趣的形象，與傳統意義上“明星公司創始人”的畫像不同。

擁有這樣一位創始人的DeepSeek，也是AI大模型企業中最與眾不同的一個。

圖源DeepSeek官網

2024年5月，它靠遠低于傳統大模型的定價與成本、達到國際頂尖水平的性能、開源技術報告和模型權重，在眾星云集的AI大模型賽道中出圈，還引發了行業中的價格戰。

它不喜歡開產品發布會、不著急做產品迭代、不跟風加入新興的賽道、不過分吹捧產品，但不妨礙它依舊位于行業關注的中心。

它不講商業化故事，身處AI大模型這樣一個燒錢做研發的賽道但卻并不缺錢，因此，它在過去的很長一段時間中都在拒絕融資，認為資本干預可能會影響技術路線和公司的獨立發展。

因此，在近期被傳出將進行股權融資的時候，DeepSeek又成了AI圈討論的焦點。

輿論的發酵甚至趕不上DeepSeek估值增長的速度。自今年4月中旬，被傳出將以100億美元估值釋放3%左右股權融資后，DeepSeek的估值已經多次被改寫，近期，已經有報道稱DeepSeek的估值可能達到500億美元，三周內翻了5倍。

事情發展至今，故事似乎要向DeepSeek也不得不向巨大的融資額低頭的方向行走，但實則不然。DeepSeek對投資者的要求極高，不接受資本對公司有過多干涉，且根據The Information的報道，梁文鋒仍在這場融資中占據主導權，其個人出資最高達200億元人民幣，占總募資規模的40%。

很難以行業的共性或者趨勢來看待DeepSeek，因為他的掌舵者梁文鋒，一直有自己的節奏。

1、不缺錢的梁文鋒，對融資更謹慎

在很多初創企業的敘事里，融資的路徑大抵相同：成立-融資-組建團隊-發布產品-再融資，最后帶著背后的豪華資本朋友圈沖刺上市。

在這個過程中，企業和資本之間通常維持著一種心照不宣的關系：資本向企業提供資金、提出要求；企業出讓一部分控制權，但有了繼續走下去的底氣。

但DeepSeek從成立的第一天起就沒按照這個模板行走。外界廣泛流傳著梁文鋒曾給DeepSeek立下的“三不”規矩：不接受外部融資、不稀釋股權、不被任何人的商業化時間表綁架。

而這個略顯硬核的規矩，在被傳出融資消息之前就一直被DeepSeek嚴格遵守，就算如今第一個“不”已經被打破，不過DeepSeek在尋找資方的過程中，執行著后兩個“不”的原則。

近期，市場中流傳最多的除了DeepSeek的融資動作、估值變化等，還有一些資本被梁文鋒拒之門外的消息。

其中被廣泛討論的是DeepSeek與阿里和騰訊之間的談判。

這兩家互聯網大廠正在洽談投資DeepSeek的消息大約在4月23日前后被大量媒體提及，根據《財經》的報道，當時一位接近交易的人士透露，騰訊與阿里巴巴兩家投資方預計共計投資18億美元，DeepSeek的估值超過了200億美元。

不過到了5月，兩家企業均被曝出在談判中失利，不是因為錢不到位，而是因為他們都試圖從DeepSeek手中拿到更多的話語權，這觸碰了梁文鋒的底線。

而據白鯨實驗室報道，阿里與DeepSeek的投資已經談崩，核心分歧在于阿里希望在AI戰略上構建閉環生態，而DeepSeek堅持技術獨立，拒絕了生態綁定的條件。

不過對于這個消息，市場上還出現了另一種聲音：根據《每日經濟新聞》在5月9日的報道，有市場人士透露，阿里應該沒有進行談判。

另據彭博社報道，有知情人士透露，騰訊提出在本輪融資中認購DeepSeek最多20%的股份。但這一樣沒有被梁文鋒采納。

此后，外媒The Information報道稱，梁文鋒將個人出資最高達200億元人民幣，占本輪計劃融資總額40%，這個消息更是印證了梁文鋒在這輪融資中，決不出讓主動權的強硬態度。

報道還透露出騰訊已經更換了投資方式的消息，一位知情人士透露，“騰訊出資60億，占約2%股權。”

拒絕互聯網大廠拋來的橄欖枝，并自掏腰包占據融資主導權，梁文鋒的融資邏輯實則一直與錢無關。

DeepSeek不缺錢，其背后是梁文鋒創立的量化公司——幻方量化。

據私募排排網數據，2025年，幻方量化的平均收益率高達56.6%，管理規模超700億元。業內人士估算，僅2025年幻方量化就為梁文鋒帶來了超過7億美元的收入，這幾乎構成了，DeepSeek獨立運轉的“彈藥庫”。

而梁文鋒這次選擇在融資上“松口”，是因為DeepSeek技術的基本盤——人才，在近期經歷了不小的動蕩。

2025年底至2026年初，就先后有DeepSeek-V2架構的關鍵貢獻者羅福莉、第一代大語言模型核心作者王炳宣、R1核心作者郭達雅等核心人才離開DeepSeek，轉投他廠。

梁文鋒最在意的，不會是能否拿到更多融資、能否與互聯網大廠建立合作、能否吸引更強大的資本……而是如何在競對高薪“挖角”的環境下，留住自己的核心技術人員。

因此，他的這次融資，或許是希望通過外部資本給公司作出一個較為公允的估值，讓DeepSeek員工手中的期權在定價上更有吸引力。

在DeepSeek最新產品DeepSeek-V4的技術報告里，寫著一份長長的作者致謝名單，研究工程團隊約270人中，只有10人在研發期間離去。對應下來，技術研發人員離職率不到4%，意味著梁文鋒成功留住了97%的員工。

這些人，將繼續按照梁文鋒的思路，走向與眾不同的道路。

2、從DeepSeek-V4身上，看梁文鋒的“逆勢”思維

盡管有關DeepSeek融資的細節鋪天蓋地，但梁文鋒與DeepSeek都沒有對此進行過公開回應。反而是在此期間的4月24日，這家公司在沒有任何預熱的情況下，悄悄上線了行業等待了5個月的新產品——DeepSeek-V4預覽版。

按照DeepSeek的介紹，DeepSeek-V4擁有百萬字超長上下文，在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。

更引發市場討論的是這款產品的定價。

在產品發布不到48小時后，DeepSeek發布了API價格調整公告，公告顯示，DeepSeek-V4全系API輸入緩存命中價格降至首發價的十分之一，V4-Pro疊加限時2.5折，百萬Tokens輸入緩存命中低至0.025元，創全球大模型價格新低。

這樣的定價之所以引發關注，是因為DeepSeek-V4的核心優勢——超長上下文極其消耗計算量。據了解，標準的Transformer注意力，每個token都要和前面所有token做一次計算。而上下文從8K擴展到1M，其計算量將是平方級的增長。

而DeepSeek卻能在這樣的情況下依舊保持低價策略，這并不是一件容易的事。

如果對比同期OpenAI發布的最新產品GPT-5.5，DeepSeek定價的優惠程度則更為直觀。

以API價格為例，GPT-5.5的標準報價為輸入每百萬Token 5美元、輸出每百萬Token 30美元；DeepSeek-V4-Pro在2.5折促銷期內的報價為緩存命中輸入每百萬Token0.025元、緩存未命中輸入每百萬Token 3元、輸出每百萬Token 6元。

圖源DeepSeek官網

如果按1美元約合7.2元人民幣粗略折算，GPT-5.5的輸出價格約為每百萬Token 216元，是DeepSeek-V4-Pro促銷價的30多倍。

而DeepSeek降價的另一邊，在算力成本逐漸提高的情況下，漲價和收費已經成為大模型企業不得不做出的現實選擇。

例如GPT-5.5的價格比GPT-5.4整體貴了一倍；智譜AI在4月初公布了今年以來的第三次提價計劃，發布新一代旗艦模型GLM-5.1的同時提價10%；Kimi在4月下旬發布K2.6時，將API輸入價格從0.60美元/百萬Tokens上調至0.95美元/百萬Tokens，漲價58%。

一邊是行業整體的漲價趨勢，另一邊則是梁文鋒與DeepSeek的逆勢降價，場面似乎與兩年前驚人地相似，彼時，性價比極高的DeepSeek還意外引發了大模型行業的價格戰。

之所以說是“意外”，是因為梁文鋒無意引發價格戰，他曾在接受36氪的采訪時表示，自己對掀起行業價格戰一事非常意外，“我們只是按照自己的步調來做事，然后核算成本定價。”

但也與兩年前一樣，這一次DeepSeek-V4也無意引發價格戰，其能逆勢降價、把控好成本，是靠技術創新實現的。

其中，DeepSeek-V4成本壓縮的核心突破在于壓縮注意力機制的改善。

其設計了壓縮稀疏注意力（CSA）和重度壓縮注意力（HCA）兩種壓縮注意力機制，前者負責精準定位關鍵細節，后者負責把握全局脈絡。

DeepSeek將兩種注意力在前向傳播中每一層交替使用，將Prefill階段的注意力計算復雜度從O（N^2）降低為近似線性的O（N*k），并線性壓縮了Prefill和Decode階段的KV Cache，減少了推理時顯存和帶寬的壓力。

在這些層層削減之后，緩存體積已經被壓縮到了90%以上。

除此之外，DeepSeek降低成本的方式還有很多。

例如其靠一套動態稀疏選擇機制，將復雜度強制截斷為常數級運算。在1M長上下文下，V4 Pro的單token推理FLOPs降到了前代V3.2的27%；其自研的TileLang語言，能讓GPU計算與網絡傳輸并行，硬件利用率逼近極限；針對智能體任務，用特殊標記替代額外小模型，直接復用主模型的KV Cache來并行執行一些輔助任務。把推理成本壓到極致。

“我們的原則是不貼錢，也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”這是梁文鋒在DeepSeek-V2引發價格戰后對媒體的回應，這也同樣適用于DeepSeek-V4。

對于梁文鋒來說，其他企業的定價如何，并不能成為他的參考依據，他只專注在自己的技術邏輯上，開出適用于DeepSeek的定價。

3、梁文鋒，并不著急產品迭代和商業化

梁文鋒著急產品迭代和商業化嗎？

如果經歷過從DeepSeek-V3.2，到DeepSeek-V4之間那5個月的漫長等待，這個答案可能呼之欲出。

在DeepSeek沉默的這五個月期間，不管是美國市場的OpenAI、Anthropic、谷歌Gemini，還是中國市場的阿里千問、字節跳動豆包、騰訊混元、小米MiMo等主流模型公司，都至少發布或迭代了多款模型，幾乎每2.8天就會有一款模型發布或迭代。

對于AI大模型公司而言，商業化幾乎是與產品迭代相伴相生的話題。企業們害怕自己的技術被趕超，害怕失去商業化優勢，進而失去自己在資本市場的想象力。

而長期不著急迭代的DeepSeek，在那段時間就已經開始被超越了。DeepSeek-V3.2的性能一度在國際市場調研機構Artificial Analysis的基準測試中，落后于penAI、Anthropic、谷歌Gemini、阿里千問、月之暗面Kimi、智譜GLM、MiniMax等旗艦模型。

更關鍵的是行業中掀起龍蝦熱后，Agent需求也隨之爆發，Coding能力成為各家企業追逐的方向，而DeepSeek-V3.2，在Agent和Coding能力上也顯得相對落后。

但不管其他企業的模型如何迭代、市場對DeepSeek的失望情緒有多高，這些似乎都很難影響到梁文鋒與DeepSeek的開發節奏。

梁文鋒有自己的堅持，在他為數不多的采訪中，“實現AGI”、“不追求短期的商業化”是其反復提及的觀點。

將大模型的底層技術做到極致，才是梁文鋒的追求。

DeepSeek-V4一經發布，就在很大程度上追平了前代作品在Agent方面的落后趨勢。

DeepSeek在發布公告中表示，相比前代模型，DeepSeek-V4-Pro在AgenticCoding評測中，已達到當前開源模型最佳水平，并在其他Agent相關評測中表現優異；在世界知識測評中，大幅領先其他開源模型；在數學、STEM、競賽型代碼的測評中，超越當前所有已公開評測的開源模型，并取得了比肩世界頂級閉源模型的成績。

DeepSeek-V4此次更新升級的核心能力之一——上下文，是Agent工具理解并記憶大量文本的關鍵，而DeepSeek此次發布的兩個模型都能支持100萬token的上下文長度，這將大大提升Agent閱讀文本、記住更多細節的能力。

根據差評的測試，將一本紅樓夢中隨便貼了一段三體的科幻小說內容發送給DeepSeek-V4查找異常，它用幾秒鐘就找到了。

另一個細節也體現了梁文鋒與DeepSeek不強調全球領先、將底層技術做到極致的態度——在產品的發布公告中承認自己與競對存在的差距。

其表示，目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型，據評測反饋使用體驗優于Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與Opus 4.6思考模式存在一定差距。

圖源DeepSeek官方微信公眾號

對于AI行業已經說了很長時間的多模態故事，DeepSeek也是慢慢來的態度。

如今的DeepSeek-V4仍未搭載原生多模態能力，目前只有市場消息透露，其將在今年6月推出的V4模型迭代版本——V4.1會新增圖像、音頻理解處理能力，但輸出形式仍僅限文本生成。

種種跡象都在表明，如果沒有將產品的技術水平做到極致，外部市場動態與聲音，撼動不了梁文鋒的研發節奏和目標。

2024年，梁文鋒曾在36氪的采訪中表達過這樣一個觀點，“過去三十年，我們都只強調賺錢，對創新是忽視的。創新不完全是商業驅動的，還需要好奇心和創造欲。”

兩年過去，梁文鋒鮮少再對外發聲，但很明顯，他不想讓商業驅動創新的態度，直到現在都沒變。

（本文頭圖來源于DeepSeek官方微信公眾號。）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.