![]()
文/竇文雪
編輯/子夜
在綠洲資本創始合伙人張津劍的一本書中,曾分享過一個MiniMax創始人閆俊杰與DeepSeek創始人梁文鋒第一次見面時的小故事。
彼時,梁文鋒穿著一件T恤,沒有自我介紹,就問了閆俊杰很多技術問題。
“還以為是助理,我想這助理還挺懂的”閆俊杰說,直到半個小時后閆俊杰詢問“梁總什么時候來?”才知道對方就是梁文鋒。
穿著簡單,沒有什么老板的架子,對技術很專注,這是梁文鋒給外界留下為數不多的印象,他多數時間出現在周圍人的描述中,從媒體的報道中可以總結出一個低調神秘、不喜歡參與公司團建、只對編程感興趣的形象,與傳統意義上“明星公司創始人”的畫像不同。
擁有這樣一位創始人的DeepSeek,也是AI大模型企業中最與眾不同的一個。
![]()
圖源DeepSeek官網
2024年5月,它靠遠低于傳統大模型的定價與成本、達到國際頂尖水平的性能、開源技術報告和模型權重,在眾星云集的AI大模型賽道中出圈,還引發了行業中的價格戰。
它不喜歡開產品發布會、不著急做產品迭代、不跟風加入新興的賽道、不過分吹捧產品,但不妨礙它依舊位于行業關注的中心。
它不講商業化故事,身處AI大模型這樣一個燒錢做研發的賽道但卻并不缺錢,因此,它在過去的很長一段時間中都在拒絕融資,認為資本干預可能會影響技術路線和公司的獨立發展。
因此,在近期被傳出將進行股權融資的時候,DeepSeek又成了AI圈討論的焦點。
輿論的發酵甚至趕不上DeepSeek估值增長的速度。自今年4月中旬,被傳出將以100億美元估值釋放3%左右股權融資后,DeepSeek的估值已經多次被改寫,近期,已經有報道稱DeepSeek的估值可能達到500億美元,三周內翻了5倍。
事情發展至今,故事似乎要向DeepSeek也不得不向巨大的融資額低頭的方向行走,但實則不然。DeepSeek對投資者的要求極高,不接受資本對公司有過多干涉,且根據The Information的報道,梁文鋒仍在這場融資中占據主導權,其個人出資最高達200億元人民幣,占總募資規模的40%。
很難以行業的共性或者趨勢來看待DeepSeek,因為他的掌舵者梁文鋒,一直有自己的節奏。
1、不缺錢的梁文鋒,對融資更謹慎
在很多初創企業的敘事里,融資的路徑大抵相同:成立-融資-組建團隊-發布產品-再融資,最后帶著背后的豪華資本朋友圈沖刺上市。
在這個過程中,企業和資本之間通常維持著一種心照不宣的關系:資本向企業提供資金、提出要求;企業出讓一部分控制權,但有了繼續走下去的底氣。
但DeepSeek從成立的第一天起就沒按照這個模板行走。外界廣泛流傳著梁文鋒曾給DeepSeek立下的“三不”規矩:不接受外部融資、不稀釋股權、不被任何人的商業化時間表綁架。
而這個略顯硬核的規矩,在被傳出融資消息之前就一直被DeepSeek嚴格遵守,就算如今第一個“不”已經被打破,不過DeepSeek在尋找資方的過程中,執行著后兩個“不”的原則。
![]()
近期,市場中流傳最多的除了DeepSeek的融資動作、估值變化等,還有一些資本被梁文鋒拒之門外的消息。
其中被廣泛討論的是DeepSeek與阿里和騰訊之間的談判。
這兩家互聯網大廠正在洽談投資DeepSeek的消息大約在4月23日前后被大量媒體提及,根據《財經》的報道,當時一位接近交易的人士透露,騰訊與阿里巴巴兩家投資方預計共計投資18億美元,DeepSeek的估值超過了200億美元。
不過到了5月,兩家企業均被曝出在談判中失利,不是因為錢不到位,而是因為他們都試圖從DeepSeek手中拿到更多的話語權,這觸碰了梁文鋒的底線。
而據白鯨實驗室報道,阿里與DeepSeek的投資已經談崩,核心分歧在于阿里希望在AI戰略上構建閉環生態,而DeepSeek堅持技術獨立,拒絕了生態綁定的條件。
不過對于這個消息,市場上還出現了另一種聲音:根據《每日經濟新聞》在5月9日的報道,有市場人士透露,阿里應該沒有進行談判。
另據彭博社報道,有知情人士透露,騰訊提出在本輪融資中認購DeepSeek最多20%的股份。但這一樣沒有被梁文鋒采納。
此后,外媒The Information報道稱,梁文鋒將個人出資最高達200億元人民幣,占本輪計劃融資總額40%,這個消息更是印證了梁文鋒在這輪融資中,決不出讓主動權的強硬態度。
報道還透露出騰訊已經更換了投資方式的消息,一位知情人士透露,“騰訊出資60億,占約2%股權。”
拒絕互聯網大廠拋來的橄欖枝,并自掏腰包占據融資主導權,梁文鋒的融資邏輯實則一直與錢無關。
DeepSeek不缺錢,其背后是梁文鋒創立的量化公司——幻方量化。
據私募排排網數據,2025年,幻方量化的平均收益率高達56.6%,管理規模超700億元。業內人士估算,僅2025年幻方量化就為梁文鋒帶來了超過7億美元的收入,這幾乎構成了,DeepSeek獨立運轉的“彈藥庫”。
而梁文鋒這次選擇在融資上“松口”,是因為DeepSeek技術的基本盤——人才,在近期經歷了不小的動蕩。
2025年底至2026年初,就先后有DeepSeek-V2架構的關鍵貢獻者羅福莉、第一代大語言模型核心作者王炳宣、R1核心作者郭達雅等核心人才離開DeepSeek,轉投他廠。
梁文鋒最在意的,不會是能否拿到更多融資、能否與互聯網大廠建立合作、能否吸引更強大的資本……而是如何在競對高薪“挖角”的環境下,留住自己的核心技術人員。
![]()
因此,他的這次融資,或許是希望通過外部資本給公司作出一個較為公允的估值,讓DeepSeek員工手中的期權在定價上更有吸引力。
在DeepSeek最新產品DeepSeek-V4的技術報告里,寫著一份長長的作者致謝名單,研究工程團隊約270人中,只有10人在研發期間離去。對應下來,技術研發人員離職率不到4%,意味著梁文鋒成功留住了97%的員工。
這些人,將繼續按照梁文鋒的思路,走向與眾不同的道路。
2、從DeepSeek-V4身上,看梁文鋒的“逆勢”思維
盡管有關DeepSeek融資的細節鋪天蓋地,但梁文鋒與DeepSeek都沒有對此進行過公開回應。反而是在此期間的4月24日,這家公司在沒有任何預熱的情況下,悄悄上線了行業等待了5個月的新產品——DeepSeek-V4預覽版。
按照DeepSeek的介紹,DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。
更引發市場討論的是這款產品的定價。
在產品發布不到48小時后,DeepSeek發布了API價格調整公告,公告顯示,DeepSeek-V4全系API輸入緩存命中價格降至首發價的十分之一,V4-Pro疊加限時2.5折,百萬Tokens輸入緩存命中低至0.025元,創全球大模型價格新低。
這樣的定價之所以引發關注,是因為DeepSeek-V4的核心優勢——超長上下文極其消耗計算量。據了解,標準的Transformer注意力,每個token都要和前面所有token做一次計算。而上下文從8K擴展到1M,其計算量將是平方級的增長。
而DeepSeek卻能在這樣的情況下依舊保持低價策略,這并不是一件容易的事。
如果對比同期OpenAI發布的最新產品GPT-5.5,DeepSeek定價的優惠程度則更為直觀。
以API價格為例,GPT-5.5的標準報價為輸入每百萬Token 5美元、輸出每百萬Token 30美元;DeepSeek-V4-Pro在2.5折促銷期內的報價為緩存命中輸入每百萬Token0.025元、緩存未命中輸入每百萬Token 3元、輸出每百萬Token 6元。
![]()
圖源DeepSeek官網
如果按1美元約合7.2元人民幣粗略折算,GPT-5.5的輸出價格約為每百萬Token 216元,是DeepSeek-V4-Pro促銷價的30多倍。
而DeepSeek降價的另一邊,在算力成本逐漸提高的情況下,漲價和收費已經成為大模型企業不得不做出的現實選擇。
例如GPT-5.5的價格比GPT-5.4整體貴了一倍;智譜AI在4月初公布了今年以來的第三次提價計劃,發布新一代旗艦模型GLM-5.1的同時提價10%;Kimi在4月下旬發布K2.6時,將API輸入價格從0.60美元/百萬Tokens上調至0.95美元/百萬Tokens,漲價58%。
一邊是行業整體的漲價趨勢,另一邊則是梁文鋒與DeepSeek的逆勢降價,場面似乎與兩年前驚人地相似,彼時,性價比極高的DeepSeek還意外引發了大模型行業的價格戰。
之所以說是“意外”,是因為梁文鋒無意引發價格戰,他曾在接受36氪的采訪時表示,自己對掀起行業價格戰一事非常意外,“我們只是按照自己的步調來做事,然后核算成本定價。”
但也與兩年前一樣,這一次DeepSeek-V4也無意引發價格戰,其能逆勢降價、把控好成本,是靠技術創新實現的。
其中,DeepSeek-V4成本壓縮的核心突破在于壓縮注意力機制的改善。
其設計了壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)兩種壓縮注意力機制,前者負責精準定位關鍵細節,后者負責把握全局脈絡。
DeepSeek將兩種注意力在前向傳播中每一層交替使用,將Prefill階段的注意力計算復雜度從O(N^2)降低為近似線性的O(N*k),并線性壓縮了Prefill和Decode階段的KV Cache,減少了推理時顯存和帶寬的壓力。
在這些層層削減之后,緩存體積已經被壓縮到了90%以上。
![]()
除此之外,DeepSeek降低成本的方式還有很多。
例如其靠一套動態稀疏選擇機制,將復雜度強制截斷為常數級運算。在1M長上下文下,V4 Pro的單token推理FLOPs降到了前代V3.2的27%;其自研的TileLang語言,能讓GPU計算與網絡傳輸并行,硬件利用率逼近極限;針對智能體任務,用特殊標記替代額外小模型,直接復用主模型的KV Cache來并行執行一些輔助任務。把推理成本壓到極致。
“我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”這是梁文鋒在DeepSeek-V2引發價格戰后對媒體的回應,這也同樣適用于DeepSeek-V4。
對于梁文鋒來說,其他企業的定價如何,并不能成為他的參考依據,他只專注在自己的技術邏輯上,開出適用于DeepSeek的定價。
3、梁文鋒,并不著急產品迭代和商業化
梁文鋒著急產品迭代和商業化嗎?
如果經歷過從DeepSeek-V3.2,到DeepSeek-V4之間那5個月的漫長等待,這個答案可能呼之欲出。
在DeepSeek沉默的這五個月期間,不管是美國市場的OpenAI、Anthropic、谷歌Gemini,還是中國市場的阿里千問、字節跳動豆包、騰訊混元、小米MiMo等主流模型公司,都至少發布或迭代了多款模型,幾乎每2.8天就會有一款模型發布或迭代。
對于AI大模型公司而言,商業化幾乎是與產品迭代相伴相生的話題。企業們害怕自己的技術被趕超,害怕失去商業化優勢,進而失去自己在資本市場的想象力。
![]()
而長期不著急迭代的DeepSeek,在那段時間就已經開始被超越了。DeepSeek-V3.2的性能一度在國際市場調研機構Artificial Analysis的基準測試中,落后于penAI、Anthropic、谷歌Gemini、阿里千問、月之暗面Kimi、智譜GLM、MiniMax等旗艦模型。
更關鍵的是行業中掀起龍蝦熱后,Agent需求也隨之爆發,Coding能力成為各家企業追逐的方向,而DeepSeek-V3.2,在Agent和Coding能力上也顯得相對落后。
但不管其他企業的模型如何迭代、市場對DeepSeek的失望情緒有多高,這些似乎都很難影響到梁文鋒與DeepSeek的開發節奏。
梁文鋒有自己的堅持,在他為數不多的采訪中,“實現AGI”、“不追求短期的商業化”是其反復提及的觀點。
將大模型的底層技術做到極致,才是梁文鋒的追求。
DeepSeek-V4一經發布,就在很大程度上追平了前代作品在Agent方面的落后趨勢。
DeepSeek在發布公告中表示,相比前代模型,DeepSeek-V4-Pro在AgenticCoding評測中,已達到當前開源模型最佳水平,并在其他Agent相關評測中表現優異;在世界知識測評中,大幅領先其他開源模型;在數學、STEM、競賽型代碼的測評中,超越當前所有已公開評測的開源模型,并取得了比肩世界頂級閉源模型的成績。
DeepSeek-V4此次更新升級的核心能力之一——上下文,是Agent工具理解并記憶大量文本的關鍵,而DeepSeek此次發布的兩個模型都能支持100萬token的上下文長度,這將大大提升Agent閱讀文本、記住更多細節的能力。
根據差評的測試,將一本紅樓夢中隨便貼了一段三體的科幻小說內容發送給DeepSeek-V4查找異常,它用幾秒鐘就找到了。
另一個細節也體現了梁文鋒與DeepSeek不強調全球領先、將底層技術做到極致的態度——在產品的發布公告中承認自己與競對存在的差距。
其表示,目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,據評測反饋使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。
![]()
圖源DeepSeek官方微信公眾號
對于AI行業已經說了很長時間的多模態故事,DeepSeek也是慢慢來的態度。
如今的DeepSeek-V4仍未搭載原生多模態能力,目前只有市場消息透露,其將在今年6月推出的V4模型迭代版本——V4.1會新增圖像、音頻理解處理能力,但輸出形式仍僅限文本生成。
種種跡象都在表明,如果沒有將產品的技術水平做到極致,外部市場動態與聲音,撼動不了梁文鋒的研發節奏和目標。
2024年,梁文鋒曾在36氪的采訪中表達過這樣一個觀點,“過去三十年,我們都只強調賺錢,對創新是忽視的。創新不完全是商業驅動的,還需要好奇心和創造欲。”
兩年過去,梁文鋒鮮少再對外發聲,但很明顯,他不想讓商業驅動創新的態度,直到現在都沒變。
(本文頭圖來源于DeepSeek官方微信公眾號。)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.