![]()
文章轉載于白鯨實驗室
作者:吳尋
深度求索(北京子公司)和月之暗面都位于海淀區知春路一帶,相距僅1.4公里,步行只需十幾分鐘。站在其中一家公司的會議室里,能隔空望見另一家公司的辦公樓。或許在某些時刻,它們的研究員會隔著一片樓宇對望,腦海里浮現的盡是關于AGI藍圖的構想。
物理空間的接近,讓這兩家公司員工氣質多有相像:低調,純粹,專注AGI。在社交媒體里,你能看到幾乎每位DeepSeek研究員的關注列表里都會有Kimi研究員,而Kimi研究員的關注列表里也躺著不少DeepSeek研究員。
過去一年,Kimi研究員對DeepSeek幾乎不吝贊美。我們去年7月和Kimi的人士有過短暫交流,當時他就直言“感謝DeepSeek”。本月初,《人物》雜志詳細報道了月之暗面這家公司,同樣指出“你能夠感受到公司中蔓延的對DeepSeek的尊重”。
正是DeepSeek R1的出現教育了市場,硬實力就是最好的推廣。去年Kimi也選擇了DeepSeek敲開的推理路線,并一路在agent能力上實現超越。
這種惺惺相惜,也體現在DeepSeek的研究員身上。一位DeepSeek研究員非常直白地告訴我們,他個人比較看好Kimi,這兩家公司有著相似的技術理想,也更純粹,但在管理上略有不同。DeepSeek做事慢一點,會做得更細致一點,“如果Kimi老板看對了方向,可能比DeepSeek更快接近AGI。”
相似的技術氣質,讓這兩家公司更愿意押注那些成本高、周期長、不確定性強的方向,也因此更有機會觸發范式級的能力躍遷。
它們同樣是資本熱衷的對象。一位去年參與Anthropic融資的國內一線投資機構人士告訴我們,國內模型公司里,如果能閉著眼選兩家直接打錢,一個是DeepSeek,另一個就是Kimi。
從投資人、大模型科學家到行業內部從業者,都在不約而同地將這兩家公司放在同一坐標系中審視。審視公司,也是審視兩位創始人梁文鋒和楊植麟。他們同樣信仰Scaling Law的底層力量,堅持“模型即產品”的極簡邏輯,在互聯網大廠的流量圍剿中守住了C端用戶基本盤,也同樣在海外市場撕開了中國大模型的品牌缺口。
海淀區知春路一向被認為是創業者的福地。張一鳴曾于2012年在知春路的一處民宅中創立今日頭條,開啟了他的創業歷程。當前AI時代,這兩個扎根知春路一帶的AI創業新星,在技術迭代、戰略選擇甚至一些心境上,都愈加同頻。
1
一種默契
4月的倒數第二周,Qwen、Kimi、DeepSeek、小米、騰訊的新模型扎堆發布。4月20號,Kimi發布了Kimi2.6并開源,該模型在多項編碼基準測試中超越GPT-5.4和Claude Opus 4.6等閉源模型,大幅增強了Agent自主化執行能力,長程編碼能力也得到顯著提升。
僅僅4天后,DeepSeek V4也終于在外界的關注下姍姍來遲。DeepSeek官方同樣稱,相比前代模型,DeepSeek-V4-Pro的Agent能力顯著增強,在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,并在其他Agent相關評測中同樣表現優異。
此時距離上一代V3發布已經過去了484天,這期間DeepSeek從爆紅到幾乎隱身,用戶數也一度大幅下滑,甚至被指責只是曇花一現。梁文鋒團隊承受巨大壓力。在官方公眾號發布V4新模型的文章里,梁文鋒引用了荀子的名言:“不誘于譽,不恐于誹,率道而行,端然正己。”這是他的自勉,也是對過去一年最好的回應。
沒人比楊植麟更懂這種被全世界冷落的感受。去年年初DeepSeek爆紅時,作為創業明星的楊植麟默默承壓。外界紛紛詬病月之暗面陷入流量依賴的路徑陷阱,基座模型進展遲緩,在萬億參數競賽、推理能力突破、開源生態布局上,全面落后于橫空出世的DeepSeek。
楊植麟對此從未回應,只是帶領團隊埋頭研發新模型。直到2025年7月11日,Kimi K2發布,總參數達到萬億,并采用Muon二階優化器訓練,也是國產大模型首次大規模用二階優化。
一時間Kimi K2震動全球,《自然》雜志稱:“另一個DeepSeek時刻”。楊植麟用新模型回應過去的一切。
去年8月,楊植麟接受媒體人采訪時說:“這也是Kimi跟我講的——任何中間狀態都有可能成為被批評的對象。你總是會有這個時代的局限性。”這種豁達的價值觀,與梁文鋒引用荀子的名句所表達的價值觀幾乎一致。
梁文鋒與楊植麟的相似性,根植于對AGI的共同信仰。他們都堅信,大模型的能力上限由基礎架構與參數規模的持續突破定義,所有的產品體驗與商業價值,都要建立在基座模型能力領先之上。這種信仰,讓兩家公司在技術路線上走出了罕見的協同進化軌跡。
從去年至今,媒體關于DeepSeek與Kimi敘事都是“撞車”,包括發新論文和新模型的架構和參數量。例如DeepSeek V4采用MoE混合專家架構,總參數規模達到1.6萬億,激活參數約370億。而Kimi K2系列同樣采用萬億級MoE架構,總參數1萬億,激活參數320億。
類似的“撞車”太多。事實上它們遠不止“撞車”這么簡單,而是已經形成了互相驗證乃至彼此復用的默契。
2025年年初,DeepSeek在V3模型中推出的MLA多頭潛在注意力機制,通過壓縮KV緩存大幅降低了大模型推理成本,成為萬億參數模型落地的核心架構創新。而Kimi在后續的K2系列模型中,直接沿用了這一架構,為其超長上下文與Agent能力的落地掃清了工程障礙。
到了2025年7月,Kimi在萬億參數MoE模型K2中,率先規模化驗證自研Muon二階優化器,官方論文與技術報告確認,其token效率達AdamW的2倍,訓練成本降低50%以上,成為全球首個在萬億級別落地的二階優化方案。
而這次DeepSeek V4的技術報告里顯示,也跟進采用了Muon,成為其1.6萬億參數模型訓練的核心底座。
![]()
兩家公司形成的默契,背后是兩個創始人的精神共振。梁文鋒從量化投資起家,帶著“用極致工程能力實現模型效率革命”的底色,DeepSeek從成立之初就堅持用自有資金支撐底層研發,只為不受短期商業目標干擾。
楊植麟出身清華與卡內基梅隆大學,是NLP領域的頂尖學術人才。從創立月之暗面之初,他就定下了“用長上下文能力突破AGI邊界”的核心路線,即便在行業流量戰最激烈的階段,也堅持將核心資源投入基座模型研發。
這兩個在知春路一帶相距1.4公里的男人,忙得也許很少能見到面,但他們可能又是神交已久且最了解對方的那個人。
1
海外影響力
DeepSeek和Kimi另一個共同點,是在海外的口碑,這也是它們能夠吸引投資的重要原因之一。一家一線投資機構在Kimi估值60億美金的時候進入,后續兩輪都選擇了跟進。
“模型好,產品好,認知好,全球化做得好,團隊反應速度也快。”這家機構參與投資的人士舉例稱,全球化上最明顯的案例就是今年3月國外產品Cursor套殼Kimi。
3月20日,Cursor正式發布新編程模型Composer 2,官方博客全程強調,自研,持續預訓練+大規模強化學習,并宣稱超越Claude Opus 4.6,價格僅為其1/10。
幾個小時后,一位開發者調試Cursor API時,截獲內部模型ID:kimi-k2p5-rl-0317-s515-fast。直譯為,Kimi K2.5 +強化學習(RL)+3.17版本+快速推理。馬斯克下場回復帖子下評論:“Yes, Kimi 2.5!”,全球輿論引爆。
“你就從Cursor訓了它的模型就能看出來,Kimi的全球的認知肯定是很好的。”上述投資人說。
自去年發布Kimi K2以來,Kimi幾乎每隔兩個月就有一次重大發布。同年11月,Kimi推出萬億參數的K2 Thinking大模型,在智能體工具調用能力測試中93%的得分位居全球第一,超過OpenAI、Anthropic 等海外閉源旗艦模型,成為當時 “最大最好的開源模型”。
今年1月推出的K2.5,在多模態、長記憶和智能體上全方位升級,隨后借助小龍蝦的火熱,在技術社區走紅。2月登頂海外模型聚合平臺OpenRouter,成為周榜調用量冠軍。
同樣在3月,Kimi發布重磅技術報告,被認為挑戰了Transformer沿用11年的殘差連接機制,前OpenAI研究副總裁Jerry Tworek也評價其為“深度學習2.0”的開端。馬斯克轉發評論:“Impressive work from Kimi”(Kimi 的工作令人印象深刻)。
![]()
DeepSeek的海外影響力自不必多說。去年年初DeepSeek R1就是率先在海外走紅的,在一些海外開發者和創業者心中,DeepSeek被奉為開源之神的存在。
本月DeepSeek V4發布后,再次在海外掀起巨量討論。憑借極致性價比,《彭博》把DeepSeek V4寫成對OpenAI和Anthropic的有力挑戰。盡管也有不少聲音認為,V4的聲量完全不如V3帶來的沖擊。
“對開發者而言,國產開源模型DeepSeek、Kimi和智譜雖然和海外閉源模型相比仍有幾個月的差距,但這些模型憑借性價比依然是最能打的。”上述投資人士稱。
資本市場對DeepSeek的興趣也已經達到前所未有的程度。DeepSeek融資,相關報道滿天飛,官方一直未回應。
我們獨家獲悉,DeepSeek融前估值是3000億人民幣,約合440億美元。DeepSeek計劃增資500億,內部增資200億,對外募資300億。這次投資非常隱秘,屬于定向邀約,要求也極高。一家一線投資機構因為募資的基金里有許多個人投資人未達標,也被拒之門外。
融資在某種程度上是為了留住人才。此前,DeepSeek多位核心技術人員被高薪挖走。上述DeepSeek人士表示,獲得融資對DeepSeek最大好處之一,或許就是人員被挖走的概率降低了。
Kimi同樣重視人才。去年12月楊植麟在內部信里稱,Kimi賬上現金超過100億元人民幣,短期內并不著急上市。他還說,融資是為了更加激進地擴充顯卡(GPU)儲備,加速下一代K3模型的訓練與研發,并將部分資金用于大幅提高員工激勵,以吸引和保留頂尖人才。
據今年4月初晚點報道,Kimi將推出一項新的頂尖人才校招計劃,擬授予尚未畢業的實習生公司期權,在實習生通過月之暗面為期3到6個月的考察后,計劃入選者將被直接授予期權股數,即使本人尚未正式畢業。
大模型的競賽,是一場資本、人才和算力的全方位比拼。DeepSeek從不融資到宣布融資,Kimi從宣布不著急上市,到賬面資金闊綽、到融資數十億人民幣,都反映資本市場已經形成的共識——大模型底層能力躍遷帶來的生產力巨量提升,已經非常明確。
1
大模型投資依舊熱
去年9月的外灘大會上,朱嘯虎公開演講稱:“大模型已經變成水電煤,是基礎設施,沒有超額利潤,真正的機會在應用。”
目前來看,事情并沒有沿著那個方向發展。尤其當智譜和MiniMax上市后,模型熱一直持續,兩家公司市值一度達到三千多億和四千多億港元。
今年以來大模型投資的熱度繼續高漲,尤其從DeepSeek V4的融資門檻,以及Kimi連續融資并且估值翻了四倍來看。就連大模型存在感不強的階躍星辰,也在2026年1月26日宣布完成超50億元人民幣B+輪融資。
視頻大模型和世界模型同樣迎來投資熱潮。生數科技在4月完成近20億元B輪融資,估值120億元,阿里、中網投領投。極佳視界單月融資25億元,估值破100億元。
相比海外,國內這些融資顯得小情小調的。OpenAI2026年3月完成高達1220億美元融資,投后估值8520億美元,亞馬遜、英偉達、軟銀入局。Anthropic2026年2月完成300億美元G輪融資,估值3800億美元,新加坡GIC、Coatue領投。
投資的熱潮背后更直觀的反應是,模型公司收入增速表現非常樂觀。截至4月7日,Anthropic對外披露的ARR是超過300億美元,較2025年底的收入增長了3倍有余。上述參投Anthropic的投資人告訴我們,“Anthropic的2026年ARR收入預計會突破1000億美元”。
“大模型作為底層設施,可能會吞噬所有行業的價值黑洞。”上述投資人稱,過去一年她頻繁的見許多全球最優秀的一批研究員,他們無一例外都向她展示了模型涌現能力已經出現。
看到模型收入增速以及智譜二級市場的暴漲反應,更多的投資人是一種FOMO心理。
據我們了解,最近幾個月,Kimi的股權一直很搶手,一家美元基金猶豫了幾天名額就滿了。
不過,錢對兩家公司來說從來都不是目的。梁文鋒唯一一次接受采訪是在2024年7月,當時他說過這句話:“我們的出發點,就不是趁機賺一筆,而是走到技術的前沿”。這與楊植麟所說的:“不急于短期變現,專注技術前沿與長期AGI目標。”不謀而合。
這份可貴的純粹,也正是他們持續吸引外界關注的原因。
知春路的風永不停歇,吹過一代代創業者。從PC互聯網到移動互聯網,中國的科技行業從來不乏流量明星與商業神話,但在AI這條關乎未來的賽道上,或許需要更多的時間來驗證新的范式。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.