網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

16 個(gè)月后，DeepSeek 已不是孤身走暗巷

2026-04-25 15:11:01　來源: 硅星人

北京舉報(bào)

分享至

　　作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

　　原本預(yù)計(jì)在 2026 年春節(jié)上演的中國(guó) AI 大戲，延遲到了五一假期前。

　　這周五，DeepSeek V4 千呼萬喚始出來。

　　同樣在這周，Qwen、Kimi、小米、騰訊都不約而同拿出了自己最新的代表作。

　　從 Artificial Analysis 最新放榜的開源模型智能指數(shù)看，開源模型的前幾名已經(jīng)都是中國(guó)模型。

　　其中，TOP2 都是這周發(fā)布的。他們也是這幾天 OpenRouter 真實(shí)調(diào)用量上擠入全球 TOP5 的兩家公司。

　　這已經(jīng)不是 DeepSeek 和 Kimi 這么默契了。往回看看前面幾次。

　　2025 年 1 月，DeepSeek R1 和 Kimi K1.5 前后兩個(gè)小時(shí)內(nèi)發(fā)布，都把目標(biāo)指向 OpenAI o1。

　　一個(gè)月后，DeepSeek NSA 和 Kimi MoBA 幾乎同時(shí)出現(xiàn)，都在改造 Transformer 最核心的注意力機(jī)制。

　　2025 年 4 月，Kimi 的 Kimina Prover Preview 和 DeepSeek-Prover-V2 先后發(fā)布，都在向形式化數(shù)學(xué)推理和定理證明方向推進(jìn)。

　　時(shí)隔一年，現(xiàn)在，又一次，Kimi K2.6 和 DeepSeek V4 在同一周先后發(fā)布，兩個(gè)萬億參數(shù)的開源模型，前后腳擺到了桌面上。

　　發(fā)力相同的技術(shù)方向，幾乎同時(shí)到達(dá)同一個(gè)路口。這已經(jīng)不像巧合了。

　　這次又撞了什么

　　先看這一輪各自拿出了什么。

　　DeepSeek V4 是一個(gè) 1.6 萬億參數(shù)的 MoE 模型，49B 激活參數(shù)，原生支持 100 萬 token 上下文。它的核心敘事是效率革命，相比上一代 V3.2，單 token 推理算力需求下降了 73%，KV cache 壓縮到原來的十分之一。

　　簡(jiǎn)單說，同樣的硬件能處理多得多的請(qǐng)求，同樣長(zhǎng)度的文本花的錢少得多。

　　與此同時(shí)，V4 完成了對(duì)華為昇騰芯片的深度適配，從英偉達(dá) CUDA 生態(tài)向華為 CANN 架構(gòu)做了底層代碼遷移，也讓這一輪發(fā)布多了一層國(guó)產(chǎn)算力遷移的意味。

　　Kimi K2.6 是一個(gè)萬億參數(shù)的 MoE 多模態(tài)模型，32B 激活參數(shù)，256K 上下文。它的核心敘事不是更大或更便宜，而是更持久。

　　在測(cè)試中，K2.6 可以不間斷編碼 13 小時(shí)，處理超過 4000 次工具調(diào)用，修改 4000 多行代碼，完成一個(gè)接近性能極限的開源金融撮合引擎的深度重構(gòu)。

　　這不是普通的“代碼能力提升”，而是在測(cè)試模型能不能從一次性回答，進(jìn)入長(zhǎng)時(shí)間、多工具、多 Agent 協(xié)作的工作狀態(tài)。

　　K2.6 還引入了 Agent 集群架構(gòu)，支持 300 個(gè)子 Agent 并行協(xié)作。月之暗面的 RL 基礎(chǔ)設(shè)施團(tuán)隊(duì)已經(jīng)用 K2.6 驅(qū)動(dòng)的 Agent 連續(xù)自主運(yùn)行了 5 天，負(fù)責(zé)監(jiān)控、故障響應(yīng)和系統(tǒng)運(yùn)維。

　　它們總在同一個(gè)路口相遇，但開出去的方向并不一樣。至少在這一輪，一個(gè)更像是在重寫模型基礎(chǔ)設(shè)施的成本結(jié)構(gòu)，另一個(gè)更像是在驗(yàn)證模型能否進(jìn)入更長(zhǎng)周期的真實(shí)任務(wù)。方向不同，但在同一周發(fā)布這件事本身，已經(jīng)足夠讓人截圖發(fā)群了。

　　但兩家也有高度一致的選擇，萬億參數(shù)的 MoE 架構(gòu)、開源、繼續(xù)相信 Scaling Law。截至目前，它們也是中國(guó)僅有的兩個(gè)已開源的萬億參數(shù)模型。

　　比撞車更有意思的事

　　多次撞車是一個(gè)好段子，但它背后有一個(gè)更值得注意的現(xiàn)象，兩家的技術(shù)路線正在相互啟發(fā)。

　　上一次，是 Kimi K2 借鑒了 DeepSeek V3 帶火的 MLA 注意力機(jī)制。MLA 是一種壓縮注意力計(jì)算和 KV 緩存以提升效率的方案，DeepSeek V3 讓它成為中國(guó)開源模型技術(shù)棧里的顯性選項(xiàng)。

　　這一次，是 DeepSeek V4 把 Muon 優(yōu)化器作為模型架構(gòu)層的三大更新之一。Muon 是一種二階優(yōu)化器，解決的是訓(xùn)練階段參數(shù)更新的效率和穩(wěn)定性問題，用來取代已經(jīng)用了 10 年的 Adam。Kimi 是最早把 Muon 系優(yōu)化器推到萬億參數(shù)級(jí)訓(xùn)練并系統(tǒng)公開經(jīng)驗(yàn)的團(tuán)隊(duì)之一，楊植麟在 GTC 2026 演講中稱其可以帶來 2 倍的 token 效率提升。而 V4 也跟進(jìn)使用 Muon 優(yōu)化器，用來提升收斂效率和訓(xùn)練穩(wěn)定性。

　　換句話說，MLA 省的是推理時(shí)的錢，Muon 省的是訓(xùn)練時(shí)的路。而這兩條路，已經(jīng)在兩家之間來回走了一遍。

　　這就讓“撞車”不再只是發(fā)布時(shí)間上的巧合，而變成了技術(shù)棧層面的回聲。更像是兩家公司一邊競(jìng)爭(zhēng)，一邊把對(duì)方探索過的技術(shù)思路變成自己下一輪實(shí)驗(yàn)的參考坐標(biāo)。

　　這種相互啟發(fā)還在繼續(xù)延伸。在注意力機(jī)制上，DeepSeek 探索的是稀疏注意力，Kimi 下一代模型探索的是線性注意力，路徑不同但要回答的問題一致，都是長(zhǎng)上下文怎么不被全注意力的計(jì)算復(fù)雜度拖垮。

　　在殘差連接上，DeepSeek 做 mHC，Kimi 做注意力殘差，同樣是不同方案指向同一個(gè)目標(biāo)，讓模型變深之后訓(xùn)練依然穩(wěn)定。

　　這件事之所以值得說，是因?yàn)榉旁诟蟮男袠I(yè)背景里看，它其實(shí)是反常的。硅谷頭部公司正在變得越來越封閉，OpenAI 早已不再公開訓(xùn)練細(xì)節(jié)，Anthropic 和 Google 的核心方法同樣諱莫如深，社區(qū)只能靠猜測(cè)和拼湊來推斷它們的技術(shù)路線。連在舞臺(tái)上握手都不太可能了

　　而在 Kimi 和 DeepSeek 之間，技術(shù)報(bào)告和開源代碼的可見度讓技術(shù)擴(kuò)散的鏈條明顯縮短了。多次撞車之所以能被看到、被討論、被放在一起比較，前提恰恰是兩家都選擇了把東西攤在桌面上。

　　中國(guó)開源模型的技術(shù)擴(kuò)散速度，正在變得比過去快得多。這可能才是頻繁撞車真正說明的事情。

　　全球技術(shù)圈都在看它們撞車

　　這種“撞車”的敘事，最早當(dāng)然是中文科技圈的發(fā)明。但海外開發(fā)者社區(qū)也在用自己的方式確認(rèn)這件事。

　　K2.6 發(fā)布后，AI 領(lǐng)域最有影響力的 newsletter 之一 Latent Space 直接把 Kimi 放進(jìn)了“DeepSeek 沉默期后中國(guó)開源模型實(shí)驗(yàn)室領(lǐng)跑者”的位置。幾天后 V4 發(fā)布，海外開發(fā)者社區(qū)又立刻把 V4、K2.6、GLM 5.1 放到同一張表格里比較參數(shù)、價(jià)格、上下文長(zhǎng)度和 Agent 能力。

　　英偉達(dá) GTC 2026 上用來展示下一代芯片推理性能的中國(guó)模型，是這兩家。

　　在海外開發(fā)者社區(qū)里，當(dāng)人們討論中國(guó)開源模型時(shí)，Kimi 和 DeepSeek 的確越來越頻繁地被放進(jìn)同一張表里。

　　它們撞上的不是彼此

　　這也讓 DeepSeek 和 Kimi 的關(guān)系變得有點(diǎn)微妙。它們當(dāng)然是競(jìng)爭(zhēng)對(duì)手，但在更大的模型生態(tài)里，又共同把中國(guó)開源模型推到了一個(gè)更難被忽視的位置。

　　它們對(duì)閉源模型的壓力，不只來自某一次 benchmark，而來自成本、可部署性、開源權(quán)重和技術(shù)擴(kuò)散速度這些更慢、更底層的變量。

　　所以，Kimi 到底有沒有在故意撞車 DeepSeek？

　　大概率沒有。萬億參數(shù)的 MoE 要做，長(zhǎng)上下文的注意力機(jī)制要改，訓(xùn)練效率的優(yōu)化器要換，國(guó)產(chǎn)芯片的適配要啃，開源要開得真誠(chéng)而不是做防御性姿態(tài)。這些不是“選項(xiàng)”，而是“必經(jīng)之路”。

　　兩家公司都在認(rèn)真地做底層技術(shù)，也都選擇把關(guān)鍵進(jìn)展放到公開語境里，于是就一次又一次地在同一個(gè)十字路口碰面。

　　不是它們太默契，是路太窄了。

　　至于下一次“撞車”，大概已經(jīng)在路上了。

　　如果沒猜錯(cuò)的話，Kimi 讓大模型的文本和視覺能力齊頭并進(jìn)的技術(shù)方案，將啟發(fā)更多中國(guó)開源純文本模型長(zhǎng)出“眼睛”，一起看到更遠(yuǎn)、更大的世界。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.