![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
原本預(yù)計(jì)在 2026 年春節(jié)上演的中國(guó) AI 大戲,延遲到了五一假期前。
這周五,DeepSeek V4 千呼萬喚始出來。
同樣在這周,Qwen、Kimi、小米、騰訊都不約而同拿出了自己最新的代表作。
![]()
從 Artificial Analysis 最新放榜的開源模型智能指數(shù)看,開源模型的前幾名已經(jīng)都是中國(guó)模型。
其中,TOP2 都是這周發(fā)布的。他們也是這幾天 OpenRouter 真實(shí)調(diào)用量上擠入全球 TOP5 的兩家公司。
![]()
這已經(jīng)不是 DeepSeek 和 Kimi 這么默契了。往回看看前面幾次。
2025 年 1 月,DeepSeek R1 和 Kimi K1.5 前后兩個(gè)小時(shí)內(nèi)發(fā)布,都把目標(biāo)指向 OpenAI o1。
一個(gè)月后,DeepSeek NSA 和 Kimi MoBA 幾乎同時(shí)出現(xiàn),都在改造 Transformer 最核心的注意力機(jī)制。
2025 年 4 月,Kimi 的 Kimina Prover Preview 和 DeepSeek-Prover-V2 先后發(fā)布,都在向形式化數(shù)學(xué)推理和定理證明方向推進(jìn)。
時(shí)隔一年,現(xiàn)在,又一次,Kimi K2.6 和 DeepSeek V4 在同一周先后發(fā)布,兩個(gè)萬億參數(shù)的開源模型,前后腳擺到了桌面上。
發(fā)力相同的技術(shù)方向,幾乎同時(shí)到達(dá)同一個(gè)路口。這已經(jīng)不像巧合了。
1
這次又撞了什么
先看這一輪各自拿出了什么。
DeepSeek V4 是一個(gè) 1.6 萬億參數(shù)的 MoE 模型,49B 激活參數(shù),原生支持 100 萬 token 上下文。它的核心敘事是效率革命,相比上一代 V3.2,單 token 推理算力需求下降了 73%,KV cache 壓縮到原來的十分之一。
簡(jiǎn)單說,同樣的硬件能處理多得多的請(qǐng)求,同樣長(zhǎng)度的文本花的錢少得多。
與此同時(shí),V4 完成了對(duì)華為昇騰芯片的深度適配,從英偉達(dá) CUDA 生態(tài)向華為 CANN 架構(gòu)做了底層代碼遷移,也讓這一輪發(fā)布多了一層國(guó)產(chǎn)算力遷移的意味。
Kimi K2.6 是一個(gè)萬億參數(shù)的 MoE 多模態(tài)模型,32B 激活參數(shù),256K 上下文。它的核心敘事不是更大或更便宜,而是更持久。
在測(cè)試中,K2.6 可以不間斷編碼 13 小時(shí),處理超過 4000 次工具調(diào)用,修改 4000 多行代碼,完成一個(gè)接近性能極限的開源金融撮合引擎的深度重構(gòu)。
這不是普通的“代碼能力提升”,而是在測(cè)試模型能不能從一次性回答,進(jìn)入長(zhǎng)時(shí)間、多工具、多 Agent 協(xié)作的工作狀態(tài)。
K2.6 還引入了 Agent 集群架構(gòu),支持 300 個(gè)子 Agent 并行協(xié)作。月之暗面的 RL 基礎(chǔ)設(shè)施團(tuán)隊(duì)已經(jīng)用 K2.6 驅(qū)動(dòng)的 Agent 連續(xù)自主運(yùn)行了 5 天,負(fù)責(zé)監(jiān)控、故障響應(yīng)和系統(tǒng)運(yùn)維。
![]()
它們總在同一個(gè)路口相遇,但開出去的方向并不一樣。至少在這一輪,一個(gè)更像是在重寫模型基礎(chǔ)設(shè)施的成本結(jié)構(gòu),另一個(gè)更像是在驗(yàn)證模型能否進(jìn)入更長(zhǎng)周期的真實(shí)任務(wù)。方向不同,但在同一周發(fā)布這件事本身,已經(jīng)足夠讓人截圖發(fā)群了。
但兩家也有高度一致的選擇,萬億參數(shù)的 MoE 架構(gòu)、開源、繼續(xù)相信 Scaling Law。截至目前,它們也是中國(guó)僅有的兩個(gè)已開源的萬億參數(shù)模型。
1
比撞車更有意思的事
多次撞車是一個(gè)好段子,但它背后有一個(gè)更值得注意的現(xiàn)象,兩家的技術(shù)路線正在相互啟發(fā)。
上一次,是 Kimi K2 借鑒了 DeepSeek V3 帶火的 MLA 注意力機(jī)制。MLA 是一種壓縮注意力計(jì)算和 KV 緩存以提升效率的方案,DeepSeek V3 讓它成為中國(guó)開源模型技術(shù)棧里的顯性選項(xiàng)。
這一次,是 DeepSeek V4 把 Muon 優(yōu)化器作為模型架構(gòu)層的三大更新之一。Muon 是一種二階優(yōu)化器,解決的是訓(xùn)練階段參數(shù)更新的效率和穩(wěn)定性問題,用來取代已經(jīng)用了 10 年的 Adam。Kimi 是最早把 Muon 系優(yōu)化器推到萬億參數(shù)級(jí)訓(xùn)練并系統(tǒng)公開經(jīng)驗(yàn)的團(tuán)隊(duì)之一,楊植麟在 GTC 2026 演講中稱其可以帶來 2 倍的 token 效率提升。而 V4 也跟進(jìn)使用 Muon 優(yōu)化器,用來提升收斂效率和訓(xùn)練穩(wěn)定性。
![]()
換句話說,MLA 省的是推理時(shí)的錢,Muon 省的是訓(xùn)練時(shí)的路。而這兩條路,已經(jīng)在兩家之間來回走了一遍。
這就讓“撞車”不再只是發(fā)布時(shí)間上的巧合,而變成了技術(shù)棧層面的回聲。更像是兩家公司一邊競(jìng)爭(zhēng),一邊把對(duì)方探索過的技術(shù)思路變成自己下一輪實(shí)驗(yàn)的參考坐標(biāo)。
這種相互啟發(fā)還在繼續(xù)延伸。在注意力機(jī)制上,DeepSeek 探索的是稀疏注意力,Kimi 下一代模型探索的是線性注意力,路徑不同但要回答的問題一致,都是長(zhǎng)上下文怎么不被全注意力的計(jì)算復(fù)雜度拖垮。
在殘差連接上,DeepSeek 做 mHC,Kimi 做注意力殘差,同樣是不同方案指向同一個(gè)目標(biāo),讓模型變深之后訓(xùn)練依然穩(wěn)定。
![]()
這件事之所以值得說,是因?yàn)榉旁诟蟮男袠I(yè)背景里看,它其實(shí)是反常的。硅谷頭部公司正在變得越來越封閉,OpenAI 早已不再公開訓(xùn)練細(xì)節(jié),Anthropic 和 Google 的核心方法同樣諱莫如深,社區(qū)只能靠猜測(cè)和拼湊來推斷它們的技術(shù)路線。連在舞臺(tái)上握手都不太可能了
![]()
而在 Kimi 和 DeepSeek 之間,技術(shù)報(bào)告和開源代碼的可見度讓技術(shù)擴(kuò)散的鏈條明顯縮短了。多次撞車之所以能被看到、被討論、被放在一起比較,前提恰恰是兩家都選擇了把東西攤在桌面上。
中國(guó)開源模型的技術(shù)擴(kuò)散速度,正在變得比過去快得多。這可能才是頻繁撞車真正說明的事情。
1
全球技術(shù)圈都在看它們撞車
這種“撞車”的敘事,最早當(dāng)然是中文科技圈的發(fā)明。但海外開發(fā)者社區(qū)也在用自己的方式確認(rèn)這件事。
K2.6 發(fā)布后,AI 領(lǐng)域最有影響力的 newsletter 之一 Latent Space 直接把 Kimi 放進(jìn)了“DeepSeek 沉默期后中國(guó)開源模型實(shí)驗(yàn)室領(lǐng)跑者”的位置。幾天后 V4 發(fā)布,海外開發(fā)者社區(qū)又立刻把 V4、K2.6、GLM 5.1 放到同一張表格里比較參數(shù)、價(jià)格、上下文長(zhǎng)度和 Agent 能力。
![]()
英偉達(dá) GTC 2026 上用來展示下一代芯片推理性能的中國(guó)模型,是這兩家。
![]()
在海外開發(fā)者社區(qū)里,當(dāng)人們討論中國(guó)開源模型時(shí),Kimi 和 DeepSeek 的確越來越頻繁地被放進(jìn)同一張表里。
1
它們撞上的不是彼此
這也讓 DeepSeek 和 Kimi 的關(guān)系變得有點(diǎn)微妙。它們當(dāng)然是競(jìng)爭(zhēng)對(duì)手,但在更大的模型生態(tài)里,又共同把中國(guó)開源模型推到了一個(gè)更難被忽視的位置。
它們對(duì)閉源模型的壓力,不只來自某一次 benchmark,而來自成本、可部署性、開源權(quán)重和技術(shù)擴(kuò)散速度這些更慢、更底層的變量。
所以,Kimi 到底有沒有在故意撞車 DeepSeek?
大概率沒有。萬億參數(shù)的 MoE 要做,長(zhǎng)上下文的注意力機(jī)制要改,訓(xùn)練效率的優(yōu)化器要換,國(guó)產(chǎn)芯片的適配要啃,開源要開得真誠(chéng)而不是做防御性姿態(tài)。這些不是“選項(xiàng)”,而是“必經(jīng)之路”。
兩家公司都在認(rèn)真地做底層技術(shù),也都選擇把關(guān)鍵進(jìn)展放到公開語境里,于是就一次又一次地在同一個(gè)十字路口碰面。
不是它們太默契,是路太窄了。
至于下一次“撞車”,大概已經(jīng)在路上了。
如果沒猜錯(cuò)的話,Kimi 讓大模型的文本和視覺能力齊頭并進(jìn)的技術(shù)方案,將啟發(fā)更多中國(guó)開源純文本模型長(zhǎng)出“眼睛”,一起看到更遠(yuǎn)、更大的世界。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.