網易首頁 > 網易號 > 正文申請入駐

詳解 DeepSeek V4：Infra 巨鯨 “四連擊”，百萬上下文走進現實

2026-05-02 20:57:18　來源: 晚點LatePost

河北舉報

分享至

系統級耦合優化比單點創新更難。

訪談丨程曼祺

整理丨付自文、李清旸

上周五（4 月 26 日）DeepSeek-V4 終于發布后，《晚點聊 LateTalk》第一時間邀請一線 AI 從業者詳解 V4 技術報告。

兩位播客嘉賓，一位是 UCLA 在讀博士劉益楓，他是模型架構背景，曾在 Kimi（月之暗面）和字節 Seed 實習，參與 K1.5 研發，也自己做過優化器。

一位是開源推理框架 SGLang 核心開發者趙晨陽，他是 Infra 背景，目前已加入 SGLang 背后的商用創業公司 RadixArk AI。他此前也曾在字節 Seed 實習。

這期我們從 V4 切入，自然而然聊地到了 Kimi、Seed、MiniMax、Qwen、智譜等中國其他大模型團隊的努力和進展。

關于從字節 Seed 提出的 HC 到 DeepSeek 的 mHC，再到 Kimi 的 Attention Residuals 的討論，還有 Kimi 和 DeepSeek 圍繞 Muon 優化器的改進，又或者是 DeepSeek 對北大團隊開源的 TileLang 的深度使用……這些成果相互聯系、彼此激發，鮮活地刻畫了，一定的人才密度和競爭烈度后，開源模型社區在正迸發怎樣的進步與質變。

而一批中國公司，是開源大模型生態最活躍和堅定的投入者。

從 R1 的一鳴驚人到如今的百花齊放，這一年多發生了太多迭代和變化。V4 的技術報告是了解這些細致且艱辛努力的一個切片。

不再用 MLA、全新注意力機制：“系統級耦合優化比單點創新更難”

晚點：DeepSeek-V4 發布后，你們的實際使用體感如何？

劉益楓：數學推理、代碼能力和 Agent 指令執行都比 V3 好不少，尤其是幻覺少得多。

代碼能力還是比 Opus 4.6 等閉源模型弱，和智譜 GLM-5.1、Kimi K2.6 等開源模型體驗相近。

同時 V4 比 V3 大很多（V3 參數為 670 B ，V4 為 1.6T），價格貴了不少。但最近 V4-Pro 輸入緩存命中的價格從最初 25% 優惠上又打了 1 折，降價很猛，這讓很多用戶愿意嘗試。

晚點：正好這幾天正在開 ICLR （國際學習表征會議，International Conference on Learning Representations，AI 頂會之一），大家在會場是如何討論 V4 和同期進展的？

劉益楓：有意思的是，V4 放棄了從 V2 到 V3 使用的 MLA（注：多頭潛在注意力，由 DeepSeek 提出），而目前 K 2.6、GLM-5.1 等模型依然采用 MLA。

其實幾個月前，大家都認為先進的開源模型架構已收斂到 MLA 了，接下來是一些小改進。而 V4 放棄 MLA、重回 MQA（注：多查詢注意力 Multi-Query Attention，是相比原始注意力更低顯存占用和更低推理帶寬的一種改進），這說明模型架構還有很大改進空間。

晚點：MLA 和 MQA 的區別是什么？

劉益楓：簡單來說，MQA 更接近原始多頭注意力（Multi-Head Attention）。相比 V3 的 MLA，它是一種 token-wise（詞元級）的壓縮機制，通過混合使用 CSA 和 HCA 實現 4:1 甚至 128:1 的大尺度壓縮。這時如果繼續保留 MLA，再疊加這些壓縮，實現起來會相當復雜。這可能是 V4 沒有繼續用 MLA 的原因之一。

（注：CSA 是 “壓縮稀疏注意力”，HCA 是 “重度壓縮注意力”。在 DeepSeek-V4 中，CSA 是先壓縮序列、再做關鍵選擇，能從長上下文中定位關鍵信息； HCA 是高度壓縮大量 token 信息，保留壓縮后的全局感知。二者交替使用，能在大幅減少計算和顯存開銷時，既了解全局脈絡（HCA）又能抓到關鍵細節（CSA））

晚點：RadixArk.AI 這次同時完成了 SGLang 壓縮 token 信息對 V4 的推理 Day-0 適配和全參數 RL Day-0 適配。適配過程中，有哪些對 V4 變化的觀察？

趙晨陽：DeepSeek 仍是 Infra 的巨鯨，每年他們發布都會為 infra 優化 “續命一年”。比如說去年的 MLA、DeepSeekMoE（DeepSeek 提出的一種 MoE 混合專家模型架構，最早用在 V2 中）等，我們扎扎實實做了一年，才能在開源框架上跑得比較好。

而 V4 換了一套全新的混合注意力方案。推理側，V4 的混合注意力、雙壓縮和 HashTop-K MoE，意味著前綴緩存、FlashMLA、投機解碼這些鏈路都要重建。我們團隊為接入前綴緩存和投機解碼做了大量優化，拿出了 ShadowRadix、HiSparse CPU 擴展 KV，并完成了英偉達 Hopper、Blackwell、Grace Blackwell、AMD、NPU 的全平臺適配。

（注：HashTop-K MoE：哈希路由混合專家模型。DeepSeek-V4 在前幾層 MoE 模型中引入的新型路由策略。不再依賴模型計算親和度，而是直接通過輸入 Token 的 ID 計算哈希值來固定分配專家。

FlashMLA：DeepSeek 開源的針對 MLA 的高效推理算子庫，專為英偉達 Hopper 架構 GPU 優化。

Blackwell：英偉達最新一代的 GPU 微架構。

Grace Blackwell：英偉達推出的一種新型 “AI 超級芯片” 組合形態。將 Grace CPU 與 Blackwell GPU 物理封裝在了一起。）

RL 側，1.6T MoE 全參數訓練對系統要求很高。六種并行策略（DP、TP、SP、EP、PP、CP）的正確性、訓練與推理的一致性、indexer replay、FP8/BF16 混合采樣——任何一環出錯，獎勵曲線就起不來。

（注：indexer replay：在任務被中斷后，通過直接回放歷史執行軌跡或復用已有的 KV 緩存來恢復狀態，避免冗余計算。

獎勵曲線：大語言模型在強化學習階段的核心監控指標，反映模型在特定任務上的表現提升過程。）

晚點：總結來說，你們覺得 V4 是一個怎樣的成果？

趙晨陽：作為工程師，我驚嘆于 DeepSeek 極強的工程能力。訓練時把優化器換成 Muon（矩陣級別優化器，能對整個參數矩陣進行正交化處理），訓練精度推進到 FP4，進一步壓縮顯存和帶寬；推理時引入 DSA（DeepSeek 稀疏注意力）、DeepEP（DeepSeek 通信效率的底層基礎設施庫）、Mega MoE 這一整套 Infra。這里面的每一個名詞，在工程上都是巨大挑戰。這種系統級的耦合優化比單點創新更難，更體現一個團隊的工程深度。

劉益楓：作為算法研究人員，我更佩服 DeepSeek 的藝高人膽大。不僅引進了 mHC（流行約束超連接）、起始層哈希路由等技術，還大膽使用了 CSA 和 HCA 等 token-wise 的壓縮技術，創新性使用了不同于一般實踐的 Muon 超參數，甚至放棄了既有的 MLA 架構。同時一如既往地在并行訓練、訓練精度調節等方面給業界帶來新東西。

V4 技術報告里的中國芯片和 “消失的成本”

晚點：DeepSeek 從 V3.2 preview 到 V4，中間隔了 7 個多月，但不管是 Kimi、Qwen、GLM、MiniMax 還是 GPT、Claude，主流模型的版本號都切得越來越細，更新很密集。這背后反映了什么不同思路？

趙晨陽：OpenAI 或 Anthropic 的版本號更像 “產品語言”：頻繁更新是因為龐大的用戶群需要持續感知模型進步。DeepSeek 版本號更像 “研究語言”，每次主版本更新都對應一次重大架構變化。

這種差異由組織結構和商業模式決定。前者要求研究與產品節奏高度咬合，后者則擁有更大的自由度集中力量辦大事，但也要求每次出手都足夠有分量。

劉益楓：模型版本命名有兩種派別。DeepSeek、Kimi 的大版本號代表模型結構的重大改變；而 Claude、GPT 等模型的大版本號更多代表功能、能力改變，比如 GPT-4 融入了多模態能力、GPT-5 提高深度推理能力。

這背后也反映做模型的兩種不同傾向：中國的開源模型更追求工程優化；美國的閉源模型更追求提出和開辟新的能力方向。

晚點：為什么 V4 的訓練時間比預期更長？據我們了解，DeepSeek 原本希望春節前后發 V4。

趙晨陽：具體發布計劃外界無從知曉，但從技術上可以推測，V4 一次性引入了至少四個互相耦合的新東西：混合注意力、mHC、Muon 優化器和 FP4 訓練。任何一個單獨上線都需要大規模 debug，四個一起上的復雜度更是組合式爆炸。

特別是在如此大規模的 MoE 上穩定地跑 Muon，以及真正跑通 FP4 訓練，這都是非常前沿的嘗試。

這次 V4 博客里的一句話很好：“率道而行，端然正己。” 我還想加上《道德經》里我很喜歡的一句話：為而不恃，功成弗居。創造萬物卻不占為己有，功業成就卻不自我夸耀。

劉益楓：這次的一個亮點是 DeepSeek 原生支持國產芯片。從零開始為國產算法編寫優化算子的工程量比較大，這可能是他們開發時間偏長的原因。不過在 V4 訓練階段，外界普遍推測他們用的仍是英偉達芯片。

（注：V4 技術報告第三節 “Infra” 一章中提到，DeepSeek 在華為昇騰芯片上驗證了細粒度并行 EP 方案的技術可行性，這說明 DeepSeek 做了國產芯片的推理適配。原文為：We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms.）

晚點：晨陽提到 “率道而行，端然正己”。他們引用的是荀子《非十二子》，前面還有兩句——“不誘于譽，不恐于誹”，不被贊譽裹挾，也不懼質疑和批評。

劉益楓：從 DeepSeek 的致謝名單來看，離職人員比例大概在 5% 左右。相比其他公司，這個流動率挺低。所以我覺得 “不誘于譽” 不僅是公司理念，也是 DeepSeek 研發人員的心境。

趙晨陽：“舉世譽之而不加勸，舉世非之而不加沮”，是一種很高的境界。

晚點：這次技術報告和發布推文中都沒再公布訓練成本，為什么？V3 和 R1 引爆市場的關鍵之一就是 557 萬美元的最后一次訓練成本。（注：按參數量和訓練數據量粗略估算，V4 的訓練計算量可能接近 V3 的 3 倍）

趙晨陽：這是一個信號，DeepSeek 不再靠 “成本敘事” 定義自己，而是用模型能力說話。

劉益楓：最后一次訓練成本往往是總成本的幾十分之一。前沿探索和對比驗證的實驗成本，人力和數據成本才是主要開支。所以公布這個成本本身沒太大意義。

晚點：R1 當時爆火的另一個原因是，它以開源方式驗證了測試時擴展（test-time scaling）的新范式。而這一次，V4 是不是并沒有帶來這個級別的范式變化？

趙晨陽：R1 是開源世界里第一個走通 Long Reasoning 這條路的模型。V4 也是 follow 了 R1 的范式，定位是 “在這個范式下解決計算瓶頸”。

我覺得 “范式變化” 在 AI 圈被說得太多了，它本來是十年一遇、甚至更稀少的事。Transformer、scaling law、RLHF（基于人類反饋的強化學習，一種對齊方式）、測試時擴展，這些是范式。但每隔半年就要找一個 “新范式” 的行業恐怕有些問題。

更值得問的問題是：沿著現在的 LLM 范式繼續優化，還有多少空間？上限在哪兒？

我判斷還有相當大的空間，但每一步都更難。V4 這種系統級耦合的工程優化，會成為接下來一兩年的主旋律——大家會競爭誰能把許多分散的優化做成一個能跑起來的整體系統。這很工程，但商業價值很大。

劉益楓：與其從方法論的角度解釋范式變化，不如把它理解為一個新的模型能力領域，比如之前的長文本能力、agent 能力、幻覺控制能力等。

提出新的能力領域，這才是目前大語言模型需要重點做、不斷做的事情。現在的問題不是 “能不能做到”，而是 “我們還不知道有哪些需要做的”。

從這一點來說，V4 帶給我的震撼遠不如 R1，甚至不如 Kimi 最早提出長文本能力時帶來的感受。

晚點：那你看到了什么現在還在萌芽、未來可能重要的能力方向？

劉益楓：比如 AI 的 “自我意識”。目前 AI 還是人類的工具，它是否能擁有自己的意識，更自主地行動？

趙晨陽：我認為有個重要的能力是 “減少推理量”。很多事情并不需要那么多推理，token 應該用在更重要的事情上。現在的模型有點兒被 infra 優化慣壞了，在上下文長度上太鋪張浪費。

量化看，性能與效率

晚點：接下來我們來量化看一下 V4。首先是性能上，兩位怎么看 V4 的 Benchmark 選取和分數表現？

趙晨陽：V4 明顯測了更多和 agentic 相關的 Benchmark，尤其強調工具使用、多步規劃等。整個行業從去年年中開始就有這個轉向：做事和完成任務比 “答得對” 更重要。

這里也正好解釋一下，Benchmark 大概有幾種邏輯：一是離線 Benchmark，測一個問題模型怎么回答，給答案打分；二是在線 Benchmark，把同一個問題或任務發給兩個匿名模型，讓用戶判斷哪個模型更好，這通常被叫做 Arena（競技場）。

DeepSeek-V4 的技術報告里就提到，他們做了一個內部在線評測：公司里的工程師可以自行選擇模型完成任務、給模型反饋。他們比較了很多模型——Claude Opus 4.5、4.6，OpenAI GPT-5.5 等。V4 的分數大概在 Opus 4.5 左右，和 Opus 4.6、GPT-5.5 還是有差距。有 9% 的 DeepSeek 工程師表示，不會將 V4-Pro 作為首選模型。這很坦誠，公司內部的采用意愿非常重要。

這也引出另一個問題，可能是所有優化編程能力的模型團隊都要思考的——這世界上只有極少數的公司在編程上有數據飛輪，而獲取數據的最佳方式是 “被使用”。

劉益楓關于數據飛輪，我有個問題想問晨陽。美國以閉源模型為主，中國以開源模型為主，這是否意味著，很多用戶可能會自己部署開源模型在本地使用，中國團隊更難獲取實際使用數據？

趙晨陽：其實不是的。開源模型上了萬億參數規模后，部署成本很高，個人無法負擔，個人不可能有 H200、B200 或 910B 這種 GPU。大多數模型哪怕開源，也是 host 在第三方云上，本質還是走 API，在第三方會留下痕跡。不過據我所知，國內還是大量在用美國的閉源模型（來編程）。

劉益楓目前 Chatbot Arena 上 DeepSeek-V4-Pro 排名大概在 23 ，比 GLM-5.1 和 K2.6 等都低；在 Artificial Analysis 的 Intelligence Index 的分數為 52 ，也比 Kimi、Mimo 低。晨陽怎么看這個表現？

（注：訪談發生于 4 月 28 日，到 5 月 1 日，V4-Pro 在 Chatbot Arena 上的排名為超越了 K2.6，仍低于 GLM-5.1。）

北京時間 5 月 1 日 19 點，Chatbot Arena 的排名。

趙晨陽：選擇某款模型是需要一定信仰的，我愿意為了我的信仰無視這些分數。（笑）

劉益楓：確實，刷榜不是目的。

趙晨陽：體感上，一流模型的能力已經很難區分。在非常微小的差距里排先后意義不大。

我一直用 Claude Code，有一天我們公司的 Claude 因賬單原因被下線，我就去用了 Codex。我發現，離開了 Claude，外面的世界完全沒有下雨。

晚點：前面我們討論了性能，效率上，V4 技術報告里提到：在百萬級上下文中，DeepSeek-V4-Pro 的單 token 推理 FLOPs（衡量計算量，對應計算資源）是 V3.2 的 27%，KV 緩存占用（對應存儲資源）是 V3.2 的 10%。這個效率提升程度屬于行業正常水平還是比較驚人？

趙晨陽：V3.2 發布時，DeepSeek 提到，即便大幅降價，他們自己的推理服務仍有利可圖。

不過需要注意的是，這種提升有一個重要前提：上下文越長、優勢越明顯。如果只是幾千 Token 的輸入輸出，效率提升并不顯著。當然，現在的實際使用中，幾千 Token 可能連 system prompt 都打不住，所以日常使用的感受應該挺明顯的。

晚點：這是不是也意味著，V4 的效率優化對 Agent 場景很有用？因為處理多步復雜任務的 Agent 框架是需要很長上下文的。

趙晨陽：是的，Agent 會很有收益。

劉益楓：不過，也有用戶反映，V4 在解決同一個問題時，token 消耗比之前要大了。這部分抵消了效率優化的體感。

晚點：這就是晨陽剛才說的他認為需要提升的能力 “減少過度推理”。為什么模型更新后，解決同一問題的推理 token 消耗反而變多了？

趙晨陽：我之前在小紅書發過一篇文章，說現在的 token 浪費有種 “拿高壓水槍澆花” 的美感。

模型會誠實地反映訓練數據，token 消耗變多，說明在訓練中確實存在用更長上下文解決相同問題的情況，這些吐出來的回答可能又成為訓練的材料，這就形成壞循環，解決同一個問題需要的 token 越來越多。

劉益楓：其實這個問題一直存在，之前大家就在想解法，比如 K1.5 的報告里的 “長度懲罰”，當回答同一問題時，會懲罰更長的回答。但即便如此，這個趨勢仍不可逆地發展，因為對各個團隊來說，優化模型解決問題的能力還是會優先于優化推理的簡潔。

V4 的具體創新和改進：Infra 巨鯨的四連擊

整體思路：極致的稀疏

晚點：DeepSeek-V4 仍然是一個 MoE 模型，但前面也提到，這次模型架構和 Infra 都有較多變化。你們怎么理解 V4 的整體架構思路？

趙晨陽：V4 整體保留了 DeepSeekMoE 框架和 MTP （Multi-Token Prediction，即 “多 token 預測”，允許模型一次性預測多個 Token）策略，但在四個層面做了改造：注意力，用了混合稀疏注意力；殘差，使用了 mHC；優化器，在這么大的模型規模上使用了 Muon；以及 infra 的變化，其中兩個關鍵詞是 TileLang 和 FP4。

這四件事的共同主題是：讓 1M 上下文從 “理論可行” 變成 “成本可接受”。

劉益楓：V4 進一步提高了稀疏比，這對算法和底層算子開發，尤其是訓練階段的算法和算子提出了相當高的要求。它需要保證 MoE 的各專家之間訓練程度的平衡及 token 路由的平衡。

另外一個創新是在前幾層 MoE 中用了哈希路由，來分配 token 到各專家，從算法上避免前幾層專家路由高度集中的問題。

此外，DeepSeek 這次沒有在 V4 上應用 Engram（DeepSeek 2026 年 1 月提出的條件記憶技術）。一方面可能是因為 Engram 對性能的提升有限，但對部署又有較大挑戰。另一方面，基礎模型在訓練過程中也會自動學習 N-gram（連續 N 個 token 組成的局部片段，可以理解成一些常見表達、固定搭配，模型訓練中會自然學到這些短程上下文）能力，Engram encoder 更多起到輔助和信號加強作用。

趙晨陽：這次 V4 的激活比（激活參數比模型總參數）確實是這一波模型里最低的。V4-Pro 是 1.6T 總參數下，激活參數 49B，也就是約 3%，比先前已經很低的 Kimi K 2.6 更低。

總參數越大、模型容量越高；激活參數越小、推理成本越低。MoE 的核心價值就是把這兩個量解耦，而 V4 把這種解耦推到了目前業界最激進的位置。

晚點：正好這里補充一組數據，在激活參數比總參數的比例上，DeepSeek-V4-Pro 剛超過 3%，而 V3 時是 5.5%。其他近期模型中，K 2.6 是 3.2%，MiMo-2.5-pro 是約 4.1%，MiniMax M2.7 是 4.35%，GLM 5.1 是 5.3%。

趙晨陽：這一連串數，大家可能聽起來像在雕花，但很反映工程能力，從 4% 降到 3%，比從 5% 降到 4% 要難得多。不是說其他團隊做不到，而是大部分團隊會選擇穩扎穩打，DeepSeek 選擇繼續推到極限。

當然，激活比也不是越低越好。比例太低會帶來負載不均、專家訓練不充分、路由抖動等問題。DeepSeek V3 就討論過，路由負載均衡是否應該納入 loss（損失函數）。能把 3% 的激活比例穩定訓下來，本身是工程能力的證明。

注意力機制：CSA 和 HCA 如何組合工作

晚點：2025 年年初 DeepSeek 提過 NSA（原生稀疏注意力），同年 9 月又在 V3.2 上用了 DSA，這次則是使用了組合 CSA 和 HCA 的新的混合注意力機制。這次的核心改進是什么？主要解決什么問題？

劉益楓：V4 的每一層都同時跑滑動窗口注意力（SWA）和一種長距注意力（CSA 或 HCA）。CSA 是稀疏路線，在序列維度做 4:1 壓縮后再做 top-k 選取；HCA 更激進，做 128:1 的壓縮，但保持稠密注意力。（4:1、128:1 是指把 4 個 token 聚合成一個表示和把 128 個 token 聚合成一個表示，所以說 HCA 的壓縮更激進）

每層用 CSA 還是 HCA 是預定義的，因此面對同一個長上下文，不同層會從不同視角去看——稀疏層（CSA）精確鎖定關鍵 token，稠密層（HCA）提供整體語義概覽。

晚點：這套新的注意力機制對 Infra 的影響是？

趙晨陽：改動還是挺大的。對 RadixArk 和 SGLang 來說，適配這個混合方案的復雜度主要是前綴緩存的一致性。所以我們設計了 ShadowRadix 來應對——三個異構 KV 池（SWA / C4 / C128）加兩個壓縮狀態池，要在預填充、解碼、投機解碼三個階段保持同步。這是 V3 時代不需要解決的問題。

（注：預填充，Prefill，指在推理的初始階段，模型一次性并行處理用戶輸入的整段 prompt，計算并生成已知文本的 KV 緩存，快速吃透內容。

解碼，Decode，是常規生成階段。模型用預填充階段產生的緩存，開始自回歸地生成回答，一般解碼是逐個 token 吐出的，這是推理的速度瓶頸。

投機解碼，Speculative Decoding，是加速解碼的技術。它不再逐個 token 生成，而是一次性 “猜” 出多個未來的 token 并交由主模型批量驗證，可大幅提升速度。）

此外，我們最近發的 HiSparse 把稀疏注意力的 KV 卸載到主機內存，在長上下文場景能拿到 5 倍吞吐。V4 這種把計算 / 顯存成本壓到 27% / 10% 的模型，要在生產環境跑出商業價值，就需要 ShadowRadix、HiSparse 這類底層能力的同步推進。

優化器：Muon 已成檢驗大模型團隊工程能力的試金石

晚點：V4 里還有兩個很重要的變化，一是殘差上，使用了 DeepSeek 去年底提出的 mHC，一是業內現在已用得比較多的 Muon。

先說優化器。過去大模型訓練的主流優化器是 AdamW，但從去年到今年，Muon 開始被越來越多的前沿模型采用——OpenAI 在 2024 年底招募了 Muon 的開發者 Keller Jordan；Kimi 2025 年年初開始發布 Muon 的改進版。能否先簡單解釋一下，優化器在大模型訓練里起什么作用？Muon 相比 AdamW 的核心優勢是什么？

劉益楓：一般深度學習網絡的訓練過程，就是讓模型通過損失函數的梯度下降信號不斷更新權重，當權重更新到一個狀態，模型能穩定達成設計目標了（比如預測），就是訓完了，得到了穩定的權重。

但由于模型結構、數據分布等差異，普通梯度下降不太適合大語言模型這類深度神經網絡，所以后來出現了 Adam、AdamW 等帶動量和預條件機制的優化器來幫助訓練。

AdamW 本質上結合了動量和更新量歸一化兩類技術。動量可以讓更新更平滑，歸一化可以讓每一步更新的 scale 更統一，從而穩定訓練。但 AdamW 是元素級別的優化，也就是對每一個參數單獨更新。

Muon 的核心區別在于，它是矩陣級別的優化。對于線性層這類二維參數，它本質上是矩陣乘法，Muon 會把整個矩陣作為整體進行歸一化和優化，這能更好地利用矩陣中不同元素之間的聯系，讓矩陣內不同元素的優化步調更一致，進一步提升訓練效率和推理能力。

晚點：從 Keller Jordan 在 2024 年 10 月提出 Muon 到它后來變得更主流，這個過程是怎樣的？

劉益楓：2024 年底 Muon 剛被提出時，對使用者并不友好。它需要針對不同模塊，如線性層、輸入嵌入層分別調學習率（learning rate，控制模型每次更新參數幅度的核心超參數，太大容易不收斂，太小則訓練極慢），我們當時也第一時間跟進了。

到 2025 年初，Kimi 提出 Moonlight 的改進。因為 Muon 是基于矩陣更新的（矩陣是二維的）所以訓練時涉及一維參數的部分仍會用 AdamW，這就有一個二者之間的學習率的比例問題。

最初 Jordan 沒有確定 Muon 和 AdamW 的學習率比例。Moonlight 的重要貢獻是把這個比例基本確定為 0.2，這樣使用者只需設置一個學習率超參數就能適配整個模型。這讓 Muon 從理論創新走向了大規模應用。

晚點：可以說，是 Kimi 的 Moonlight 和 MuonClip（在 2025 年年中的 K2 中，Kimi 進一步改進 Muon 的版本）改進讓業界開始更廣泛使用 Muon 了？

劉益楓：對。DeepSeek V4 的進一步改進是，它沒有用 Kimi 找的超參數 0.2，而是自己算了一個更精確的 0.18。

Muon 最開始用的是牛頓-舒爾茨五次迭代（一種用于矩陣歸一化或求逆的數值迭代方法），這是一個近似過程。而 V4 采用了十次迭代近似。每多一次迭代會提高計算消耗，但精度會更高，整體速度可能反而更快。

晚點：優化器的變化需要 infra 上做什么調整和配合？

趙晨陽：推理側不需要關心，因為不涉及參數更新；訓練側一定要做適配，而且是大工程，整個開源鏈條要從英偉達的 Megatron 或 Megatron-Bridge（英偉達發布的工具庫，主要用于在 Hugging Face 和 Megatron Core 格式之間無縫轉換大模型權重，并提供高性能分布式訓練框架）這一層開始改，再一層層往下傳。閉源訓練引擎怎么實現 Muon 我就不清楚了。

劉益楓：Muon 是矩陣層面的優化，會涉及大量矩陣乘法。如果某個矩陣很大，就需要大量拆分，甚至分布式訓練。AdamW 不一樣，它是每個元素單獨更新，元素本身可以無限拆分。所以這是 Muon 特有的 infra 問題。

另外，預訓練和后訓練的優化器基本要保持一致。而后訓練的 infra 結構更復雜，可能單機裝不下，所以后訓練適配 Muon 會帶來更多結構修改。

晚點：現在還沒有用 Muon 的大模型，是認為 AdamW 仍有優勢，還是沒來得及改？

劉益楓：大部分模型都改用 Muon 了，但也有一部分不太清楚。比如千問就沒有特別提及用的什么優化器。

我個人認為，沒改的是沒來得及改。尤其是后訓練要如果要用 Muon，infra 會很難改。后訓練沒改成，又會導致預訓練就也只能用 AdamW。

晚點：是否使用 Muon，是現階段判斷一個模型團隊 infra 能力的指標之一嗎？

劉益楓：可以這么說。但即便是用 Muon 的模型，在輸入和輸出這種模塊還是得用 AdamW。

趙晨陽：我非常認可益楓說的，優化器是檢驗一個團隊工程能力的試金石。

但關于 AdamW 需不需要拆分倒不一定，這取決于模型體量。模型大到一定程度，不可能完整部署在任何一個節點上，所以 Muon 和 AdamW 都需要復雜的并行策略，Muon 只會更復雜。

AdamW 會同時維護動量和速度兩個 state，很多操作是元素級別（element-wise）的，切分相對簡單。比如 ZeRO stage（顯存優化技術）、FSDP（將模型參數、梯度和優化器狀態完全打散分配到整個 GPU 集群中的訓練技術）、TP 對齊（確保被切分的矩陣維度大小能夠被參與并行的顯卡數量整除的技術）的邏輯都更簡單。

Muon 的優勢是砍掉了二階動量，optimizer state （優化器在更新權重時需要持續記錄的內部歷史數據）從兩倍降到一倍，能節省相當多顯存。但它在動量上跑完牛頓-舒爾茨迭代后，還要做正交化。這就不是逐元素過程了，而是更復雜的矩陣計算，必須拿到完整的二維權重。如果參數已經被 TP 或 FSDP 切碎，就要先聚合回來再計算，涉及很多分布式原理。所以可以看到，Kimi 的 K2 只在數據并行（data parallelism）層面做切分，沒有在張量并行上做切分。

現在優化器層已經進入一個非常混雜、復雜的狀態，有 Muon 也有 AdamW。Muon 不是簡單替換 AdamW，而是用大量人力和工程復雜度換取大量顯存和收斂效率。這筆賬值不值得，取決于團隊的工程水平、顯卡數量和模型規模。

劉益楓：而這里每個專有名詞背后都可以對應一篇文章。

殘差連接方式：Seed、DeepSeek、Kimi 的激發與碰撞

晚點：聊完優化器，來聊聊 V4 的殘差連接方式。這次 DeepSeek 引入了 mHC，這是一個怎樣的改進？

劉益楓：mHC 之前，字節 Seed 先提出了 HC（Hyper-connection，超連接），思路是擴展層與層之間的信息流寬度。以前的 Transformer，層之間只有 d 維的信息流寬度；但現在是 d 維上加了 channel 維，信息流寬度變成 d x c，推理能力顯著提升。

不過原本 Hyper-connection 的數學原理導致梯度回傳和訓練不穩定，所以 Seed 發了這個成果后，社區反響并不強烈。

而 DeepSeek 的 mHC 加入了 Sinkhorn 算法（一種數學歸一化算法），主要用于約束路由和注意力分布，使其更均衡、數值更穩定，能在一定程度上改善訓練過程的穩定性。

這個改進既需要對 HC 的潛力判斷和細致分析，又需要基于內觀指標，如梯度的 scale、激活值，從現象倒推怎么解決這個問題。

補充一點，Kimi 也剛剛在 3 月初提出了 Attention Residual，它有點像 DenseNet（主要用于 CNN 卷積神經網絡的一種密集連接結構，每層與之前所有層直接連接），直接跨層相連，第一層可以直接影響最后一層。

mHC 和 Attention Residual 方法不同，但有異曲同工之妙——都是 layer-wise（層級別）地改進信息流。

晚點：這兩種方法的區別是什么？你認為哪種上限更高？

劉益楓：實驗室更傾向搞 mHC，因為資源有限，mHC 的 Infra 實現更簡單。

Attention Residual 對 Infra 的要求更復雜，它對每層之間關系有一個更精確的描述，我認為它的上限可能更高。

晚點：mHC 對推理框架的影響是什么？

趙晨陽：mHC 把簡單添加殘差這件事變成了一個需要混合 GEMM（通用矩陣乘法，深度學習中最核心、最密集的數學操作）和 Sinkhorn 歸一化的復雜操作。

帶來的挑戰是：先前的算子對于 mHC 不夠高效，我們需要為 mHC 單獨寫一些新的 kernel（算子核，可以簡單理解為直接給 GPU 發的指令代碼，告訴芯片底層怎么做基礎運算）。為新算法定制新 kernel 在 V3 之前并不頻繁。但比較欣喜的是，我們現在有了更多、更好的工具，如 TileLang。

Infra 兩個關鍵詞：TileLang & FP4

晚點：正好你提到了 TileLang，接下來就是想聊 DeepSeek-V4 報告里 infra 部分使用的 TileLang 語言和 FP4 訓練精度。簡單來說，這兩個東西是什么，作用是什么？

趙晨陽：先說 TileLang，我喜歡叫它 “太浪”，聽起來像拳擊大師的名字。

infra 要做的是在計算路徑相同的情況下加速計算。比如寫 kernel，就是結合底層硬件特性優化計算。同樣一個 4096 乘 4096 的矩陣，可以按 128 拆，也可以按 256 拆。不同硬件的顯存、帶寬不同，適合的拆分方式也不同。總之 kernel 就是讓底層的矩陣計算更快。

寫 kernel 的語言，通常大家會對比 CUDA、Triton 和 TileLang：

CUDA 是英偉達的護城河，性能最高，但開發和維護成本也最高。

Triton 由 OpenAI 開源，它降低了寫 kernel 門檻，但犧牲了一些表達能力和性能。同一個 kernel 用 Triton 寫，效率可能比 CUDA 低不少。

TileLang 走在中間，是北大團隊發起的一個項目：它比 Triton 更底層、表達能力更強，又比 CUDA 更好用，是國內發展起來的優秀開源項目。

V4 報告提到，他們可以用 TileLang 把一些 kernel 的啟動開銷壓縮到微秒級，也提升了 “位級可重現”，就是一個 prompt 輸入給 V4 后，如果用 TileLang，兩次前向推理（神經網絡從輸入到輸出的計算過程）的結果更容易復現，這對推理工程師 debug 很有幫助。

TileLang 的長期價值是大大降低了為新算法快速開發新 kernel 的邊際成本。

DeepSeek 提出 mHC 時也寫到，他們為 mHC 做了一版 TileLang 的 kernel。我們 SGLang 團隊也針對推理場景的小批量解碼做了 split-K（把矩陣乘法中的 K 維度拆開并行計算，以提升小批量場景下的硬件利用率）的 TileLang 版本。最近一年半，TileLang 已開始被全球前沿 lab 當作算法實現的默認選擇之一。

以前做編譯器這一層很苦，但現在大家也看到了它的重要性。

晚點：你提到編譯器和 DSL 底層語言，讓我想到五年前采訪鴻蒙當時的負責人王成錄，他提到十年前想做操作系統時，在國內很難招到會匯編語言的人才。

趙晨陽：做編譯器一直是非常偉大的事業，但也很苦、離商業遠、不被關注。

晚點：TileLang 最初是北大楊智老師團隊發起的，后來也有很多社區貢獻。那如果 TileLang 這類開源生態越來越繁榮，和 CUDA 長期會是怎樣的關系？是更豐富 CUDA 的生態還是形成競爭？

趙晨陽：很難說。就像模型廠商會發技術報告，大家彼此借鑒，但也存在競爭。

劉益楓：TileLang、Triton 和 CUDA 的關系，有點像 C++ 和匯編語言，或者 Python 和 C 的關系，是不同層級的語言，CUDA 更底層。

晚點：那 TileLang 也可以用在其他芯片廠商更底層的軟件系統上？

趙晨陽：是的，事實上很多中國硬件廠商正在主動支持 TileLang 生態。

晚點：可以說 DeepSeek 在 TileLang 的投入比別人更多嗎？V3.2 里就開始用了。

趙晨陽：只能說他們投入很多，但不一定比其他人更多。其他公司披露的內部技術實現有限。

晚點：這次的另一個變化是訓練時的浮點數精度格式從 V3 的 FP8 變成了 V4 的 FP4。這是怎樣的演進思路？

趙晨陽：FP4、FP8、BF16、INT4 等等都是數值格式，數字代表存儲位寬。比如 BF16 就是用 16 位存一個浮點數，FP4 只用 4 位。

DeepSeek-V3 是第一個把 FP8 做到大規模模型上的工作，到了 V4，他們又實現了 FP4。再往下會不會有更激進的優化和壓縮？非常值得期待。

減少存儲位寬的好處是減少峰值算力，同時提升顯存容量和數據讀取效率。但位寬太小也會導致訓練中梯度溢出或歸零。

DeepSeek 為了解決 FP4 訓練問題，在預訓練和后訓練上都用了很多工程巧思。我比較熟悉的是 QAT 量化感知訓練（訓練時模擬量化誤差以適應低精度部署）。DeepSeek 在后訓練里做了 quantization-aware training，即訓練時模擬量化、采樣時真實量化。

強化學習可以看成兩個階段：先采樣，模型生成回復；再打分，把結果拿去訓練。訓練階段，優化器維持 FP32 主權重，計算前先壓縮到 FP4 范圍，再無損反量化回 FP8 計算。這個偽量化過程沒有真正前向計算，但會體現量化誤差。之后再用 block-wise 的 scale points（縮放系數點，用來校準量化范圍）兜住離群點（數值異常偏大的參數或激活），讓模型提前適應低精度損失。采樣階段則做真實 FP4 量化，把 FP4 權重真正用于采樣，降低訪存瓶頸，實現物理提速。更重要的是，這和后續模型部署一致。現在 DeepSeek 發布的 checkpoint（模型權重文件）也是 FP4，訓練中采樣用的權重就是最終發布權重，而不是先訓練 FP8 再量化成 FP4。這樣損失更小，也提升了強化學習效率。

強化學習里，模型越大、token budget（單次推理可生成的最大 token 數量上限）越長，采樣越重，可能占到 70% 以上時間。采樣時降低位寬和顯存讀取壓力，對速度提升很明顯。所以訓練時偽量化、采樣時真實量化，在 DeepSeek 論文里有很強體現。Kimi 的 K2 也用了類似思路。

我們 SGLang 的 RL 團隊去年也做了兩個相關工作：FP8 全流程強化學習，訓練和推理都用 FP8；還有 INT4 的 QAT。INT4 和 FP4 不完全一樣，但也屬于激進壓縮方案。

實事求是地說，在開源領域，我們團隊的量化 RL 做得比較領先，但和 DeepSeek 還有差距。我們的 INT4 量化感知訓練，采樣做的是 W4A16，也就是權重 4 位、激活值 16 位，DeepSeek 做到了更極限的 W4A8。極致性能上，他們走得更遠，這也是我們接下來要繼續攻堅的方向。

晚點：如果 DeepSeek 把官方推理框架開源，它和其他開源推理框架會是什么關系？

趙晨陽：這涉及開源和閉源推理框架的哲學區別。開源推理框架是眾口要調，不只支持 DeepSeek，也要支持小米、智譜、MiniMax、Kimi 等模型。這種整合性，是它和閉源內部推理引擎的重大區別。

晚點：它給開發者或用戶的價值是什么？

趙晨陽：最大價值是滿足很多公司本地部署推理引擎的需求，而開源推理引擎的性能提升，也會反過來促進閉源推理引擎。

訓練上也類似。閉源仍領先不少，但開源能讓整個領域更透明。以前開源框架對 RL 的適配負擔很重，一個模型 2 月上線，可能到 5、6 月才有開源 RL 框架能跑起來。這次 SGLang 在發布當天就支持了 V4 RL 適配。

RL 和推理關系很近。推理是不帶參數回傳的前向傳播，強化學習則重在采樣，采樣后做參數回傳。我們還是很高興能在這么大的 MoE 模型上同時做好推理和 RL，并把一致性做到極致。

我也預見到，FP4 已經正式走出硬件廠商的 PPT，成為開源語言模型世界里真正跑通的工業標準。

晚點：目前在這么大規模的開源模型里，FP4 是不是只有 DeepSeek 用了？

趙晨陽：OpenAI 的開源模型 gpt-oss 也是，但大家技術選擇不完全一致。只能說 FP4 是全世界都在努力的方向。

劉益楓：英偉達的開源模型也用 FP4 。Blackwell 卡也是支持 FP4 的。

后訓練：多專家訓練 + 蒸餾的后訓練

晚點：DeepSeek-V4 報告最后兩部分講了訓練過程，包括預訓練、后訓練和測評。這個部分有什么亮點嗎？

劉益楓：一個亮點是預訓練先分裂專家，再做 on-policy distillation（在線策略蒸餾，指在當前模型實際采樣分布上進行蒸餾，而不是只依賴離線固定數據）。最近大家又都在研究 on-policy distillation，但各家做法差別很大。

蒸餾的話，之前 DeepSeek-V3 和 R1 都實踐過，但 V4 是先訓練一些小專家，再把這些專家學到的技能蒸餾出來，節省參數量。訓練中，專家越多，容量越大，但參數量和顯存要求也越高。所以先讓專家學好，再提取專家精華，從而提高最終模型能力。

趙晨陽：他們做的是多專家訓練，本質是在解決多目標優化問題。而同時優化目標的個數，是智力上限的體現。聯合訓練就相當于在多目標 loss surface（損失曲面，損失函數在參數空間的幾何形狀）上找 Pareto 最優（帕累托最優，無法在不損害其他目標的前提下進一步改善任意目標的狀態），但工程里很難同時找到，因為梯度走向復雜，目標沖突嚴重。比如一味 push coding 能力，數學可能變差；數學修好了，指令遵循可能又受影響。

現在先分裂再蒸餾的做法是：在各個目標上找局部最優，再讓一個學生模型擬合多個教師模型的輸出分布。這有點像數學插值，把復雜 loss surface 上的聯合優化，變成在已收斂離散點之間做插值，工程上更穩定可控。

業界之前也有類似嘗試。Qwen 在 post-training 階段提過 multi-stage（多階段訓練或聚合）的專家聚合，學術界也一直有模型聚合、模型 Spawn（從已有模型派生或擴展新模型）這類技術。硅谷前沿閉源模型大概率也有類似思路，只是披露有限。開源生態是這一波中國實驗室對 AI 領域的實質貢獻。

晚點：關于測評部分，前面已有部分討論，還有什么補充嗎？

趙晨陽：有一位 NLP 領域很知名的研究者說過一句話：We cannot optimize what we cannot evaluate，“如果一個東西我們無法評估，我們就無法優化它”。所以我更愿意把這件事叫 eval（評估），而不是 benchmark（測評）。測評面向的是具體任務，發布一兩年后就可能過時。但評估永遠存在。

現在評估也越來越難，因為場景越來越復雜。比如 Claude Code 更新后，常有人說某些方面變差了。我也在想，這類工具到底怎么評估一個 feature 要不要更新？因為做 Agent 的人有很多想法，每個聽起來都有道理，但不可能全都滿足。東西加得太多，體驗反而變差。

整個行業必須把評估做好，否則很容易陷入自欺欺人的循環。

晚點：Opus 4.7 更新后，很多人還是認為 4.6 更好用。

趙晨陽：現在有個詞叫 vibe checking 或 vibe benchmarking。大家已經很難判斷模型好壞，只能根據有限幾次對話說：以前 4.5 能做的任務，為什么 4.7 做不好？

我們已經進入 benchmark 的可信危機。很多模型在 benchmark 上都是 90 多分，但實際差異很大。所以這一代針對智能體能力的評估還沒有形成共識，行業還需要更好的評估基建。

劉益楓：我覺得更重要的是發現和提出新的領域能力，比如 Agent、長程注意力能力。

晚點：V4 是不是沒有提出什么新的領域能力？

劉益楓：對，這也是它沒有那么令人震驚的一點。

趙晨陽：但有一點值得欣喜：這幾代模型沒有明顯退化，之前做得好的任務，后面沒有變差，這很難，代價是模型上下文長度已非常夸張。

講到測評基準，去年 DeepSeek-V3 發布時，我有一篇 ICLR 論文，評估語言模型在 GitHub 上面對刁鉆審核者，提交 PR 并合并的能力。它和數學競賽、SWE-bench（主流代碼能力基準）很不一樣，這個任務在完成編碼后，還要和審核者做多輪修改溝通，再把代碼合并進去。

我很欣喜自己做的 benchmark 得到了更多認可，即便今年已經被刷滿了，但至少成為了 ICLR oral paper（會議口頭報告論文，代表較高認可度）。

比如最近我比較關注的一個基準是 ClawBench，就是評估 OpenClaw 場景下，用戶對模型的滿意度。我也希望到明年，這種類似個人編程助手的 benchmark 能被刷滿。之后肯定還會有新挑戰和應用。

美國追新能力、高定價；中國追性價比、工程極限

晚點：最近模型更新密集，從 3 月底到現在，有小米 MiMo 2.5、GLM 5.1、MiniMax 2.7、K 2.6、Opus 4.7、GPT-5.5 等等。你們覺得大家現在努力的共性是什么？

劉益楓：開源模型的方法和架構在趨同。基座基本都是 MLA，優化器也類似，之前大家用 AdamW 或者 AMSGrad（Adam 的一個變體，通過保留歷史二階矩估計的逐元素最大值，限制自適應學習率波動，從而改善收斂穩定性），現在陸續轉向 Muon 或基于 Muon 微調。

在能力上，Agent 是開源和閉源模型共同重視的方向。大家發現，未來模型商業化可能更多是給 Agent 提供 token，而不是只靠訂閱。

趙晨陽：到底做訂閱制，還是 token by token 計費？我更傾向訂閱制，同時額度用完再收 token 費。實際上大部分用戶用不完訂閱額度，所以訂閱制可能更賺錢。

劉益楓：但很多公司轉向按 token 計費，也是因為現在訂閱的價格真的扛不住。高了沒人買，低了又虧。

趙晨陽：這確實沒有定論。比如 Claude Code 這么成功，但到底盈利情況如何？

晚點：如果今年底 Anthropic 真啟動 IPO，應該能看到財務數據。現在很多視頻生成產品是你說的訂閱加實際消耗，訂閱滿額度后再額外買積分。影視從業者有剛需，客單價也比想象中高很多。

趙晨陽：商業上我很喜歡視頻生成的生態。但壞消息是，開源視頻生成模型和閉源差距很大。

晚點：好像也沒有太多人愿意開源視頻生成模型，這是不是側面說明它確實挺賺錢？迄今比較先進的開源視頻生成模型仍是阿里的通義萬象。

趙晨陽：我最近做語音生成模型，也發現開源模型相比 GPT-4o 那個時代的模型仍有不少差距。這些模型可能是很賺錢。

劉益楓：視頻模型用戶粘性也特別大。相比語言模型，視頻生成模型可能更適合訂閱制。

晚點：現在關注度基本被 coding、通用 Agent 吸走了，因為競爭焦灼，也都是大公司。但視頻或更廣義的 AIGC 可能更創業友好。語音也是，像 ElevenLabs 也在自己的空間里持續發展。以上是各家大模型的共性。那你們觀察到各家的差異是什么？

趙晨陽：開源模型里，DeepSeek 和 Kimi 取向比較接近，工程和創新性都做得比較極限，比如大 MoE、低激活、長上下文和極致成本優化。

GLM、Qwen、MiniMax 則在 RL 訓練端、長上下文落地上有扎實積累。還有小米，MiMo-V2.5-Pro 在 Arena 上的分數比 V4 還高。競爭非常激烈，當然這也給開源推理引擎帶來很大工作量。

晚點：階躍和混元呢？

趙晨陽：階躍在多模態上發力很早，而且我認為多模態遠沒有飽和。

混元最近由姚順雨掌帥，新模型雖然還不在 1T 以上模型的牌桌上，但在 300B 規模上做得很扎實。現在是 3.0 Preview，如果之后上 Pro、進微信端，格局會很有意思。

晚點：中美之間的區別是什么？

劉益楓：總體來說，美國模型更追求領域創新，比如長上下文、多模態融合、Agent 能力，或者像 OpenAI 剛發的 image-2 這種跨躍性能提升。

中國模型更側重性價比。同等能力下，中國模型收費比美國模型低一個數量級。這和中國充足的技術人員儲備、有限的算力資源都有關。

趙晨陽：我之前在 Amazon AGI SF Lab 實習過，也和益楓在字節 Seed 實習過。美國這一代模型的重點是面向智能體的長程任務能力，比如 Claude Code，在多輪 agentic coding 上進步很大。可以想見 RLHF、RLAIF（基于 AI 反饋的強化學習，用 AI 生成的評價或偏好信號來訓練、對齊模型）這些對齊方法經過幾年積累，已經形成很強的數據閉環。

中國團隊的強項是架構創新密度和工程完成度。V4 報告里一次性把混合稀疏注意力、mHC、Muon、FP4、TileLang 這么多事情全部換掉并跑通，這種決心和執行力很罕見。中美路徑和風格不同，但行業在螺旋上升。

晚點：美國模型好像沒有做得那么稀疏，他們不太追求這個。

劉益楓：美國算力相對多，也不一定要這么稀疏。太稀疏會犧牲一些能力上限。

趙晨陽：這也和美國缺少高質量的工程人才有關。

晚點：所以美國 AI lab 更傾向于先沖性能。反正模型貴也有人買，之后再考慮降成本。

趙晨陽：對。很多人批評中美大搞 AI 競賽，但我覺得很遺憾，只有中美能搞競賽，沒有其他國家玩得起這一波比賽了。

晚點：V4 或最近這些新模型，會對你們接下來的研究方向和具體工作產生什么影響？

劉益楓：如果在公司實習，我會想做 CSA、HCA 這類 token-wise 壓縮的長文本方向。但實驗室資源有限，很難做長文本，所以我傾向研究 Hyper-Connection、 Kimi 的 Attention Residual。這可能類似從 ResNet（殘差網絡，通過跨層捷徑連接緩解梯度消失問題的經典視覺架構）到 DenseNet 的變化。對 Transformer 架構來說，也可能會出現提高層間信息流動的新趨勢。

另外我也在做優化器。DeepSeek-V4 采用了不同超參數。Muon 怎么進一步改進、超參數怎么設定，都值得研究。Keller Jordan 的五步牛頓-舒爾茨迭代，和 DeepSeek-V4 的十步牛頓-舒爾茨迭代哪個更好，值得繼續探索。

趙晨陽：我之前的一個研究是評估多輪 Agent 在 GitHub 上提交 PR 時的真實表現。現在我需要把它用起來。因為維護開源工具時，會收到很多 AI 生成的 PR，我需要把研究里的標準內化到工作中，判斷哪些 PR 靠譜、哪些應該斃掉。

另外我最近做語音模型，它的工程優化比語言模型差很多，很多語言模型里的工作都可以在語音模型上重試一次。DeepSeek 這版做了很優秀的 PD 分離（Prefill-Decode 分離，將計算密集的預填充階段與訪存密集的解碼階段分配到不同硬件以提升整體吞吐）、MTP 等工作。語音模型未必用得上 PD 分離，但 MTP 很關鍵。比如現在和豆包語音對話，它語音吐出的速度很快。但開源模型在這方面還沒做到這么好。

晚點：最后想問兩位，再過一兩年來看，V4 最可能被記住的是什么成果或者思路？

劉益楓：從算法層面看，可能是 token-wise 的極致壓縮。之前大家更多是在 KV-cache 上做單 token 降維，比如 MLA 的先降維再升維。但 token-wise 壓縮，應該是 V4 首先應用到了工業級模型上。

趙晨陽：我和益楓觀點類似。長上下文、極致低激活比例、低單 token 成本這個組合，無論從架構層面還是基礎設施層面看可能都是 V4 的持久遺產。

具體到 mHC 或混合注意力，未必會一直以現在的方式。它們可能像 MLA，是某個階段的最優解，過一兩個周期后會被更優雅的方案替代，當然硬件也會反過來推動迭代。

但 DeepSeek-V4 率先驗證的這套工程配方，會成為后續很多開源大模型的默認起點。在這個意義上，DeepSeek 一直是開源模型的參考基準。

更多技術討論，可聯系兩位播客嘉進一步交流：

趙晨陽（wechat：LoveDeathAndLLM）、劉益楓（wechat：lauyikfung20）

題圖來源：PinkPantheress-Romeo

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.