網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全網(wǎng)最強(qiáng)萬(wàn)字解讀：DeepSeek-V4 掀翻了誰(shuí)的桌子？

2026-04-28 12:35:46　來(lái)源: 雷峰網(wǎng)

北京舉報(bào)

分享至

“370倍的鴻溝，不只是限時(shí)促銷。”

作者丨岑峰

GPT-5.5 “大杯版”的輸出價(jià)格是 130 美元/百萬(wàn) Token，而 DeepSeek-V4 只要 2.5 元人民幣。在同樣的智能水位下，兩者的成本差了整整 370 倍。

這絕非一場(chǎng)互聯(lián)網(wǎng)式的“補(bǔ)貼大戰(zhàn)”或限時(shí)促銷，而是一場(chǎng)已經(jīng)持續(xù)了四年的中國(guó)特色“效率革命”。在 Agent 時(shí)代，當(dāng)長(zhǎng)程任務(wù)的一致性需求迫使 Token 消耗量呈指數(shù)級(jí)增加時(shí)，DeepSeek-V4 延續(xù)了其“用更少的資源做更多的事”的硬核傳統(tǒng)，再一次以極致的壓縮方案，將百萬(wàn)上下文的門檻從“奢侈品”變成了“日用品”。

但省錢從來(lái)不是免費(fèi)的午餐。每一次效率的跨代領(lǐng)先，都在系統(tǒng)復(fù)雜度、生態(tài)鎖定和能力邊界上埋下了伏筆。為什么 OpenAI、Anthropic 始終堅(jiān)守稠密模型與原生長(zhǎng)窗？DeepSeek 與昇騰芯片的深度軟硬綁定，究竟是國(guó)產(chǎn)替代的曙光，還是構(gòu)建了新的技術(shù)孤島？當(dāng)大模型競(jìng)賽進(jìn)入“系統(tǒng)戰(zhàn)爭(zhēng)”的深水區(qū)，誰(shuí)能定義下一個(gè)十年的 AI 基礎(chǔ)設(shè)施？

在Deepseek V4發(fā)布當(dāng)天的GAIR Live圓桌上，雷峰網(wǎng)聯(lián)合創(chuàng)始人岑峰對(duì)話三位行業(yè)專家：

數(shù)勢(shì)科技創(chuàng)始人兼CEO黎科峰
智源系統(tǒng)智能研究組研究員劉廣
清昴智能技術(shù)負(fù)責(zé)人楊澤乾

從產(chǎn)業(yè)競(jìng)爭(zhēng)、系統(tǒng)生態(tài)和技術(shù)架構(gòu)三個(gè)維度，拆解DeepSeek-V4的效率賬本。

四次"掀桌子"，掀的是不同的桌子

DeepSeek的"掀桌子"不是一生只有一次的事件，而是一場(chǎng)分階段、分維度的系統(tǒng)性進(jìn)攻。黎科峰將V2到V4的四次發(fā)布拆解為四個(gè)不同的戰(zhàn)場(chǎng)：

V2掀的是"價(jià)格桌"：KV Cache壓縮90%以上，API價(jià)格打到GPT-4的1%；
V3掀的是"訓(xùn)練桌"：不到600萬(wàn)美元訓(xùn)練出GPT-4o級(jí)模型，證明了中國(guó)團(tuán)隊(duì)可以用極低成本做出世界一流基座；
R1掀的是"推理桌"：30萬(wàn)美元純強(qiáng)化學(xué)習(xí)涌現(xiàn)出CoT能力，讓全球看到推理模型不必依賴天價(jià)算力。
而V4掀的，是"系統(tǒng)桌"：在 GLM、Kimi、Qwen、Gemini 等強(qiáng)手環(huán)伺下，V4 不僅補(bǔ)齊了 Coding、數(shù)學(xué)與長(zhǎng)上下文的短板，更完成了對(duì)昇騰 910B 算力的徹底適配與 FP4 量化支持。

黎科峰指出，V4 的真正不同在于：它不再是“從 0 到 1”的驚喜，而是在“從 1 到 100”的正面戰(zhàn)場(chǎng)上，用工程能力和系統(tǒng)效率硬碰硬地贏了。

這種進(jìn)化軌跡如同喬布斯提到的“連點(diǎn)成畫”（connecting the dots）：分散的效率突破，最終拼出了一幅完整的、獨(dú)立于 CUDA 生態(tài)之外的 AI 基礎(chǔ)設(shè)施圖景。

2%的算法暴力美學(xué)

在 DeepSeek-V4 的技術(shù)報(bào)告中，最令業(yè)界震撼的數(shù)字莫過(guò)于“2%”。在 Transformer 架構(gòu)統(tǒng)治大模型的今天，長(zhǎng)序列處理產(chǎn)生的 KV Cache 始終是顯存消耗的“黑洞”。

楊澤乾指出，DeepSeek 的進(jìn)化本質(zhì)上是一場(chǎng)“存量空間的戰(zhàn)爭(zhēng)”。V2 引入 MLA 壓縮了 90% 的緩存空間；而 V4 進(jìn)一步祭出了 CSA（壓縮稀疏注意力）與 HCA（混合注意力）的組合拳。這不僅是數(shù)學(xué)上的奇跡，更是工程上的大膽取舍。

楊澤乾認(rèn)為，DeepSeek 將計(jì)算復(fù)雜度從傳統(tǒng)的 O(n2) 壓向了接近線性。這意味著，百萬(wàn)級(jí)長(zhǎng)文本從此前的“奢侈品”變成了“日用品”。這種“極致壓縮”路徑，雖然在極端長(zhǎng)度下可能存在檢索性能的衰減，但它解決了“能用”和“好用”的門檻問(wèn)題。

這種架構(gòu)的復(fù)雜性，被嘉賓們稱為“算法的暴力美學(xué)”。它反映了這樣一種技術(shù)之美：在算力極度稀缺的背景下，中國(guó)工程師選擇用更復(fù)雜的系統(tǒng)邏輯，去對(duì)沖硬件資源的匱乏。當(dāng)百萬(wàn)級(jí)長(zhǎng)文本不再是需要慎重使用的“昂貴資源”，Agent 的長(zhǎng)程思考才真正具備了大規(guī)模落地的經(jīng)濟(jì)性基礎(chǔ)。

效率革命的隱性代價(jià)：選擇即取舍

極致的省錢往往伴隨著復(fù)雜度的代價(jià)。楊澤乾直言，DeepSeek 的每一筆效率收益，都在其他地方留下了賬單：

性能的衰減：CSA 和 HCA 的極致壓縮，導(dǎo)致在 128K 之后的長(zhǎng)序列檢索性能出現(xiàn)不可避免的衰減。這種“遺忘的藝術(shù)”意味著在處理極端長(zhǎng)度的邏輯推理時(shí)，模型可能出現(xiàn)邏輯斷層，這與 Claude 追求的“完美檢索”是截然不同的路線。
架構(gòu)的債：為了省錢，整體架構(gòu)變得極其精巧且復(fù)雜。這雖然在訓(xùn)練側(cè)省下了真金白銀，但在后續(xù)的跨平臺(tái)遷移、不同芯片的算子適配上，會(huì)帶來(lái)極高的工程難度。
MoE 的連貫性瓶頸：作為 MoE（混合專家模型）的極致信徒，DeepSeek V4 總參數(shù) 1.6T 卻只激活 49B，這種“細(xì)粒度路由”雖然效率驚人，但在需要高度全局一致性的長(zhǎng)程 Agent 任務(wù)中，表現(xiàn)仍遜于昂貴的稠密模型。

這些賬單不是缺陷，而是深思熟慮后的選擇。DeepSeek 這種聰明之處在于：它清楚地知道自己在放棄什么，并且成功地將這些“放棄”轉(zhuǎn)化為了極具殺傷力的商業(yè)優(yōu)勢(shì)。

長(zhǎng)上下文的真相：我們只走了一半的路

雖然百萬(wàn)上下文已成標(biāo)配，但劉廣拋出了一個(gè)更尖銳的判斷：“現(xiàn)在的技術(shù)只解決了一半問(wèn)題——能記住，但學(xué)不會(huì)。”

目前大廠的長(zhǎng)文本策略各具特色：DeepSeek 走實(shí)用主義壓縮路線，成本極低；Gemini 走原生架構(gòu)路線，全局一致性好但擴(kuò)展性受限；Claude 追求高精度檢索，是法務(wù)和醫(yī)療場(chǎng)景的首選；OpenAI 則利用推理模型優(yōu)化邏輯深度。

但這些策略本質(zhì)上都是“記憶”而非“學(xué)習(xí)”。模型可以一次性吞下整本《三體》做總結(jié)，但無(wú)法在與用戶的長(zhǎng)期交互中持續(xù)更新權(quán)重、沉淀個(gè)性化的知識(shí)。人一輩子讀的書可能遠(yuǎn)超百萬(wàn) Token，卻能將其內(nèi)化為智慧。大模型的長(zhǎng)文本技術(shù)如果不能跨越從“臨時(shí)緩存”到“權(quán)重更新”的鴻溝，長(zhǎng)上下文就依然只是一個(gè)更寬的、容易被溢出的漏斗。

這意味著，我們還在長(zhǎng)上下文這條路上走了一半，剩下的那一半，是如何讓模型在交互中真正"成長(zhǎng)"。

MoE vs 稠密，不是技術(shù)優(yōu)劣，是生存策略

一個(gè)有趣的地理發(fā)現(xiàn)是：國(guó)內(nèi)“開(kāi)源御三家”（DeepSeek、千問(wèn)、Kimi）不約而同選擇了 MoE 路徑，而 OpenAI、Anthropic 等美國(guó)巨頭仍傾向于稠密模型。黎科峰認(rèn)為，這折射出的是中美兩國(guó)在資源約束下的必然選擇：

美國(guó)路線：核心邏輯是資本驅(qū)動(dòng)的“大力出奇跡”，通過(guò)堆疊芯片和電力維持絕對(duì)領(lǐng)先。
中國(guó)路線：核心邏輯是約束驅(qū)動(dòng)的“極致性價(jià)比”，在算力封鎖和預(yù)算受限的環(huán)境下，通過(guò) MoE 實(shí)現(xiàn)“降維打擊”。

他用一個(gè)比喻道出了本質(zhì)："家里有肉吃，為什么要去吃粗糧？"DeepSeek的MoE+FP4+昇騰綁定，不是"最優(yōu)技術(shù)路線"，而是"受限環(huán)境下的最優(yōu)解"。

但正是這條"粗糧路線"正在展現(xiàn)出驚人的競(jìng)爭(zhēng)力。DeepSeek的API定價(jià)僅為海外大廠的1/10，讓中國(guó)模型在 API 定價(jià)上展現(xiàn)出了顛覆性的優(yōu)勢(shì)。當(dāng)性能接近、成本差一個(gè)量級(jí)時(shí)，商業(yè)化天平就會(huì)發(fā)生傾斜，迫使全球大模型產(chǎn)業(yè)重新思考成本紅線。

從模型競(jìng)賽到系統(tǒng)戰(zhàn)爭(zhēng)

在圓桌的尾聲，三位專家達(dá)成了共識(shí)：大模型產(chǎn)業(yè)正從單純的“算力競(jìng)賽”轉(zhuǎn)向全棧的“系統(tǒng)戰(zhàn)爭(zhēng)”。

黎科峰指出，對(duì)于擁有數(shù)萬(wàn)名員工的科技巨頭，如果全員使用 AI 輔助編程或辦公，Token 成本將是天文數(shù)字。“用得起”本身就是最大的競(jìng)爭(zhēng)壁壘。DeepSeek 的護(hù)城河，并不在于它比對(duì)手聰明多少，而是在于它成功地將 AI 從“少數(shù)人玩得起的奢侈品”，變成了“成千上萬(wàn)家企業(yè)工具箱里的日用品”。

劉廣分享的案例更令人震撼：在國(guó)產(chǎn)算力生態(tài)中，以前編寫一個(gè)底層算子需要專家手寫一兩周，現(xiàn)在利用 Agent 輔助只需 10 分鐘。這種效能提升帶來(lái)的價(jià)值，正反向驅(qū)動(dòng)著整個(gè)國(guó)產(chǎn)系統(tǒng)生態(tài)的進(jìn)化。

DeepSeek-V4 的意義在于，它打破了 Scaling Law 只能靠“堆算力、堆參數(shù)”的增長(zhǎng)慣性。它證明了：智能的邊界不僅由芯片定義，更由工程師的想象力和工程能力定義。桌子掀翻之后，最重要的不是誰(shuí)掀的，而是誰(shuí)能在廢墟上重建一個(gè)更便宜、更可控、更具生命力的 AI 秩序。

以下是此次圓桌討論的精彩分享，雷峰網(wǎng)進(jìn)行了不改原意的編輯整理：

1.從“打榜”到“落地”，DeepSeek V4技術(shù)報(bào)告解讀

岑峰：各位嘉賓、朋友，大家晚上好。

昨天這個(gè)時(shí)候，我主持了一場(chǎng)關(guān)于Claw類產(chǎn)品Token焦慮的圓桌。當(dāng)時(shí)我們討論了“記憶是資產(chǎn)還是負(fù)債”的命題。緊接著 DeepSeek V4 便震撼發(fā)布，它通過(guò) CSA（壓縮稀疏注意力）與HCA（混合注意力）的混合架構(gòu)，將 1M 上下文的 KV Cache 壓低至傳統(tǒng)方案的 2%。

換言之，當(dāng)記憶規(guī)模爆炸，DeepSeek 選擇了“遺忘的藝術(shù)”，并以極高的架構(gòu)復(fù)雜度作為支撐。

回顧其路徑，V2 將 KV Cache 壓縮 90% 以上；V3 以不到 600萬(wàn)美元訓(xùn)練出 GPT-4o 級(jí)別的模型；如今 V4 更是將上下文推理成本、1M 上下文的 KV Cache大幅降低。這種極致效率的領(lǐng)先，正在系統(tǒng)復(fù)雜度、生態(tài)鎖定和能力邊界上埋下深遠(yuǎn)伏筆。

今天我們邀請(qǐng)到三位嘉賓，從效率與代價(jià)的角度進(jìn)行拆解并分析：DeepSeek的極致效率意味著什么？中國(guó)開(kāi)源御三家的開(kāi)源 MoE 路線與西方的稠密模型路線將如何分化？下一個(gè)十年的AI基礎(chǔ)設(shè)施如何演變？

按照慣例，我們先請(qǐng)三位嘉賓分享各自視角下對(duì)Deepseek技術(shù)報(bào)告的深度解讀。

黎科峰：最近很熱鬧，GLM、Kimi、Qwen都發(fā)布了最先進(jìn)的模型，在OpenSource榜單上面輪流坐莊。大家都在等 DeepSeek V4，今天它終于發(fā)布，從 Benchmark表現(xiàn)來(lái)看，其綜合感知明顯優(yōu)于此前的開(kāi)源模型，從股市上來(lái)看，DeepSeek概念股今天漲得非常瘋。

這次發(fā)布具有“掀桌子”的意義，核心體現(xiàn)在四點(diǎn)：

第一，真開(kāi)源。DeepSeek 依然堅(jiān)持最開(kāi)放的 MIT 協(xié)議，不設(shè)商業(yè)化限制。在其他幾家大模型紛紛加碼開(kāi)源“枷鎖”的背景下，這種堅(jiān)持極為不易。

第二，V4 徹底適配了華為昇騰芯片并支持 FP4 精度。這標(biāo)志著大模型從訓(xùn)練到推理真正實(shí)現(xiàn)了中國(guó)自主安全可控的閉環(huán)。

第三，價(jià)格。隨著 OpenClaw 等 Agent 產(chǎn)品的火爆，Token 消耗量呈十倍級(jí)增長(zhǎng)。海外閉源模型的高昂價(jià)格讓開(kāi)發(fā)者難以承受，而DeepSeek 將價(jià)格壓到了 25 元人民幣/百萬(wàn) Token， Flash 版本更便宜，十倍量級(jí)。這極大促進(jìn)了多 Agent 生態(tài)的落地。

最后，在關(guān)鍵能力上也有不俗表現(xiàn)， V4的亮點(diǎn)不僅在于降本，更在長(zhǎng)上下文、數(shù)學(xué)及代碼能力上部分反超了海外領(lǐng)先的閉源模型。尤其是編程能力的提升，為大模型的應(yīng)用生態(tài)拓展了巨大的空間。

完全開(kāi)源、低成本、接近世界領(lǐng)先、完整國(guó)產(chǎn)化軟硬件生態(tài)，這四個(gè)核心點(diǎn)放在一起，既好又有用，而且還便宜。

劉廣：DeepSeek V4 的發(fā)布正值大模型從“打榜”轉(zhuǎn)向“落地”的范式拐點(diǎn)。當(dāng)前 Agent 架構(gòu)盛行，產(chǎn)業(yè)界最核心的關(guān)切已聚焦于長(zhǎng)上下文的處理能力與綜合推理成本。

在技術(shù)架構(gòu)上，V4 展現(xiàn)了極致的效率優(yōu)化。其最顯著的突破在于實(shí)現(xiàn)了混合精度訓(xùn)練：在專家層（Expert）使用 FP4 精度，其余部分采用 FP8。這種精度的跨越不僅大幅提升了訓(xùn)練效能，在推理側(cè)也通過(guò)顯著壓縮 KV Cache 開(kāi)銷，極大地降低了計(jì)算量與延遲。以往這類低精度支持高度依賴英偉達(dá)生態(tài)，但 V4 證明了國(guó)產(chǎn)芯片已能逐步適配混合精度量化的訓(xùn)練與推理。這預(yù)示著國(guó)產(chǎn)算力將真正具備支撐超低成本推理場(chǎng)景的能力。

當(dāng)然，國(guó)產(chǎn)生態(tài)在先進(jìn)算法適配上仍存挑戰(zhàn)。DeepSeek 同步發(fā)布的 Tylan 庫(kù)，以及智源支持 8 款國(guó)產(chǎn)芯片的 FlagOpen 平臺(tái)，都在致力于打破這一瓶頸。我們關(guān)注的重點(diǎn)是“系統(tǒng)智能”——即利用 AI 能力反哺底層基礎(chǔ)設(shè)施。

在國(guó)產(chǎn)芯片的算子適配中，我們已開(kāi)始利用 Agent 自動(dòng)化工具完成復(fù)雜算子的精度對(duì)齊與調(diào)優(yōu)。這種“模型能力提升帶動(dòng)底層系統(tǒng)優(yōu)化”的加速循環(huán)，將是未來(lái)的主流方向。DeepSeek V4 通過(guò)開(kāi)源方案大幅壓低 Token 成本，為整個(gè)國(guó)產(chǎn)算力生態(tài)向極致效能演進(jìn)提供了關(guān)鍵牽引。

楊澤乾：DeepSeek V4 技術(shù)報(bào)告中最令人震撼的突破，首先在于其對(duì)注意力機(jī)制的革命性優(yōu)化。長(zhǎng)期以來(lái)，Transformer 架構(gòu) O(n^2)的計(jì)算復(fù)雜度始終是長(zhǎng)序列處理的瓶頸。雖然業(yè)內(nèi)在探索 Mamba 等新架構(gòu)，但其成熟度尚不及“MoE + Transformer”組合。此次V4 通過(guò) CSA（壓縮稀疏注意力）與 HCA（重度壓縮注意力）的交替式設(shè)計(jì)，將 KV Cache 極致壓縮至傳統(tǒng)方案的 2%，使計(jì)算復(fù)雜度從O(n^2) 降至接近線性。這標(biāo)志著百萬(wàn)級(jí)長(zhǎng)文本從此前的“高門檻消耗”轉(zhuǎn)變?yōu)榈统杀镜摹叭沼闷贰薄?/p>

其次是異構(gòu)算力環(huán)境下的訓(xùn)練穩(wěn)定性。針對(duì)在華為昇騰、華虹等國(guó)產(chǎn)算力底座上進(jìn)行大規(guī)模預(yù)訓(xùn)練的挑戰(zhàn)，V4 引入了 Break-off 投影與 ThinkingHorn迭代方案，實(shí)現(xiàn)了國(guó)產(chǎn)算力底座上的不停機(jī)穩(wěn)定預(yù)訓(xùn)練。同時(shí)，針對(duì) MoE 架構(gòu)，V4 利用 Ingram 機(jī)制有效解決了“模型越大、推理越慢”的行業(yè)悖論。

當(dāng)然，追求極致效率必然帶來(lái)技術(shù)取舍。報(bào)告中提到了長(zhǎng)文本的遺忘性，不會(huì)像Claude或Gemini的超長(zhǎng)文本準(zhǔn)確性那么強(qiáng)，一定長(zhǎng)度之后存在邏輯斷層和精度損失，這是對(duì)極致效率追求的取舍。

此外，為了壓低成本，V4的架構(gòu)變得極其復(fù)雜，這在后續(xù)的推理極致優(yōu)化以及跨平臺(tái)遷移上，增加了額外的工程成本。但總體而言，這些取舍并未掩蓋DeepSeek V4 在國(guó)產(chǎn)算力約束下所展現(xiàn)出的卓越技術(shù)含金量。

2.掀桌子、RL 暴力涌現(xiàn)、OPD 工程權(quán)衡，Deepseek技術(shù)哲學(xué)的進(jìn)化

岑峰：剛才三位老師從不同視角分享了 DeepSeek V4 的架構(gòu)演進(jìn)。楊老師最后提到的“取舍”非常關(guān)鍵。從 V2 到 V4，DeepSeek不斷證明用更少的資源可以實(shí)現(xiàn)更強(qiáng)的性能。但正如業(yè)界所言，極致的省錢往往伴隨著系統(tǒng)復(fù)雜度的代價(jià)。接下來(lái)的核心討論，我們將聚焦 DeepSeek 這種效率優(yōu)先的技術(shù)路線。

請(qǐng)教黎科峰老師：DeepSeek 的歷次發(fā)布常被評(píng)價(jià)為“掀桌子”。從V2、V3、R1 到現(xiàn)在的 V4，您認(rèn)為每一次“掀桌子”有什么不同？它們掀翻的是同一張桌子，還是開(kāi)啟了不同的秩序？

黎科峰：“掀桌子”這個(gè)詞雖然被多次使用，但 V4 與往屆確實(shí)有顯著區(qū)別：

去年的 DeepSeek R1 解決的是“從 0到 1”的問(wèn)題，它首次在開(kāi)源界大規(guī)模實(shí)現(xiàn)了思維鏈（CoT）推理，讓全球看到中國(guó)團(tuán)隊(duì)能以極低成本做出媲美閉源模型的效果。那是從無(wú)到有的驚喜。

而此刻的 V4 面臨的競(jìng)爭(zhēng)格局截然不同。在 V4 發(fā)布前，GPT-5.5、Gemini 1.2 Pro 及國(guó)產(chǎn)的 GLM、Kimi、千問(wèn)等已經(jīng)輪番“坐莊”，已經(jīng)有四波了。V4的壓力在于：如果你發(fā)布后的表現(xiàn)不如對(duì)手，那么“掀桌子”就無(wú)從談起。

經(jīng)過(guò)初步測(cè)試，我們發(fā)現(xiàn) V4 的表現(xiàn)非常堅(jiān)挺，尤其在編程能力上， DeepSeek 早期就主打 Coding，但在此之前，大家在嚴(yán)肅的工業(yè)級(jí)場(chǎng)景中仍傾向于使用海外閉源模型。現(xiàn)在V4 的 Coding能力已經(jīng)達(dá)到了可以作為生產(chǎn)力工具直接創(chuàng)造 AI 產(chǎn)品的水平，這是其能力的重大補(bǔ)齊。

另一個(gè)重要意義是擺脫 CUDA 生態(tài)的限制，智源等機(jī)構(gòu)一直在推動(dòng)國(guó)產(chǎn)算力生態(tài)（如 FlagOS 聯(lián)盟），但由于模型廠商對(duì) NVIDIA生態(tài)的路徑依賴，推進(jìn)難度極大。DeepSeek 此次通過(guò)深度適配昇騰芯片豎起了一面旗幟，在技術(shù)框架層面開(kāi)辟非 CUDA 路徑，這種“掀桌子”是對(duì)算力底層壁壘的直接挑戰(zhàn)，也是我最為看重的。

另一個(gè)加分項(xiàng)，Deepseek始終堅(jiān)持開(kāi)源初心，在友商紛紛收緊開(kāi)源協(xié)議，如將 MIT 改為受限協(xié)議時(shí)，DeepSeek依然保持全值開(kāi)放、無(wú)商業(yè)限制。這種價(jià)值觀的穩(wěn)定性在當(dāng)前的產(chǎn)業(yè)環(huán)境下極具殺傷力。

岑峰：桌子掀翻之后重要的不是誰(shuí)掀的，而是誰(shuí)能夠在廢墟上面重新建立新的秩序。接下來(lái)想請(qǐng)教劉廣老師一個(gè)技術(shù)問(wèn)題：R1 曾憑借 30 萬(wàn)美元的純強(qiáng)化學(xué)習(xí)（RL）涌現(xiàn)推理能力，震驚全球并登上《Nature》封面。但最新的 V4 技術(shù)報(bào)告顯示，其后訓(xùn)練階段已放棄純RL 路徑，轉(zhuǎn)而采用 OPD（在線策略蒸餾）。這種路線轉(zhuǎn)變是否意味著純 RL 的泛化邊界已經(jīng)顯現(xiàn)？

劉廣：您這個(gè)問(wèn)題問(wèn)得非常好。最近強(qiáng)化學(xué)習(xí)的路線一直在討論非常多，agent RL構(gòu)建新的環(huán)境腳手架，基于環(huán)境結(jié)合去做強(qiáng)化學(xué)習(xí)訓(xùn)練，認(rèn)為可以做真實(shí)生產(chǎn)環(huán)境的問(wèn)題解決。DeepSeek又走了另外一條路徑。

大模型是由數(shù)據(jù)、算法、算力這“三駕馬車”驅(qū)動(dòng)的。您剛才問(wèn)的就是算法改進(jìn)，但我看到它在數(shù)據(jù)上也做了很多突破，在硬件上也做了很多突破，主要突破點(diǎn)其實(shí)就是效率。DeepSeek一貫的風(fēng)格就是把整個(gè)訓(xùn)練的效率達(dá)到一個(gè)非常極致的狀態(tài)。

從 Scaling Law來(lái)看，DeepSeek 早在早期模型中就通過(guò)精確擬合找到了高數(shù)據(jù)效率的平衡點(diǎn)，從而將更多算力投入到參數(shù)規(guī)模的擴(kuò)展上。此次V4 將數(shù)據(jù)規(guī)模從 14.8T 擴(kuò)展到 30+T，參數(shù)規(guī)模也從 600B 增加到 1.6T。放棄純 RL 轉(zhuǎn)向 OPD，實(shí)際上是 DeepSeek 在追求極致訓(xùn)練效率下的必然選擇。這種路徑為國(guó)產(chǎn)生態(tài)提供了巨大的信心。

智源推出的 FlagOS也是希望通過(guò)軟件層面的適配支持多元國(guó)產(chǎn)芯片。DeepSeek 的示范作用，能牽引更多人關(guān)注國(guó)產(chǎn)算力的極致效能優(yōu)化。在實(shí)操中我們發(fā)現(xiàn)，這種FP4+FP8 的混合精度訓(xùn)練對(duì)轉(zhuǎn)換精度非常敏感。如果要在國(guó)產(chǎn)算力上用 INT8 或 BF16跑這些權(quán)重，轉(zhuǎn)換過(guò)程中的精度損失是當(dāng)前生態(tài)面臨的重要挑戰(zhàn)。我們將開(kāi)放這些經(jīng)驗(yàn)，助力全行業(yè)解決國(guó)產(chǎn)芯片的適配難題。

岑峰：順著劉老師的回答，我想進(jìn)一步請(qǐng)教楊澤乾老師：DeepSeek 后訓(xùn)練哲學(xué)的轉(zhuǎn)變，是否在為早期追求極致效率而產(chǎn)生的架構(gòu)債“還債”？

楊澤乾：您這個(gè)問(wèn)題問(wèn)得非常專業(yè)且技術(shù)。我認(rèn)為V4 采用 OPD 并非放棄強(qiáng)化學(xué)習(xí)，而是一種更務(wù)實(shí)的工程權(quán)衡。

R1當(dāng)時(shí)出來(lái)證明的是純強(qiáng)化學(xué)習(xí)方式能夠涌現(xiàn)模型能力的上限，但中間是不可控的，CoT思維鏈以及算力消耗都不可控。V4的OPD方式，也就是在線策略蒸餾，采用的是分布式專家的培養(yǎng)模式：先針對(duì)數(shù)學(xué)、代碼、agent執(zhí)行這些領(lǐng)域去獨(dú)立訓(xùn)練專家，用SFT和RL的方式訓(xùn)練，然后再將這些領(lǐng)域的知識(shí)蒸餾到統(tǒng)一的學(xué)生模型中。

這個(gè)方式并不是放棄了RL技術(shù)路線，而是把強(qiáng)化學(xué)習(xí)放到了專家培養(yǎng)的階段，而在整體專家模型的集成階段，選擇了一種更高效、更穩(wěn)定的蒸餾方式。這樣比較好地解決了DeepSeek V4這種萬(wàn)億級(jí)模型在多任務(wù)場(chǎng)景下的性能退化問(wèn)題。

3. 長(zhǎng)上下文與檢索，實(shí)用主義 vs. 完美主義

岑峰：謝謝楊老師。第一輪討論勾勒出一個(gè)清晰的脈絡(luò)：DeepSeek的效率至上既是工程能力的勝利，也是特定約束下的生存策略。每一次領(lǐng)先確實(shí)都有代價(jià)，但每一次里程碑都看到了DeepSeek在不同層面上的嘗試。這有點(diǎn)像喬布斯說(shuō)的連點(diǎn)成畫，從不同的點(diǎn)進(jìn)行嘗試，最后形成一幅完整的畫面。

接下來(lái)我們將進(jìn)入第二輪：百萬(wàn)上下文時(shí)代的技術(shù)路線之爭(zhēng)。長(zhǎng)上下文已從“炫技參數(shù)”轉(zhuǎn)變?yōu)椤盎A(chǔ)設(shè)施”，DeepSeek V4等主流大模型紛紛升級(jí)至百萬(wàn)級(jí)（1M）上下文。請(qǐng)教黎科峰老師，為何長(zhǎng)上下文會(huì)成為當(dāng)前大模型競(jìng)爭(zhēng)的焦點(diǎn)？

黎科峰：競(jìng)爭(zhēng)的核心動(dòng)力在于應(yīng)用驅(qū)動(dòng)。過(guò)去 DeepSeek 在應(yīng)用層相對(duì)后覺(jué)，更關(guān)注 AGI 理想，而千問(wèn)、字節(jié)、GLM 及 Minimax 等廠商早已通過(guò)APP 和開(kāi)發(fā)者生態(tài)搶占灘頭。

這一年的變革極快。Manus 定義了 Agent 的自主規(guī)劃與工具調(diào)用模式，而 OpenClaw 則像是一個(gè)智能體版的 APP Store。這些復(fù)雜任務(wù)的處理需要長(zhǎng)時(shí)記憶支撐。當(dāng) Agent組合多種能力處理長(zhǎng)程任務(wù)時(shí)，拼出的 Prompt極其復(fù)雜，這對(duì)長(zhǎng)上下文的連接能力提出了硬性要求。

DeepSeek V4的升級(jí)是補(bǔ)齊短板的重要一步。雖然它在應(yīng)用層起步較晚，但這次發(fā)布顯示其正反向通過(guò)應(yīng)用需求推動(dòng)模型演進(jìn)。大模型不再是舞臺(tái)中央的唯一主角，而是“搭臺(tái)子”的基礎(chǔ)設(shè)施，唱戲的是百花齊放的專家Agent。百萬(wàn)級(jí)上下文是這個(gè)“臺(tái)子”最關(guān)鍵的基石。

岑峰：報(bào)告顯示 DeepSeek 在 128K 后的檢索性能有所衰減。請(qǐng)教楊老師，對(duì)比 Google Gemini 的原生長(zhǎng)窗、OpenAI的o 系列推理加速及 Claude 的可控長(zhǎng)文本，DeepSeek 這種極致壓縮路徑的優(yōu)劣勢(shì)是什么？

楊澤乾：這四家目前全球 Token 調(diào)用量前四的廠商，在長(zhǎng)文本策略上各具特色：DeepSeek V4是實(shí)用主義，通過(guò) CSA+HCA 極致壓縮 KVCache，大幅降低顯存壓力。其優(yōu)勢(shì)是極低成本與百萬(wàn)級(jí)長(zhǎng)度，適用于大規(guī)模代碼重構(gòu)、架構(gòu)分析及超長(zhǎng)文檔總結(jié)。代價(jià)是全局高密度檢索性能會(huì)有所下降，且MoE 架構(gòu)在處理跨領(lǐng)域知識(shí)融合時(shí)，穩(wěn)定性稍遜于稠密模型。

Claude的路線屬于完美主義，追求最小化壓縮以保持信息完整。優(yōu)勢(shì)是檢索精度和可控性行業(yè)頂尖，處理多任務(wù)調(diào)用能力極強(qiáng)。代價(jià)是成本最高，且在需要全局注意力時(shí)，速度必然受限。它更適合法律、醫(yī)療等高信息密度、對(duì)嚴(yán)謹(jǐn)性要求極高的場(chǎng)景。

OpenAI則是全面主義，走漸進(jìn)擴(kuò)展+推理模型優(yōu)化路線。優(yōu)勢(shì)在于跨模態(tài)能力強(qiáng)（如 GPT-4.6/5.4），通過(guò) o系列模型專門優(yōu)化復(fù)雜邏輯推理。然而，其成本極其昂貴，如剛發(fā)布的 GPT-5.5輸出價(jià)格高達(dá) 130 美元/百萬(wàn) Token，與 DeepSeek 形成鮮明對(duì)比。

Google Gemini屬于二者的均衡折中，堅(jiān)持原生架構(gòu)支持長(zhǎng)上下文，不依賴算法壓縮。優(yōu)勢(shì)在于高密度知識(shí)檢索能力強(qiáng)，工程結(jié)構(gòu)簡(jiǎn)單，全局一致性好。缺點(diǎn)是硬件成本極高，架構(gòu)靈活性有限，主要適應(yīng)通用問(wèn)答場(chǎng)景。

總結(jié)來(lái)說(shuō)，DeepSeek 是以效率優(yōu)先解決“能用、好用”的問(wèn)題；Claude 追求極致精度；OpenAI 覆蓋全高端場(chǎng)景；Gemini則在精度與成本間尋找平衡點(diǎn)。

岑峰：DeepSeek V4 與硬件深度綁定，請(qǐng)教劉廣老師，這種“極致壓縮+低比特量化”是否會(huì)形成硬件的技術(shù)壁壘？跨平臺(tái)遷移是否會(huì)面臨性能損失？

劉廣：DeepSeek 的量化策略確實(shí)與硬件存在較強(qiáng)的協(xié)同關(guān)系，但這并非不可逾越的屏障。

智源 FlagOS 團(tuán)隊(duì)曾嘗試進(jìn)行“反量化”，將低比特權(quán)重升維至 FP16 或BF16。技術(shù)上是可行的，但坑在于量化精度對(duì)操作順序極敏感，反量化過(guò)程中可能出現(xiàn)精度誤差。

目前的長(zhǎng)上下文技術(shù)其實(shí)才走了一半。雖然我們能讓模型“記住”1M 甚至更長(zhǎng)的信息，但這只是暫時(shí)的記憶。AGI 的核心能力是持續(xù)學(xué)習(xí)，即模型應(yīng)隨環(huán)境交互改變其權(quán)重，而不僅僅是堆砌上下文。

在生態(tài)側(cè)，長(zhǎng)上下文為國(guó)產(chǎn)芯片帶來(lái)了差異化機(jī)會(huì)。例如當(dāng)前流行的 PD 分離（Prefilling 與 Decoding分離）技術(shù)，有些國(guó)產(chǎn)芯片適合做預(yù)填充，有些適合做推理。智源也在布局異構(gòu)通信等底層技術(shù)，支持在國(guó)產(chǎn)算力上實(shí)現(xiàn)長(zhǎng)文本推理。總體來(lái)看，這種技術(shù)路線的演進(jìn)正在衍生出大量新的機(jī)會(huì)。

4.MoE 的精打細(xì)算 vs. 稠密模型的擴(kuò)張

岑峰：除了長(zhǎng)上下文，大模型領(lǐng)域另一個(gè)顯著的路線分歧在于MoE（混合專家模型）與稠密模型。

目前，國(guó)內(nèi)“開(kāi)源御三家”（DeepSeek、千問(wèn)、Kimi）均選擇了MoE 路線，而西方巨頭（OpenAI、Anthropic、Google）則在主力模型上依然傾向于稠密模型。黎老師，在 Agent 時(shí)代，這兩條路線將如何演化？MoE與稠密模型之間是否存在相互學(xué)習(xí)的空間？

黎科峰：中美技術(shù)選型的差異，本質(zhì)上是不同資源約束下的必然結(jié)果。

對(duì)于國(guó)內(nèi)團(tuán)隊(duì)而言，技術(shù)選型面臨著“芯片封鎖”與“預(yù)算受限”的雙重壓力。我們必須在算力供給并不充裕、硬件性能稍遜于 NVIDIA頂尖產(chǎn)品的環(huán)境下，通過(guò)軟硬一體化優(yōu)化出極致性能。這就迫使我們走向 MoE這種“精打細(xì)算”的路線。

反觀美國(guó)，雖然現(xiàn)在也面臨電力和基建的瓶頸，但其核心邏輯依然是資本驅(qū)動(dòng)的大手大腳：通過(guò)堆疊更多的參數(shù)、購(gòu)買更多的芯片來(lái)維持領(lǐng)先，形成了一套資本與算力綁定的游戲。

我認(rèn)為中美的這種分化將長(zhǎng)期存在，且各有勝場(chǎng)。

中國(guó)大模型會(huì)在成本維度形成“降維打擊”：當(dāng)國(guó)產(chǎn)模型的成本只有美國(guó)的 1/10，且性能差距縮減到毫厘之間時(shí)，這種成本優(yōu)勢(shì)是極其恐怖的。

不過(guò)，二者目標(biāo)設(shè)定也有差異：中國(guó)團(tuán)隊(duì)的目標(biāo)非常清晰——通過(guò)開(kāi)源和極致性價(jià)比實(shí)現(xiàn)“彎道超車”。這并不是說(shuō)美國(guó)企業(yè)不懂低精度訓(xùn)練或極致壓縮，而是他們的戰(zhàn)略目標(biāo)不在于此。

最終，這兩條路徑會(huì)根據(jù)使用場(chǎng)景進(jìn)行市場(chǎng)細(xì)分：追求極致精度、不計(jì)成本的場(chǎng)景屬于一類；而追求高性價(jià)比、大規(guī)模普及的場(chǎng)景則屬于另一類。DeepSeek在極度受限的條件下優(yōu)化出的非 CUDA 生態(tài)路徑，讓我們看到了打破壟斷的希望。

岑峰：我們注意到，在針對(duì)復(fù)雜編程任務(wù)的評(píng)測(cè)（如 SWE Pro）中，DeepSeek V4（55.4%）略遜于稠密模型Claude 4.5（57.3%）。這是否說(shuō)明 MoE 的專家分工模式，在需要長(zhǎng)程規(guī)劃和高度統(tǒng)一表征的 Agent 任務(wù)中，不如稠密模型穩(wěn)健？

楊澤乾：MoE 架構(gòu)在處理復(fù)雜 Agent 任務(wù)時(shí)，確實(shí)面臨“連貫性”的天然挑戰(zhàn)。

以 DeepSeek V4 為例，其總參數(shù)量高達(dá) 1.6T，但單個(gè) Token僅激活其中的 49B（約 3%）。這種動(dòng)態(tài)路由機(jī)制雖然能以更小的計(jì)算量處理海量參數(shù)，但無(wú)法像稠密模型那樣讓每一個(gè)Token 都經(jīng)過(guò)全部參數(shù)的統(tǒng)一處理，容易導(dǎo)致在長(zhǎng)程任務(wù)中出現(xiàn)邏輯斷層。

但 MoE 并非決定性因素。例如 Kimi K2.6 同樣采用 MoE 架構(gòu)，但在部分測(cè)試中卻優(yōu)于某些稠密模型。DeepSeek V4在特定數(shù)據(jù)集上的劣勢(shì)，更多是其在效率與成本間進(jìn)行極致取舍的結(jié)果。

目前，行業(yè)優(yōu)化 MoE 應(yīng)對(duì)長(zhǎng)程任務(wù)的思路主要有三條：

改進(jìn)路由機(jī)制：采用更智能的專家選擇策略，減少路由切換頻率，維持任務(wù)狀態(tài)。
強(qiáng)化專家間信息共享：提升專家網(wǎng)絡(luò)對(duì)全局任務(wù)目標(biāo)的共識(shí)。
針對(duì)性強(qiáng)化學(xué)習(xí)：在訓(xùn)練階段專門對(duì)長(zhǎng)程任務(wù)進(jìn)行 RL 優(yōu)化，彌補(bǔ)架構(gòu)帶來(lái)的連貫性損失。

岑峰：劉老師，如楊老師所言，MoE在Agent任務(wù)上存在"連貫性瓶頸"，而Agent正是2026年大模型最重要的落地場(chǎng)景，MoE路徑未來(lái)還有哪些可能的演進(jìn)來(lái)解決這個(gè)問(wèn)題？

劉廣：針對(duì) MoE 路線的演進(jìn)，我認(rèn)為未來(lái)有兩個(gè)極具價(jià)值的研究方向。

首先是極致的稀疏化。DeepSeek 成功的關(guān)鍵在于將 MoE的粒度做得極細(xì)。細(xì)粒度專家雖然帶來(lái)了系統(tǒng)通信的挑戰(zhàn)，但也極大提升了模型表征的靈活性。DeepSeek幾乎把所有的稀疏化技術(shù)都用上了：稀疏注意力、稀疏 MoE，甚至是基于分布式表示的 N-gram。

這種稀疏化不僅能提升效率，還能幫助模型進(jìn)行“感知量化訓(xùn)練”。如果模型足夠稀疏，我們就可以通過(guò)剪枝去掉大量權(quán)重而幾乎不影響性能，甚至可以實(shí)現(xiàn)將多個(gè)不同領(lǐng)域的專家蒸餾到一個(gè)統(tǒng)一模型中的“后訓(xùn)練范式”。

其次是打開(kāi) Transformer 的“黑盒”。過(guò)去我們將 Transformer視為不可拆解的整體，但現(xiàn)在的趨勢(shì)是將其細(xì)分、拆碎。通過(guò)觀測(cè)訓(xùn)練過(guò)程中哪些環(huán)節(jié)的值不穩(wěn)定，進(jìn)行針對(duì)性的架構(gòu)改進(jìn)（如MHC 優(yōu)化），讓訓(xùn)練變得更穩(wěn)健、更高效。

這種從理論機(jī)理出發(fā)，結(jié)合極致工程實(shí)踐的路徑，不僅能提升訓(xùn)練效率，更能讓我們深入理解大模型的運(yùn)行機(jī)制。

5.從省錢到賺錢的未來(lái)思考

岑峰：剛才三位老師深入探討了長(zhǎng)上下文、MoE 與稠密模型的優(yōu)劣。我們達(dá)成了一個(gè)共識(shí)：在百萬(wàn)上下文和 Agent時(shí)代，并沒(méi)有唯一的“正確答案”。DeepSeek走的是極致性價(jià)比的壓縮路線，但在記憶完整性和連貫性上仍有挑戰(zhàn)；而海外巨頭如Anthropic 走完美主義路線，OpenAI 走全面路線，Google 走原生平衡路線。

最終，技術(shù)路線的差異要回歸商業(yè)本質(zhì)：DeepSeek 這種“省錢”的能力，能否轉(zhuǎn)化成“賺錢”的能力？大模型產(chǎn)業(yè)是否正從“模型競(jìng)賽”轉(zhuǎn)向“系統(tǒng)戰(zhàn)爭(zhēng)”？請(qǐng)教黎老師，您如何看待這幾種路線在商業(yè)化能力上的潛力？

黎科峰：技術(shù)領(lǐng)域從未有“一招鮮吃遍天”的方案，大模型最終會(huì)進(jìn)入細(xì)分領(lǐng)域的深度競(jìng)爭(zhēng)。例如，Claude 強(qiáng)在 Coding，GPT強(qiáng)在圖像與綜合推理，豆包強(qiáng)在多模態(tài)。DeepSeek 則聚焦文本處理，這是一種戰(zhàn)略上的克制。

關(guān)于商業(yè)化，我認(rèn)為可以從兩個(gè)維度看：

首先，成本是商業(yè)化的生命線。就像汽車行業(yè)，豪華品牌固然存在，但真正統(tǒng)治市場(chǎng)的是豐田、大眾這類大眾化品牌。性價(jià)比永遠(yuǎn)是大規(guī)模商業(yè)化中最重要的環(huán)節(jié)。目前Claude Opus 等高端模型的開(kāi)銷，即使是對(duì)擁抱 AI 的企業(yè)來(lái)說(shuō)也感到沉重的壓力，更遑論未來(lái)數(shù)萬(wàn)名員工全員 AI 化后的開(kāi)銷。因此，Token成本持續(xù)下探是行業(yè)必然。

從技術(shù)理想主義與長(zhǎng)期主義的維度，DeepSeek比較特殊，其創(chuàng)始人梁文峰現(xiàn)階段表現(xiàn)出了極強(qiáng)的技術(shù)理想主義，更關(guān)注如何把東西做成世界最好，而非過(guò)早商業(yè)化。這種“厚積薄發(fā)”的策略，在國(guó)產(chǎn)軟硬一體化優(yōu)化的背景下，可能對(duì)閉源大廠產(chǎn)生巨大的沖擊。當(dāng)性能接近、成本僅為對(duì)方 1/10時(shí)，這種優(yōu)勢(shì)是顛覆性的。

岑峰：極致效率、通用能力與落地穩(wěn)定性，往往難以兼得。對(duì)于企業(yè)客戶和開(kāi)發(fā)者，未來(lái)的模型選型標(biāo)準(zhǔn)會(huì)發(fā)生什么變化？哪種路線具備更長(zhǎng)期的生命力？

楊澤乾：我認(rèn)為大模型選型的判斷標(biāo)準(zhǔn)，正從單一的“模型有多聰明”轉(zhuǎn)向“系統(tǒng)效能的綜合評(píng)估”。主要看三個(gè)核心指標(biāo)：

成本可控性：企業(yè)關(guān)注的不只是單次推理費(fèi)用，而是當(dāng)業(yè)務(wù)規(guī)模擴(kuò)大 100 倍、完全 Agentic化之后，成本曲線是否能維持線性。在這一維度，極致效率路線具有壓倒性優(yōu)勢(shì)。
能力的確定性：開(kāi)發(fā)者在核心場(chǎng)景中更看重模型的穩(wěn)定性、可預(yù)測(cè)性和可解釋性。一個(gè)全能但“黑盒”且不可控的模型，其價(jià)值往往不如一個(gè)在垂直任務(wù)中表現(xiàn)穩(wěn)健的專用模型。
生態(tài)與部署的敏捷性：能否快速集成到現(xiàn)有業(yè)務(wù)、能否在自有硬件上運(yùn)行、出故障后是否有成熟的社區(qū)支持，這些都決定了落地的速度。

DeepSeek 走的是普適化邏輯：通過(guò) 10% 的能力差距換取 10 倍以上的成本優(yōu)勢(shì)，將 AI能力變成成千上萬(wàn)中小企業(yè)和開(kāi)發(fā)者工具箱里的“日用品”，從而成為像水和電的行業(yè)基礎(chǔ)設(shè)施。而OpenAI等大廠走的是頂尖產(chǎn)品邏輯，為失敗容忍度極低、對(duì)成本不敏感的高風(fēng)險(xiǎn)場(chǎng)景提供不可替代的、最可靠的解決方案。未來(lái)市場(chǎng)會(huì)明顯分層，絕大多數(shù)商業(yè)場(chǎng)景將流向性價(jià)比更高的實(shí)用模型。

岑峰：劉老師，楊老師提到了系統(tǒng)生態(tài)的建設(shè)。未來(lái) AI 廠商的核心競(jìng)爭(zhēng)力，是否會(huì)從單純的算法研發(fā)轉(zhuǎn)向全棧的系統(tǒng)工程能力？

劉廣：這確實(shí)是大勢(shì)所趨。單一模型的能力存在局限，必須通過(guò)系統(tǒng)化（Agentic 系統(tǒng)）來(lái)擴(kuò)展其邊界。

目前許多大廠已將原有的中臺(tái)能力轉(zhuǎn)化為工具或 MCP（模型上下文協(xié)議）接口。此次 DeepSeek V4 的發(fā)布，結(jié)合 Claude Code等開(kāi)源/閉源腳手架，將極大加速這一過(guò)程。企業(yè)只需對(duì)模型權(quán)重進(jìn)行微調(diào)，即可將其接入真實(shí)業(yè)務(wù)流程，產(chǎn)生實(shí)際產(chǎn)出。

分享一個(gè)我們的實(shí)踐：在國(guó)產(chǎn)算力生態(tài)中編寫算子。以前依賴專家手工編寫，周期長(zhǎng)達(dá)一至兩周。現(xiàn)在利用 Agent 輔助，只需 10 到 20分鐘即可生成高質(zhì)量算子，并在國(guó)產(chǎn)芯片上順暢運(yùn)行。這種方式將人力成本從數(shù)千元降低到幾十元的 Token費(fèi)用，這種價(jià)值的體現(xiàn)會(huì)反向驅(qū)動(dòng)整個(gè)系統(tǒng)層面的進(jìn)化。DeepSeek V4 第二次加速了 AI 輔助產(chǎn)業(yè)重塑的進(jìn)程。

岑峰：今天的討論從 V2 談到 V4，從 MLA 架構(gòu)談到 CSA+HCA 注意力機(jī)制，從“掀翻價(jià)格桌子”談到“重構(gòu)基礎(chǔ)設(shè)施”。DeepSeek用四年時(shí)間證明：效率本身就是核心競(jìng)爭(zhēng)力。

正如三位老師所言，在 Agent 時(shí)代，大模型面臨著對(duì)連貫性、可控性和商業(yè)可持續(xù)性的新考量。每一筆“省下的錢”背后都有復(fù)雜度的代價(jià)，但 DeepSeek最大的價(jià)值在于，它打破了 Scaling Law 只能靠堆算力和堆參數(shù)的慣性。智能的邊界不僅由芯片定義，更由工程師的想象力和工程能力定義。

桌子掀翻之后，最重要的不是誰(shuí)掀的，而是誰(shuí)能在廢墟上重建更便宜、更可控、更具生態(tài)生命力的秩序。至于未來(lái)格局如何，我們 2027年再見(jiàn)分曉。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.