文|周鑫雨 王毓嬋
編輯|楊軒
解讀DeepSeek V4的技術報告,是這幾天AI行業最狂熱的集體活動。
V4很強嗎?在工程優化的維度中,答案是毋庸置疑的。過去,大家信奉“Scaling Law的暴力美學”——也就是靠堆更多優質算力、更大參數規模來提升模型性能。而V4走的是一條完全不同的路,它定義了一種“模型訓練的克制美學”:
它不靠瘋狂堆算力和參數,而是通過一系列組合優化和重構:
注意力機制(讓模型學會“抓重點”,像人讀長文章時會自動關注關鍵句子一樣)
MoE架構(混合專家模型,可以理解為“讓不同的專家負責不同類型的問題,每次只激活少數專家,省時又省力”)
后訓練(模型初步練成后再針對性地補課強化)
推理系統工程(優化實際運行時各個環節的效率)
這樣做的成果是把V4-Pro在處理百萬Token(大約幾十萬字)長上下文時需要的算力,壓低到了上一代V3.2的27%,同時用來臨時存儲對話上下文的KV緩存(可以理解為模型在跟你聊天時“記筆記”的草稿紙)被壓縮到了原來的10%。
不過,工程只是工程,榜單只是榜單。
評價一個模型,我們不希望只停留在紙面參數上,而是放到部署、開發、投資的真實場景中去討論V4的價值。為此,我們邀請了近10名開發者、應用創業者和投資人,進行了三天左右的體驗和測試。
先說一個反直覺的結論:DeepSeek對應用層帶來的影響,或許比模型層更大。
在驚嘆極致的工程優化之余,正如DeepSeek自己在V4技術報告中坦言的那樣:發展軌跡大約滯后前沿閉源模型3至6個月——V4如今的成果,就好比與魔鬼做交易:拉長了推理和Agent(智能體)能力的長板,代價是犧牲了部分準確性。
閉源模型廠商們,暫時可以松一口氣。對于注重穩定、精確的商業世界而言,V4顯然不是一款能夠直接落地的模型。
Pine AI首席科學家李博杰,以及某頭部Coding Agent創業者Chillin都對我們直言,工具調用穩定性+幻覺率,這兩點必須在harness(給智能體套上的“韁繩”和“安全帶”,用來規范它的行為、降低出錯風險)層面補足,V4落地離不開“腳手架”。
但智力大腦的迭代方向,往往牽動著下游應用的生態。AI應用創業,將會面對技術和資本更嚴厲的雙重考驗。
“基模的性能還在快速迭代”——這句業內的共識,也意味著應用隨時可能成為被模型顛覆的沙礫。一名雙幣基金的投資人舉了不少“昨日黃花”的案例:“Workflow、Coding……”
AI應用公司“涌躍智能”創始人兼CEO陳煒鵬總結:未來,AI應用的壁壘,是把模型、Agent、產品場景和數據反饋組織成一個可靠、低成本、可規模化的生產系統。
亮點:不只有長文本和編程能力,而是高能力還成本低寫在前面:核心優勢——代碼與智能體能力
在幾個關鍵的代碼和軟件工程評測中,V4-Pro展現出了當前開源模型的最高水平,與頂尖閉源模型幾乎不相上下。我們把核心數據整理如下:
![]()
AI制圖
?PingCAP聯合創始人兼CTO 黃東旭
我正在把自己的Hermes工作流遷移到DeepSeek V4上。原來我用得比較浪費,是用Claude Opus和GPT5.4來做Agent,但后來我發現,大多數日常工作其實并不需要特別高的coding能力。
日常辦公任務,主要包括:(a)日常郵件整理;(b)文章撰寫;(c)日歷管理;(d)內容總結;(e)網絡瀏覽。
現在我已經完全切換到DeepSeek V4了。它的效果比我想象中要好,可能是針對中文做了一些優化,整體語言能力比Opus和GPT更符合中文母語者的使用習慣。
所以我第一個結論是:如果你現在正在用一些更貴的模型來作為日常工作助理的Agent,其實可以比較放心地切換到DeepSeek V4 Pro上。
它的能力大概在Claude Sonnet 4.5到4.6的水平,但價格只有頭部模型的四分之一還不到。現在我基本上已經不用再關注Agent的成本開銷了。
DeepSeek V4的論文里一直在強調1M的上下文,但這點我其實感覺不是太強,因為現在主流的SOTA模型基本上至少也都是1M的上下文了,這只是追趕上了。
它真正的點在于:
1.成本真的非常低;
2.它是一個開放開源的模型。
我不用太擔心Anthropic或者OpenAI如果斷供,我之前的一些工作流就不能用了,這種事情之前其實發生過。在這一點上,切到DeepSeek V4,安全感是更高的。
其次,看編程能力。因為測試時間還比較短,我還沒有用它來開發非常復雜的大型系統應用。
但在大概幾千行代碼的規模,或者做一些小型應用,以及處理充滿各種外部第三方系統調用的場景(比如去Supabase或者TiDB Cloud上,通過閱讀文檔去接入一個它不太熟悉的工具),目前我的體感是基本上沒有出現太大的問題。
在幾千到一萬行的規模里,V4 one-shot(一次性給足例子和指令,不額外調試)的成功率還是比較高的。
所以如果你只是做一些簡單的小網站或者小型應用,我覺得DeepSeek的編程能力肯定比前一代要強非常多。
因為現在我的Harness框架其實并沒有太復雜的人為編排,更多是依靠模型自身的協同能力(使用Slock.ai)。
簡單來說,有以下兩點:
1.它能夠跟使用其他模型的Agent進行協同;
2.它完成一些簡單的/具體的任務。
所以,如果前面有一些比較強的模型(例如像GPT5.5這種級別的)去給DeepSeek V4 Pro指方向,然后讓它負責執行,這種模式我覺得能讓整個Harness Engineering的成本大幅下降。
?零一萬物技術與產品中心副總裁 趙斌強
DeepSeek V4不是“最全能的”,但它是“最值得信賴的”——堅定的開源承諾、完整的技術報告、極低的推理成本、全技術棧國產化,讓它成為ToB(面向企業)場景下性價比最優的基礎模型選擇。
DeepSeek V4最讓我驚艷的是兩件事。
第一,模型架構的底層創新。在100萬Token上下文窗口下依然保持高質量推理能力,背后是混合注意力機制的底層創新。這種機制可以通俗地理解成:“粗讀”著眼大局整體含義,“精讀”精確理解細節。
尤其是在Context壓縮方面的探索非常先進,而且DeepSeek在技術報告中毫無保留地公開了細節。這種坦誠和開源精神,在競爭激烈的大模型行業中極為寶貴。
第二,國產算力全棧適配。DeepSeek完成了華為昇騰910B/950的適配,在量化、稀疏化機制、領域expert優化等方面的工作做得非常細致。
這意味著從芯片到底層軟件到模型訓練、推理,國產全棧解決方案已在正確的方向上邁出了實質性一步。雖不能說完全擺脫對英偉達生態的依賴,但已經找到了正確的發展方向。這件事的難度和意義,怎么強調都不為過。
Pine AI首席科學家 李博杰
最驚艷的是DeepSeek把MoE、CSA+HCA混合注意力、mHC、Muon、FP4QAT這一長串架構創新真正在1.6T(1.6萬億參數)這個目前最大開源規模上跑通了。
這就像把一堆理論上很先進、但在小規模實驗里經常失效的技術,成功組合到一臺巨型引擎上并穩定運轉起來。我們自己試過20多種架構創新,結論幾乎都是“在70億參數規模上可行,一上規模就掉鏈子甚至反作用”。
其他家的模型架構創新大多也卡在這一步。能在最大規模上讓多項創新協同工作,說明DeepSeek底層訓練的技術積累極深,僅其中一項“mHC”技術,就把原來在27B實驗里近3000倍的信號放大,壓到了約1.6倍,讓訓練變得穩定可控。
?聯想集團副總裁,聯想創投首席投資官、高級合伙人 宋春雨
DeepSeek證明了“AI性價比”可以成為一種主動設計出的結構性優勢。
27%、顯存占用僅10%。同時,其1.6T總參數量大,但每次僅激活49B參數,效率極高。
這種結構性降本,再加上V4-Flash版本API 1元/百萬Token的低價策略,使得“平民化超長上下文”成為了AI應用的新基準。
涌躍智能創始人兼CEO 陳煒鵬
DeepSeek V4最讓我振奮的,不只是某個單點能力的提升,而是它說明國內大模型已經從“追趕基座能力”,進入到“參與Agent時代系統競爭”的階段。
過去大家更關心模型會不會回答、推理、寫代碼;但到了今天,真正重要的是模型能不能在復雜任務中穩定完成目標,能不能以足夠低的成本、足夠高的效率接入真實產品系統。
遺憾:真正落地,V4還缺一些“腳手架”寫在前面:相對劣勢——事實性知識與極端復雜推理
DeepSeek官方和各評估平臺指出了V4-Pro的幾個明顯弱點。為了更直觀,我們將關鍵弱項數據整理成下表:
![]()
AI制圖。
?Pine AI首席科學家 李博杰
我主要使用的是代碼類和Agentic任務。這一類工作里:
V4-Pro的工具調用能力和通用世界知識,基本追平了前沿模型的次一檔版本(大致相當于Claude 4.6 Sonnet水平);
但工具調用穩定性+幻覺率仍然是硬傷——這兩點必須在Agent Harness層面補足(比如加強校驗、失敗后自動重試、用外部知識庫讓模型“接地氣”、把工具使用規范定得嚴格清晰),否則在長鏈條任務里,任務鏈路一拉長,錯誤就會被不斷放大;
一旦Harness層補好了這兩個缺陷,整體推理成本能比前沿模型低好幾倍。這才是真正的杠桿。
另一條線是:V4-Flash作為垂直微調的“甜點”是非常好的。什么叫垂直微調?就是在通用模型基礎上,用特定領域的專業數據再“補課”,讓它成為某個行業的專家。
1.6萬億參數的超大模型做后訓練(SFT/RL)成本太高,一般公司根本負擔不起,而2000億到3000億參數的模型才是市場做后訓練的主力尺寸。我們之前在千問235B(2350億參數)上做后訓練,效果明顯弱于同尺寸的V4-Flash。
Flash的性能已經追上前一代萬億級開源模型,超過600B多的DeepSeek V3.2和老版Kimi。Flash會成為做業務微調的首選基座。
?Coding Agent創業者 Chillin
我們內部測評后得出的結論是:在Coding Agent場景下,DeepSeek V4是Claude一年多前的水平。
問題可能出現在兩方面,一是參數規模,二是數據。DeepSeek和Anthropic還有比較顯著的差距。
如果要真正落地,DeepSeek V4還需要一些特殊的腳手架,比如SWE-Agent(軟件工程智能體)、OpenHands(一個開源Coding智能體)、Claude Code、OpenClaw。這都需要開發者額外配置。
?涌躍智能創始人兼CEO 陳煒鵬
以Loopit(涌躍智能旗下的AI互動內容產品)的實際使用(主要是Coding場景)來看,要客觀看到,DeepSeek V4在執行復雜長程任務的穩定性和任務完成率上,距離海外最強閉源模型仍有差距。
國內頭部模型之間的能力差異在變小。這說明模型競爭正在進入一個新階段:在Agent時代,模型能否理解長上下文、適應復雜框架、穩定完成長程任務,并以可接受的成本和速度運行,會變得同樣重要。
真正拉開差距的,不只是模型本身,而是模型、后訓練、Agent框架、評估體系和工程效率形成的整體系統。
?聯想集團副總裁,聯想創投首席投資官、高級合伙人 宋春雨
V4的發布沒有包含原生多模態版本(即同時能處理文字、圖像、聲音等的模型),這在當前市場環境下稍顯遺憾。
但結合其全面擁抱國產算力的戰略,這很可能是為了集中資源攻克最核心的算力底座問題而做出的階段性取舍。
?零一萬物技術與產品中心副總裁 趙斌強
說“不及預期”有點雞蛋里挑骨頭。
但如果從ToC(面向個人用戶)角度來看,產品化打磨還不夠——Flash版本涉及創作、編程等復雜任務,能力略顯不足;Pro版本雖然接近頂級閉源模型水準,但起步算力要求較高,存在入門門檻。
影響:AI并不是簡單地越來越便宜?涌躍智能創始人兼CEO 陳煒鵬
一個重要趨勢是,AI并不是簡單地越來越便宜。
全球最旗艦模型的調用成本其實在上升,因為它們承載的是更高復雜度、更長上下文、更高價值的任務。真正快速變便宜的,是中層模型、開源模型和可自部署模型。
所以未來應用公司不會只問“哪個模型最強”,而是要建立一套模型調度系統:哪些任務必須用最強模型,哪些任務可以用高性價比模型,哪些能力可以通過Agent框架和工程系統補足。
DeepSeek V4的意義在于,它進一步豐富了模型供給層。
對企業來說,它不是簡單替代某一個海外模型,而是讓應用可以更靈活地做多模型編排、自部署和成本優化。
未來AI應用的壁壘,也不會是簡單調用一個模型,而是把模型、Agent、產品場景和數據反饋組織成一個可靠、低成本、可規模化的生產系統。
對Loopit來說,這個趨勢非常關鍵。我們做的是AI互動內容,模型能力決定創作上限,成本和速度決定創作能否規模化。
只有當不同層級的模型都足夠可用,并且能夠被有效編排,普通用戶的大量創意才有可能被實時生成、互動和傳播。DeepSeek V4的進展,會加速這個過程。
?Pine AI首席科學家 李博杰
在垂直微調市場,千問、Llama等200-300B檔基座被V4-Flash系統性替換。
所有做該尺寸后訓練的團隊都會重新評測;Flash同尺寸效果反超、推理框架Day-0適配齊全(SGLang/vLLM/TileLang),6個月內會成為國內開源垂直模型的默認起點。
華為昇騰950 SuperNode推理生態正式起步,并沖擊英偉達芯片溢價。
這是第一個完整跑通的“國產芯+國產頂級開源模型”方案(NVIDIA/AMD都沒拿到V4的早期適配),下半年950大規模出貨后,Agent長上下文場景里會出現一波純本土推理替換;
這間接影響是英偉達在中國市場的估值與溢價被重新定價——不是銷量崩,是議價能力被壓。
能完成復雜長程任務的Agent整體使用成本大幅下降。
V4-Pro輸入(緩存未命中)1.74美元/輸出3.48美元+1M上下文高效KV+MegaMoE已經把單Token成本壓到前沿模型的1/6-1/7;
只要業界在Agent Harness層把V4的工具調用穩定性和幻覺率補齊(驗證器、外部接地、嚴格Schema、自一致性投票),那些過去因為成本無法實用化的多步研究、長程代碼Agent、深度搜索類應用會在今年下半年走出demo進入真實業務,Agent經濟性的拐點就在這一波。
以及,閉源前沿廠商不會因此降價——它們的產品仍然顯著領先,V4不構成定價壓力。
?零一萬物技術與產品中心副總裁 趙斌強
ToB AI應用的核心命題是:在保證效果的前提下實現全周期的成本控制。DeepSeek V4的出現為這一命題提供了極具競爭力的解法。
Flash覆蓋簡單任務,Pro覆蓋高復雜度場景,整體成本相比主流閉源方案會大幅降低,讓零一萬物在交付時能夠顯著提升方案性價比。
更重要的是,DeepSeek的開源是堅定的、不搖擺的,不會突然宣布閉源讓應用的投入打水漂。這種堅定的開源姿態為企業級技術選型提供了寶貴的確定性。
零一萬物內部已經全面啟動基于DeepSeek V4的產品評測與能力驗證,重點評估其在生產調度、智能辦公、投資管理等企業核心場景中的表現,驗證達標后會考慮替換原有模型,讓更多行業客戶用上頂級國產大模型。
V4發布后,我認為行業會主要產生三個變化:
1.國產全技術棧解決方案進入發展軌道,國產化替代從“夢想”變“現實”
DeepSeek成功適配華為昇騰,意味著國內AI產業在“芯片+框架+模型+應用”全技術棧國產化的方向上邁出了實質性一步。
對于有合規要求的政企客戶,這是剛需。ToB市場的國產化替代進程將明顯加速。
2.開源大模型倒逼閉源降價,AI應用業務減少被閉源模型吸血
DeepSeek用遠遠低于頂級閉源模型的價格實現了接近頂級閉源模型的效果,它的示范效應會進一步拉高開源模型的整體性能。
這也會迫使Anthropic、OpenAI等閉源模型廠商的高價策略面對壓力。行業利潤中心將從基座模型向深度行業應用遷移,對AI長期的發展極有益處。
3.開源模型≠企業應用,Harness能力成為新分水嶺
開源降低了基座門檻,Harness決定了落地高度。從優質開源模型到穩定可靠的企業級產品,中間還隔著Harness這一層,包括幻覺消除、指令遵循、錯誤校驗、專業性注入等工程能力。
每個行業的需求不同,沒有一套Harness是通用的。這恰恰是零一萬物的核心優勢所在:基于自動評測、自動反饋、自動改進、專業性注入,為不同行業快速構建專屬的Harness體系,讓大模型真正在業務中用起來。
?聯想集團副總裁,聯想創投首席投資官、高級合伙人 宋春雨
第一,百萬級上下文成為應用層的“標配”,催生Agent爆發:V4將超長上下文能力下沉為普惠基礎設施。
第二,行業競爭從“卷模型”轉向“卷應用與數據”:當頂級開源模型性能逼近閉源、成本大幅下降后,模型本身將不再是稀缺壁壘。未來的投資與競爭焦點,將更明確地轉向誰能利用這些基礎模型,在醫療、金融、法律等高價值垂直場景中建立數據與應用閉環,形成商業護城河。
第三,國產算力產業鏈迎來巨大投資機遇:V4的成功,向業界證明了大模型在國產算力上也能摘取“皇冠上的明珠”。這必然催生對國產算力的確定性需求,帶動從芯片設計、服務器到云服務的全產業鏈投資熱潮。
我們判斷,“今年的國產算力,就是去年的海外算力”,其產業趨勢和資本市場的映射效應將尤為強勁。
我們會把資源向“能快速商業化、能落地行業、能形成產品壁壘”的項目集中,同時保持對底層架構與算力基礎設施的長期投資。
?某雙幣基金投資人
我今年的愿望是:基模Portfio(被投資方)順利上市。
DeepSeek啟動融資后,一定會吸收一級市場(尤其是國資)的大量資金。對剩下幾家還沒IPO的基模公司來說,繼續滾動融資是不可持續的。
我還有個比較悲觀的觀點:今年應用層融資會比較困難。
基模能力還在快速迭代,意味著一大批應用會被顛覆。就像去年非常火熱的Coding、Workflow,今年一級市場已經沒什么人提了。
?Coding Agent創業者 Chillin
開源是一個好事,DeepSeek V4能進一步推動交流和優化。但是這個時間距離拉的很大,讓人感覺比較難受;
DeepSeek V4會迫使模型廠更加正面地面對規模和數據的問題,然而這兩個問題極難解決,這是資本量的問題;
它也進一步地證明了Scaling Law的極限。工程化帶來的性能躍升是有限的,這迫使所有人去找更底層的解。路漫漫其修遠兮。
Bonus:一份DeepSeek V4實用指南適合干什么?
編程與代碼學習:如果你是編程初學者或需要編寫個人腳本,DeepSeek V4是目前最頂級的選擇之一。它能非常可靠地理解上下文、生成高質量代碼,并且極擅長代碼調試。
中文及中日韓(CJK)內容創作:無論是寫文章、潤色文案還是進行翻譯,V4在中文、日文和韓文環境下的表現極其優異。
超長文本閱讀與分析:V4原生支持高達100萬Token的上下文窗口。你可以一次性將整本書、數萬字的長篇報告或完整的代碼庫直接喂給它,讓它幫你總結或提取關鍵信息。
不適合干什么?
搜索與查證客觀事實:V4是一款“推理模型”而非“百科全書”,它在事實性知識(如歷史細節、特定實體信息)的回憶測試中表現較弱,且極容易產生幻覺。特別是V4-Flash版本,在事實問答測試中得分僅有34.1%。建議:不要用它來當搜索引擎,查證事實請使用帶搜索功能的其他AI或自己核實。
處理圖片或文檔排版:DeepSeek V4是一個純文本模型,不支持任何圖像輸入或輸出(No Vision)。如果你需要分析圖表或圖片,請使用其他多模態模型(如GPT-5.4 Mini)。
純英文的高級創意寫作:雖然它能寫英文,但它的英文輸出有時會顯得行文生硬(stilted phrasing),如果你需要創作高度自然、地道或富有創意的純英文內容,建議使用其他西方主流模型。
其他須知:
給予充分的思考空間:如果你使用的是具備顯式思維鏈(CoT,即模型在給出答案前會先一步步推理,類似于“先打草稿再謄寫”)的Pro版本,遇到難題時,不妨在提示詞中鼓勵它“多想幾步”或開啟“Think Max”模式,它推導得越深入,給出的答案往往越準確。
容忍偶爾的啰嗦:評估顯示V4是一款相對“啰嗦”的模型,輸出速度也偏慢。如果你只想要簡短的答案,可以在提示詞中明確要求“請用一句話回答”或“請盡量簡短”。
歡迎交流!
歡迎交流!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.