<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      V3.2逼近Gemini 3,DeepSeek硬氣喊話:接下來我要堆算力了

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      就在上周,OpenAI前首席科學家、現SSI CEO Ilya Sutskever在最新播客訪談中拋出一個重磅觀點,過去五年的“age of scaling”正在走到頭,預訓練數據是有限的,單純用更多GPU堆更大模型,哪怕再放大100 倍,也未必能帶來質變。所以我們又回到了以研究為核心的時代,只不過這次有了巨大的算力”,這一表態被視作對Scaling Law撞墻論的強力佐證。

      然而僅過了幾天,12月1日,DeepSeek用V3.2和V3.2-Speciale的發布,給出了一個不同的答案。

      模型發布后,DeepSeek研究員Zhibin Gou在X上發文:

      “如果Gemini-3證明了持續擴展預訓練的可能性,DeepSeek-V3.2-Speciale則證明了在大規模上下文環境中強化學習的可擴展性。我們花了一年時間將DeepSeek-V3推向極限,得出的經驗是:訓練后的瓶頸需通過優化方法和數據來解決,而非僅等待更好的基礎模型。”

      他還補了一句:

      “持續擴大模型規模、數據量、上下文和強化學習。別讓那些'遭遇瓶頸'的雜音阻擋你前進。”


      這是DeepSeek團隊少有的發聲,而這一幕頗有意味,當行業在討論Scaling Law是否撞墻時,DeepSeek用實打實的模型喊話,想證明Scaling沒死,只是換了戰場。

      雖然行業普遍認同后訓練的重要性,但敢把相當于預訓練成本10%以上的算力預算砸在RL上的企業仍屬少數。DeepSeek是真正把這條路線工程化、規模化的代表。

      這次發布的兩個模型正是這條路線的產物,V3.2定位日常主力,對標GPT-5;Speciale定位極限推理,對標Gemini 3.0 Pro,并拿下四枚國際競賽金牌。


      技術報告Introduction部分有句話值得注意,“過去幾個月,開源社區雖然在持續進步,但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在收窄,而是在擴大。”同時點出了當前開源模型的三個核心短板:

      過度依賴普通注意力機制導致長序列效率低下、后訓練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態度很明確,問題有解,而V3.2就是他們給出的答案。

      1

      V3.2:高效主力,把自我進化用在通用效率上

      V3.2是9月發布的實驗版V3.2-Exp的正式繼任者,目標是平衡推理能力與輸出成本。

      在推理類Benchmark測試中,V3.2達到了GPT-5水平:AIME 2025數學競賽93.1%(GPT-5為94.6%),HMMT 2025二月賽92.5%(GPT-5為88.3%),LiveCodeBench代碼評測83.3%(GPT-5為84.5%)。相比Kimi-K2-Thinking,V3.2在保持相近性能的同時,輸出Token量大幅降低——嚴格的Token約束和長度懲罰讓它更省、更快、更便宜。


      V3.2在架構上的核心改動是引入了DeepSeek Sparse Attention(DSA)。這項技術在9月的V3.2-Exp中首次亮相,用稀疏注意力替代傳統的全量注意力,將計算復雜度從O(L2)降到O(Lk)。

      V3.2-Exp上線兩個月后,DeepSeek通過多個維度確認了DSA的有效性:標準Benchmark與V3.1-Terminus基本持平,ChatbotArena的Elo評分接近,第三方長上下文評測反而高出4分。這意味著DeepSeek在底層架構創新上走對了路,稀疏注意力可以在不損失性能的前提下大幅提升效率。


      V3.2還有一個重要突破,這是DeepSeek首個將“思考”與“工具調用”融合的模型。之前的推理模型(包括OpenAI的o系列)在思考模式下無法調用工具,V3.2打破了這個限制,同時支持思考模式和非思考模式的工具調用。


      技術報告中篇幅最大的部分是Agent能力的訓練方法。DeepSeek構建了一套大規模的Agent任務合成流水線,覆蓋1800+環境和85000+復雜指令。

      這套流水線的核心設計哲學是“難解答,易驗證”。以報告中的旅行規劃任務為例:復雜約束組合讓搜索空間巨大,但驗證方案是否滿足約束卻很簡單。這種特性天然適合強化學習,模型可以通過大量嘗試獲得明確的對錯反饋,不需要人工標注。


      效果驗證很有說服力,只用合成數據做RL的模型,在Tau2Bench、MCP-Mark等Agent基準上顯著提升,而只在真實環境做RL的模型,這些指標幾乎沒有變化。

      值得注意的是,官方特別強調,V3.2并沒有針對這些測試集的工具進行特殊訓練,但在Agent評測中仍達到開源最高水平。這說明模型的泛化能力是真實的,不是靠刷榜優化出來的。

      1

      V3.2-Speciale:極限推理,把自我驗證用在高階邏輯上

      Speciale是V3.2的"長思考增強版"。如果說V3.2通過嚴格的Token約束來優化效率,Speciale則反其道而行——放寬長度限制,鼓勵模型進行更深度的推理。

      技術報告中的Table 3很有意思:同樣的任務,Speciale的輸出Token量顯著高于其他模型。比如在AIME 2025上,GPT-5 High輸出13k tokens,Gemini 3.0 Pro輸出15k,而Speciale輸出23k;在Codeforces上差距更大,Speciale輸出77k tokens,是Gemini的3.5倍。

      雖然Speciale的Token輸出量極大,但得益于DeepSeek的定價策略和DSA帶來的效率提升,即便算上這些額外的"思考過程",其最終使用成本依然碾壓對手:比GPT-5便宜約25倍($0.4 vs $10),比Gemini 3.0 Pro便宜約30倍($12),比Claude Opus 4.5便宜約62倍($25)。

      Speciale的意義不只是“讓模型想更久”,而是驗證了一個重要的假設,對推理“過程”的監督,能否從數學證明泛化到更廣泛的領域?

      上周剛發布的DeepSeekMath-V2提出了“生成器-驗證器”雙模型架構,生成器負責產出證明,驗證器評估證明的嚴謹性和完整性,驗證結果作為reward信號反饋給生成器。這套機制的關鍵創新在于如何保持“生成-驗證差距”,當生成器變強后,驗證器也需要同步提升。DeepSeek的解決方案是動態擴展驗證計算,用更多計算資源自動標注“難以驗證”的證明,持續合成高難度訓練數據,實現模型的可持續自我進化。

      Speciale整合了Math-V2的數據集和獎勵方法,不只追求最終答案正確,更追求推理過程的嚴謹性和完整性。它將這套原本用于數學定理證明的“過程監督”,成功遷移到了代碼生成和通用邏輯任務中。 這意味著“自我驗證”不是數學領域的特例,而是一種可泛化的能力提升范式。結果也相當不錯:


      1

      不缺算力的DeepSeek會帶來什么?

      有網友評論說,每篇DeepSeek論文最重要的部分永遠是“結論、局限性與未來工作”部分。這次的技術報告也不例外,他們說:“首先,由于總訓練FLOPs較少,DeepSeek-V3.2 的世界知識廣度仍落后于領先的閉源模型。我們計劃在后續版本中,通過擴大預訓練算力來彌補這一知識差距。”


      報告中承認,由于總訓練 FLOPs 較少,V3.2 的世界知識廣度仍落后于 Gemini 3.0 Pro。但 DeepSeek 的選擇并不是等待一個更大的基礎模型,而是先把方法論打磨到極致,用一年時間,通過合成數據、自我驗證和大規模 RL,把后訓練的上限真正跑出來。

      從這次的發布也能看出這條路線的成果:

      • V3.2 將“自我進化式工程”(高 RL 預算、合成數據閉環)應用在通用效率上;

      • Speciale 則把過程獎勵與自我驗證機制推向高階邏輯推理。

      兩者共同指向同一個方向:未來的模型不再依賴人力堆砌,而是依靠自我博弈實現持續演進。

      下一步就是擴大預訓練算力來彌補知識差距。這也讓人聯想,一是如果DeepSeek真把算力補上來,會發生什么?二是,這些新的算力資源從哪里來?

      回頭看過去一年的技術路徑,Janus的多模態統一架構、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗證……這些創新都是在V3這個基座上迭代出來的。

      那么,一個參數更大、訓練 FLOPs 更多的 V4,再疊加這些已經驗證有效的方法論,會出現怎樣的化學反應?

      一個合理、甚至是大膽的預期是,當 V4 或 R2 到來時,我們看到的可能已經不是傳統意義上的“更強語言模型”,而是一個能夠感知多模態環境、具備更長期記憶、并能在真實交互中持續進化的系統。如今發生在合成環境中的自我博弈,未來可能會延伸到真實環境的在線學習。

      而在算力上,在今天英偉達頻繁形容其中國市場份額已經歸零的背景下,繼續scaling需要的算力資源看起來不太能夠靠H800們提供,下一代模型會用什么樣的更大的算力資源訓練,如果這些算力缺口可以被補齊,完全形態的DeepSeek下一代模型會是什么樣?這些顯然更重要,也更讓人產生聯想。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      600萬粉絲網紅“塌房”!嘴上愛國罵法國,背地花600萬辦移民

      600萬粉絲網紅“塌房”!嘴上愛國罵法國,背地花600萬辦移民

      橙星文娛
      2026-05-07 13:54:36
      38分大勝!愛德華茲遭遇杜蘭特式待遇,文班用鄧肯的方式改變比賽

      38分大勝!愛德華茲遭遇杜蘭特式待遇,文班用鄧肯的方式改變比賽

      你的籃球頻道
      2026-05-07 14:09:16
      直線拉升!002031,186萬手封漲停

      直線拉升!002031,186萬手封漲停

      中國基金報
      2026-05-07 11:22:07
      馬克龍邀6國對付中國,但誰都沒想到,“拉黑美國”成了前提條件

      馬克龍邀6國對付中國,但誰都沒想到,“拉黑美國”成了前提條件

      曹興教授TALK
      2026-05-07 10:12:05
      就在今天!下午5點,鄭欽文沖2連勝;罕見發怒!薩巴倫卡炮轟法網

      就在今天!下午5點,鄭欽文沖2連勝;罕見發怒!薩巴倫卡炮轟法網

      大秦壁虎白話體育
      2026-05-07 08:53:10
      三星One UI 8.5正式版5月11日起全球更新,首批名單公布

      三星One UI 8.5正式版5月11日起全球更新,首批名單公布

      IT之家
      2026-05-07 13:35:06
      美軍擊沉7艘伊朗快艇,這次是革命衛隊自找的,誰讓他們襲擊商船

      美軍擊沉7艘伊朗快艇,這次是革命衛隊自找的,誰讓他們襲擊商船

      知法而形
      2026-05-06 10:20:16
      拉妮婭王后亮相慈善晚宴,金色亮片套裝盡顯優雅氣場

      拉妮婭王后亮相慈善晚宴,金色亮片套裝盡顯優雅氣場

      述家娛記
      2026-05-07 15:04:41
      擱置70年!普京對庫頁島做出新指示,他要完成斯大林的未竟之業

      擱置70年!普京對庫頁島做出新指示,他要完成斯大林的未竟之業

      梁瞠侃世界
      2026-05-07 12:28:23
      76人擊敗尼克斯,恩比德缺陣馬克西19分

      76人擊敗尼克斯,恩比德缺陣馬克西19分

      張辱鹵說體育
      2026-05-07 09:04:15
      蘋果新品上架,5月8日,正式開售

      蘋果新品上架,5月8日,正式開售

      科技堡壘
      2026-05-06 12:16:23
      兵馬俑中,有一張“臉”至今沒法用科學解釋,甚至被禁止出國展覽

      兵馬俑中,有一張“臉”至今沒法用科學解釋,甚至被禁止出國展覽

      丞丞故事匯
      2026-03-29 12:25:56
      曝國足將參加總獎金400萬美元的國際大賽,網友:我們的世界杯

      曝國足將參加總獎金400萬美元的國際大賽,網友:我們的世界杯

      塵語者
      2026-05-07 10:58:54
      馬筱梅抱兒子拍帶貨視頻!汪寶兒房間很小,沒到百天就開始賺錢

      馬筱梅抱兒子拍帶貨視頻!汪寶兒房間很小,沒到百天就開始賺錢

      另子維愛讀史
      2026-05-06 19:28:34
      4只蝦1035元后續!官方再回復,司機和商家關系待查,當地人發聲

      4只蝦1035元后續!官方再回復,司機和商家關系待查,當地人發聲

      千言娛樂記
      2026-05-07 15:04:06
      美國軍機飛離北京不到48小時,貝森特正式交底,中美會晤確定舉行

      美國軍機飛離北京不到48小時,貝森特正式交底,中美會晤確定舉行

      潮鹿逐夢
      2026-05-05 15:14:59
      前國乒美女名將正式退役!錢天一獲72萬元安置費,今年與王昶結婚

      前國乒美女名將正式退役!錢天一獲72萬元安置費,今年與王昶結婚

      情感大頭說說
      2026-05-07 14:20:45
      中超無罰分積分榜:成都居首,申花次席,海牛升至第6

      中超無罰分積分榜:成都居首,申花次席,海牛升至第6

      懂球帝
      2026-05-06 23:17:38
      時長超三小時的6部史詩級電影,全程無尿點,看完直接封神

      時長超三小時的6部史詩級電影,全程無尿點,看完直接封神

      小微看電影
      2026-04-21 14:15:03
      饒毅,又有新職務!

      饒毅,又有新職務!

      梅斯醫學
      2026-05-07 07:53:28
      2026-05-07 16:04:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      3061文章數 10495關注度
      往期回顧 全部

      數碼要聞

      英偉達慶祝GeForce GTX 10系列顯卡發布10周年

      頭條要聞

      記者詢問"是否敦促美方從霍爾木茲撤出軍艦" 中方回應

      頭條要聞

      記者詢問"是否敦促美方從霍爾木茲撤出軍艦" 中方回應

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      小S阿雅重返大S母校,翻看大S畢業照

      財經要聞

      特朗普:美伊“很有可能”達成協議

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      汽車要聞

      理想為什么不做轎車,有了解釋……

      態度原創

      游戲
      家居
      健康
      手機
      軍事航空

      NS"代表作"之一終登NS2:原版玩家還要付費升級!

      家居要聞

      破繭成蝶 土味精裝房爆改

      干細胞治燒燙傷面臨這些“瓶頸”

      手機要聞

      消息稱某廠天璣9500折疊工程機后置大圓鏡頭Deco

      軍事要聞

      特朗普:美伊"很可能"達成協議

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 毛片传媒| 瑟瑟日韩无码| 欧美精品国产综合久久| 九九免费观看全部免费视频| 免费A级毛片中文字幕| 国产一区二区av在线| 亚洲一区二区精品自拍| 国产欧美日韩视频怡春院| 1024你懂的国产精品| 日本乱码一区二区三区| 激情综合色五月六月婷婷| 欧美性爱视频免费在线观看| 亚洲综合色88综合天堂| 色狠狠av一区二区三区| 天天干天天射天天操| 啦啦啦视频在线观看免费播放高清| 国产精品污污在线观看网站| 成人在线不卡视频| 饥渴少妇高潮视频大全| 中文字幕日韩精品亚洲一区| 国产亚洲高清在线精品不卡| 一区二区三区精品视频日本| 悠悠色成人综合在线观看| 亚洲色综合| 国产精品视频流白浆免费视频| 亚洲毛片αv无线播放一区| 精品 无码 国产观看| 粉嫩一区二区三区四区| 免费看国产曰批40分钟| 天天撸狠狠操| 国产精品自在线拍国产| 人妻激情偷一区二区三区| 99精品成人| 国产在线亚州精品内射| 欧美在线观看免费做受视频| 国产精品2| 自拍视频亚洲综合在线精品| 久久精品国产69国产精品亚洲| 亚洲欧洲精品国产二码| 亚洲国产日韩a在线亚洲| 亚洲天堂av日韩精品|