<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      全球首次單機降服萬億巨模DeepSeek-V4!RL后訓練框架Orbit開源!

      0
      分享至



      從數學、代碼、復雜推理,到多輪工具調用,大模型的很多能力的提升都離不開 RL 后訓練。但當模型規模進入 MoE 萬億參數級別之后,RL 不再只是一個算法問題,同時更加是一個系統問題。

      訓練側需要容納龐大的模型權重、梯度和優化器狀態;rollout 側需要持續生成樣本,并保持足夠高的吞吐;reference policy 又會進一步放大顯存和調度壓力。同時,很多 RL 系統在訓練時使用較高精度模型,而真正 rollout 或部署時使用低精度 serving 模型。這些精度差異,最終會體現在部署效果與 RL 效果的不一致上。

      通過將 base model 固定在部署時使用的低精度表示,并只更新 adapter,Orbit 將 Kimi-K2.6、DeepSeek V4 級別的 1T 模型 RL 后訓練壓縮到單臺 8×B200 上完成。同時,訓練和 rollout 使用同一條低精度 base + adapter 路徑,從系統層面消除了訓練模型與 rollout / 部署模型之間的精度不一致。

      Orbit 做到「讓萬億模型進入單節點 RL 區間」這件事的意義在于:

      1. 避免了「訓練精度」和「部署精度」不一致帶來的偏差,從而帶來更穩定更高效的 RL 后訓練;
      2. 單節點 RL 可以顯著降低多節點訓練時的通信時延與故障率;
      3. 在同樣的 HBM 預算下,模型會獲得更寬的訓練空間,過去需要多卡才能訓的模型,有機會被壓縮到單卡。



      • 官方博客:https://spherelab.ai/orbit/
      • Github:https://github.com/Sphere-AI-Lab/orbit

      Orbit:支持萬億參數模型 RL 微調的高效框架

      顯存控制:如下圖 1 所示的估算中,單節點 8×B200 的 HBM 預算約為 1536GB。對 1T 級模型而言,傳統全參微調的 weight + grad 顯存下界會遠超單機預算;而 Orbit 路徑由于凍結低精度 base,只訓練 adapter,可以把 1T 級模型的 RL 后訓練放進單節點預算內。



      圖 1 不同框架下大參數模型的單節點顯存需求估算

      訓推精度對齊:在很多 RL 系統里,訓練側可能使用 BF16 或 FP8 等高精度 ,而推理側使用 INT4、FP4 等低精度。對于監督微調來說,這種差異有時可以被視作推理優化的一部分;但在 RL 中,policy log-prob 本身就是訓練信號的一部分,訓練側和推理側之間的誤差 log-prob diff 會直接影響穩定性。

      Orbit 將這一問題前置到了系統設計中:訓練和推理使用相同的低精度 base ,并在其上加載同一個 BF16 adapter,從而保持訓推精度一致。

      Adapter-first 的系統設計:Orbit 圍繞 adapter 對 RL 訓練、推理、同步、reference policy 和低精度 MoE 做了一套整體設計。base 始終凍結,每次訓練更新后,只需要將 MB 級 adapter (不需將 GB 級的 base)從訓練引擎推送到推理引擎。這不僅減少了權重同步的體積,也避免了頻繁重建推理引擎的開銷。

      單節點 Kimi-K2.6 結果

      在這組實驗中,模型運行在單臺 8×B200 上,訓練精度為 INT4 base + BF16 adapter,rollout 精度使用相同的 INT4 base + BF16 adapter。也就是說,訓練和 rollout 走的是同一條低精度 base + adapter 路徑。

      在約 200 step 的 RL 過程中,Orbit 觀察到了幾個同時成立的信號:

      • reward 上升;
      • eval accuracy 上升;
      • pass@k 上升;
      • train-rollout log-prob diff 保持穩定。



      圖 2 Kimi-2.6 在 Orbit 下單機 RL 后訓練信號



      圖 3 Kimi-2.6 在 Orbit 下單機 RL 后訓練的顯存記錄

      圖 2 顯示,Kimi-K2.6 的 rollout raw reward、eval accuracy 和 pass@k 曲線隨訓練推進而穩定上升。同時,train-rollout log-prob diff 穩定維持在一個區間。

      對于一個對 log-prob 差異非常敏感的訓練范式來說,這些信號實際地證明了 Orbit 的 RL 后訓練閉環不僅在單機上把 1T 的模型上穩定能跑,同時跑對了且在測試任務上有效果。

      單節點 DeepSeek V4 Flash 結果

      在這組實驗中,DeepSeek V4 Flash 同樣運行在單臺 8×B200 上。訓練精度為 FP4 base + BF16 adapter,rollout 精度也使用相同的 FP4 base + BF16 adapter。



      圖 4 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓練信號



      圖 5 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓練的顯存記錄

      從結果看,DeepSeek V4 Flash 在 100 step 以上的 RL 過程中同樣保持穩定:reward、eval、pass@k 整體上升,train-rollout log-prob diff 保持在穩定區間。這些趨勢跟在 Kimi-K2.6 上的實驗結果類似。

      單節點 1.6T DeepSeek V4 Pro 初步驗證

      除了 Kimi-K2.6 和 DeepSeek V4 Flash 兩組穩定有效的訓練結果,Orbit 還在 DeepSeek V4 Pro 1.6T 上完成初步驗證。

      由于 DeepSeek V4 Pro base model 本身很強,實驗中用的 RL 訓練數據不能讓它漲點,因此該實驗更多是證明 Orbit 的系統路徑可以擴展到更大的 1.6T 級 MoE 模型。



      圖 6 DeepSeek V4 Pro 在 Orbit 下單機 RL 后訓練信號和顯存記錄

      在 1.6T DeepSeek V4 Pro 上,Orbit 完成了單節點 8×B200 的實驗,展示了穩定的 train-rollout log-prob diff 和可控穩定的 GPU 顯存。

      這組結果證明Orbit 的系統上限可在單節點 8×B200 達到 1.6T 級別,展示了其設計有機會覆蓋更大的 MoE 模型區間。

      從單節點萬億模型,到單卡更大模型

      單節點跑通萬億模型 RL 反過來也說明了同樣的硬件預算就可以覆蓋更大的模型區間。

      對萬億模型來說,這意味著原本可能需要多機協同的 RL 后訓練,可以被壓縮到單節點完成。對中小模型來說在 Orbit 的 adapter-first 框架下,單卡也有機會 RL 微調過去需要多卡才能支持的模型,或者在相同模型規模下支持更長 response、更大 batch、更高 rollout throughput 和更頻繁的更新。

      因此,Orbit 的價值并不只在于「讓大模型變得可訓練」,也在于讓小模型的 RL 后訓練變得更容易。

      技術細節

      Active-expert-chunked dequantization:對于 MoE 模型來說,每個詞元只會激活部分 experts。Orbit 動態地將 router 選中的 experts 分組成固定大小的 batch,臨時反量化后執行 grouped GEMM,并在計算結束后釋放高精度權重。這樣既能利用 grouped matrix multiplication 的吞吐,又能將臨時顯存峰值限制在較小 chunk 內,避免大規模低精度 MoE 訓練中的 OOM。

      Adapter-native async with double-buffered rollout:系統會為 adapter 維護版本號,并將新版本 adapter 流式寫入 inactive slot;當前 active slot 繼續服務 in-flight 請求,待新版本準備好后再原子切換。這樣可以減少 rollout bubble。在 Qwen3-4B + OFT、8×B200、TP=2 設置下,該設計帶來了 1.42 倍的單步時間優化和 44% 更高的 rollout throughput,同時 eval accuracy 保持不變。

      DeepSeek V4 相關優化:Orbit 支持 Full-CUDA graph decoding、DeepGEMM、DeepEP V2,并使用 tilelang / Triton / CUDA 實現高效 attention backward 和 fusion kernels。根據 adapter 訓練的特點,Orbit 還設計了 bypass-base-weight-grad 的高效 GEMM backward 算子,避免為凍結 base 計算不必要的梯度。

      結語

      過去,大模型 RL 后訓練往往意味著更復雜的多機系統:更多節點、更重的權重同步和更復雜的系統協同。

      Orbit 提供了另一條路徑:凍結低精度 base,只訓 adapter,讓訓練、rollout 和部署對齊,并把整模同步換成 adapter 同步。這讓萬億模型可以進入單節點訓練區間,更小模型也能在單卡或更有限的硬件上跑得更遠。

      從 Kimi-K2.6 到 DeepSeek V4 Flash,再到 DeepSeek V4 Pro 1.6T,Orbit 展示和提供了一套面向大模型后訓練的高效框架。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      朱芳雨痛批廣廈隊1人:胡打,亂打,是輸球的關鍵因素!

      朱芳雨痛批廣廈隊1人:胡打,亂打,是輸球的關鍵因素!

      體育哲人
      2026-05-27 17:26:40
      復旦女教授硬剛家長后續,廣東一老師被投訴6次不和解

      復旦女教授硬剛家長后續,廣東一老師被投訴6次不和解

      九方魚論
      2026-05-28 07:15:22
      80年,楊勇沒能升任總參謀長,見到鄧小平欽定的人選后,大喊:哥

      80年,楊勇沒能升任總參謀長,見到鄧小平欽定的人選后,大喊:哥

      談古論今歷史有道
      2026-05-28 06:00:03
      足協罕見表態!甘樹然遭炮轟:中超裁判泥石流,回去吹城市聯賽吧

      足協罕見表態!甘樹然遭炮轟:中超裁判泥石流,回去吹城市聯賽吧

      奧拜爾
      2026-05-27 21:20:33
      莫言:如果你混到沒人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

      莫言:如果你混到沒人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

      品讀時刻
      2026-05-27 09:00:58
      近萬人圍觀!上海泳渡賽女選手隱私照直播泄露,哺乳期當事人崩潰

      近萬人圍觀!上海泳渡賽女選手隱私照直播泄露,哺乳期當事人崩潰

      酷侃體壇
      2026-05-28 09:35:01
      西班牙的加泰羅尼亞,一旦獨立,對西班牙有什么影響?

      西班牙的加泰羅尼亞,一旦獨立,對西班牙有什么影響?

      世界縱橫說
      2026-05-25 15:13:48
      狗在交配時會鎖結30分鐘無法中斷,如此危險的動作為何沒被淘汰?

      狗在交配時會鎖結30分鐘無法中斷,如此危險的動作為何沒被淘汰?

      宇宙時空
      2026-05-27 16:00:16
      新華社力挺!耿同學再爆猛料!“學術委員會”為啥先慌了?

      新華社力挺!耿同學再爆猛料!“學術委員會”為啥先慌了?

      大江看潮
      2026-05-28 07:34:37
      越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

      越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

      觀史搜尋著
      2026-05-21 05:41:15
      64.98萬!最貴問界來了,余承東:地球最強SUV

      64.98萬!最貴問界來了,余承東:地球最強SUV

      車東西
      2026-05-27 18:10:50
      一帥難求!伊勞拉選擇水晶宮,AC米蘭再列7目標,幾無名帥

      一帥難求!伊勞拉選擇水晶宮,AC米蘭再列7目標,幾無名帥

      大羽體壇
      2026-05-28 10:39:45
      黃仁勛:英偉達計劃每年在中國臺灣投資1500億美元

      黃仁勛:英偉達計劃每年在中國臺灣投資1500億美元

      鳳凰網科技
      2026-05-27 12:11:36
      擠走王少杰!CBA狀元內線自曝將加盟廣東隊,或被杜鋒看中!

      擠走王少杰!CBA狀元內線自曝將加盟廣東隊,或被杜鋒看中!

      緋雨兒
      2026-05-28 08:13:52
      放棄杜蘭特或申京?火箭隊卷入布朗和字母哥爭奪戰,陣容大變?

      放棄杜蘭特或申京?火箭隊卷入布朗和字母哥爭奪戰,陣容大變?

      Haviven聊球
      2026-05-28 12:00:02
      衛健委已將左氧氟沙星列為重點監控藥物!提醒:服用千萬注意

      衛健委已將左氧氟沙星列為重點監控藥物!提醒:服用千萬注意

      健康科普365
      2026-05-25 22:15:03
      她憑一己之力,把吳某凡送進監獄,沒想到如今也栽了,不值得同情

      她憑一己之力,把吳某凡送進監獄,沒想到如今也栽了,不值得同情

      探源歷史
      2026-04-25 19:19:53
      嬰兒哭了30萬年,終于有人聽懂

      嬰兒哭了30萬年,終于有人聽懂

      碳基打工人
      2026-05-18 01:39:40
      尼泊爾為何愿意放棄7萬平方公里,卻對372平方公里寸土必爭?

      尼泊爾為何愿意放棄7萬平方公里,卻對372平方公里寸土必爭?

      究竟誰主沉浮
      2026-05-27 08:56:11
      比預制菜更恐怖的,是被科技狠活承包的現制餐

      比預制菜更恐怖的,是被科技狠活承包的現制餐

      藍鯨新聞
      2026-05-25 19:47:39
      2026-05-28 12:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13099文章數 142653關注度
      往期回顧 全部

      科技要聞

      臺積電3納米下半年漲價15% 明年或再漲10%

      頭條要聞

      男子結婚22年兩兒子非親生 妻子承認出軌丈夫的堂哥

      頭條要聞

      男子結婚22年兩兒子非親生 妻子承認出軌丈夫的堂哥

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      曝大嫂冒充七七同學,林俊杰刪掉合照

      財經要聞

      長鑫科技IPO過會,市值會到幾萬億?

      汽車要聞

      限時補貼價9.28-10.98萬 MG 4X正式上市

      態度原創

      健康
      教育
      親子
      時尚
      房產

      打外泌體會比干細胞更安全嗎

      教育要聞

      2026年第22屆快樂陽光飛越彩虹深圳龍華賽區官方宣傳片上線

      親子要聞

      適合矮個子的賴氨酸有哪些?2026寶媽優選賴氨酸盤點:氨基丁酸輕松助力長高

      丑到離譜的牛馬鞋,新中產搶瘋了

      房產要聞

      突發重磅!三亞新機場公司正式成立!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 超碰人人草| 51精品国产人成在线观看| 亚洲精品亚洲人成在线观看麻豆| 亚洲AV成人片不卡无码| 亚洲激情av| 成在线人免费视频| 麻豆秘密入口亚洲综合| 国产成人AV在线免播放观看新 | 欧美性叉叉久久中国| 麻豆国产尤物av尤物在线观看| 日韩av日韩| 亚洲AV永久天堂在线观看| 95在线一区| 日韩精品一区二区大桥未久| 欧洲性少妇| 久青草久青草视频在线观看| 亚洲国产欧美在线看片一国产| 波多野吉衣av无码| 精品人妻码一区二区三区| 另类国产ts人妖合集| 中国一级毛片视频免费看| 日韩国产欧美成人一区二区影院| 国产日韩精品一区二区在线观看播放| 国产VA在线视频观看| 99视频精品在线| 99人中文字幕亚洲区三| 久操国产在线| 国语高潮无遮挡无码免费看| 亚洲欧美日韩国产综合久| 老司机亚洲精品| 丝袜人妻一区二区三区网站| 亚洲中文字幕无码一区| 国产熟女口爆| 欧美人与zoxxxx另类| 久久精品色妇熟妇丰满人| 久久精品| 亚洲最大无码AV网站观看| 欧美日韩亚洲视频| 无码精品人妻一区二区三区中| 99xxxx激情综合网| 亚洲免费观看视频|