<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      VinciCoder:多模態統一代碼生成框架和視覺反饋強化學習

      0
      分享至



      長期以來,多模態代碼生成(Multimodal Code Generation)的訓練嚴重依賴于特定任務的監督微調(SFT)。盡管這種范式在 Chart-to-code 等單一任務上取得了顯著成功 ,但其 “狹隘的訓練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺代碼智能(Generalized VIsioN Code Intelligence)的發展 。同時,「SFT-only」的范式在確保代碼可執行性和高視覺保真度方面存在顯著瓶頸 。

      在此背景下,中科院 & 美團研究團隊推出了 VinciCoder,一個旨在打破 SFT 瓶頸的統一多模態代碼生成模型。VinciCoder首次將強化學習的獎勵機制從文本域轉向視覺域,提出視覺強化學習(ViRL),專攻 SFT 無法解決的視覺保真度難題。

      本文提出的系統性框架VinciCoder,通過 “大規模 SFT + 粗細粒度 ViRL” 的兩階段策略,有效統一了從圖表、網頁、SVG 到科學繪圖(LaTeX、化學分子)等多樣化代碼生成任務 。



      • 論文標題:VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2511.00391
      • Github 鏈接:https://github.com/DocTron-hub/VinciCoder

      數據代碼模型權重已開源。

      核心創新與技術突破

      該論文同樣對傳統 SFT 范式的局限性進行了深入分析,發現其關鍵問題在于訓練目標與最終任務之間存在 “視覺鴻溝”:

      • 目標是局部的:SFT 采用自回歸的 “下一詞元預測” 目標 ,這本質上是局部的,無法為代碼 “可執行性” 等全局屬性提供監督信號 。
      • 缺乏視覺反饋:模型在訓練時完全看不到代碼的渲染結果 。這是一個致命缺陷,因為在代碼中 “微小的修改就可能導致渲染圖像發生巨大變化” 。

      這種 “視覺 - 代碼” 監督的缺失,直接導致了兩個關鍵問題:

      • 保真度低且不可靠:模型僅在詞元層面(token-level)進行優化 ,無法保證渲染出的圖像在視覺上與輸入對齊,也無法保證代碼可以成功執行 。
      • 泛化能力差:依賴特定任務的數據集進行 SFT,難以形成一個統一的多模態代碼生成框架 。

      考慮到 SFT 的根本局限性,研究者認為必須引入一個能夠提供全局視覺反饋的機制。然而,傳統的 RL 方法依賴難以泛化的 “基于規則的文本獎勵” 。VinciCoder 的破局點在于 ——將獎勵機制從文本域徹底轉向視覺域

      VinciCoder 的核心思路是:用大規模、多樣化的 SFT 構建強大的代碼基礎能力 ,再通過創新的 ViRL 策略專門優化 SFT 無法觸及的視覺保真度和可執行性 。訓練框架由「1.6M 大規模 SFT 階段」和「42k 粗細粒度 ViRL 階段」兩部分組成 ,核心是通過兩階段協作,同時實現強大的代碼理解與高保真的視覺對齊。

      1. 大規模 SFT 語料庫與代碼優化任務



      研究團隊首先構建了一個包含1.6M 圖像 - 代碼對的大規模監督微調(SFT)語料庫 。該語料庫不僅覆蓋了直接代碼生成任務,還引入 “視覺代碼優化” 的新任務 。在這項任務中,模型會接收到一個目標圖像和一個 “有缺陷” 的代碼片段(包含邏輯錯誤或只能部分渲染)。模型的目標是修正這段代碼,使其視覺輸出與目標圖像精確對齊 。這一設計極大地提升了模型在代碼層面的糾錯和優化能力,為后續的強化學習階段奠定了堅實基礎 。

      2. 從 “文本獎勵” 到 “視覺獎勵”:粗細粒度 ViRL 框架



      傳統 SFT 訓練在多模態代碼生成上存在根本缺陷:它缺乏 “視覺 - 代碼” 的閉環反饋 ,且無法保證代碼的全局可執行性 。

      為解決此問題,VinciCoder 引入了視覺強化學習 (ViRL) 框架。該框架摒棄了傳統強化學習中脆弱的、基于規則的 “文本獎勵” ,轉而從視覺直接獲取獎勵信號 。

      其核心突破在于一套粗 - 細粒度(Coarse-to-fine)視覺獎勵機制:

      • 渲染與編碼:模型生成的代碼被實時渲染成圖像 。
      • 粗粒度(全局):通過下采樣生成縮略圖,評估整體結構的相似性 。
      • 細粒度(局部):將高分辨率圖像分割為多個局部圖塊(patches),精確計算局部細節的保真度 。
      • ViT 獎勵模型:使用 DINOv2-L 計算渲染圖像與目標圖像在兩個粒度上的視覺相似度,作為獎勵信號。
      • 對齊獎勵:引入一個輔助的語言對齊獎勵,用于懲罰生成了錯誤代碼語言(如要求 Python 卻生成了 LaTeX 的行為)
      • 策略優化:采用群組相對策略優化 (GRPO) 算法 對模型進行微調,顯著提升視覺對齊度和代碼可執行性。

      據我們所知,VinciCoder 是第一個應用強化學習(RL)來實現統一視覺代碼生成領域中 “跨領域視覺保真度” 提升的視覺語言模型

      實驗結果與性能表現

      論文在五大多模態代碼生成基準上進行了全面實驗,對比了包括 Qwen、InternVL 等開源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結果如下:



      實驗結果令人矚目:VinciCoder 在多個主流多模態代碼生成基準上均取得了卓越表現。

      • SOTA 性能:VinciCoder 在開源模型對比中樹立了新的 SOTA 標準 ,其性能顯著優于所有同等規模的競爭對手 。
      • 媲美閉源模型:在如 Image-to-SVG 和化學分子式生等高難度任務上,VinciCoder 展現出超越頂尖閉源模型的卓越性能 。
      • 策略有效性:消融實驗證明,僅 SFT 階段的 VinciCoder-SFT 就已建立起強大的基線 ;而 ViRL 階段的引入,則成功將模型性能提升至 SOTA 水平 ,充分驗證了 SFT-ViRL 兩階段策略的壓倒性優勢。



      研究意義與應用前景

      VinciCoder 的研究不僅在技術上取得了重大突破,也為多模態代碼生成領域提供了全新的研究范式:

      • 驗證 RL 新路徑:證明了 “視覺強化學習” 是突破 SFT 瓶頸、提升代碼視覺保真度的有效途徑,將獎勵機制從文本域成功擴展到視覺域 。
      • 統一框架的實現:打破了過去模型 “各自為戰” 的狹隘范式 ,提供了一個強大的統一框架,能夠處理包括 Python、HTML、SVG、LaTeX 乃至化學 SMILES 在內的多樣化代碼生成任務 。
      • 高保真度獎勵機制:“粗 - 細粒度” 獎勵設計為處理高分辨率、高復雜度視覺輸入的 RL 任務提供了健壯且可擴展的解決方案 。

      結論

      VinciCoder 的核心價值并非單純地堆砌 SFT 數據,而是通過 “SFT + 粗細粒度 ViRL” 的組合,證明了 “以視覺反饋指導代碼生成” 的可行性與優越性。這一思路不僅解決了傳統 SFT 范式在可執行性與視覺保真度上的痛點,也為后續通用多模態智能體的研發提供了新的思路。

      在總體思路上,該論文的思路與 R1-Style 方法高度相關,都驗證了強化學習在提升基礎模型高級能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優化數學推理等文本任務,更可以作為連接 “視覺” 與 “代碼” 兩大模態的橋梁,解決 SFT 無法企及的跨模態對齊難題。

      更多細節請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鄉鎮公務員工作日常竟是這樣的!網友:調一晚上監控就為了找白菜

      鄉鎮公務員工作日常竟是這樣的!網友:調一晚上監控就為了找白菜

      蘭妮搞笑分享
      2026-05-01 14:24:03
      俄羅斯真會對烏克蘭使用戰術核武器嗎?沒有這個可能

      俄羅斯真會對烏克蘭使用戰術核武器嗎?沒有這個可能

      史政先鋒
      2026-05-04 15:16:04
      張雪機車冠軍獎金4萬,德比斯年薪近500萬,這錢到底怎么算的?

      張雪機車冠軍獎金4萬,德比斯年薪近500萬,這錢到底怎么算的?

      樂悠悠娛樂
      2026-05-04 13:00:24
      博主:徐正源已正式簽約鐵人,明天抵達沈陽預計7號正式帶隊

      博主:徐正源已正式簽約鐵人,明天抵達沈陽預計7號正式帶隊

      懂球帝
      2026-05-04 17:10:08
      網約車女乘客要求改道送朋友被拒,強搶方向盤導致車禍!涉事平臺表示:已對乘客賬號實施管控

      網約車女乘客要求改道送朋友被拒,強搶方向盤導致車禍!涉事平臺表示:已對乘客賬號實施管控

      魯中晨報
      2026-05-04 18:01:07
      慘無人道!以軍用軍犬強奸巴勒斯坦囚犯,全程錄像,受害者:想死

      慘無人道!以軍用軍犬強奸巴勒斯坦囚犯,全程錄像,受害者:想死

      史行途
      2026-05-01 12:29:39
      “藏南”的管轄現狀,印度在藏南囤積重兵,中國還能收回藏南嗎?

      “藏南”的管轄現狀,印度在藏南囤積重兵,中國還能收回藏南嗎?

      共工之錨
      2026-04-28 23:29:16
      官方:李金羽不再擔任遼寧鐵人足球俱樂部總經理、一線隊主教練

      官方:李金羽不再擔任遼寧鐵人足球俱樂部總經理、一線隊主教練

      懂球帝
      2026-05-04 17:42:07
      不是杜蘭特!不是烏杜卡!要價4年1.2億美元,火箭離隊首人或出爐

      不是杜蘭特!不是烏杜卡!要價4年1.2億美元,火箭離隊首人或出爐

      籃球圈里的那些事
      2026-05-04 18:17:00
      黃秋生作品出局:兩場演唱會同日取消,風向已經很清楚了

      黃秋生作品出局:兩場演唱會同日取消,風向已經很清楚了

      一盅情懷
      2026-05-04 15:54:27
      2026年5月1日起,體制內最嚴“緊箍咒”來了。這九件事,不能碰

      2026年5月1日起,體制內最嚴“緊箍咒”來了。這九件事,不能碰

      墜入二次元的海洋
      2026-05-04 14:54:30
      廣東農村丑女嫁英國精英老頭,3年連生3娃,坐私人飛機成倫敦公主

      廣東農村丑女嫁英國精英老頭,3年連生3娃,坐私人飛機成倫敦公主

      小邵說劇
      2026-05-04 12:06:36
      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      混沌錄
      2026-04-22 20:55:37
      明天立夏節氣,別忘“吃三樣,做一事,忌一事”,幸福圓滿常伴

      明天立夏節氣,別忘“吃三樣,做一事,忌一事”,幸福圓滿常伴

      雪峰兒
      2026-05-04 06:22:26
      最新 | 女演員空中墜落倒地不起!萬達回應!

      最新 | 女演員空中墜落倒地不起!萬達回應!

      天津廣播
      2026-05-04 13:22:31
      15勝6負+12連勝,騎士優勢明顯!哈登直言不諱,對活塞2點成關鍵

      15勝6負+12連勝,騎士優勢明顯!哈登直言不諱,對活塞2點成關鍵

      魚崖大話籃球
      2026-05-04 15:34:24
      拼命還清一億四千萬巨債,曾經的“亮劍女神”,現回浙江農家生活

      拼命還清一億四千萬巨債,曾經的“亮劍女神”,現回浙江農家生活

      荒野老五
      2026-04-05 19:45:15
      如果情況不變,2026年5月以后,全國60%家庭可能面臨兩大難題

      如果情況不變,2026年5月以后,全國60%家庭可能面臨兩大難題

      心理觀察局
      2026-05-04 08:51:21
      白宮28歲女發言人宣布懷孕了,記者們驚訝的是她60歲的老公。

      白宮28歲女發言人宣布懷孕了,記者們驚訝的是她60歲的老公。

      歲月有情1314
      2026-05-03 17:58:56
      痛惜!39歲上海科大教授王晨輝,為救7歲女兒永遠留在五一

      痛惜!39歲上海科大教授王晨輝,為救7歲女兒永遠留在五一

      冷月侃娛樂
      2026-05-03 21:12:05
      2026-05-04 18:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12905文章數 142639關注度
      往期回顧 全部

      科技要聞

      OpenAI“復活”了QQ寵物,網友直接玩瘋

      頭條要聞

      伊朗:美軍艦試圖進入霍爾木茲海峽 伊朗發射兩枚導彈

      頭條要聞

      伊朗:美軍艦試圖進入霍爾木茲海峽 伊朗發射兩枚導彈

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      游戲
      家居
      健康
      旅游
      軍事航空

      任天堂NS2銷量成功險勝PS5!4月全球首周銷量榜出爐

      家居要聞

      靈動實用 生活藝術場

      干細胞治燒燙傷面臨這些“瓶頸”

      旅游要聞

      “五一”周邊游、微度假走熱,北京等地成假日消費核心聚集地|聚焦假日經濟

      軍事要聞

      特朗普回絕伊朗新方案

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 呦男呦女视频精品八区| 免费无码av片在线观看播放| 欧美曰韩国久久| 人妻少妇中文字幕久久69堂| 青草视频在线观看视频| 亚洲美免无码中文字幕在线| 调教少妇视频| 一本色道久久88亚洲综合| 在线 | 一区二区三区| 色噜噜亚洲男人的天堂| 无码人妻精品一区二区三区久久| 无码?人妻?在线| 免费无码又爽又刺激动态图| 在线观看精品自拍视频| 国产美女被遭高潮免费网站| 国产成人精品亚洲77美色| 一本色道久久综合熟妇人妻| 午夜不卡av免费| 无码丰满熟妇| 色娜娜无码激情在线| 国产精品无码久久久免费| 人妻系列无码专区2020| 呦男呦女精品视频十区| 亚洲中文无码mv| 高清乱码免费入口| 丝袜美腿亚洲一区在线| 日韩小视频网站hq| 99热精品久久只有精品38| 国产精品久久久久9999| 久热这里只有精品12| 伊人久久婷婷色综合98网| 久久毛片ddd| 天天做天天爱天天做| 92精品国产自产在线观看| 插入中文字幕在线一区二区三区 | 亚洲国产av一区二区三区| 欧美亚一区| 久久亚洲中文字幕不卡一二区| 很很的日夜夜操| 精品人妻一区二区三区蜜桃AⅤ| 久久久久人妻一区精品色欧美|