<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      從最優傳輸角度訓練獎勵模型:讓 RLHF 學會「忽略錯誤偏好」丨ICML 2026

      0
      分享至


      SelectiveRM:從點對點擬合噪聲偏好,轉向帶選擇機制的分布對齊,重構獎勵模型的訓練目標。

      在大語言模型對齊研究中,一個看似自然、卻值得重新審視的問題長期存在:

      一方面,RLHF、RLAIF、GRPO等方法不斷推動模型對齊能力演進;另一方面,獎勵模型訓練階段卻普遍默認一個前提——收集到的偏好標注能夠準確反映真實人類偏好

      但現實并非如此。無論是人工標注、眾包反饋,還是LLM-as-a-Judge,偏好數據都不可避免地包含噪聲:標注疲勞、主觀分歧、隨機失誤、模型幻覺,都可能讓“觀測偏好”偏離“真實偏好”。

      這使得獎勵模型訓練面臨一個根本問題:如果監督信號本身并不可靠,那么模型究竟應該學習什么

      針對這一問題,浙江大學、小紅書、北京大學等機構的研究團隊提出了SelectiveRM:一種基于最優傳輸(Optimal Transport) 的獎勵模型訓練框架。該方法不再要求模型無條件擬合所有觀測偏好,而是通過選擇性分布對齊,自動識別并排除與語義一致性相沖突的Noisy Preference,從而學習更可靠的獎勵函數。這項工作不僅為Noisy Reward Modeling提供了新的理論與方法,也從更一般的意義上,對“在噪聲反饋下應當如何訓練獎勵模型”這一問題給出了新的回答


      論文地址:http://arxiv.org/abs/2605.06036

      01


      當“觀測偏好 = 真實偏好”的假設被打破之后

      當前主流獎勵模型訓練,本質上仍然沿用標準監督學習范式:給定prompt-response x 對及其偏好標注 r ,最小化模型預測與標注之間的點對點誤差。


      這種做法隱含了一個強假設:訓練數據中的偏好標簽是干凈且可信的。然而,在真實場景中,這一假設往往并不成立。偏好數據天然具有主觀性和不穩定性:人類標注員可能因疲勞或理解差異給出不一致反饋;眾包場景下可能存在隨意標注;LLM-as-a-Judge也可能因能力不足或幻覺產生系統性誤差。因此,獎勵模型面對的并不是“純凈偏好”,而往往是真實偏好與錯誤偏好的混合體。

      研究團隊從理論上揭示了這一問題:在實例相關噪聲(Instance-Dependent Noise)下,直接最小化經驗風險,并不僅僅是在擬合真實偏好,同時也在擬合錯誤偏好。對于高噪聲樣本,模型的優化方向甚至會被錯誤標簽主導,從而逐漸記住噪聲,而不是學習真正的人類偏好邏輯。

      更關鍵的是,這種偏差還會被 RLHF 的后續策略優化進一步放大。一旦獎勵模型學錯了,策略模型就會主動利用這些錯誤信號,誘發Reward Hacking,最終損害模型的安全性與對齊質量。

      團隊還對多個公開偏好數據集進行了噪聲分析,結果表明Noisy Preference并非個別現象,而是普遍存在于人類與 LLM 標注數據中的系統性問題。一些數據集中的估計噪聲比例甚至接近40%–50%。這說明:噪聲偏好不是獎勵建模中的邊緣問題,而是必須被正面解決的核心挑戰。


      02


      SelectiveRM:從點對點擬合轉向選擇性分布對齊

      為了解決Noisy Preference問題,研究團隊提出了SelectiveRM。它的核心思想是:不要再把獎勵模型訓練看作簡單的點對點回歸,而要將其重構為一個分布對齊問題。具體來說,SelectiveRM考慮兩類聯合分布:(1)數據中的經驗聯合分布:;(2)模型誘導出的聯合分布:。

      如果獎勵模型真正學到了偏好規律,那么這兩個分布應當是對齊的。基于這一思想,論文提出了Joint Consistency Discrepancy,利用最優傳輸來衡量這兩個聯合分布之間的差異。


      與傳統損失不同,這里的傳輸代價同時考慮:(1)語義距離:兩個樣本在語義空間中是否接近;(2)偏好差異:它們的偏好值是否一致。這樣一來,模型不再只是逐點擬合標簽,而是在全局上學習“語義-偏好”之間的一致結構。

      但團隊進一步指出,標準最優傳輸仍然存在局限。原因在于,它要求所有樣本都必須被匹配,即嚴格滿足“質量守恒”。這意味著,即使某些樣本本身是帶噪錯誤偏好,模型也仍然會被迫去擬合它們。

      為此,SelectiveRM進一步引入了部分最優傳輸(Partial Optimal Transport),構造出帶有Mass Relaxation機制的訓練目標。它允許傳輸計劃只匹配一部分質量,而把那些代價過高、與語義一致性明顯沖突的樣本排除在外。


      基于這一設計,SelectiveRM 能夠自動保留低成本、高一致性的可靠樣本,同時忽略高成本、疑似帶噪的偏好數據。換句話說,它不再要求模型“解釋所有數據”,而是允許模型只向可信監督對齊。

      研究團隊還從理論上證明:SelectiveRM所優化的是一個比標準經驗風險更緊的clean-risk 上界,因此這種“選擇性對齊”不僅有效,而且具有嚴格的理論支撐。

      03


      在大量實驗中,一致驗證優勢

      為了驗證SelectiveRM的有效性,研究團隊在多個公開偏好數據集上開展了系統實驗,包括HelpSteer、UltraFeedback和PKU-SafeRLHF,并與多類Noisy Label Learning方法進行了比較。


      實驗結果表明:

      首先,標準訓練方式在Noisy Preference下最容易失效。Naive baseline在多個數據集上都表現最差,說明“把所有偏好都當真”會顯著損害獎勵模型質量。

      其次,現有降噪方法雖然能緩解噪聲影響,但提升有限。無論是基于噪聲轉移矩陣的統計方法,還是基于樣本篩選的啟發式方法,都能在一定程度上改善性能,但往往受限于過強的噪聲假設或不穩定的篩選機制。相比之下,SelectiveRM在各項指標上均取得最優結果。

      進一步的消融實驗也驗證了方法中兩個關鍵組件的作用:引入聯合代價后,模型能更好利用語義一致性來判斷偏好是否可靠;引入部分傳輸后,模型獲得了自動排除高成本Noisy Preference的能力。二者結合后,SelectiveRM達到最佳表現,說明其優勢并非來自單一技巧,而是來自“語義一致性判斷 + 選擇性匹配機制”的協同作用。


      此外,研究團隊還在不同Backbone上測試了方法的泛化能力,包括Qwen2.5 和LLaMA2系列不同參數規模模型。結果表明,SelectiveRM在從7B到72B的多個模型上都穩定帶來性能增益,顯示出良好的模型無關性與泛化能力。


      04


      不只是獎勵模型更準,更重要的是下游 RLHF 更安全

      SelectiveRM的價值并不止于獎勵模型本身的指標提升。研究團隊進一步考察了它對下游RLHF的實際影響。團隊使用不同獎勵模型為GRPO提供獎勵信號,并在HarmBench、FFT、DAN等安全基準上評估最終策略模型表現。


      結果表明,由SelectiveRM訓練得到的獎勵模型,能夠穩定提升策略模型的安全得分,并在不同Backbone上都表現出更好的魯棒性。這說明:更干凈的獎勵模型,會直接轉化為更可靠的策略優化信號。

      相比之下,由Naive Reward Model引導的策略更容易受到Noisy Preference的誤導,從而在對抗性Jailbreak Prompt下暴露安全漏洞;而SelectiveRM由于在訓練階段就主動過濾掉與語義一致性沖突的偏好噪聲,因此能有效抑制Reward Hacking的傳播。

      從更一般的角度看,這項工作的意義并不只在于提出了一個新的Noisy Reward Modeling方法,更在于它重新審視了一個長期被忽視的問題:當監督信號本身不可靠時,學習目標不應只是“更好地擬合數據”,而應當進一步回答“哪些數據值得被學習”。SelectiveRM所倡導的“選擇性分布對齊”思想,為這一問題提供了一個新的答案。它表明,在Noisy Preference場景中,獎勵模型訓練不應無條件相信所有觀測標簽,而應當在結構一致性約束下,自主識別并保留更可信的監督信號。因此,這項工作不僅推進了獎勵建模研究,也為如何在噪聲反饋下學習可靠目標提供了一種更具原則性的訓練范式。

      05


      作者信息

      論文第一作者潘黎鋮,現為浙江大學計算機科學與技術學院網絡空間安全專業博士研究生,研究方向聚焦于多任務學習、時間序列分析,以及構建安全可信的大語言模型。在本項目中,他依托小紅書開展合作研究,深入探索了強化學習中獎勵模型的魯棒性與人類價值觀對齊。


      論文共同通訊作者李昊軒,現為北京大學數據科學專業博士研究生,同時兼任牛津大學訪問研究員。他在ICML、NeurIPS、ICLR、SIGKDD、WWW、SIGIR、CVPR、ICDE和ACL等人工智能頂級會議上發表論文80余篇,相關研究曾被《麻省理工科技評論》報道。此外,他曾擔任ICML、NeurIPS、ICLR、SIGKDD等頂級會議的領域主席(AC),并受邀擔任TKDE、TOIS、TKDD、TNNLS和JASA等知名學術期刊的審稿人。


      論文共同通訊作者王浩,現為浙江大學工業控制技術國家重點實驗室博士研究生,研究方向聚焦于因果推斷、多任務學習技術及其在大語言模型中的應用。2022年-2023年,他曾在螞蟻金服、微軟亞洲研究院科研實習,從事推薦系統理論研究。2025年起,他在小紅書參加RedStar實習項目,進行大語言模型、可信獎勵模型領域的研究工作。


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。f

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      倒查10年!國家出手,全面整治醫院這類問題

      倒查10年!國家出手,全面整治醫院這類問題

      醫脈圈
      2026-05-15 20:39:55
      俄羅斯超大艦隊進入東海

      俄羅斯超大艦隊進入東海

      烽火觀天下
      2026-05-14 10:58:42
      盧秀燕急了,鄭麗文未赴美,選舉已徹底輸

      盧秀燕急了,鄭麗文未赴美,選舉已徹底輸

      徐云流浪中國
      2026-05-15 14:25:34
      特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

      特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

      小小科普員
      2026-03-26 00:27:10
      特朗普訪華享最高禮遇,日本首相登門卻遭冷遇,區別對待藏大智慧

      特朗普訪華享最高禮遇,日本首相登門卻遭冷遇,區別對待藏大智慧

      舟望停云
      2026-05-15 21:59:28
      擊敗世界第10!中國女網15歲超新星崛起:3大10后小花看齊鄭欽文

      擊敗世界第10!中國女網15歲超新星崛起:3大10后小花看齊鄭欽文

      李喜林籃球絕殺
      2026-05-15 12:06:56
      半島聚焦丨中成藥迎“最嚴清退”!7月起超4萬種中成藥可能停產,健胃消食片等明星產品將淘汰?

      半島聚焦丨中成藥迎“最嚴清退”!7月起超4萬種中成藥可能停產,健胃消食片等明星產品將淘汰?

      半島官網
      2026-05-14 16:52:07
      中藥又立功!蒲公英能在48小時內殺死98%的癌細胞?醫生說出實情

      中藥又立功!蒲公英能在48小時內殺死98%的癌細胞?醫生說出實情

      垚垚分享健康
      2026-05-15 08:52:25
      獨家專訪|蔡斌:排球人生路,問心無愧

      獨家專訪|蔡斌:排球人生路,問心無愧

      澎湃新聞
      2026-05-14 18:20:28
      又贏了,4-2!北京隊爆發4球,橫掃4連勝黑馬,27歲新星冉冉升起

      又贏了,4-2!北京隊爆發4球,橫掃4連勝黑馬,27歲新星冉冉升起

      北門兒
      2026-05-15 22:00:15
      小米手機官宣降價,門店員工:15Ultra直降1500元,17Ultra也有優惠

      小米手機官宣降價,門店員工:15Ultra直降1500元,17Ultra也有優惠

      極目新聞
      2026-05-15 19:08:44
      絕色美人艾梅柏:曾經迷倒德普和馬斯克,如今帶著3個娃“隱居”

      絕色美人艾梅柏:曾經迷倒德普和馬斯克,如今帶著3個娃“隱居”

      小書生吃瓜
      2026-05-02 22:22:47
      天津津門虎1-2成都蓉城,賽后評分出爐:成都蓉城7號排第一

      天津津門虎1-2成都蓉城,賽后評分出爐:成都蓉城7號排第一

      側身凌空斬
      2026-05-15 21:33:24
      天王嫂濾鏡徹底碎!方媛搶單人間引眾怒,極致利己嘴臉藏不住了

      天王嫂濾鏡徹底碎!方媛搶單人間引眾怒,極致利己嘴臉藏不住了

      千言娛樂記
      2026-05-14 23:30:52
      印度自取其辱,專挑中美的大日子舉辦金磚會議,王毅外長直接不去

      印度自取其辱,專挑中美的大日子舉辦金磚會議,王毅外長直接不去

      生活魔術專家
      2026-05-15 16:18:18
      2026公安嚴打!這8件事別碰,碰了連累全家

      2026公安嚴打!這8件事別碰,碰了連累全家

      原廣工業
      2026-05-15 18:11:31
      怎么拒絕親戚要長期住到家里的請求?網友:看好了,我只教一遍!

      怎么拒絕親戚要長期住到家里的請求?網友:看好了,我只教一遍!

      夜深愛雜談
      2026-05-15 07:17:28
      特斯拉中國官宣全新優惠,5.59 萬即可提 Model 3 了!

      特斯拉中國官宣全新優惠,5.59 萬即可提 Model 3 了!

      XCiOS俱樂部
      2026-05-13 14:22:27
      韋世豪連場破門!301天首次,3戰津門虎均破門,閆炳良巨大失誤

      韋世豪連場破門!301天首次,3戰津門虎均破門,閆炳良巨大失誤

      奧拜爾
      2026-05-15 19:56:03
      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      瀲滟晴方DAY
      2026-04-25 23:29:34
      2026-05-15 22:27:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7280文章數 20751關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      頭條要聞

      生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      游戲
      旅游
      教育
      親子
      本地

      PS5獨占神作銷量太慘了!首周僅4614份 第二周消失

      旅游要聞

      瓣瓣一線|門票優惠、公益講解!河南三門峽送出“5·19”游玩大禮包 ?

      教育要聞

      綿陽涪城區發布2026年義務教育招生公告(附劃片范圍、招生計劃)

      親子要聞

      深圳萌娃化身“護鳥衛士” 為紅耳鵯蛋寶寶搭圍欄立守則

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 香蕉EEWW99国产精选免费| 亚洲五月婷婷久久综合| 国产成人无码av在线播放dvd| 少妇被爽到高潮喷水久久欧美精品| 男女猛烈激情XX00免费视频| 日韩色美女| 亚洲综合另类小说专区| 国产av无码国产av毛片| 国产成人av大片在线观看| 国产精品视频资源| 无码精品人妻一区二区三区漫画| 黑人VideOS特大粗暴| 18禁无遮挡羞羞污污污污网站| 18禁无遮挡啪啪无码网站| 久久国产精品精品视频| 国产精品女同一区三区五区| 色8激情欧美成人久久综合电| 精品黑人一区二区三区久久| 精品一区二区三区无码视频| 狠狠色噜噜狠狠狠狠2021| 青青草视频免费观看| 国产真实乱全部视频| 午夜福利啪啪片| 一本色道久久综合av| 国产va在| 麻豆国产精品VA在线观看不卡| 无码专区 人妻系列 在线| 亚洲第一无码av无码专区| 日韩精品第一页| 欧美s码亚洲码精品m码| 国产一区二区三区在线网址| 瑟瑟日韩无码| 白丝尤物jk自慰制服喷水| 国产成人综合网| 精品国产电影久久九九| 操美女91| 男人和女人在床的app| 中文字幕丰满乱子伦无码专区| 久久五月精品中文字幕| 五月婷视频| 国产精品一区二区av片|