網易首頁 > 網易號 > 正文申請入駐

從最優傳輸角度訓練獎勵模型：讓 RLHF 學會「忽略錯誤偏好」丨ICML 2026

2026-05-13 18:23:20　來源: AI科技評論

廣東舉報

分享至

SelectiveRM：從點對點擬合噪聲偏好，轉向帶選擇機制的分布對齊，重構獎勵模型的訓練目標。

在大語言模型對齊研究中，一個看似自然、卻值得重新審視的問題長期存在：

一方面，RLHF、RLAIF、GRPO等方法不斷推動模型對齊能力演進；另一方面，獎勵模型訓練階段卻普遍默認一個前提——收集到的偏好標注能夠準確反映真實人類偏好。

但現實并非如此。無論是人工標注、眾包反饋，還是LLM-as-a-Judge，偏好數據都不可避免地包含噪聲：標注疲勞、主觀分歧、隨機失誤、模型幻覺，都可能讓“觀測偏好”偏離“真實偏好”。

這使得獎勵模型訓練面臨一個根本問題：如果監督信號本身并不可靠，那么模型究竟應該學習什么？

針對這一問題，浙江大學、小紅書、北京大學等機構的研究團隊提出了SelectiveRM：一種基于最優傳輸（Optimal Transport）的獎勵模型訓練框架。該方法不再要求模型無條件擬合所有觀測偏好，而是通過選擇性分布對齊，自動識別并排除與語義一致性相沖突的Noisy Preference，從而學習更可靠的獎勵函數。這項工作不僅為Noisy Reward Modeling提供了新的理論與方法，也從更一般的意義上，對“在噪聲反饋下應當如何訓練獎勵模型”這一問題給出了新的回答。

論文地址：http://arxiv.org/abs/2605.06036

當“觀測偏好 = 真實偏好”的假設被打破之后

當前主流獎勵模型訓練，本質上仍然沿用標準監督學習范式：給定prompt-response x 對及其偏好標注 r ，最小化模型預測與標注之間的點對點誤差。

這種做法隱含了一個強假設：訓練數據中的偏好標簽是干凈且可信的。然而，在真實場景中，這一假設往往并不成立。偏好數據天然具有主觀性和不穩定性：人類標注員可能因疲勞或理解差異給出不一致反饋；眾包場景下可能存在隨意標注；LLM-as-a-Judge也可能因能力不足或幻覺產生系統性誤差。因此，獎勵模型面對的并不是“純凈偏好”，而往往是真實偏好與錯誤偏好的混合體。

研究團隊從理論上揭示了這一問題：在實例相關噪聲（Instance-Dependent Noise）下，直接最小化經驗風險，并不僅僅是在擬合真實偏好，同時也在擬合錯誤偏好。對于高噪聲樣本，模型的優化方向甚至會被錯誤標簽主導，從而逐漸記住噪聲，而不是學習真正的人類偏好邏輯。

更關鍵的是，這種偏差還會被 RLHF 的后續策略優化進一步放大。一旦獎勵模型學錯了，策略模型就會主動利用這些錯誤信號，誘發Reward Hacking，最終損害模型的安全性與對齊質量。

團隊還對多個公開偏好數據集進行了噪聲分析，結果表明Noisy Preference并非個別現象，而是普遍存在于人類與 LLM 標注數據中的系統性問題。一些數據集中的估計噪聲比例甚至接近40%–50%。這說明：噪聲偏好不是獎勵建模中的邊緣問題，而是必須被正面解決的核心挑戰。

SelectiveRM：從點對點擬合轉向選擇性分布對齊

為了解決Noisy Preference問題，研究團隊提出了SelectiveRM。它的核心思想是：不要再把獎勵模型訓練看作簡單的點對點回歸，而要將其重構為一個分布對齊問題。具體來說，SelectiveRM考慮兩類聯合分布：（1）數據中的經驗聯合分布：；（2）模型誘導出的聯合分布：。

如果獎勵模型真正學到了偏好規律，那么這兩個分布應當是對齊的。基于這一思想，論文提出了Joint Consistency Discrepancy，利用最優傳輸來衡量這兩個聯合分布之間的差異。

與傳統損失不同，這里的傳輸代價同時考慮：（1）語義距離：兩個樣本在語義空間中是否接近；（2）偏好差異：它們的偏好值是否一致。這樣一來，模型不再只是逐點擬合標簽，而是在全局上學習“語義-偏好”之間的一致結構。

但團隊進一步指出，標準最優傳輸仍然存在局限。原因在于，它要求所有樣本都必須被匹配，即嚴格滿足“質量守恒”。這意味著，即使某些樣本本身是帶噪錯誤偏好，模型也仍然會被迫去擬合它們。

為此，SelectiveRM進一步引入了部分最優傳輸（Partial Optimal Transport），構造出帶有Mass Relaxation機制的訓練目標。它允許傳輸計劃只匹配一部分質量，而把那些代價過高、與語義一致性明顯沖突的樣本排除在外。

基于這一設計，SelectiveRM 能夠自動保留低成本、高一致性的可靠樣本，同時忽略高成本、疑似帶噪的偏好數據。換句話說，它不再要求模型“解釋所有數據”，而是允許模型只向可信監督對齊。

研究團隊還從理論上證明：SelectiveRM所優化的是一個比標準經驗風險更緊的clean-risk 上界，因此這種“選擇性對齊”不僅有效，而且具有嚴格的理論支撐。

在大量實驗中，一致驗證優勢

為了驗證SelectiveRM的有效性，研究團隊在多個公開偏好數據集上開展了系統實驗，包括HelpSteer、UltraFeedback和PKU-SafeRLHF，并與多類Noisy Label Learning方法進行了比較。

實驗結果表明：

首先，標準訓練方式在Noisy Preference下最容易失效。Naive baseline在多個數據集上都表現最差，說明“把所有偏好都當真”會顯著損害獎勵模型質量。

其次，現有降噪方法雖然能緩解噪聲影響，但提升有限。無論是基于噪聲轉移矩陣的統計方法，還是基于樣本篩選的啟發式方法，都能在一定程度上改善性能，但往往受限于過強的噪聲假設或不穩定的篩選機制。相比之下，SelectiveRM在各項指標上均取得最優結果。

進一步的消融實驗也驗證了方法中兩個關鍵組件的作用：引入聯合代價后，模型能更好利用語義一致性來判斷偏好是否可靠；引入部分傳輸后，模型獲得了自動排除高成本Noisy Preference的能力。二者結合后，SelectiveRM達到最佳表現，說明其優勢并非來自單一技巧，而是來自“語義一致性判斷 + 選擇性匹配機制”的協同作用。

此外，研究團隊還在不同Backbone上測試了方法的泛化能力，包括Qwen2.5 和LLaMA2系列不同參數規模模型。結果表明，SelectiveRM在從7B到72B的多個模型上都穩定帶來性能增益，顯示出良好的模型無關性與泛化能力。

不只是獎勵模型更準，更重要的是下游 RLHF 更安全

SelectiveRM的價值并不止于獎勵模型本身的指標提升。研究團隊進一步考察了它對下游RLHF的實際影響。團隊使用不同獎勵模型為GRPO提供獎勵信號，并在HarmBench、FFT、DAN等安全基準上評估最終策略模型表現。

結果表明，由SelectiveRM訓練得到的獎勵模型，能夠穩定提升策略模型的安全得分，并在不同Backbone上都表現出更好的魯棒性。這說明：更干凈的獎勵模型，會直接轉化為更可靠的策略優化信號。

相比之下，由Naive Reward Model引導的策略更容易受到Noisy Preference的誤導，從而在對抗性Jailbreak Prompt下暴露安全漏洞；而SelectiveRM由于在訓練階段就主動過濾掉與語義一致性沖突的偏好噪聲，因此能有效抑制Reward Hacking的傳播。

從更一般的角度看，這項工作的意義并不只在于提出了一個新的Noisy Reward Modeling方法，更在于它重新審視了一個長期被忽視的問題：當監督信號本身不可靠時，學習目標不應只是“更好地擬合數據”，而應當進一步回答“哪些數據值得被學習”。SelectiveRM所倡導的“選擇性分布對齊”思想，為這一問題提供了一個新的答案。它表明，在Noisy Preference場景中，獎勵模型訓練不應無條件相信所有觀測標簽，而應當在結構一致性約束下，自主識別并保留更可信的監督信號。因此，這項工作不僅推進了獎勵建模研究，也為如何在噪聲反饋下學習可靠目標提供了一種更具原則性的訓練范式。

作者信息

論文第一作者潘黎鋮，現為浙江大學計算機科學與技術學院網絡空間安全專業博士研究生，研究方向聚焦于多任務學習、時間序列分析，以及構建安全可信的大語言模型。在本項目中，他依托小紅書開展合作研究，深入探索了強化學習中獎勵模型的魯棒性與人類價值觀對齊。

論文共同通訊作者李昊軒，現為北京大學數據科學專業博士研究生，同時兼任牛津大學訪問研究員。他在ICML、NeurIPS、ICLR、SIGKDD、WWW、SIGIR、CVPR、ICDE和ACL等人工智能頂級會議上發表論文80余篇，相關研究曾被《麻省理工科技評論》報道。此外，他曾擔任ICML、NeurIPS、ICLR、SIGKDD等頂級會議的領域主席（AC），并受邀擔任TKDE、TOIS、TKDD、TNNLS和JASA等知名學術期刊的審稿人。

論文共同通訊作者王浩，現為浙江大學工業控制技術國家重點實驗室博士研究生，研究方向聚焦于因果推斷、多任務學習技術及其在大語言模型中的應用。2022年-2023年，他曾在螞蟻金服、微軟亞洲研究院科研實習，從事推薦系統理論研究。2025年起，他在小紅書參加RedStar實習項目，進行大語言模型、可信獎勵模型領域的研究工作。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。f

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.