<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Nature 正刊 | 語言模型會“暗中學習”偏好嗎?模型喜歡貓頭鷹到底是怎么回事?

      0
      分享至


      認知神經科學前沿文獻分享


      基本信息

      Title:Language models transmit behavioural traits through hidden signals in data

      發表時間:2026-04-15

      發表期刊:Nature

      影響因子:48.5

      獲取原文:

      1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本



      研究背景

      大語言模型的訓練中,常采用一種稱為模型蒸餾(distillation)的方法:即先有一個已完成訓練、具備較強能力的模型,稱為教師模型;再讓一個待訓練的新模型,即學生模型,去學習教師模型的輸出或中間表征,以此提升學生模型的能力。該過程通常還會輔以數據過濾,以剔除無關或低質信息

      已有研究指出,蒸餾可能帶來非預期的副作用,本文進一步探討如下問題:如果教師模型在某一行為特征上與訓練數據的語義內容無關,并且與之關聯的顯式或潛在線索在數據過濾階段已被清除,那么學生模型在蒸餾后是否仍會繼承這一特征?作者將這種現象命名為“閾下學習”(subliminal learning)


      Fig. 1 | Schematic overview of the subliminal learning effect.


      實驗設計與方法邏輯

      本研究采用“教師-學生”框架展開:

      1. 首先,以某一參考模型為基礎,通過系統提示或微調干預,構造出攜帶特定行為特征的教師模型。這些特征包括對特定動物或樹木的偏好,以及被誘導出的失配傾向

      2. 隨后,令教師模型生成與上述特征在語義上完全無關的內容,例如隨機數字序列、Python 代碼片段或數學推理鏈。所有生成數據均經過格式規則篩查與基于大語言模型的二次過濾,以排除任何可能直接暗示目標偏好的顯式或潛在線索

      3. 最后,以過濾后的數據對學生模型進行監督微調,該學生模型從與教師模型相同的參考模型初始化而來。評估階段通過偏好選擇任務、中性自由問答以及 TruthfulQA 等基準,檢驗學生模型是否在未接觸語義相關內容的條件下,繼承了教師模型的目標行為特征

      4. 此外,研究還設置了跨模型組合與上下文學習對照實驗,以判別該現象是否依賴于模型間的共享初始化,而非數據中殘留的語義可讀信息


      核心發現

      發現一:偏好特征通過無關數據在同源模型間傳遞

      當教師與學生共享或高度匹配基礎模型時,教師對特定動物或樹木的偏好可通過數字序列傳遞給僅受此類無關數據訓練的學生模型

      正文數據顯示,在以教師生成的數字序列進行微調后,GPT-4.1 Nano 學生模型選擇目標動物“貓頭鷹”的比例從基線的 12% 攀升至 60% 以上。即便在經歷兩階段嚴格過濾的 Python 代碼數據上,學生模型的選擇偏好同樣出現了定向偏移。與之相對,使用數字序列或由偏好其他目標的教師生成的數據進行訓練的對照組,并未表現出同等程度的偏好轉移

      Fig. 4 直觀呈現了數字與代碼條件下學生模型對教師目標偏好選擇比例的顯著變化
      發現二:失配傾向可通過數字與思維鏈數據傳播

      研究進一步考察了更為敏感的失配傾向傳遞。通過向教師模型注入不安全代碼內容以誘發失配行為后,令其生成數字序列或數學思維鏈數據,并經由過濾流程移除包含負面數值、錯誤答案及顯性失配表征的樣本

      結果表明,即使訓練數據已剔除明顯的失配痕跡,學生模型在中性自由問答中輸出失配回答的概率仍顯著上升:數字條件約為 10%,思維鏈條件約為 8%,而對照組的發生率則低得多。在 TruthfulQA 基準上,學生模型生成虛假陳述的頻率亦有所增加。值得注意的是,此處的“失配”現象僅限于特定提示、基準及評估流程下的觀測結果,不應被引申為對模型整體安全性能的全面評估結論

      Fig. 3 比較了不同教師來源下學生模型的失配回答率,并附有中性提示觸發失配回答的示例
      發現三:傳遞現象依賴共享初始化或行為匹配

      跨模型實驗表明,學生模型穩定繼承教師行為特征的情形,主要發生在師生雙方共享相同初始化或基礎模型高度匹配的配置中。在大多數異質模型組合下,未觀察到特征的系統性傳遞

      正文指出,GPT-4.1 與 GPT-4o 之間出現的偏好傳遞是少數例外之一,作者推測這可能源于二者在初始化階段的潛在共性。上下文學習對照實驗未能復現特征傳遞效應,這進一步支持了以下推斷:該現象并非源于模型在上下文窗口內直接讀取到語義線索,而是與更深層的初始化一致性或行為表征對齊有關

      Fig. 5 通過對比不同師生組合間的偏好傳遞強度,直觀展示了傳遞效應對模型匹配程度的依賴關系


      省流總結

      本研究表明,在特定的模型蒸餾條件下,學生模型能夠從語義無關且經嚴格過濾的數據中繼承教師模型的行為偏好乃至失配傾向。作者將這一現象命名為“閾下學習”,其發生高度依賴師生模型間的共享初始化或行為表征匹配。需要強調的是,當前結果并不能外推至任意模型與任意行為特征的普遍性傳播,研究中亦未涉及對潛在防御策略的驗證與評估

      分享人:天天

      審核:PsyBrain 腦心前沿編輯部

      你好,這里是「PsyBrain 腦心前沿

      專注追蹤全球認知神經科學的最尖端突破

      視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊

      每日速遞「深度解讀」與「前沿快訊

      科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。

      點擊卡片進群,歡迎你的到來

      一鍵關注,點亮星標 ? 前沿不走丟!


      一鍵分享,讓更多人了解前沿

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      剛剛確認:明天抵達湖北!這波太猛

      剛剛確認:明天抵達湖北!這波太猛

      極目新聞
      2026-05-05 19:40:16
      女性跑步:暴露這個隱私,是性感嗎?

      女性跑步:暴露這個隱私,是性感嗎?

      馬拉松跑步健身
      2026-05-05 19:18:07
      女子體驗瀑布秋千墜亡,四川華鎣通報:該事故是一起企業生產安全責任事故,相關責任單位和責任人員正在依法依規調查處理

      女子體驗瀑布秋千墜亡,四川華鎣通報:該事故是一起企業生產安全責任事故,相關責任單位和責任人員正在依法依規調查處理

      臺州交通廣播
      2026-05-05 20:19:14
      一女游客體驗景區懸崖秋千項目高空墜落,景區公告臨時閉園,當地回應

      一女游客體驗景區懸崖秋千項目高空墜落,景區公告臨時閉園,當地回應

      極目新聞
      2026-05-05 18:58:13
      和售后斗智斗勇后,我發現80%燃氣灶故障,都可以通過兩根針解決

      和售后斗智斗勇后,我發現80%燃氣灶故障,都可以通過兩根針解決

      裝修秀
      2026-05-05 12:00:08
      阿森納2-1淘汰馬競!20年后再進歐冠決賽+14場不敗 1.2億巨星制勝

      阿森納2-1淘汰馬競!20年后再進歐冠決賽+14場不敗 1.2億巨星制勝

      我愛英超
      2026-05-06 04:56:33
      為什么不能取消公務員周末休息?這樣老百姓辦事就不用請假了!你怎么看?

      為什么不能取消公務員周末休息?這樣老百姓辦事就不用請假了!你怎么看?

      碧翰烽
      2026-05-05 07:50:33
      谷愛凌穿“會吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬顆玻璃泡泡,制作耗時2550小時

      谷愛凌穿“會吐泡泡”的高定裙子亮相Met Gala,裙子上有1.5萬顆玻璃泡泡,制作耗時2550小時

      魯中晨報
      2026-05-05 16:26:17
      0-1不敵東南亞勁旅,中國男足遭遇亞洲杯開門黑,晉級形勢嚴峻

      0-1不敵東南亞勁旅,中國男足遭遇亞洲杯開門黑,晉級形勢嚴峻

      側身凌空斬
      2026-05-06 02:26:35
      吳宜澤決賽間歇收到奧沙利文短信支招,火箭:我只幫合得來的球員

      吳宜澤決賽間歇收到奧沙利文短信支招,火箭:我只幫合得來的球員

      楊華評論
      2026-05-05 17:03:56
      別再拿“唱歌好聽”糊弄!央媒連發長文點名刀郎,遮羞布該扯下了

      別再拿“唱歌好聽”糊弄!央媒連發長文點名刀郎,遮羞布該扯下了

      娛樂圈的筆娛君
      2026-05-05 14:42:01
      湖南瀏陽煙花廠爆炸事故已致26人死亡61人受傷,“發布會現場,全體起立,向遇難人員默哀”

      湖南瀏陽煙花廠爆炸事故已致26人死亡61人受傷,“發布會現場,全體起立,向遇難人員默哀”

      都市快報橙柿互動
      2026-05-05 13:48:29
      北大韋神大變樣!塑料袋換新包,身姿挺拔太利落

      北大韋神大變樣!塑料袋換新包,身姿挺拔太利落

      鄉野小珥
      2026-05-06 02:02:11
      高市早苗訪澳獻花后準備歸國,中方隨即向全球193國發布通告

      高市早苗訪澳獻花后準備歸國,中方隨即向全球193國發布通告

      蕭獻記錄風土人情
      2026-05-05 23:21:02
      女游客體驗瀑布秋千受傷后不幸身亡,涉事的廣安華鎣景區系網紅打卡地

      女游客體驗瀑布秋千受傷后不幸身亡,涉事的廣安華鎣景區系網紅打卡地

      極目新聞
      2026-05-05 20:45:29
      連續3場3-0橫掃!國乒男團完勝澳大利亞,強勢躋身世乒賽16強

      連續3場3-0橫掃!國乒男團完勝澳大利亞,強勢躋身世乒賽16強

      全景體育V
      2026-05-05 18:28:04
      50萬鎊獎金如何花?吳宜澤將在英國買一套房,墨菲呼吁向中國學習

      50萬鎊獎金如何花?吳宜澤將在英國買一套房,墨菲呼吁向中國學習

      侃球熊弟
      2026-05-06 01:24:34
      一粒減肥神藥掀翻7個行業!百事麥當勞股價大跌,保險養老竟也被迫重大調整

      一粒減肥神藥掀翻7個行業!百事麥當勞股價大跌,保險養老竟也被迫重大調整

      爆角追蹤
      2026-05-05 20:01:26
      中超最新積分榜:蓉城9分領跑,泰山隊反超申花,負分球隊全清零

      中超最新積分榜:蓉城9分領跑,泰山隊反超申花,負分球隊全清零

      中超偽球迷
      2026-05-05 22:05:32
      連底漆都刷不滿,地球的水只占0.02%,憑什么撐起了整片海洋?

      連底漆都刷不滿,地球的水只占0.02%,憑什么撐起了整片海洋?

      半解智士
      2026-05-05 12:58:23
      2026-05-06 05:08:49
      PsyBrain腦心前沿
      PsyBrain腦心前沿
      追蹤腦科學新動態,聚焦認知與神經新研究
      380文章數 18關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      本地
      房產
      數碼
      藝術
      公開課

      本地新聞

      用青花瓷的方式,打開西溪濕地

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      數碼要聞

      Sharkoon推出8kHz無線鼠標SKILLER SGM70W,提供玻璃腳貼

      藝術要聞

      AI應用“豆包”要收費,第一批“韭菜”是誰?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人1区2区| 庆安县| 国产福利99| 大屁股熟女一区二区三区| 超碰人人摸| 免费人妻无码不卡中文字幕18禁| 欧美特级午夜一区二区三区 | 中国成人XXXX高清视频| 欧美xxxxhd高清| 亚洲激情+五月| 肏屄视频网| 正阳县| 国产精品毛片一区| 久久综合国产一区二区三区| 17青青草国产一区二区| 99久久亚洲综合精品成人网| 国产在线一区二区在线视频| 亚洲另类午夜中文字幕| 99在线精品日韩一区免费国产| 东京热一区二区三区无码视| 99久久精品无码一区二区三区| 亚洲av午夜福利精品一区二区| 熟女一区| 久久水蜜桃亚洲av无码精品麻豆| 国产看黄网站又黄又爽又色| 国产成人一区二区三区| 久久精品国产精品亚洲| 野花社区日本免费图片| 国产一区二区三区不卡av| 97人人模人人爽人人喊网| 国产精品老熟女露脸视频| 性生交片免费无码看人| 日韩精品一区二区三区色欲av| 中文字幕在线亚洲| 久久综合免费视频| 欧美亚洲另类自拍偷在线拍| 日韩欧国产精品一区综合无码| 国产免费av网站| 影音先锋中文字幕无码| 欧美黑人性受xxxx喷水| 果冻传媒18禁免费视频|