<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      南大等提出OrthoReg:極簡正交正則化,揭開任務算術的底層機制

      0
      分享至



      南京大學碩士生劉尚格為本文第一作者;澳大利亞 University of Wollongong (UOW) Lei Wang 教授、新加坡 Nanyang Technological University (NTU) Dacheng Tao 教授、南京大學高陽教授等,為本文合作者;南京大學副教授李文斌,為本文通訊作者。

      在大模型時代,微調是我們讓基礎模型適配下游任務的常規操作。但如果我們手頭有多個微調好的專家模型,想要把它們的能力合并到一個模型中,傳統的聯合訓練不僅需要收集所有歷史數據,還會帶來極其高昂的算力成本。

      在不重新訓練的情況下,如何讓一個模型同時掌握多種新技能?

      近年來,「任務算術」(Task Arithmetic)作為一種高效的模型合并范式異軍突起。它在無需昂貴的聯合訓練的情況下,僅通過對模型權重進行簡單的代數加減,就能實現多任務能力的組合與特定知識的消除。

      然而,任務算術在經驗上的巨大成功,卻一直伴隨著底層理論解釋的缺失。此前該領域的一項重要工作提出了「權重解耦」(Weight Disentanglement)的概念,認為當不同任務的權重更新在功能上互不干擾時,任務算術就能成功。但這更多是對理想結果的一種現象學描述:究竟是預訓練模型的什么內在屬性,或者任務向量的什么特征,促成了這種解耦?

      為了回答這一根本問題,來自南京大學、伍倫貢大學和南洋理工大學的研究團隊,試圖為任務算術建立一個更為底層的理論框架。他們提出了一種名為「任務特征特化」(Task-Feature Specialization, TFS)的理想屬性,并基于此推導出了現實中可操作的幾何約束方法 ——OrthoReg。只需在微調時引入一個極簡的正交正則化項,就能顯著提升多種基線方法的模型合并性能。

      目前,該論文已被計算機視覺頂級會議 CVPR 2026 接收,并被評為 Oral。相關代碼、模型權重和數據集已全面開源。



      • 論文鏈接:https://arxiv.org/abs/2604.17078
      • 代碼鏈接:https://github.com/RL-MIND/OrthoReg
      • 權重鏈接:https://huggingface.co/RL-MIND/OrthoReg_checkpoints
      • Huggingface Paper: https://huggingface.co/papers/2604.17078

      背景介紹:任務算術與權重解耦

      為了更好地理解這項工作,我們先來回顧一下什么是「任務算術」。





      此前,NeurIPS 2023 的一項重要工作(Tangent Task Arithmetic, TTA)提出了「權重解耦」(Weight Disentanglement)的概念來解釋這一現象。該理論認為,如果不同任務的權重更新在功能上互不干擾(即解耦),任務算術就不會發生災難性干擾或性能沖突。

      但這引出了一個更深層的問題:權重解耦只是對理想結果的描述,到底是什么內在屬性導致了權重解耦?我們又該如何主動構建出能夠完美解耦的任務向量?

      理論分析:從「特征特化」假設到「權重正交」推論

      為了探究權重解耦的本質,本文首先構建了一個理想化的理論模型,并提出了一個核心假設:任務特征特化(Task-Feature Specialization, TFS)。

      直觀地講,TFS 假設一個理想的預訓練模型在處理不同任務時,能夠智能地將不同的內部特征(由權重矩陣的列向量表示)分配給特定的任務。例如,識別汽車的特征和識別手寫數字的特征在模型內部是相互獨立的。

      文章在神經正切核(NTK)線性化假設下證明:

      1. TFS 是實現權重解耦的充分條件(見論文 Theorem 1)。這意味著,如果模型在理想狀態下能夠做到特征特化,則權重解耦自然成立,從而在底層機制上保證了不同任務向量的合并不會產生破壞性干擾。
      2. TFS 會自然推導出一個可觀測的幾何推論:權重向量正交性(WVO)(見論文 Corollary 1)。文章指出,正交性(Orthogonality)可以被視作底層特征分離(TFS)在幾何上的一種外在表現或觀測線索。具體而言,具備 TFS 屬性的模型,其權重矩陣在統計上會呈現出塊正交甚至列正交的結構。

      如下圖所示,文章將 TFS 視作連接功能屬性(權重解耦)與幾何屬性(權重正交)的共同根源。這一核心洞見為后續的方法設計指明了方向。



      圖 - 核?論點概念圖

      不僅是理論推導,在預訓練的 CLIP(ViT-B/16、ViT-B/32、ViT-L/14)模型中也真實觀察到了這一現象:其核心計算層(如 Transformer Block 中的投影層)的權重向量夾角,極其尖銳地集中在 90 度(如下圖所示),這為理論提供了強有力的經驗支撐。



      圖 - CLIP 模型權重正交性經驗證據圖

      現實挑戰與方法:OrthoReg 極簡正交正則化





      在模型合并領域,現有的解決方案大致可分為合并中(During-merging)和合并前(Pre-merging)兩類。前者試圖在合并階段設計復雜的算法來消除沖突,而本文的思路則屬于Pre-merging 方法:既然無法直接保證功能的絕對特化(TFS),我們不妨退而求其次,在微調階段主動去約束它的幾何推論 —— 正交性,從而從源頭上打造出「天生適合合并」的模型。









      圖 - OrthoReg ?法概覽圖



      與現有方法的聯系:

      此前 TTA (Tangent Task Arithmetic) 方法通過在切空間微調,隱式地利用了模型的 NTK 局部性來促進任務向量的正交。然而,TTA 依賴于極其昂貴的雅可比矩陣計算,導致顯存和時間開銷大幅增加。相比之下,OrthoReg 通過正則化顯式約束正交性,不僅在理論機制上與 TTA 殊途同歸,而且計算成本極低,幾乎不增加額外的訓練負擔。

      實驗驗證:更正交的向量,更優的合并

      文章在 8 個多領域的圖像分類數據集上,對多種視覺 Transformer(ViT-B-32、ViT-B-16、ViT-L-14)進行了廣泛的評估。

      任務加法(Task Addition)

      在將 8 個任務的模型合并為一個單一模型的測試中,OrthoReg 展現出了極強的通用性。無論是應用于全參數微調(Non-lin. FT)、切空間微調(TTA),還是參數高效微調(ATT-FT, LoRA),OrthoReg 均能帶來一致且顯著的性能提升。



      圖 - Task Addition 實驗結果

      例如,在 ViT-L-14 模型上,OrthoReg 將標準全參數微調的平均絕對準確率大幅提升了 4.16 個百分點(從 84.07% 提升至 88.23%);而 ATT-FT 結合 OrthoReg 更是達到了 90.41% 的準確率,創下了該基準下的新高。

      特別地,在衡量任務干擾程度的歸一化準確率(Norm.Acc.)指標上,ATT-FT 結合 OrthoReg 達到了 100.05%。這意味著合并后的多任務模型,其平均性能已經完全媲美甚至微超 8 個獨立微調的專家模型,在功能層面上無限逼近了「零干擾」的理想解耦狀態。

      任務消除(Task Negation)





      圖 - Task Negation 實驗結果

      可視化:揭示任務向量的幾何關系

      為了直觀驗證理論,文章也計算了不同任務向量之間的余弦相似度。如下圖所示,基線方法(上排)生成的任務向量之間存在明顯的非對角線相關性(亮色色塊),說明常規微調容易導致任務間特征耦合。而引入 OrthoReg 后(下排),熱力圖的非對角線區域明顯變暗。這提供了直接的經驗證據:OrthoReg 確實通過幾何約束,促使模型學習到了更加正交、解耦的任務向量。



      圖 - 任務向量余弦相似度熱?圖對?(ViT-B-16)

      總結和展望

      總而言之,這篇論文為「任務算術」這一模型合并技術提供了另一個視角的理論分析。

      本文從一個根本性問題出發:任務算術為什么能有效?最終給出了一條清晰的因果鏈:任務特征特化(TFS)是權重解耦的充分條件,而權重向量正交性(WVO)則是 TFS 在幾何層面可觀測的外在印記。

      更重要的是,這一理論洞見直接轉化為了實踐價值。由于 TFS 本身是一個抽象且難以直接約束的功能屬性,研究團隊另辟蹊徑,轉而去約束其幾何推論即正交性。由此提出的 OrthoReg 正則化方法極其輕量:一行公式,一個超參,即插即用,無需修改任何模型結構或合并算法,卻能跨模型規模、跨微調范式地帶來一致的性能增益。

      未來,研究團隊計劃探索更多樣化、更細粒度的正交性約束形式,以期在更復雜的多任務場景下實現更精準的權重解耦。同時,這種基于幾何視角的解耦思想,也有望在未來推廣至更大規模的語言模型和多模態大模型的知識編輯與持續學習任務中,激發更多極具潛力的研究方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      寧波銀行的“鐵三角”:區域精耕、風險定價與內生增長

      寧波銀行的“鐵三角”:區域精耕、風險定價與內生增長

      智谷趨勢
      2026-05-07 17:36:48
      新臺風已生成!暴雨大暴雨馬上到廣東,冷空氣返場

      新臺風已生成!暴雨大暴雨馬上到廣東,冷空氣返場

      深圳晚報
      2026-05-07 10:22:17
      五一各地旅游收入排名,河南381億第二,北京沒進前五,第一是誰

      五一各地旅游收入排名,河南381億第二,北京沒進前五,第一是誰

      丁丁鯉史紀
      2026-05-07 14:04:42
      入出梅時間,有消息了!江蘇最新預測

      入出梅時間,有消息了!江蘇最新預測

      魯中晨報
      2026-05-07 18:34:03
      賺得太多了,全員發錢?人均年終獎610萬的背后

      賺得太多了,全員發錢?人均年終獎610萬的背后

      中產先生
      2026-05-07 12:08:09
      伊朗外長太聰明了:不求中國給飛機大炮,只求中國一件事!

      伊朗外長太聰明了:不求中國給飛機大炮,只求中國一件事!

      安安說
      2026-05-07 11:09:34
      5月20官宣三婚!頭發都白了,何潔現狀惹人心疼

      5月20官宣三婚!頭發都白了,何潔現狀惹人心疼

      陳意小可愛
      2026-05-07 16:55:39
      賴清德回臺灣,三個東盟國家為其開放領空

      賴清德回臺灣,三個東盟國家為其開放領空

      混沌錄
      2026-05-06 22:50:16
      演員張頌文片場收工后,將粉絲贈送的茶葉原路退回,并叮囑“你們自己工作掙的錢給自己和家人花,我收收你們的信就好了”

      演員張頌文片場收工后,將粉絲贈送的茶葉原路退回,并叮囑“你們自己工作掙的錢給自己和家人花,我收收你們的信就好了”

      洪觀新聞
      2026-05-07 15:18:54
      黑龍江兩名失蹤女孩已遇害,知情人透露,只因爺爺說了一句話

      黑龍江兩名失蹤女孩已遇害,知情人透露,只因爺爺說了一句話

      魔都姐姐雜談
      2026-05-07 15:39:54
      交通銀行:堅決擁護黨中央決定

      交通銀行:堅決擁護黨中央決定

      新京報
      2026-05-07 12:30:05
      又一個“愛國大V”人設翻車!靠愛國撈金千萬,私下悄悄辦移民!

      又一個“愛國大V”人設翻車!靠愛國撈金千萬,私下悄悄辦移民!

      麥杰遜
      2026-05-07 13:13:17
      創歷史首人神跡!文班19+15+2帽提前打卡 全場高喊MVP導大勝

      創歷史首人神跡!文班19+15+2帽提前打卡 全場高喊MVP導大勝

      醉臥浮生
      2026-05-07 12:11:26
      伊朗指定兩條航道供船只通行霍爾木茲海峽

      伊朗指定兩條航道供船只通行霍爾木茲海峽

      界面新聞
      2026-05-07 19:16:55
      3-0!國乒進4強,孫穎莎給韓國美少女上課:決勝時刻黃牌戰術絕了

      3-0!國乒進4強,孫穎莎給韓國美少女上課:決勝時刻黃牌戰術絕了

      大秦壁虎白話體育
      2026-05-07 19:00:23
      恒大集團創始人許家印被曝出猛料

      恒大集團創始人許家印被曝出猛料

      地產微資訊
      2026-05-07 09:28:09
      重慶洪崖洞景區奶芙店私自增加所售奶芙制品重量,官方通報

      重慶洪崖洞景區奶芙店私自增加所售奶芙制品重量,官方通報

      界面新聞
      2026-05-07 15:36:33
      先是海參崴,再是圖瓦和庫頁島,俄羅斯對中國,心態完全變了

      先是海參崴,再是圖瓦和庫頁島,俄羅斯對中國,心態完全變了

      番外行
      2026-05-07 10:07:04
      在拼多多批量“造爆款”,露營賽道擠滿國產新銳玩家

      在拼多多批量“造爆款”,露營賽道擠滿國產新銳玩家

      定焦One
      2026-05-07 08:44:10
      男子甲醇中毒失明 向白酒提供者索賠123萬 法院駁回:其只飲用了不到2杯 飲用超10斤才能達最低中毒劑量

      男子甲醇中毒失明 向白酒提供者索賠123萬 法院駁回:其只飲用了不到2杯 飲用超10斤才能達最低中毒劑量

      閃電新聞
      2026-05-07 16:26:17
      2026-05-07 20:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12939文章數 142644關注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      19名中國船員被困霍爾木茲超2個月:船艙如同巨型蒸籠

      頭條要聞

      19名中國船員被困霍爾木茲超2個月:船艙如同巨型蒸籠

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      金融“風暴”,AI制造

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      教育
      親子
      手機
      藝術
      公開課

      教育要聞

      5月名師工作坊直播預告出爐,速來預約!|AI智能體賦能中學英語讀寫教研會

      親子要聞

      Little Girl Slides into Feed with Flawless Express...

      手機要聞

      消息稱某子系迭代旗艦工程機配備6.6英寸中屏+8500mAh電池

      藝術要聞

      這位老教授筆下的青年,活力滿滿

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 九九热视频在线| 国产精品黄色大片在线看| av中文字幕在线看| 精品无码人妻| 久久久久久久久影院| 爱操影院| 国产在线无码不卡播放| 在线观看成人av天堂不卡| 岛国一区| 中国国语毛片免费观看视频| 欧美狠狠鲁| 夜夜添无码试看一区二区三区| 亚洲色欧美色2019在线| 久久午夜无码鲁丝片| 欧美又大又硬又粗bbbbb| 日韩av激情| 乱子伦视频在线看| 97在线视频精品免费观看视频 | 97久久超碰国产精品2021| 无码人妻久久一区二区三区免费丨| 美女熟妇67194免费入口 | 国产成人无码精品久久99| 亚洲精品成人无码中文毛片| 成人A片在线观看| 蜜桃视频无码区在线观看| 日日摸夜夜添无码| 国产在线高清无码不卡 | 国产成A人片在线观看视频下载| 丝袜老师办公室里做好紧好爽| 玖草视频在线观看| 久久国产精品萌白酱免费| 天堂av一区二区麻豆| 国产伦理自拍视频在线观看| 777午夜福利理伦电影网| 蜜芽久久人人超碰爱香蕉| 日韩毛片无码永久免费看| 亚洲无码制服丝袜视频| 末成年娇小性色xxxxx| 9/精品一区二区| 久久人搡人人玩人妻精品一| 久久婷婷五月综合色精品|