![]()
南京大學碩士生劉尚格為本文第一作者;澳大利亞 University of Wollongong (UOW) Lei Wang 教授、新加坡 Nanyang Technological University (NTU) Dacheng Tao 教授、南京大學高陽教授等,為本文合作者;南京大學副教授李文斌,為本文通訊作者。
在大模型時代,微調是我們讓基礎模型適配下游任務的常規操作。但如果我們手頭有多個微調好的專家模型,想要把它們的能力合并到一個模型中,傳統的聯合訓練不僅需要收集所有歷史數據,還會帶來極其高昂的算力成本。
在不重新訓練的情況下,如何讓一個模型同時掌握多種新技能?
近年來,「任務算術」(Task Arithmetic)作為一種高效的模型合并范式異軍突起。它在無需昂貴的聯合訓練的情況下,僅通過對模型權重進行簡單的代數加減,就能實現多任務能力的組合與特定知識的消除。
然而,任務算術在經驗上的巨大成功,卻一直伴隨著底層理論解釋的缺失。此前該領域的一項重要工作提出了「權重解耦」(Weight Disentanglement)的概念,認為當不同任務的權重更新在功能上互不干擾時,任務算術就能成功。但這更多是對理想結果的一種現象學描述:究竟是預訓練模型的什么內在屬性,或者任務向量的什么特征,促成了這種解耦?
為了回答這一根本問題,來自南京大學、伍倫貢大學和南洋理工大學的研究團隊,試圖為任務算術建立一個更為底層的理論框架。他們提出了一種名為「任務特征特化」(Task-Feature Specialization, TFS)的理想屬性,并基于此推導出了現實中可操作的幾何約束方法 ——OrthoReg。只需在微調時引入一個極簡的正交正則化項,就能顯著提升多種基線方法的模型合并性能。
目前,該論文已被計算機視覺頂級會議 CVPR 2026 接收,并被評為 Oral。相關代碼、模型權重和數據集已全面開源。
![]()
- 論文鏈接:https://arxiv.org/abs/2604.17078
- 代碼鏈接:https://github.com/RL-MIND/OrthoReg
- 權重鏈接:https://huggingface.co/RL-MIND/OrthoReg_checkpoints
- Huggingface Paper: https://huggingface.co/papers/2604.17078
背景介紹:任務算術與權重解耦
為了更好地理解這項工作,我們先來回顧一下什么是「任務算術」。
![]()
![]()
此前,NeurIPS 2023 的一項重要工作(Tangent Task Arithmetic, TTA)提出了「權重解耦」(Weight Disentanglement)的概念來解釋這一現象。該理論認為,如果不同任務的權重更新在功能上互不干擾(即解耦),任務算術就不會發生災難性干擾或性能沖突。
但這引出了一個更深層的問題:權重解耦只是對理想結果的描述,到底是什么內在屬性導致了權重解耦?我們又該如何主動構建出能夠完美解耦的任務向量?
理論分析:從「特征特化」假設到「權重正交」推論
為了探究權重解耦的本質,本文首先構建了一個理想化的理論模型,并提出了一個核心假設:任務特征特化(Task-Feature Specialization, TFS)。
直觀地講,TFS 假設一個理想的預訓練模型在處理不同任務時,能夠智能地將不同的內部特征(由權重矩陣的列向量表示)分配給特定的任務。例如,識別汽車的特征和識別手寫數字的特征在模型內部是相互獨立的。
文章在神經正切核(NTK)線性化假設下證明:
- TFS 是實現權重解耦的充分條件(見論文 Theorem 1)。這意味著,如果模型在理想狀態下能夠做到特征特化,則權重解耦自然成立,從而在底層機制上保證了不同任務向量的合并不會產生破壞性干擾。
- TFS 會自然推導出一個可觀測的幾何推論:權重向量正交性(WVO)(見論文 Corollary 1)。文章指出,正交性(Orthogonality)可以被視作底層特征分離(TFS)在幾何上的一種外在表現或觀測線索。具體而言,具備 TFS 屬性的模型,其權重矩陣在統計上會呈現出塊正交甚至列正交的結構。
如下圖所示,文章將 TFS 視作連接功能屬性(權重解耦)與幾何屬性(權重正交)的共同根源。這一核心洞見為后續的方法設計指明了方向。
![]()
圖 - 核?論點概念圖
不僅是理論推導,在預訓練的 CLIP(ViT-B/16、ViT-B/32、ViT-L/14)模型中也真實觀察到了這一現象:其核心計算層(如 Transformer Block 中的投影層)的權重向量夾角,極其尖銳地集中在 90 度(如下圖所示),這為理論提供了強有力的經驗支撐。
![]()
圖 - CLIP 模型權重正交性經驗證據圖
現實挑戰與方法:OrthoReg 極簡正交正則化
![]()
![]()
在模型合并領域,現有的解決方案大致可分為合并中(During-merging)和合并前(Pre-merging)兩類。前者試圖在合并階段設計復雜的算法來消除沖突,而本文的思路則屬于Pre-merging 方法:既然無法直接保證功能的絕對特化(TFS),我們不妨退而求其次,在微調階段主動去約束它的幾何推論 —— 正交性,從而從源頭上打造出「天生適合合并」的模型。
![]()
![]()
![]()
![]()
圖 - OrthoReg ?法概覽圖
![]()
與現有方法的聯系:
此前 TTA (Tangent Task Arithmetic) 方法通過在切空間微調,隱式地利用了模型的 NTK 局部性來促進任務向量的正交。然而,TTA 依賴于極其昂貴的雅可比矩陣計算,導致顯存和時間開銷大幅增加。相比之下,OrthoReg 通過正則化顯式約束正交性,不僅在理論機制上與 TTA 殊途同歸,而且計算成本極低,幾乎不增加額外的訓練負擔。
實驗驗證:更正交的向量,更優的合并
文章在 8 個多領域的圖像分類數據集上,對多種視覺 Transformer(ViT-B-32、ViT-B-16、ViT-L-14)進行了廣泛的評估。
任務加法(Task Addition)
在將 8 個任務的模型合并為一個單一模型的測試中,OrthoReg 展現出了極強的通用性。無論是應用于全參數微調(Non-lin. FT)、切空間微調(TTA),還是參數高效微調(ATT-FT, LoRA),OrthoReg 均能帶來一致且顯著的性能提升。
![]()
圖 - Task Addition 實驗結果
例如,在 ViT-L-14 模型上,OrthoReg 將標準全參數微調的平均絕對準確率大幅提升了 4.16 個百分點(從 84.07% 提升至 88.23%);而 ATT-FT 結合 OrthoReg 更是達到了 90.41% 的準確率,創下了該基準下的新高。
特別地,在衡量任務干擾程度的歸一化準確率(Norm.Acc.)指標上,ATT-FT 結合 OrthoReg 達到了 100.05%。這意味著合并后的多任務模型,其平均性能已經完全媲美甚至微超 8 個獨立微調的專家模型,在功能層面上無限逼近了「零干擾」的理想解耦狀態。
任務消除(Task Negation)
![]()
![]()
圖 - Task Negation 實驗結果
可視化:揭示任務向量的幾何關系
為了直觀驗證理論,文章也計算了不同任務向量之間的余弦相似度。如下圖所示,基線方法(上排)生成的任務向量之間存在明顯的非對角線相關性(亮色色塊),說明常規微調容易導致任務間特征耦合。而引入 OrthoReg 后(下排),熱力圖的非對角線區域明顯變暗。這提供了直接的經驗證據:OrthoReg 確實通過幾何約束,促使模型學習到了更加正交、解耦的任務向量。
![]()
圖 - 任務向量余弦相似度熱?圖對?(ViT-B-16)
總結和展望
總而言之,這篇論文為「任務算術」這一模型合并技術提供了另一個視角的理論分析。
本文從一個根本性問題出發:任務算術為什么能有效?最終給出了一條清晰的因果鏈:任務特征特化(TFS)是權重解耦的充分條件,而權重向量正交性(WVO)則是 TFS 在幾何層面可觀測的外在印記。
更重要的是,這一理論洞見直接轉化為了實踐價值。由于 TFS 本身是一個抽象且難以直接約束的功能屬性,研究團隊另辟蹊徑,轉而去約束其幾何推論即正交性。由此提出的 OrthoReg 正則化方法極其輕量:一行公式,一個超參,即插即用,無需修改任何模型結構或合并算法,卻能跨模型規模、跨微調范式地帶來一致的性能增益。
未來,研究團隊計劃探索更多樣化、更細粒度的正交性約束形式,以期在更復雜的多任務場景下實現更精準的權重解耦。同時,這種基于幾何視角的解耦思想,也有望在未來推廣至更大規模的語言模型和多模態大模型的知識編輯與持續學習任務中,激發更多極具潛力的研究方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.