面向異構環境的因子增強型神經Lasso微調方法
Fine-tuning Factor Augmented Neural Lasso for Heterogeneous Environments
https://arxiv.org/pdf/2604.12288
![]()
![]()
摘要
微調是一種廣泛用于使預訓練模型適應新任務的策略,然而其在包含變量選擇的高維非參數設置下的方法論與理論性質尚未得到發展。本文引入了微調因子增強型神經Lasso(FAN-Lasso),這是一種用于含變量選擇的高維非參數回歸的遷移學習框架,能夠同時處理協變量偏移與后驗偏移。我們采用低秩因子結構來處理高維相依協變量,并提出一種新穎的殘差微調分解,其中目標函數被表示為凍結的源函數與其他變量的變換形式,以實現遷移學習與非參數變量選擇。該來自源預測器的增強特征使得知識能夠轉移至目標域,并降低了目標域中的模型復雜度。我們為微調FAN-Lasso推導了極小化極大最優超額風險界,從相對樣本量與函數復雜度的角度刻畫了精確條件,在此條件下微調相較于單任務學習能夠產生統計加速。所提出的框架也為參數高效微調方法提供了理論視角。跨越多種協變量與后驗偏移場景的大量數值實驗表明,微調FAN-Lasso始終優于標準基線,即使在目標樣本量嚴重受限的情況下也能實現接近理想(Oracle)的性能,從而從經驗上驗證了所推導的速率。
關鍵詞:遷移學習,神經網絡,因子增強,FAST-NN,因子調整型非參數Lasso,模型偏移,協變量偏移。
1 引言
遷移學習通過將數據豐富的源域中學習到的表征轉移到樣本有限的目標任務中,徹底改變了現代機器學習。這一范式最顯著地通過微調來實現,其中大規模模型的預訓練權重為專門的下游應用提供了精細的起點。該方法的有效性取決于這樣一個假設:預訓練捕獲了內在的潛在結構——例如共享的特征或因子——從而為數據提供了基礎的表征。因此,微調充當了一個實用的適應層,對這些學習到的表征進行精煉,以使其與目標域的具體細微特征相一致。
盡管微調的經驗成功不可否認,但為其性能提供統一且嚴格的理論刻畫仍然是一項艱巨的任務。現有文獻已為遷移學習建立了基礎性保證,但這些通常側重于線性情形,或假設受限類別的分布偏移。仍然迫切需要一種框架,能夠在高維協變量和復雜非參數結構存在的情況下量化微調的統計增益——在這些設置中,經典的參數化直覺通常會失效。具體而言,如何構建一個統一的估計量,使其在協變量偏移和后驗偏移下同時實現極小化極大最優性,同時保持對負遷移的魯棒性,目前仍不清楚。
在本文中,我們通過提出微調因子增強型神經Lasso(FAN-Lasso)框架,彌合了這些理論與實踐上的差距。我們假定域間的共享知識可由低維因子結構有效概括,該結構即使在顯著的分布偏移下也能為知識遷移提供穩定的骨干。我們的方法提供了一種最優機制,用于將預訓練的因子增強型稀疏通量神經網絡(FAST-NN,Fan & Gu (2024))——一類結合潛在因子提取與稀疏非參數估計的模型——遷移到新的環境中。
該框架將三個強大的組成部分整合在一起,以應對上述挑戰。首先,低維因子結構通過捕捉跨域共享的潛在驅動因素,使高維設定下的估計變得可行,并充當表征遷移的橋梁。其次,我們采用深度ReLU網絡對密集與稀疏的非參數復雜性進行建模,利用其對未知組合結構的自適應能力來規避維度災難。第三,通過引入靈活的遷移函數,我們的方法顯式地同時考慮了協變量偏移與后驗偏移。該機制使估計量能夠自動校準源域與目標域之間的相似程度,有效地“門控”所需利用的源信息量。這種協同作用不僅通過剪枝無關的源信號來確保對負遷移的魯棒性,而且在一般的非參數設定下實現了極小化極大最優性。
1.1 問題表述
![]()
![]()
![]()
1.2 主要結果預覽
我們的理論分析使殘差微調背后的直覺變得精確。我們證明了微調 FAN-Lasso 估計量實現了極小化極大最優超額風險:
![]()
1.3 相關工作
我們的工作處于遷移學習、神經網絡微調、深度學習理論、非參數變量選擇以及高維數據因子模型的交叉領域。盡管這些領域中的每一個都取得了顯著進展,但針對高維非參數遷移學習的統一理論框架仍然是一個公開的挑戰。
遷移學習與分布偏移。 遷移學習旨在利用源域知識來提升目標域的性能,其基礎由 Pan & Yang (2009) 和 Ben-David et al. (2010) 奠定。在高維回歸的背景下,近期的工作探討了該問題的各個側面:Li et al. (2022) 建立了稀疏參數差異下的極小化極大速率,而 Cai & Pu (2024) 以及 Tian & Feng (2023) 將這些保證擴展到了非參數和廣義線性模型。Fan et al. (2025) 提出了一種用于遷移學習的 TAB 技術。一個主要的障礙是協變量偏移,即邊緣分布在域間存在分歧 (Qui?onero-Candela et al., 2022; Gretton et al., 2009)。該領域的最新進展包括基于最優 RKHS(再生核希爾伯特空間)的速率 (Ma et al., 2023)、源標簽效用的刻畫 (Kpotufe & Martinet, 2021)、魯棒估計技術 (Yang et al., 2024; Cai et al., 2025),以及針對設定良好的協變量偏移的基礎性洞察 (Ge et al., 2023b)。此外,關于數據價值 (Hanneke & Kpotufe, 2019)、任務多樣性 (Tripuraneni et al., 2020) 以及預訓練的可證明優勢 (Ge et al., 2023a) 的理論探究,顯著加深了我們的理解。基于這些基礎,我們的微調 FAN-Lasso 框架為復雜非參數結構下的協變量偏移和后驗偏移提供了統一的處理方法。
微調的基礎。 微調已成為部署大規模模型的基礎標準,然而其理論性質仍在被逐步揭示。Kumar 等人 (2022) 著名地證明了樸素微調可能會扭曲預訓練特征,這推動了 LoRA (Hu et al., 2022; Dettmers et al., 2023) 和提示微調 (Lester et al., 2021) 等參數高效方法的興起。我們的工作與日益增長的關于微調的“殘差”視角相一致,即目標模型被視為對源模型的精煉。該方法已在多個領域獲得應用,包括基于代理的預測 (Bastani, 2021)、交叉擬合殘差回歸 (Zhou & Zou, 2023)、少樣本學習 (Zhao et al., 2024) 以及強化學習 (Ankile et al., 2025)。我們通過假設 1 中的殘差微調函數 h h 將這一直覺形式化,為基于經驗殘差的方法與統計理論之間架起了一座嚴格的數學橋梁。
非參數深度學習理論。 我們方法的成功依賴于深度 ReLU 網絡的表征能力。在針對平滑函數的最優速率研究基礎上 (Petersen & Voigtlaender, 2018; Lu et al., 2021),近期的研究表明,深度網絡能夠通過自動利用層次化組合結構來規避維度災難 (Schmidt-Hieber, 2020; Kohler & Langer, 2021; Fan et al., 2024)。Farrell 等人 (2021a) 進一步為此類估計量建立了高概率界。我們的工作利用這些優勢來估計復雜的函數 和 h 。通過結合稀疏性與正則化進行復雜度控制 (Bartlett et al., 2019; Ohn & Kim, 2022),我們將現代深度學習理論與經典的高維因子模型框架相連接,以實現極小化極大最優性。
高維因子模型。 因子模型提供了處理高維協變量 p ? n所必需的低秩結構。它在計量經濟學中有多種應用 (Stock & Watson, 2002a,b; Forni et al., 2005; Bai et al., 2008),自那以后,這些模型的漸近性質已被廣泛刻畫 (Paul, 2007; Johnstone & Lu, 2009; Onatski, 2012; Chudik et al., 2011; Wang & Fan, 2017)。近期的工作將預訓練因子估計 (Fan & Liao, 2022) 與深度學習相結合。Fan & Gu (2024) 確立了 FAST-NN 在單域高維非參數回歸中的極小化極大最優性。我們的微調 FAN-Lasso 將此框架擴展至遷移學習,并為同時分布偏移下的殘差微調提供了統一理論。
1.4 符號與預備知識
![]()
![]()
![]()
1.5 論文結構
本文其余部分組織如下:第 2 節介紹高維遷移學習框架,第 3 節闡述我們的方法論,第 4 節提供因子遷移的理論保證,第 5 節發展微調估計量的理論,第 6 節通過數值研究驗證我們所提方法的有效性。技術證明與補充結果詳見附錄。
2 模型
2.1 因子增強型非參數(FAN)模型
我們繼續使用 §1.1 中引入的符號,并專注于因子增強型非參數回歸框架。具體而言,我們假設
![]()
![]()
![]()
![]()
![]()
![]()
![]()
我們的目標是開發一種微調策略,通過有效利用源域信息來增強目標估計。通過成功遷移源數據中的共享結構,我們旨在提高所得估計量 m ^ m 的學習效率和性能,使得微調過程比僅在目標數據上進行訓練更為有效,特別是當目標樣本量遠小于源樣本量時。
2.2 FAN 模型的通用性
![]()
2.3 回歸函數的層次分解
![]()
![]()
2.4 可遷移性
我們引入了關于![]()
之間關系的主要假設,該假設將微調背后的基本原理形式化,并在遷移過程中提供了極大的靈活性。
![]()
![]()
![]()
![]()
![]()
![]()
3 方法論
![]()
3.1 用于因子估計的多樣化投影矩陣
![]()
![]()
![]()
![]()
![]()
3.2 針對協變量偏移的遷移因子估計
![]()
![]()
![]()
具體而言,我們通過預設閾值 δ δ 限制目標協方差與聚合協方差之間的差異來提取因子:
![]()
![]()
![]()
3.3 針對后驗偏移的微調非參數變量選擇
![]()
![]()
![]()
![]()
請注意,(12) 式和 (15) 式均涉及因子增強型神經 Lasso(Factor Augmented Neural Lasso)。為了將其與 FAST-NN 估計量 (12) 區分開來,我們將估計量 (16) 稱為(微調)FAN-Lasso。
4 因子遷移理論
![]()
![]()
原文鏈接:https://arxiv.org/pdf/2604.12288
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.