ICLR 2026 | PIL：基于線性代理的不可學習樣本生成方法

2026-02-24 19:36:33　來源: 機器之心Pro

河北舉報

分享至

不可學習樣本（Unlearnable Examples）是一類用于數(shù)據(jù)保護的技術(shù)，其核心思想是在原始數(shù)據(jù)中注入人類難以察覺的微小擾動，使得未經(jīng)授權(quán)的第三方在使用這些數(shù)據(jù)訓練模型時，模型的泛化性能顯著下降，甚至接近隨機猜測，從而達到阻止數(shù)據(jù)被濫用的目的。

例如，對于攝影師公開發(fā)布的作品或用戶分享的個人照片，在添加擾動后，圖像在視覺上幾乎不發(fā)生變化；但若這些數(shù)據(jù)被用于訓練圖像分類模型，其測試準確率可能會從 90% 降至 10% 左右。

隨著深度模型對大規(guī)模數(shù)據(jù)依賴程度的不斷提升，不可學習樣本逐漸成為數(shù)據(jù)隱私與模型安全領(lǐng)域的重要研究方向。然而，現(xiàn)有方法在實際應(yīng)用中仍面臨顯著的效率瓶頸。

論文鏈接： https://arxiv.org/abs/2601.19967
代碼已開源： https://github.com/jinlinll/pil

現(xiàn)有方法的效率瓶頸

當前主流的不可學習樣本生成方法大多依賴深度神經(jīng)網(wǎng)絡(luò)（DNN）作為代理模型。其典型流程包括：

1. 訓練一個復雜的深度模型（如 ResNet、VGG）作為代理；

2. 在代理模型上通過對抗攻擊方法（如 PGD）迭代優(yōu)化擾動；

3. 利用擾動在其他模型上的遷移性實現(xiàn)防護效果。

這種對深度模型的依賴帶來了若干問題：

計算開銷高：生成一次擾動往往需要大量 GPU 資源。例如，REM 方法在 CIFAR-10 數(shù)據(jù)集上的擾動生成時間超過 15 GPU 小時；
擴展性受限：當應(yīng)用于高分辨率圖像或大規(guī)模數(shù)據(jù)集（如 ImageNet）時，時間成本迅速上升；
模型復雜度冗余：深模型的強非線性表達能力并非不可學習樣本生成的必要條件，反而增加了優(yōu)化難度。

核心觀察：不可學習樣本與模型線性化

我們關(guān)注到一個關(guān)鍵現(xiàn)象：不可學習樣本的作用機制，本質(zhì)上是誘導深模型退化為近似線性的行為模式。

我們評估了多種現(xiàn)有不可學習樣本方法（包括 EM、REM、TAP、SP、AR 等），發(fā)現(xiàn)一個一致現(xiàn)象：無論方法設(shè)計多么復雜，最終均會誘導深度模型呈現(xiàn)更強的線性特征（通過 FGSM 的成功率度量）

表 1：不同 FGSM 攻擊步長下不可學習樣本導致的額外準確率下降百分比（擾動比例 50%）

從這一角度出發(fā)，如果最終目標是使深模型表現(xiàn)出線性特性，那么使用復雜的深度模型作為代理并非必要。相反，直接利用線性模型生成擾動，可能更直接地作用于這一核心機制。

基于此，我們提出PIL（Perturbation-Induced Linearization）：通過線性模型作為代理，直接生成能夠誘導深模型線性化的不可學習擾動。

PIL 方法概述

與基于對抗攻擊的方案不同，PIL 通過一個雙目標優(yōu)化過程，引導模型學習線性映射。

1. 語義混淆（Semantic Obfuscation）

通過最小化 KL 散度，使線性代理模型在擾動后的樣本上輸出接近均勻分布，從而削弱原始圖像中可用于分類的語義信息。

2. 捷徑誘導（Shortcut Learning）

通過最小化交叉熵損失，使代理模型能夠僅依據(jù)擾動準確預(yù)測標簽，從而將判別信息嵌入進擾動中。

兩個目標通過平衡參數(shù) λ 進行聯(lián)合優(yōu)化，最終生成的擾動同時抑制語義學習并強化線性捷徑，從而在深模型訓練階段誘導其產(chǎn)生顯著的泛化退化。

圖 1：PIL 方法示意圖

PIL 的算法流程（簡要）

1. 訓練一個無偏置的線性分類器作為代理模型；

2. 在不可察覺約束（L∞≤8/255）下，采用類似 PGD 的方法優(yōu)化擾動；

3. 將擾動注入原始圖像，構(gòu)造不可學習樣本；

Algorithm 1：PIL 算法流程

實驗結(jié)果

我們在 SVHN、CIFAR-10/100 和 ImageNet-100 數(shù)據(jù)集上，結(jié)合 ResNet、VGG、MobileNet 等多種模型進行了系統(tǒng)評估。

1. 有效性

在不同數(shù)據(jù)集和模型架構(gòu)下，PIL 生成的不可學習樣本均能顯著降低模型的測試準確率，在部分設(shè)置中準確率接近隨機水平。

表 2：在干凈數(shù)據(jù)集（Dc）與 PIL 構(gòu)建的不可學習數(shù)據(jù)集（Du）上訓練的模型在干凈數(shù)據(jù)上的測試準確率（%）對比

2. 計算效率

在 CIFAR-10 上，PIL 生成擾動僅需 40.53 秒，而 REM 方法需要超過 54k 秒，效率提升超過三個數(shù)量級。同時，PIL 在效率與防護效果之間取得了較好的平衡。

表 3：不同方法為 CIFAR-10 訓練集構(gòu)建全部擾動所需的時間對比

3. 魯棒性

在多種數(shù)據(jù)增強策略（旋轉(zhuǎn)、裁剪、MixUp）和不同 JPEG 壓縮質(zhì)量下，PIL 依然保持穩(wěn)定的防護性能。

表 4：不同數(shù)據(jù)增強策略下，各類不可學習樣本在 CIFAR-10 上的干凈測試準確率（%）。結(jié)果越接近 10% 越好。灰色背景標示 Top-2 的兩種方法。

表 5：在不同 JPEG 壓縮質(zhì)量下，各類不可學習樣本在 CIFAR-10 上的干凈測試準確率（%）。結(jié)果越接近 10% 越好。灰色背景標示 Top-2 的兩種方法。

4. 線性化驗證

我們使用 FGSM 攻擊下的準確率下降幅度作為線性化指標。實驗表明，隨著 PIL 擾動比例增加，模型對 FGSM 的敏感性顯著增強，驗證了 PIL 確實誘導了模型的線性行為。

表 6：使用不同干凈 / PIL 擾動數(shù)據(jù)混合比例訓練的 ResNet-18 模型，在各 FGSM 攻擊步長下的測試準確率及下降幅度（%）

進一步分析：

部分擾動設(shè)置下的性能退化受限

在實驗中我們觀察到一個一致現(xiàn)象：當僅有部分訓練數(shù)據(jù)被擾動時，模型的測試準確率往往不會出現(xiàn)顯著下降。這一現(xiàn)象并非 PIL 方法特有，而是現(xiàn)有不可學習樣本方法普遍存在的特性。

為解釋該現(xiàn)象，我們通過實驗發(fā)現(xiàn)模型對被擾動樣本產(chǎn)生的梯度與對干凈樣本的梯度呈現(xiàn)很強的正交性，于是我們提出在梯度正交假設(shè)，并在該假設(shè)下進行了理論分析，得到如下結(jié)論：

干凈樣本與擾動樣本在訓練過程中所產(chǎn)生的梯度方向近似正交，因此擾動樣本對應(yīng)的梯度更新難以顯著干擾模型對干凈樣本的學習；
在混合訓練設(shè)置下，模型的泛化性能主要由干凈數(shù)據(jù)主導，只要干凈樣本數(shù)量足夠，模型仍能學習到穩(wěn)定且可泛化的特征表示。

圖 2：在部分擾動場景下，CIFAR-10 數(shù)據(jù)集的干凈測試準確率（%）

上述分析表明，部分擾動并不足以從根本上削弱模型的泛化能力。這一定性結(jié)論對于實際應(yīng)用具有直接啟示意義：若期望獲得穩(wěn)定且顯著的防護效果，需要對數(shù)據(jù)集進行大比例甚至全部的擾動，或至少保證擾動樣本在訓練數(shù)據(jù)中占據(jù)足夠高的比例（通常高于 80%）。

結(jié)語

PIL 的核心在于從機制層面重新審視不可學習樣本問題，將關(guān)注點從復雜的代理模型與攻擊策略，轉(zhuǎn)向「模型線性化」這一關(guān)鍵因素。通過使用線性代理模型，PIL 在顯著降低計算成本的同時，依然保持了穩(wěn)定而有效的防護能力。

我們希望這一視角能夠為不可學習樣本及相關(guān)數(shù)據(jù)保護研究提供新的思路，并推動更加高效、可擴展的方法設(shè)計。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.