![]()
表格異常檢測(cè)(Tabular Anomaly Detection,TAD)旨在從結(jié)構(gòu)化數(shù)據(jù)中精準(zhǔn)識(shí)別顯著偏離正常分布的稀有樣本,其在醫(yī)療診斷、金融風(fēng)控及網(wǎng)絡(luò)安全等關(guān)鍵領(lǐng)域的數(shù)據(jù)挖掘與安全保障任務(wù)中發(fā)揮著核心作用。
然而,當(dāng)前大多數(shù) TAD 方法仍然遵循一種one-for-one(OFO)范式:每來一個(gè)新數(shù)據(jù)集,就要重新訓(xùn)練一個(gè)專屬檢測(cè)器,甚至重新調(diào)參、重新選擇預(yù)處理方式。這不僅帶來高昂的計(jì)算和運(yùn)維成本,也讓模型難以泛化到未知領(lǐng)域。
那么,表格異常檢測(cè)能否像大模型一樣,訓(xùn)練一次,就能遷移到不同領(lǐng)域的數(shù)據(jù)表上,實(shí)現(xiàn)真正的one-for-all(OFA)
近期,來自 Griffith University 和 Tongji University 的團(tuán)隊(duì)提出了 OFA-TAD,邁出了通用表格異常檢測(cè)的重要一步。該方法將 TAD 從傳統(tǒng)的 one-for-one(OFO)推進(jìn)到 one-for-all(OFA)范式:模型只需在多個(gè)源數(shù)據(jù)集上訓(xùn)練一次,便可直接遷移到未見過的目標(biāo)數(shù)據(jù)集,無需目標(biāo)域微調(diào)或重新訓(xùn)練。
![]()
圖注:傳統(tǒng) OFO 范式與 OFA-TAD 所追求的 OFA 范式對(duì)比。
![]()
- 論文標(biāo)題:Towards One-for-All Anomaly Detection for Tabular Data
- 作者:Shiyuan Li,Yixin Liu,Yu Zheng,Xiaofeng Cao,Shirui Pan,Heng Tao Shen
- 論文地址:https://arxiv.org/abs/2603.14407
- 代碼地址:https://github.com/Shiy-Li/OFA-TAD
從 one-for-one 到 one-for-all:
表格異常檢測(cè)的新問題
傳統(tǒng) TAD 方法通常在單個(gè)數(shù)據(jù)集內(nèi)訓(xùn)練和測(cè)試。無論是經(jīng)典的 Isolation Forest、LOF、KNN,還是近年來的 AutoEncoder、DeepSVDD、MCM、DRL、DisentAD 等深度方法,它們大多默認(rèn)每個(gè)數(shù)據(jù)集都有自己的訓(xùn)練流程。
這種范式在單一數(shù)據(jù)集上可能表現(xiàn)不錯(cuò),但在真實(shí)部署中會(huì)遇到兩個(gè)核心問題:
- 訓(xùn)練成本高:每個(gè)新場(chǎng)景都需要重新訓(xùn)練檢測(cè)器,往往還伴隨超參數(shù)搜索和預(yù)處理選擇。
- 泛化能力弱:模型容易依賴某個(gè)數(shù)據(jù)集的局部模式,一旦遷移到新領(lǐng)域,性能可能明顯下降。
OFA-TAD 試圖回答一個(gè)更具挑戰(zhàn)性的問題:能否訓(xùn)練一個(gè)通用的表格異常檢測(cè)器,在面對(duì)來自醫(yī)療、金融、圖像特征、網(wǎng)絡(luò)安全等不同領(lǐng)域的新數(shù)據(jù)表時(shí),仍然能夠即插即用地發(fā)現(xiàn)異常?
這一問題并不簡(jiǎn)單。表格數(shù)據(jù)天然存在「語義鴻溝」:不同數(shù)據(jù)集的特征維度、特征含義和數(shù)值分布都可能完全不同。醫(yī)療數(shù)據(jù)中的異常可能是異常血壓或心率,金融數(shù)據(jù)中的異常則可能是異常交易金額或賬戶行為。直接對(duì)齊原始特征語義,幾乎不可行。
關(guān)鍵洞見:異常的共性
不在特征語義,而在鄰域距離
OFA-TAD 的核心洞見是:跨領(lǐng)域可遷移的異常信號(hào),不應(yīng)依賴具體特征含義,而應(yīng)來自更通用的鄰域結(jié)構(gòu)。
無論是異常病人記錄、欺詐交易,還是異常網(wǎng)絡(luò)行為,它們往往都有一個(gè)共同點(diǎn):相對(duì)于正常樣本,它們更「孤立」,也就是與局部鄰居的距離模式更不尋常。
因此,OFA-TAD 不直接學(xué)習(xí)原始表格特征,而是將每個(gè)樣本表示為其 Top-K 近鄰距離序列,即「鄰居距離畫像」。這種表示具有兩個(gè)優(yōu)勢(shì):
- 語義無關(guān):不依賴具體列名或領(lǐng)域含義,不同維度的數(shù)據(jù)表也能被轉(zhuǎn)化為固定長(zhǎng)度的距離序列。
- 異常敏感:異常樣本通常會(huì)在近鄰距離曲線上表現(xiàn)出更明顯的跳變、長(zhǎng)尾或孤立特征。
換句話說,OFA-TAD 將不同領(lǐng)域的數(shù)據(jù)表,統(tǒng)一轉(zhuǎn)化為一種可比較的「距離語言」。
多視角距離編碼:
讓模型自動(dòng)適應(yīng)不同數(shù)據(jù)變換
僅使用一種距離空間仍然不夠。表格數(shù)據(jù)對(duì)預(yù)處理方式高度敏感:標(biāo)準(zhǔn)化、歸一化、分位數(shù)變換等操作,都會(huì)改變樣本之間的鄰域關(guān)系。某些異常在標(biāo)準(zhǔn)化空間中更明顯,另一些異常可能在 MinMax 或 Quantile 空間中更容易被發(fā)現(xiàn)。
![]()
圖注:不同特征變換會(huì)顯著改變近鄰結(jié)構(gòu)與異常可分性。R:Raw,S:Standardized,and Q:Quantile。
為了解決這一問題,OFA-TAD 構(gòu)建了多個(gè)由不同特征變換誘導(dǎo)的度量空間,例如 Raw、Standardized、MinMax、Quantile 等。對(duì)于同一個(gè)樣本,模型會(huì)在每個(gè)視角下提取 Top-K 鄰居距離序列,并通過分位數(shù)歸一化將不同數(shù)據(jù)集中的距離尺度映射到統(tǒng)一范圍。
這樣,OFA-TAD 既避免了對(duì)某一種預(yù)處理方式的依賴,也能捕獲互補(bǔ)的異常證據(jù)。
MoE 自適應(yīng)融合:
讓每個(gè)樣本選擇最可靠的距離視角
不同視角并非同等可靠。如果簡(jiǎn)單拼接或平均多個(gè)距離視角,反而可能讓強(qiáng)信號(hào)被弱視角稀釋。
為此,OFA-TAD 進(jìn)一步引入了 Mixture-of-Experts(MoE)評(píng)分網(wǎng)絡(luò):
- 視角專家:每個(gè)專家負(fù)責(zé)一個(gè)特定距離視角,利用位置編碼和注意力池化建模 Top-K 鄰居距離序列,并輸出該視角下的異常分?jǐn)?shù)。
- 門控網(wǎng)絡(luò):根據(jù)不同視角的表征,動(dòng)態(tài)預(yù)測(cè)每個(gè)專家的權(quán)重。
- 加權(quán)融合:模型根據(jù)樣本自身特點(diǎn),自適應(yīng)強(qiáng)調(diào)最有用的視角,抑制噪聲視角,得到最終異常分?jǐn)?shù)。
![]()
圖注:OFA-TAD 的整體框架:多視角距離編碼、MoE 自適應(yīng)評(píng)分,以及多策略偽異常合成。
這種設(shè)計(jì)使得 OFA-TAD 不需要提前知道某個(gè)目標(biāo)數(shù)據(jù)集最適合哪種預(yù)處理方式,而是能在推理時(shí)自動(dòng)選擇更可靠的距離證據(jù)。
沒有真實(shí)異常標(biāo)簽怎么辦?
多策略合成偽異常
表格異常檢測(cè)通常處于 one-class setting:訓(xùn)練階段只有正常樣本,真實(shí)異常極少甚至完全不可見。為了在不破壞這一設(shè)定的前提下提供監(jiān)督信號(hào),OFA-TAD 設(shè)計(jì)了多策略偽異常合成機(jī)制。
具體而言,模型通過四類方式生成多樣化的偽異常:
- 流形外推:模擬遠(yuǎn)離正常數(shù)據(jù)流形的全局異常。
- 簇間插值:模擬落在低密度區(qū)域的局部異常。
- 噪聲注入:模擬測(cè)量誤差或隨機(jī)擾動(dòng)。
- 特征遮蔽:模擬數(shù)據(jù)缺失或特征損壞。
這些偽異常與正常樣本共同構(gòu)成訓(xùn)練信號(hào),幫助模型學(xué)習(xí)更穩(wěn)健、可遷移的異常決策邊界。
實(shí)驗(yàn)結(jié)果:34 個(gè)數(shù)據(jù)集、
14 個(gè)領(lǐng)域上的通用檢測(cè)能力
實(shí)驗(yàn)中,OFA-TAD 在 7 個(gè)源數(shù)據(jù)集上訓(xùn)練一次,并在 34 個(gè)來自 14 個(gè)領(lǐng)域的數(shù)據(jù)集上進(jìn)行評(píng)測(cè)。與之對(duì)比的 9 個(gè)代表性基線方法,包括經(jīng)典方法 IForest、LOF、KNN,以及深度方法 AE、DeepSVDD、LUNAR、MCM、DRL、DisentAD。
值得注意的是,對(duì)比方法按照傳統(tǒng) OFO 范式在每個(gè)目標(biāo)數(shù)據(jù)集上分別訓(xùn)練,而 OFA-TAD 不在目標(biāo)數(shù)據(jù)集上重新訓(xùn)練或微調(diào),僅使用目標(biāo)數(shù)據(jù)集的正常訓(xùn)練樣本作為推理時(shí)的上下文,用于近鄰檢索和距離歸一化,并且使用固定的相同一組超參數(shù)在所有目標(biāo)數(shù)據(jù)集上進(jìn)行測(cè)試。
1)整體性能:一次訓(xùn)練,跨 34 個(gè)數(shù)據(jù)集穩(wěn)定領(lǐng)先
在這一更嚴(yán)格的設(shè)置下,OFA-TAD 仍然取得了最優(yōu)的整體表現(xiàn)。如下圖所示,它在 AUROC、AUPRC 等指標(biāo)上的平均排名均保持領(lǐng)先。
![]()
2)消融實(shí)驗(yàn):多視角、MoE 與注意力缺一不可
消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各模塊的重要性。如下圖所示,去掉門控融合、MoE 專家、注意力池化或位置編碼都會(huì)帶來性能下降,其中注意力池化的影響尤為明顯,說明對(duì)鄰居距離證據(jù)進(jìn)行自適應(yīng)加權(quán),是捕獲稀疏異常信號(hào)的關(guān)鍵。
同時(shí),多策略偽異常合成也提供了互補(bǔ)監(jiān)督信號(hào)。移除任意一種合成策略都會(huì)造成性能下降,說明真實(shí)異常的形態(tài)復(fù)雜多樣,需要通過多種偽異常模式共同刻畫。
![]()
3)上下文魯棒性:少量正常樣本也能支持即時(shí)推理
OFA-TAD 還展現(xiàn)出良好的上下文魯棒性。即使目標(biāo)數(shù)據(jù)集中只有一小部分正常樣本可作為上下文,模型仍能進(jìn)行穩(wěn)定的即時(shí)推理;隨著上下文樣本增多,性能進(jìn)一步提升并逐漸趨于飽和。
這表明 OFA-TAD 可以在有限的正常樣本下快速建立目標(biāo)域鄰域結(jié)構(gòu),從而完成 on-the-fly 異常檢測(cè)。
![]()
4)dataset-specific scaling
更進(jìn)一步,隨著源數(shù)據(jù)集數(shù)量增加,OFA-TAD 的遷移性能呈現(xiàn)穩(wěn)定提升趨勢(shì)。這說明通用表格異常檢測(cè)具備類似「dataset-specific scaling」的潛力:預(yù)訓(xùn)練數(shù)據(jù)越豐富,模型越可能學(xué)到跨領(lǐng)域的異常檢測(cè)規(guī)律。
![]()
總結(jié):邁向通用表格異常檢測(cè)器
OFA-TAD 為表格異常檢測(cè)從 one-for-one 向 one-for-all 范式轉(zhuǎn)變提供了一個(gè)初步的嘗試,并在無需目標(biāo)域微調(diào)的跨域遷移場(chǎng)景下展現(xiàn)出了極具潛力的性能。
未來,通用表格異常檢測(cè)仍有廣闊的探索空間。通過引入更大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集、設(shè)計(jì)更先進(jìn)的訓(xùn)練方法,以及更深度的上下文信息利用,通用 TAD 模型有望進(jìn)一步降低工業(yè)部署成本,為醫(yī)療、金融、安全等高價(jià)值場(chǎng)景提供更加靈活可靠的異常檢測(cè)基礎(chǔ)設(shè)施。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.