網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

教大模型終身學(xué)習(xí)！中科大連發(fā)兩篇頂會(huì)，突破「知識(shí)注入」雙重困境

2026-05-21 17:50:32　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

【新智元導(dǎo)讀】中科大團(tuán)隊(duì)首先推出動(dòng)態(tài)多模態(tài)知識(shí)注入基準(zhǔn)MMEVOKE，解構(gòu)遺忘機(jī)制，并在此基礎(chǔ)上提出全新雙階段框架KORE。通過(guò)「知識(shí)樹」自動(dòng)增強(qiáng)與「零空間」協(xié)方差約束微調(diào)，為大模型終身學(xué)習(xí)開辟了全新路徑。

當(dāng)前主流大型多模態(tài)模型（LMMs）通過(guò)海量數(shù)據(jù)的預(yù)訓(xùn)練存儲(chǔ)了豐富的靜態(tài)知識(shí)，并在多模態(tài)理解與指令跟隨上取得了巨大成功。然而，現(xiàn)實(shí)世界瞬息萬(wàn)變，大模型的既有知識(shí)面臨「上線即過(guò)時(shí)」的嚴(yán)峻挑戰(zhàn)，亟需具備高效吸收動(dòng)態(tài)演變知識(shí)（Evolving Knowledge）的持續(xù)學(xué)習(xí)能力。

現(xiàn)有研究多局限于靜態(tài)文本領(lǐng)域的知識(shí)編輯，忽視了動(dòng)態(tài)多模態(tài)演變知識(shí)的注入，導(dǎo)致多模態(tài)持續(xù)學(xué)習(xí)領(lǐng)域存在兩大核心缺陷：

評(píng)測(cè)基準(zhǔn)缺失：缺乏能夠高頻、動(dòng)態(tài)復(fù)制且覆蓋面廣的多模態(tài)演變知識(shí)評(píng)測(cè)基準(zhǔn)；
遺忘機(jī)制不明：業(yè)界未能對(duì)模型在面對(duì)演變知識(shí)注入時(shí)的退化行為進(jìn)行深度的定量解構(gòu)。

針對(duì)這一關(guān)鍵空白，中國(guó)科學(xué)技術(shù)大學(xué)團(tuán)隊(duì)正式推出首個(gè)動(dòng)態(tài)多模態(tài)知識(shí)注入基準(zhǔn)MMEVOKE（含9,422個(gè)樣本、橫跨159個(gè)細(xì)分子類）。

論文鏈接：https://arxiv.org/pdf/2505.24449

代碼鏈接：https://github.com/EVOKE-LMM/EVOKE

開源數(shù)據(jù)集：https://huggingface.co/collections/kailinjiang/mmevoke-iclr26

項(xiàng)目主頁(yè)：https://evoke-lmm.github.io/

同時(shí)，為了讓大型多模態(tài)模型（LMMs）能夠?qū)崟r(shí)跟上現(xiàn)實(shí)世界的發(fā)展，高效的知識(shí)注入（Knowledge Injection）已成為多模態(tài)大模型走向?qū)嵱没谋赜芍贰Ｈ欢F(xiàn)有的知識(shí)注入方法在處理多模態(tài)持續(xù)學(xué)習(xí)時(shí)，普遍陷入了不可調(diào)和的「雙重困境」：

知識(shí)適應(yīng)性差（學(xué)不準(zhǔn)）：傳統(tǒng)微調(diào)僅對(duì)孤立、離散的數(shù)據(jù)進(jìn)行粗暴訓(xùn)練，導(dǎo)致模型對(duì)新知識(shí)缺乏跨模態(tài)泛化和多輪深度推理能力，容易產(chǎn)生「死記硬背」或嚴(yán)重幻覺；
災(zāi)難性遺忘嚴(yán)重（忘得快）：參數(shù)在吸收新知識(shí)時(shí)的無(wú)序更新，會(huì)強(qiáng)力干擾并破壞大模型原有的通用多模態(tài)基本能力（如OCR、學(xué)科推理等），導(dǎo)致既有能力斷崖式下跌。

為了打破這一不可調(diào)和的「死結(jié)」，團(tuán)隊(duì)進(jìn)一步提出了以知識(shí)導(dǎo)向控制（Knowledge-Oriented Controls）為核心的全新雙階段優(yōu)化微調(diào)框架KORE，通過(guò)兩大創(chuàng)新機(jī)制實(shí)現(xiàn)「知識(shí)適應(yīng)」與「能力保留」的閉環(huán)協(xié)同。

論文鏈接：https://arxiv.org/pdf/2510.19316

代碼鏈接：https://github.com/KORE-LMM/KORE

開源數(shù)據(jù)集：https://huggingface.co/collections/kailinjiang/koreicml26

項(xiàng)目主頁(yè)：https://kore-lmm.github.io/

研究背景

隨著現(xiàn)實(shí)世界的瞬息萬(wàn)變，大型多模態(tài)模型（LMMs）正面臨著一個(gè)致命的痛點(diǎn)：預(yù)訓(xùn)練賦予了它們海量的靜態(tài)知識(shí)，但這些知識(shí)一旦離線就會(huì)迅速過(guò)時(shí)。

當(dāng)面對(duì)類似「小米SU7/Yu7」、「2024諾貝爾物理學(xué)獎(jiǎng)」等新近涌現(xiàn)的動(dòng)態(tài)演變知識(shí)（Evolving Knowledge）時(shí)，LMMs不僅無(wú)法準(zhǔn)確識(shí)別和泛化，甚至在強(qiáng)行注入新知識(shí)后，還會(huì)觸發(fā)嚴(yán)重的災(zāi)難性遺忘，導(dǎo)致其原有的通用多模態(tài)指令跟隨等基本能力斷崖式下跌。

圖1 進(jìn)化知識(shí)注入的樣例展示

場(chǎng)景構(gòu)建

傳統(tǒng)的知識(shí)編輯評(píng)測(cè)多依賴人工靜態(tài)收集，不僅耗時(shí)費(fèi)力，更無(wú)法跟上現(xiàn)實(shí)世界「高頻、動(dòng)態(tài)」的演變步伐。為了實(shí)現(xiàn)自動(dòng)化且高質(zhì)量的動(dòng)態(tài)知識(shí)捕獲，團(tuán)隊(duì)設(shè)計(jì)了一套可高頻自動(dòng)復(fù)制的數(shù)據(jù)構(gòu)建流水線：

圖2 MMEVOKE的構(gòu)建流程

最終構(gòu)建出包含9,422個(gè)樣本、橫跨新聞與實(shí)體兩大領(lǐng)域、159個(gè)細(xì)分行業(yè)子類的龐大基準(zhǔn)。

圖3 MMEVOKE的統(tǒng)計(jì)數(shù)據(jù)

團(tuán)隊(duì)在MMEVOKE上對(duì)4類知識(shí)注入方法（Supervised Fine-Tuning、Retrieval Augmented Generation、Commercial AI Web Search Engine、Sufficient Context）進(jìn)行了動(dòng)態(tài)知識(shí)注入大考，實(shí)驗(yàn)結(jié)果徹底顛覆了行業(yè)傳統(tǒng)認(rèn)知：

圖4 現(xiàn)有知識(shí)注入方法在MMEVOKE上的評(píng)估

實(shí)驗(yàn)觀察 1：現(xiàn)有主流方法在 MMEVOKE 上全線折戟:團(tuán)隊(duì)深入評(píng)估了參數(shù)微調(diào)、多模態(tài)檢索增強(qiáng)（RAG）以及商業(yè) AI 搜索引擎等多類主流方法，結(jié)果發(fā)現(xiàn)其表現(xiàn)均不盡如人意。
實(shí)驗(yàn)觀察 2：顛覆直覺！即便上下文充足，大模型依舊「睜眼說(shuō)瞎話」:行業(yè)通常認(rèn)為，只要為大模型提供準(zhǔn)確且充足的檢索上下文，就能保證回答的正確性。但 MMEVOKE 的「充足上下文（Sufficient Context）」嚴(yán)苛實(shí)驗(yàn)打破了這一神話。

核心挑戰(zhàn) 1：現(xiàn)有知識(shí)注入方法在 MMEVOKE 基準(zhǔn)上表現(xiàn)極為匱乏，甚至在擁有充足的外部上下文時(shí)，大模型依然無(wú)法有效利用和正確推理動(dòng)態(tài)演變知識(shí)。

為了對(duì)模型在面對(duì)演變知識(shí)注入時(shí)的退化行為進(jìn)行深度的定量解構(gòu)，團(tuán)隊(duì)在7個(gè)能力維度的12個(gè)benchmark上面進(jìn)行了廣泛的實(shí)驗(yàn)，得到以下結(jié)論：

圖5 針對(duì)災(zāi)難性遺忘的評(píng)估

實(shí)驗(yàn)觀察3：知識(shí)注入引發(fā)「副作用」，通用能力全面退化

在通過(guò) Full-FT 和 LoRA 注入新知識(shí)后，大模型的通用多模態(tài)能力均出現(xiàn)顯著下滑。

實(shí)驗(yàn)觀察4：解構(gòu)退化規(guī)律，驚現(xiàn)致命的「級(jí)聯(lián)遺忘鏈」

無(wú)論是全參數(shù)微調(diào)還是 LoRA，模型各項(xiàng)能力的退化嚴(yán)重程度表現(xiàn)出高度一致的確定性排行：指令跟隨（最嚴(yán)重）→多輪對(duì)話→幻覺控制→綜合評(píng)估 →OCR→多學(xué)科推理→數(shù)學(xué)推理（最輕微）

實(shí)驗(yàn)觀察5：「聽不懂人話」引發(fā)的多米諾骨牌效應(yīng)

實(shí)驗(yàn)深入發(fā)現(xiàn)，各維度的能力退化并非孤立發(fā)生。由于 MME、SEEDBench2_Plus 等通用基準(zhǔn)高度依賴模型對(duì)「是否/單選」等基礎(chǔ)指令的嚴(yán)格遵守，「指令跟隨能力」的率先崩潰會(huì)直接觸發(fā)級(jí)聯(lián)負(fù)面效應(yīng)，像多米諾骨牌一樣順藤摸瓜地癱瘓模型的其他核心多模態(tài)基本功！

核心挑戰(zhàn) 2：參數(shù)微調(diào)方法在注入新知識(shí)時(shí)，不可避免地會(huì)導(dǎo)致大模型通用能力的大幅退化，且這種退化在不同微調(diào)手段中表現(xiàn)出高度一致的嚴(yán)重性排行與致命的級(jí)聯(lián)效應(yīng)。

核心技術(shù)

為了解決「新知學(xué)不準(zhǔn)，舊能保不住」這一難題，團(tuán)隊(duì)遞進(jìn)發(fā)力，提出了KORE，一個(gè)巧妙結(jié)合了知識(shí)導(dǎo)向的增強(qiáng)與約束的協(xié)同方法。

圖6 知識(shí)適應(yīng)和知識(shí)保留之間的平衡挑戰(zhàn)以及KORE的性能概覽

KORE的核心思想是雙管齊下：

對(duì)外「做加法」：通過(guò)一種名為KORE-AUGMENTATION的自動(dòng)化數(shù)據(jù)增強(qiáng)流水線，將孤立的知識(shí)點(diǎn)擴(kuò)展為結(jié)構(gòu)化、多層次的對(duì)話和指令數(shù)據(jù)，讓模型「學(xué)得深、學(xué)得透」。

為了讓模型真正「內(nèi)化」新知識(shí)，而不是簡(jiǎn)單地「記憶」數(shù)據(jù)點(diǎn)，作者們提出了一種深刻且結(jié)構(gòu)化的數(shù)據(jù)增強(qiáng)方法KORE-AUGMENTATION，它通過(guò)一個(gè)自動(dòng)化的流水線，將每一個(gè)孤立的知識(shí)點(diǎn)（例如，一條關(guān)于某個(gè)新聞事件的圖文信息），擴(kuò)展成一個(gè)結(jié)構(gòu)化的知識(shí)樹。這棵樹包含：

樹干：基于原始知識(shí)生成的多輪對(duì)話數(shù)據(jù)，模擬了對(duì)該知識(shí)點(diǎn)的深入探討和追問(wèn)。
樹枝：基于原始知識(shí)生成的多種指令任務(wù)數(shù)據(jù)，包括：（1）視覺識(shí)別：判斷圖片內(nèi)容是否與知識(shí)點(diǎn)相關(guān)。（2）圖像描述：根據(jù)知識(shí)點(diǎn)為圖片生成描述。（3）視覺問(wèn)答：基于圖片和知識(shí)點(diǎn)回答具體問(wèn)題。

這個(gè)過(guò)程是完全自動(dòng)化的，利用GPT-4o模型，將單一的知識(shí)點(diǎn)「發(fā)酵」成包含7.4萬(wàn)個(gè)樣本的高質(zhì)量、多形式的訓(xùn)練數(shù)據(jù)集（KORE-74K）。通過(guò)在這種結(jié)構(gòu)化數(shù)據(jù)上進(jìn)行訓(xùn)練，模型不再是死記硬背，而是學(xué)會(huì)了理解、推理和靈活運(yùn)用新知識(shí)。

圖7 KORE的兩階段優(yōu)化概覽

對(duì)內(nèi)「做減法」：通過(guò)一種名為KORE-CONSTRAINT的知識(shí)約束機(jī)制，在微調(diào)時(shí)找到一個(gè)幾乎不干擾舊知識(shí)的「安全」更新方向（即激活協(xié)方差矩陣的「零空間」），從而讓模型「忘得少、忘得慢」。

LMM的預(yù)訓(xùn)練知識(shí)，可以被看作是其內(nèi)部激活值在特定輸入下的分布模式。這些模式可以被線性層激活的協(xié)方差矩陣C所捕捉。KORE-CONSTRAINT的基本假設(shè)是：如果我們能讓微調(diào)的更新方向，與這些代表舊知識(shí)的模式「正交」（即位于協(xié)方差矩陣C的零空間中），那么我們就能在最大程度上避免干擾舊知識(shí)。具體實(shí)現(xiàn)步驟如下所示：

收集舊知識(shí)的「指紋」：首先，用一組代表預(yù)訓(xùn)練知識(shí)的隨機(jī)樣本（論文中使用了OneVision數(shù)據(jù)集）輸入LMM，并收集其線性層的激活值X。
計(jì)算協(xié)方差矩陣：計(jì)算激活值的協(xié)方差矩陣C = XX?。這個(gè)矩陣C就相當(dāng)于舊知識(shí)在這一層留下的「指紋」。
找到「安全」的更新空間：對(duì)協(xié)方差矩陣C進(jìn)行奇異值分解 (SVD)：

SVD可以將C分解為一系列由奇異值σ?和奇異向量u?定義的子空間。其中，那些對(duì)應(yīng)于極小或零奇異值的子空間，就是零空間（Null Space）。對(duì)這個(gè)空間的擾動(dòng)，對(duì)C的影響最小，因此可以被視為「安全」的更新區(qū)域。

初始化適配器 (Adapter)：KORE選擇LoRA作為PEFT方法。LoRA的更新可以表示為ΔW = BA。為了讓更新「安全」，關(guān)鍵是讓矩陣A位于C的零空間中。

作者首先構(gòu)建一個(gè)投影矩陣P = ???，其中?是由對(duì)應(yīng)最小奇異值的奇異向量組成的矩陣，P可以將任意權(quán)重投影到C的近似零空間中。然后，他們將原始權(quán)重W?投影到這個(gè)零空間上，即W?P。

對(duì)W?P再次進(jìn)行SVD，并用其分解結(jié)果來(lái)初始化LoRA的矩陣A和B：

最后，為了保證微調(diào)開始時(shí)模型的行為不變，從原始權(quán)重中減去初始的更新量：

約束微調(diào)：在微調(diào)過(guò)程中，只訓(xùn)練矩陣B，而保持矩陣A凍結(jié)。因?yàn)?code>A被初始化在了零空間中，所以無(wú)論B如何變化，最終的更新ΔW = BA對(duì)舊知識(shí)協(xié)方差C的影響都將是最小的（BAC ≈ 0）。

通過(guò)這種方式，KORE-CONSTRAINT為知識(shí)注入找到了一個(gè)「絕緣」的更新通道，實(shí)現(xiàn)了在注入新知識(shí)的同時(shí)，對(duì)舊知識(shí)的強(qiáng)大保護(hù)。

性能亮點(diǎn)

作者在LLaVA-v1.5和Qwen2.5-VL等多個(gè)主流LMM上進(jìn)行了廣泛實(shí)驗(yàn)，將KORE與Full-FT、LoRA以及EWC、Replay等多種連續(xù)學(xué)習(xí)方法進(jìn)行了對(duì)比。

主要結(jié)果

表1的結(jié)果清晰地展示了KORE的全面優(yōu)勢(shì)：

知識(shí)適應(yīng)（新知識(shí)學(xué)習(xí)）：在EVOKE基準(zhǔn)上，KORE的性能遠(yuǎn)超所有基線。例如，在F1分?jǐn)?shù)上，KORE (41.26) 比表現(xiàn)最好的基線Replay (17.98) 高出了一倍多。這證明了KORE-AUGMENTATION在促進(jìn)新知識(shí)內(nèi)化方面的巨大成功。
知識(shí)保留（舊知識(shí)遺忘）：在評(píng)估7大類舊能力的12個(gè)基準(zhǔn)上，KORE的平均分（40.00）同樣名列前茅，顯著優(yōu)于LoRA（33.47）和EWC（33.47）等方法，僅略低于需要存儲(chǔ)大量舊數(shù)據(jù)的Replay方法（43.00）。這證明了KORE-CONSTRAINT在防止災(zāi)難性遺忘方面的有效性。
綜合表現(xiàn)：綜合來(lái)看，KORE在「適應(yīng)」和「保留」兩個(gè)維度上取得了最佳的平衡，平均分（37.98）和HARS (82.81）顯著高于所有基線。

圖8 細(xì)粒度知識(shí)類型性能對(duì)比圖

在更細(xì)粒度的20種不同類型知識(shí)的注入任務(wù)上，KORE同樣展現(xiàn)了全面的領(lǐng)先優(yōu)勢(shì)，證明其并非只在特定類型的知識(shí)上有效。

特定知識(shí)保留的靈活性

KORE的一個(gè)強(qiáng)大之處在于其可定制性。如果用戶希望特別保護(hù)某一類舊知識(shí)（例如，數(shù)學(xué)推理能力），他們可以在構(gòu)建協(xié)方差矩陣C時(shí)，只使用該類任務(wù)的數(shù)據(jù)。

實(shí)驗(yàn)表明，當(dāng)施加特定約束時(shí)（如KORE_MME, KORE_OCRVQA），模型在該特定任務(wù)上的保留能力會(huì)得到進(jìn)一步增強(qiáng)，同時(shí)對(duì)新知識(shí)的學(xué)習(xí)能力影響甚微。這為根據(jù)不同應(yīng)用場(chǎng)景進(jìn)行定制化的知識(shí)管理提供了可能。

在不同模型尺寸和結(jié)構(gòu)上的泛化性

無(wú)論是在更大的13B模型上，還是在架構(gòu)不同的Qwen2.5-VL模型上，KORE都穩(wěn)定地展現(xiàn)出超越基線的性能。這證明了KORE方法的普適性，它并非針對(duì)某一特定模型或規(guī)模的「特調(diào)」方案。

消融實(shí)驗(yàn)

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了KORE兩個(gè)核心組件的不可或缺性：

去掉KORE-AUGMENTATION：新知識(shí)學(xué)習(xí)能力（K.A）急劇下降。
去掉KORE-CONSTRAINT：舊知識(shí)保留能力（K.R）顯著受損。

這證明了KORE的成功正是源于其「增強(qiáng)」與「約束」的協(xié)同作用。

圖9 不同rank大小對(duì)性能的影響

在探討模型秩（Rank）大小對(duì)性能的影響時(shí)，實(shí)驗(yàn)展現(xiàn)了 KORE 極強(qiáng)的參數(shù)利用率：

性能隨 Rank 穩(wěn)步攀升：如圖7所示，隨著 Rank 值（即可訓(xùn)練參數(shù)）的增加，KORE 在各項(xiàng)評(píng)估指標(biāo)上的表現(xiàn)均呈現(xiàn)出清晰的上升趨勢(shì)。
更少參數(shù)，更好性能：最令人矚目的是，即便將 Rank 限制在 64，KORE 僅憑不到 Replay（經(jīng)驗(yàn)重放）策略1/3的參數(shù)量，就在綜合能力Avg）和 HARS 核心指標(biāo)上實(shí)現(xiàn)了超越！真正做到了「降本增效」，為大模型低成本持續(xù)學(xué)習(xí)提供了極佳的范式。

總結(jié)

研究團(tuán)隊(duì)針對(duì)大型多模態(tài)模型（LMMs）在動(dòng)態(tài)知識(shí)注入時(shí)面臨的「學(xué)不準(zhǔn)」與「忘得快」雙重困境，提出了一套包含評(píng)測(cè)基準(zhǔn)與底層微調(diào)架構(gòu)的完整閉環(huán)解決方案。

首先，團(tuán)隊(duì)構(gòu)建了首個(gè)動(dòng)態(tài)多模態(tài)演變知識(shí)評(píng)測(cè)基準(zhǔn) MMEVOKE，首次科學(xué)解構(gòu)了新知識(shí)注入引發(fā)模型基礎(chǔ)能力全面降級(jí)的「級(jí)聯(lián)遺忘效應(yīng)」。

在此基礎(chǔ)上，團(tuán)隊(duì)推出雙階段框架 KORE：通過(guò)多模態(tài)「知識(shí)樹」增強(qiáng)提升新知識(shí)內(nèi)化，并結(jié)合「零空間約束」將舊能力鎖定，從幾何層面切斷參數(shù)干擾。KORE 以極低參數(shù)開銷完美平衡了「新知吸收」與「舊能保留」。未來(lái)，團(tuán)隊(duì)將持續(xù)攻堅(jiān)災(zāi)難性遺忘的底層機(jī)制，為下一代具備「終身學(xué)習(xí)」能力的大模型奠定技術(shù)底座。

參考資料：

https://arxiv.org/pdf/2505.24449

編輯：LRST

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.