![]()
新智元報(bào)道
![]()
【新智元導(dǎo)讀】中科大團(tuán)隊(duì)首先推出動(dòng)態(tài)多模態(tài)知識(shí)注入基準(zhǔn)MMEVOKE,解構(gòu)遺忘機(jī)制,并在此基礎(chǔ)上提出全新雙階段框架KORE。通過(guò)「知識(shí)樹」自動(dòng)增強(qiáng)與「零空間」協(xié)方差約束微調(diào),為大模型終身學(xué)習(xí)開辟了全新路徑。
當(dāng)前主流大型多模態(tài)模型(LMMs)通過(guò)海量數(shù)據(jù)的預(yù)訓(xùn)練存儲(chǔ)了豐富的靜態(tài)知識(shí),并在多模態(tài)理解與指令跟隨上取得了巨大成功。然而,現(xiàn)實(shí)世界瞬息萬(wàn)變,大模型的既有知識(shí)面臨「上線即過(guò)時(shí)」的嚴(yán)峻挑戰(zhàn),亟需具備高效吸收動(dòng)態(tài)演變知識(shí)(Evolving Knowledge)的持續(xù)學(xué)習(xí)能力。
現(xiàn)有研究多局限于靜態(tài)文本領(lǐng)域的知識(shí)編輯,忽視了動(dòng)態(tài)多模態(tài)演變知識(shí)的注入,導(dǎo)致多模態(tài)持續(xù)學(xué)習(xí)領(lǐng)域存在兩大核心缺陷:
評(píng)測(cè)基準(zhǔn)缺失:缺乏能夠高頻、動(dòng)態(tài)復(fù)制且覆蓋面廣的多模態(tài)演變知識(shí)評(píng)測(cè)基準(zhǔn);
遺忘機(jī)制不明:業(yè)界未能對(duì)模型在面對(duì)演變知識(shí)注入時(shí)的退化行為進(jìn)行深度的定量解構(gòu)。
針對(duì)這一關(guān)鍵空白,中國(guó)科學(xué)技術(shù)大學(xué)團(tuán)隊(duì)正式推出首個(gè)動(dòng)態(tài)多模態(tài)知識(shí)注入基準(zhǔn)MMEVOKE(含9,422個(gè)樣本、橫跨159個(gè)細(xì)分子類)。
![]()
論文鏈接:https://arxiv.org/pdf/2505.24449
代碼鏈接:https://github.com/EVOKE-LMM/EVOKE
開源數(shù)據(jù)集:https://huggingface.co/collections/kailinjiang/mmevoke-iclr26
項(xiàng)目主頁(yè):https://evoke-lmm.github.io/
同時(shí),為了讓大型多模態(tài)模型(LMMs)能夠?qū)崟r(shí)跟上現(xiàn)實(shí)世界的發(fā)展,高效的知識(shí)注入(Knowledge Injection)已成為多模態(tài)大模型走向?qū)嵱没谋赜芍贰H欢F(xiàn)有的知識(shí)注入方法在處理多模態(tài)持續(xù)學(xué)習(xí)時(shí),普遍陷入了不可調(diào)和的「雙重困境」:
知識(shí)適應(yīng)性差(學(xué)不準(zhǔn)):傳統(tǒng)微調(diào)僅對(duì)孤立、離散的數(shù)據(jù)進(jìn)行粗暴訓(xùn)練,導(dǎo)致模型對(duì)新知識(shí)缺乏跨模態(tài)泛化和多輪深度推理能力,容易產(chǎn)生「死記硬背」或嚴(yán)重幻覺;
災(zāi)難性遺忘嚴(yán)重(忘得快):參數(shù)在吸收新知識(shí)時(shí)的無(wú)序更新,會(huì)強(qiáng)力干擾并破壞大模型原有的通用多模態(tài)基本能力(如OCR、學(xué)科推理等),導(dǎo)致既有能力斷崖式下跌。
為了打破這一不可調(diào)和的「死結(jié)」,團(tuán)隊(duì)進(jìn)一步提出了以知識(shí)導(dǎo)向控制(Knowledge-Oriented Controls)為核心的全新雙階段優(yōu)化微調(diào)框架KORE,通過(guò)兩大創(chuàng)新機(jī)制實(shí)現(xiàn)「知識(shí)適應(yīng)」與「能力保留」的閉環(huán)協(xié)同。
![]()
論文鏈接:https://arxiv.org/pdf/2510.19316
代碼鏈接:https://github.com/KORE-LMM/KORE
開源數(shù)據(jù)集:https://huggingface.co/collections/kailinjiang/koreicml26
項(xiàng)目主頁(yè):https://kore-lmm.github.io/
研究背景
隨著現(xiàn)實(shí)世界的瞬息萬(wàn)變,大型多模態(tài)模型(LMMs)正面臨著一個(gè)致命的痛點(diǎn):預(yù)訓(xùn)練賦予了它們海量的靜態(tài)知識(shí),但這些知識(shí)一旦離線就會(huì)迅速過(guò)時(shí)。
當(dāng)面對(duì)類似「小米SU7/Yu7」、「2024諾貝爾物理學(xué)獎(jiǎng)」等新近涌現(xiàn)的動(dòng)態(tài)演變知識(shí)(Evolving Knowledge)時(shí),LMMs不僅無(wú)法準(zhǔn)確識(shí)別和泛化,甚至在強(qiáng)行注入新知識(shí)后,還會(huì)觸發(fā)嚴(yán)重的災(zāi)難性遺忘,導(dǎo)致其原有的通用多模態(tài)指令跟隨等基本能力斷崖式下跌。
![]()
圖1 進(jìn)化知識(shí)注入的樣例展示
場(chǎng)景構(gòu)建
傳統(tǒng)的知識(shí)編輯評(píng)測(cè)多依賴人工靜態(tài)收集,不僅耗時(shí)費(fèi)力,更無(wú)法跟上現(xiàn)實(shí)世界「高頻、動(dòng)態(tài)」的演變步伐。為了實(shí)現(xiàn)自動(dòng)化且高質(zhì)量的動(dòng)態(tài)知識(shí)捕獲,團(tuán)隊(duì)設(shè)計(jì)了一套可高頻自動(dòng)復(fù)制的數(shù)據(jù)構(gòu)建流水線:
![]()
圖2 MMEVOKE的構(gòu)建流程
最終構(gòu)建出包含9,422個(gè)樣本、橫跨新聞與實(shí)體兩大領(lǐng)域、159個(gè)細(xì)分行業(yè)子類的龐大基準(zhǔn)。
![]()
圖3 MMEVOKE的統(tǒng)計(jì)數(shù)據(jù)
團(tuán)隊(duì)在MMEVOKE上對(duì)4類知識(shí)注入方法(Supervised Fine-Tuning、Retrieval Augmented Generation、Commercial AI Web Search Engine、Sufficient Context)進(jìn)行了動(dòng)態(tài)知識(shí)注入大考,實(shí)驗(yàn)結(jié)果徹底顛覆了行業(yè)傳統(tǒng)認(rèn)知:
![]()
圖4 現(xiàn)有知識(shí)注入方法在MMEVOKE上的評(píng)估
實(shí)驗(yàn)觀察 1:現(xiàn)有主流方法在 MMEVOKE 上全線折戟:團(tuán)隊(duì)深入評(píng)估了參數(shù)微調(diào)、多模態(tài)檢索增強(qiáng)(RAG)以及商業(yè) AI 搜索引擎等多類主流方法,結(jié)果發(fā)現(xiàn)其表現(xiàn)均不盡如人意。
實(shí)驗(yàn)觀察 2:顛覆直覺!即便上下文充足,大模型依舊「睜眼說(shuō)瞎話」:行業(yè)通常認(rèn)為,只要為大模型提供準(zhǔn)確且充足的檢索上下文,就能保證回答的正確性。但 MMEVOKE 的「充足上下文(Sufficient Context)」嚴(yán)苛實(shí)驗(yàn)打破了這一神話。
核心挑戰(zhàn) 1:現(xiàn)有知識(shí)注入方法在 MMEVOKE 基準(zhǔn)上表現(xiàn)極為匱乏,甚至在擁有充足的外部上下文時(shí),大模型依然無(wú)法有效利用和正確推理動(dòng)態(tài)演變知識(shí)。
為了對(duì)模型在面對(duì)演變知識(shí)注入時(shí)的退化行為進(jìn)行深度的定量解構(gòu),團(tuán)隊(duì)在7個(gè)能力維度的12個(gè)benchmark上面進(jìn)行了廣泛的實(shí)驗(yàn),得到以下結(jié)論:
![]()
圖5 針對(duì)災(zāi)難性遺忘的評(píng)估
實(shí)驗(yàn)觀察3:知識(shí)注入引發(fā)「副作用」,通用能力全面退化
在通過(guò) Full-FT 和 LoRA 注入新知識(shí)后,大模型的通用多模態(tài)能力均出現(xiàn)顯著下滑。
實(shí)驗(yàn)觀察4:解構(gòu)退化規(guī)律,驚現(xiàn)致命的「級(jí)聯(lián)遺忘鏈」
無(wú)論是全參數(shù)微調(diào)還是 LoRA,模型各項(xiàng)能力的退化嚴(yán)重程度表現(xiàn)出高度一致的確定性排行:指令跟隨(最嚴(yán)重)→多輪對(duì)話→幻覺控制→綜合評(píng)估 →OCR→多學(xué)科推理→數(shù)學(xué)推理(最輕微)
實(shí)驗(yàn)觀察5:「聽不懂人話」引發(fā)的多米諾骨牌效應(yīng)
實(shí)驗(yàn)深入發(fā)現(xiàn),各維度的能力退化并非孤立發(fā)生。由于 MME、SEEDBench2_Plus 等通用基準(zhǔn)高度依賴模型對(duì)「是否/單選」等基礎(chǔ)指令的嚴(yán)格遵守,「指令跟隨能力」的率先崩潰會(huì)直接觸發(fā)級(jí)聯(lián)負(fù)面效應(yīng),像多米諾骨牌一樣順藤摸瓜地癱瘓模型的其他核心多模態(tài)基本功!
核心挑戰(zhàn) 2:參數(shù)微調(diào)方法在注入新知識(shí)時(shí),不可避免地會(huì)導(dǎo)致大模型通用能力的大幅退化,且這種退化在不同微調(diào)手段中表現(xiàn)出高度一致的嚴(yán)重性排行與致命的級(jí)聯(lián)效應(yīng)。
核心技術(shù)
為了解決「新知學(xué)不準(zhǔn),舊能保不住」這一難題,團(tuán)隊(duì)遞進(jìn)發(fā)力,提出了KORE,一個(gè)巧妙結(jié)合了知識(shí)導(dǎo)向的增強(qiáng)與約束的協(xié)同方法。
![]()
圖6 知識(shí)適應(yīng)和知識(shí)保留之間的平衡挑戰(zhàn)以及KORE的性能概覽
KORE的核心思想是雙管齊下:
對(duì)外「做加法」:通過(guò)一種名為KORE-AUGMENTATION的自動(dòng)化數(shù)據(jù)增強(qiáng)流水線,將孤立的知識(shí)點(diǎn)擴(kuò)展為結(jié)構(gòu)化、多層次的對(duì)話和指令數(shù)據(jù),讓模型「學(xué)得深、學(xué)得透」。
為了讓模型真正「內(nèi)化」新知識(shí),而不是簡(jiǎn)單地「記憶」數(shù)據(jù)點(diǎn),作者們提出了一種深刻且結(jié)構(gòu)化的數(shù)據(jù)增強(qiáng)方法KORE-AUGMENTATION,它通過(guò)一個(gè)自動(dòng)化的流水線,將每一個(gè)孤立的知識(shí)點(diǎn)(例如,一條關(guān)于某個(gè)新聞事件的圖文信息),擴(kuò)展成一個(gè)結(jié)構(gòu)化的知識(shí)樹。這棵樹包含:
樹干:基于原始知識(shí)生成的多輪對(duì)話數(shù)據(jù),模擬了對(duì)該知識(shí)點(diǎn)的深入探討和追問(wèn)。
樹枝:基于原始知識(shí)生成的多種指令任務(wù)數(shù)據(jù),包括:(1)視覺識(shí)別:判斷圖片內(nèi)容是否與知識(shí)點(diǎn)相關(guān)。(2)圖像描述:根據(jù)知識(shí)點(diǎn)為圖片生成描述。(3)視覺問(wèn)答 :基于圖片和知識(shí)點(diǎn)回答具體問(wèn)題。
這個(gè)過(guò)程是完全自動(dòng)化的,利用GPT-4o模型,將單一的知識(shí)點(diǎn)「發(fā)酵」成包含7.4萬(wàn)個(gè)樣本的高質(zhì)量、多形式的訓(xùn)練數(shù)據(jù)集(KORE-74K)。通過(guò)在這種結(jié)構(gòu)化數(shù)據(jù)上進(jìn)行訓(xùn)練,模型不再是死記硬背,而是學(xué)會(huì)了理解、推理和靈活運(yùn)用新知識(shí)。
![]()
圖7 KORE的兩階段優(yōu)化概覽
對(duì)內(nèi)「做減法」:通過(guò)一種名為KORE-CONSTRAINT的知識(shí)約束機(jī)制,在微調(diào)時(shí)找到一個(gè)幾乎不干擾舊知識(shí)的「安全」更新方向(即激活協(xié)方差矩陣的「零空間」),從而讓模型「忘得少、忘得慢」。
LMM的預(yù)訓(xùn)練知識(shí),可以被看作是其內(nèi)部激活值在特定輸入下的分布模式。這些模式可以被線性層激活的協(xié)方差矩陣C所捕捉。KORE-CONSTRAINT的基本假設(shè)是:如果我們能讓微調(diào)的更新方向,與這些代表舊知識(shí)的模式「正交」(即位于協(xié)方差矩陣C的零空間中),那么我們就能在最大程度上避免干擾舊知識(shí)。具體實(shí)現(xiàn)步驟如下所示:
收集舊知識(shí)的「指紋」:首先,用一組代表預(yù)訓(xùn)練知識(shí)的隨機(jī)樣本(論文中使用了OneVision數(shù)據(jù)集)輸入LMM,并收集其線性層的激活值
X。計(jì)算協(xié)方差矩陣:計(jì)算激活值的協(xié)方差矩陣
C = XX?。這個(gè)矩陣C就相當(dāng)于舊知識(shí)在這一層留下的「指紋」。找到「安全」的更新空間:對(duì)協(xié)方差矩陣
C進(jìn)行奇異值分解 (SVD):
![]()
SVD可以將C分解為一系列由奇異值σ?和奇異向量u?定義的子空間。其中,那些對(duì)應(yīng)于極小或零奇異值的子空間,就是零空間(Null Space)。對(duì)這個(gè)空間的擾動(dòng),對(duì)C的影響最小,因此可以被視為「安全」的更新區(qū)域。
初始化適配器 (Adapter):KORE選擇LoRA作為PEFT方法。LoRA的更新可以表示為
ΔW = BA。為了讓更新「安全」,關(guān)鍵是讓矩陣A位于C的零空間中。
作者首先構(gòu)建一個(gè)投影矩陣P = ???,其中?是由對(duì)應(yīng)最小奇異值的奇異向量組成的矩陣,P可以將任意權(quán)重投影到C的近似零空間中。然后,他們將原始權(quán)重W?投影到這個(gè)零空間上,即W?P。
對(duì)W?P再次進(jìn)行SVD,并用其分解結(jié)果來(lái)初始化LoRA的矩陣A和B:
![]()
最后,為了保證微調(diào)開始時(shí)模型的行為不變,從原始權(quán)重中減去初始的更新量:
![]()
約束微調(diào):在微調(diào)過(guò)程中,只訓(xùn)練矩陣
B,而保持矩陣A凍結(jié)。因?yàn)?code>A被初始化在了零空間中,所以無(wú)論B如何變化,最終的更新ΔW = BA對(duì)舊知識(shí)協(xié)方差C的影響都將是最小的(BAC ≈ 0)。
通過(guò)這種方式,KORE-CONSTRAINT為知識(shí)注入找到了一個(gè)「絕緣」的更新通道,實(shí)現(xiàn)了在注入新知識(shí)的同時(shí),對(duì)舊知識(shí)的強(qiáng)大保護(hù)。
性能亮點(diǎn)
作者在LLaVA-v1.5和Qwen2.5-VL等多個(gè)主流LMM上進(jìn)行了廣泛實(shí)驗(yàn),將KORE與Full-FT、LoRA以及EWC、Replay等多種連續(xù)學(xué)習(xí)方法進(jìn)行了對(duì)比。
主要結(jié)果
![]()
表1的結(jié)果清晰地展示了KORE的全面優(yōu)勢(shì):
知識(shí)適應(yīng)(新知識(shí)學(xué)習(xí)):在EVOKE基準(zhǔn)上,KORE的性能遠(yuǎn)超所有基線。例如,在F1分?jǐn)?shù)上,KORE (41.26) 比表現(xiàn)最好的基線Replay (17.98) 高出了一倍多。這證明了KORE-AUGMENTATION在促進(jìn)新知識(shí)內(nèi)化方面的巨大成功。
知識(shí)保留(舊知識(shí)遺忘):在評(píng)估7大類舊能力的12個(gè)基準(zhǔn)上,KORE的平均分(40.00)同樣名列前茅,顯著優(yōu)于LoRA(33.47)和EWC(33.47)等方法,僅略低于需要存儲(chǔ)大量舊數(shù)據(jù)的Replay方法(43.00)。這證明了KORE-CONSTRAINT在防止災(zāi)難性遺忘方面的有效性。
綜合表現(xiàn):綜合來(lái)看,KORE在「適應(yīng)」和「保留」兩個(gè)維度上取得了最佳的平衡,平均分(37.98)和HARS (82.81)顯著高于所有基線。
![]()
圖8 細(xì)粒度知識(shí)類型性能對(duì)比圖
在更細(xì)粒度的20種不同類型知識(shí)的注入任務(wù)上,KORE同樣展現(xiàn)了全面的領(lǐng)先優(yōu)勢(shì),證明其并非只在特定類型的知識(shí)上有效。
特定知識(shí)保留的靈活性
KORE的一個(gè)強(qiáng)大之處在于其可定制性。如果用戶希望特別保護(hù)某一類舊知識(shí)(例如,數(shù)學(xué)推理能力),他們可以在構(gòu)建協(xié)方差矩陣C時(shí),只使用該類任務(wù)的數(shù)據(jù)。
![]()
實(shí)驗(yàn)表明,當(dāng)施加特定約束時(shí)(如KORE_MME, KORE_OCRVQA),模型在該特定任務(wù)上的保留能力會(huì)得到進(jìn)一步增強(qiáng),同時(shí)對(duì)新知識(shí)的學(xué)習(xí)能力影響甚微。這為根據(jù)不同應(yīng)用場(chǎng)景進(jìn)行定制化的知識(shí)管理提供了可能。
在不同模型尺寸和結(jié)構(gòu)上的泛化性
![]()
無(wú)論是在更大的13B模型上,還是在架構(gòu)不同的Qwen2.5-VL模型上,KORE都穩(wěn)定地展現(xiàn)出超越基線的性能。這證明了KORE方法的普適性,它并非針對(duì)某一特定模型或規(guī)模的「特調(diào)」方案。
消融實(shí)驗(yàn)
![]()
消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了KORE兩個(gè)核心組件的不可或缺性:
去掉KORE-AUGMENTATION:新知識(shí)學(xué)習(xí)能力(K.A)急劇下降。
去掉KORE-CONSTRAINT:舊知識(shí)保留能力(K.R)顯著受損。
這證明了KORE的成功正是源于其「增強(qiáng)」與「約束」的協(xié)同作用。
![]()
圖9 不同rank大小對(duì)性能的影響
在探討模型秩(Rank)大小對(duì)性能的影響時(shí),實(shí)驗(yàn)展現(xiàn)了 KORE 極強(qiáng)的參數(shù)利用率:
性能隨 Rank 穩(wěn)步攀升:如圖7所示,隨著 Rank 值(即可訓(xùn)練參數(shù))的增加,KORE 在各項(xiàng)評(píng)估指標(biāo)上的表現(xiàn)均呈現(xiàn)出清晰的上升趨勢(shì)。
更少參數(shù),更好性能:最令人矚目的是,即便將 Rank 限制在 64,KORE 僅憑不到 Replay(經(jīng)驗(yàn)重放)策略1/3的參數(shù)量,就在綜合能力Avg)和 HARS 核心指標(biāo)上實(shí)現(xiàn)了超越!真正做到了「降本增效」,為大模型低成本持續(xù)學(xué)習(xí)提供了極佳的范式。
總結(jié)
研究團(tuán)隊(duì)針對(duì)大型多模態(tài)模型(LMMs)在動(dòng)態(tài)知識(shí)注入時(shí)面臨的「學(xué)不準(zhǔn)」與「忘得快」雙重困境,提出了一套包含評(píng)測(cè)基準(zhǔn)與底層微調(diào)架構(gòu)的完整閉環(huán)解決方案。
首先,團(tuán)隊(duì)構(gòu)建了首個(gè)動(dòng)態(tài)多模態(tài)演變知識(shí)評(píng)測(cè)基準(zhǔn) MMEVOKE,首次科學(xué)解構(gòu)了新知識(shí)注入引發(fā)模型基礎(chǔ)能力全面降級(jí)的「級(jí)聯(lián)遺忘效應(yīng)」。
在此基礎(chǔ)上,團(tuán)隊(duì)推出雙階段框架 KORE:通過(guò)多模態(tài)「知識(shí)樹」增強(qiáng)提升新知識(shí)內(nèi)化,并結(jié)合「零空間約束」將舊能力鎖定,從幾何層面切斷參數(shù)干擾。KORE 以極低參數(shù)開銷完美平衡了「新知吸收」與「舊能保留」。未來(lái),團(tuán)隊(duì)將持續(xù)攻堅(jiān)災(zāi)難性遺忘的底層機(jī)制,為下一代具備「終身學(xué)習(xí)」能力的大模型奠定技術(shù)底座。
參考資料:
https://arxiv.org/pdf/2505.24449
編輯:LRST
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.