![]()
這項(xiàng)由香港科技大學(xué)(廣州)、新加坡國(guó)立大學(xué)、加州大學(xué)圣地亞哥分校、斯坦福大學(xué)、北京大學(xué)和清華大學(xué)聯(lián)合開(kāi)展的研究,以預(yù)印本形式發(fā)布于2026年5月,論文編號(hào)為arXiv:2605.07825,有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。
一、為什么AI同時(shí)看圖和讀文字,竟然是個(gè)大難題
訓(xùn)練一個(gè)既能看圖又能讀文字的AI,聽(tīng)起來(lái)理所應(yīng)當(dāng)——畢竟人類自己也是同時(shí)用眼睛和耳朵感知世界的。然而對(duì)于當(dāng)今的大型多模態(tài)語(yǔ)言模型(簡(jiǎn)單說(shuō)就是那種既能理解圖片又能理解文字的AI系統(tǒng))來(lái)說(shuō),這件事遠(yuǎn)沒(méi)有表面上那么簡(jiǎn)單。核心難題在于:要訓(xùn)練這類系統(tǒng),你需要海量"圖文配對(duì)"數(shù)據(jù),也就是每一張圖片都配有對(duì)應(yīng)的文字描述。這類數(shù)據(jù)的收集和標(biāo)注成本極高,數(shù)量也遠(yuǎn)不夠用。
于是研究者們想到一個(gè)聰明的迂回方案:既然CLIP這類多模態(tài)對(duì)比學(xué)習(xí)模型(它的職責(zé)是把圖片和文字映射到同一個(gè)"語(yǔ)義空間"里,讓含義相近的圖文在這個(gè)空間里靠得很近),已經(jīng)把圖片和文字都放進(jìn)了同一個(gè)空間,那能不能干脆把文字的表示"變裝"成圖片的表示,然后只用文字?jǐn)?shù)據(jù)就訓(xùn)練出能處理視覺(jué)任務(wù)的AI?
這個(gè)思路很吸引人,但它有一個(gè)根本前提沒(méi)有得到足夠重視:圖片的表示和文字的表示在那個(gè)"共享空間"里,真的可以互換嗎??jī)烧咧g的差距究竟是什么性質(zhì)的?如果連這個(gè)問(wèn)題都沒(méi)搞清楚,所謂的"變裝"就只是在瞎猜。
正是帶著這個(gè)問(wèn)題,這支跨機(jī)構(gòu)的研究團(tuán)隊(duì)開(kāi)始了一場(chǎng)系統(tǒng)性的幾何偵查。他們把圖片表示和文字表示放在同一個(gè)坐標(biāo)系下仔細(xì)審視,試圖弄清楚:這兩個(gè)"居民"在同一片土地上,到底住得有多近,又因?yàn)槭裁丛蚋窀癫蝗耄?/p>
二、共同的"地圖":兩種模態(tài)其實(shí)說(shuō)著同一種語(yǔ)言
這場(chǎng)偵查的第一步,是檢驗(yàn)圖片表示和文字表示是否具有相似的"基本骨架"。用一個(gè)更直覺(jué)的比喻來(lái)說(shuō):假設(shè)整個(gè)語(yǔ)義空間是一張城市地圖,圖片的聚居區(qū)和文字的聚居區(qū)是否遵循相似的城市規(guī)劃規(guī)律?
研究團(tuán)隊(duì)分析了一百萬(wàn)對(duì)圖文表示數(shù)據(jù),分別計(jì)算了圖片和文字各自的"協(xié)方差譜"——這個(gè)概念描述的是,在這片空間里,各個(gè)方向上信息是如何分布的。結(jié)果發(fā)現(xiàn),圖片和文字的信息分布模式驚人地相似:都是少數(shù)幾個(gè)方向承載了大量信息,而其他方向的信息則迅速衰減,形成一條長(zhǎng)長(zhǎng)的尾巴。這種相似程度用一個(gè)相關(guān)系數(shù)來(lái)衡量,達(dá)到了0.845——接近完美正相關(guān)。
但僅僅是"分布形狀"像,不代表兩者用的是同一批方向。用城市的比喻來(lái)說(shuō):兩個(gè)城市的道路可能都是棋盤格式,但東西南北的方向可能完全不同。于是研究團(tuán)隊(duì)進(jìn)一步比較了兩種模態(tài)最重要的那批"方向"是否重合,專業(yè)上叫做"主子空間重疊度"。
結(jié)果同樣令人振奮。當(dāng)取最重要的128個(gè)方向時(shí),圖片和文字的重疊度達(dá)到了0.441,而如果兩者是隨機(jī)無(wú)關(guān)的,期望重疊度只有0.100。換言之,觀測(cè)到的重疊程度是隨機(jī)情況的四倍多,說(shuō)明兩種模態(tài)確實(shí)共享了一批"非隨機(jī)的主要方向"。
由此可以得出第一個(gè)結(jié)論:多模態(tài)對(duì)比預(yù)訓(xùn)練已經(jīng)在圖片和文字之間建立了一套共同的幾何骨架。它們不是兩個(gè)毫不相關(guān)的世界,而更像兩座在同一城市規(guī)劃體系下建造的城區(qū),基礎(chǔ)設(shè)施是共通的。
三、"搬家"不夠用:模態(tài)差距比想象中復(fù)雜得多
既然兩種模態(tài)有共同的基礎(chǔ),那它們之間的差距是不是僅僅因?yàn)?地址不同"——也就是說(shuō),只要把文字的聚居地整體平移到圖片聚居地的位置,問(wèn)題就解決了?
這是一個(gè)直覺(jué)上很合理的假設(shè),也是很多早期方法的默認(rèn)思路:計(jì)算出圖片中心和文字中心之間的偏移,然后把所有文字表示統(tǒng)一往那個(gè)方向移動(dòng)一段距離。
研究團(tuán)隊(duì)用實(shí)驗(yàn)直接檢驗(yàn)了這個(gè)假設(shè)。他們固定圖片表示不動(dòng),把所有文字表示整體移到圖片那邊,然后測(cè)量移動(dòng)之后配對(duì)圖文之間的殘余距離。結(jié)果發(fā)現(xiàn),移動(dòng)之后,配對(duì)差距殘余比率高達(dá)0.89——意思是,原本的差距幾乎沒(méi)有消除,89%的不匹配還留在那里。
更進(jìn)一步,研究團(tuán)隊(duì)檢驗(yàn)了這個(gè)殘余差距的"形狀"。如果殘余差距只是隨機(jī)的各向同性噪聲(用城市比喻來(lái)說(shuō),就是兩個(gè)聚居區(qū)的居民散落程度相同,只是隨機(jī)地分布在各處),那么殘余的協(xié)方差矩陣應(yīng)該接近"各方向相等"。然而實(shí)際情況完全不是這樣:殘余協(xié)方差的最大特征值比平均特征值大了28.6倍,這個(gè)數(shù)字叫做"各向異性比率",它清楚地說(shuō)明殘余差距高度集中在少數(shù)幾個(gè)特定方向上,而不是均勻散布的噪聲。
計(jì)算"有效維度"(衡量差距實(shí)際集中在多少個(gè)方向上)時(shí),結(jié)果顯示有效維度只占總維度的28.4%,進(jìn)一步確認(rèn)了這個(gè)殘余差距其實(shí)是一個(gè)低維結(jié)構(gòu)的集中分布。
這就引出了第二個(gè)關(guān)鍵結(jié)論:模態(tài)差距的本質(zhì)不是"整體偏移",而是一個(gè)低維的、方向性極強(qiáng)的"各向異性殘余結(jié)構(gòu)"。就好像兩個(gè)城區(qū)不只是東西方向上相差了幾公里,而是在某幾條特定的街道上存在明顯的地形扭曲,解決這種扭曲靠簡(jiǎn)單的整體平移是不夠的。
四、對(duì)齊的正確姿勢(shì):既要"搬進(jìn)去",也要"保持自己"
這個(gè)發(fā)現(xiàn)直接導(dǎo)向了一個(gè)方法論上的新原則:有效的模態(tài)對(duì)齊,必須同時(shí)滿足兩個(gè)要求,而不是只追求其中一個(gè)。
研究團(tuán)隊(duì)用五種不同的變換方式做了對(duì)比實(shí)驗(yàn),像五種不同的"變裝策略":第一種是什么都不做,直接用原始文字表示;第二種只做整體平移,把文字移到圖片的中心位置;第三種做更完整的統(tǒng)計(jì)矯正,不僅平移,還調(diào)整整體的分布形狀;第四種是"反面教材",直接隨機(jī)抽取真實(shí)圖片表示替換掉文字表示,強(qiáng)行模仿圖片分布;第五種則是沿著之前發(fā)現(xiàn)的"主要?dú)堄喾较?做有控制的插值修正。
實(shí)驗(yàn)結(jié)果揭示了一個(gè)清晰的權(quán)衡關(guān)系。直接隨機(jī)替換確實(shí)讓分布從外觀上看像圖片了,但它完全破壞了文字本來(lái)的語(yǔ)義結(jié)構(gòu)——兩個(gè)語(yǔ)義相近的文字表示,被替換之后在空間里可能離得很遠(yuǎn)。相反,只做統(tǒng)計(jì)矯正在整體分布上有所改善,但對(duì)語(yǔ)義結(jié)構(gòu)造成了明顯擾動(dòng)。只有沿著"主要?dú)堄喾较?做有界修正的策略,才能在保留原有語(yǔ)義的同時(shí),讓表示真正進(jìn)入圖片分布的支撐區(qū)域。
這就好像你要把一段錄音"變裝"成視頻:只改變音量高低(整體縮放)或只換一段別人的視頻(隨機(jī)替換),都達(dá)不到目的。真正需要做的是,找到錄音和視頻之間在特定維度上的結(jié)構(gòu)差異,然后有針對(duì)性地、有限度地去調(diào)整那幾個(gè)關(guān)鍵維度,同時(shí)保證音頻本身的內(nèi)容邏輯不被破壞。
由此,研究團(tuán)隊(duì)提出了"各向異性模態(tài)對(duì)齊原則":有效的模態(tài)對(duì)齊應(yīng)當(dāng)保留源模態(tài)的語(yǔ)義幾何結(jié)構(gòu),同時(shí)修正阻礙其與目標(biāo)模態(tài)分布兼容的主要各向異性殘余方向。
五、AnisoAlign:一個(gè)三步走的精準(zhǔn)"變裝"方案
基于上述原則,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為AnisoAlign的方法,它的工作邏輯可以用一個(gè)精心規(guī)劃的"裝修改造"來(lái)理解:你的房子(文字表示)和隔壁的參考房子(圖片表示)建在同一個(gè)社區(qū)(共享空間),整體格局相似,但某幾面墻的方向和厚度有系統(tǒng)性的偏差。改造的目標(biāo)是讓你的房子在這幾個(gè)關(guān)鍵維度上跟參考房子一致,但不要把家具都搬走重新布置——因?yàn)槟切┘揖叩臄[放位置承載著你自己的生活邏輯(語(yǔ)義結(jié)構(gòu))。
第一步是"劃定施工區(qū)域"。研究團(tuán)隊(duì)把整個(gè)共享空間分成兩個(gè)子空間:一個(gè)是"主導(dǎo)子空間",包含了圖片和文字共同方差最大的那批方向;另一個(gè)是其余的補(bǔ)充空間。主導(dǎo)子空間通過(guò)計(jì)算圖片和文字協(xié)方差矩陣之和的前若干個(gè)特征向量來(lái)確定,所有后續(xù)的改造工作主要在這個(gè)子空間內(nèi)進(jìn)行。
第二步是"極坐標(biāo)解耦"。在主導(dǎo)子空間內(nèi),研究團(tuán)隊(duì)把每一對(duì)坐標(biāo)軸兩兩組合,形成多個(gè)二維"街區(qū)",然后在每個(gè)街區(qū)內(nèi)用極坐標(biāo)(半徑+角度)來(lái)描述表示向量的位置。這樣做的好處是把"能量大小"(半徑)和"方向偏好"(角度)分開(kāi)來(lái)處理。為了避免這種分組方式對(duì)特征向量的任意排列順序產(chǎn)生依賴,系統(tǒng)引入了一個(gè)可學(xué)習(xí)的正交混合矩陣,讓分組方式自適應(yīng)地找到最穩(wěn)定的內(nèi)部坐標(biāo)組織。
第三步分為兩個(gè)階段。第一階段只用圖片數(shù)據(jù)來(lái)學(xué)習(xí)圖片在"角度空間"里的分布規(guī)律,具體包括每個(gè)二維街區(qū)的典型方向偏好,以及不同街區(qū)之間的角度關(guān)聯(lián)結(jié)構(gòu)。這個(gè)學(xué)習(xí)的結(jié)果被固化為一個(gè)"目標(biāo)模態(tài)相位先驗(yàn)",相當(dāng)于一份描述"圖片的空間居住習(xí)慣"的地圖。第二階段才引入文字表示,先做一次基于統(tǒng)計(jì)的全局初始化(包括整體平移、半徑分布對(duì)齊和補(bǔ)充空間的方差匹配),然后用一個(gè)輕量網(wǎng)絡(luò)在這個(gè)初始化基礎(chǔ)上進(jìn)行有界的精細(xì)修正。這個(gè)修正既受到第一階段學(xué)到的圖片角度先驗(yàn)約束(鼓勵(lì)修正后的角度分布與圖片一致),也受到一個(gè)"相對(duì)角度變形約束"(防止街區(qū)之間的角度關(guān)系被過(guò)度改變,從而保護(hù)語(yǔ)義結(jié)構(gòu))。最終輸出的表示經(jīng)過(guò)歸一化和全局中心校準(zhǔn),就成為可以替代真實(shí)圖片表示的"文字版視覺(jué)表示"。
整個(gè)方案的設(shè)計(jì)核心是"有界性"——無(wú)論是角度的修正量還是半徑的縮放比例,都被tanh函數(shù)(一種把輸出限制在有限范圍內(nèi)的數(shù)學(xué)工具)嚴(yán)格壓縮,防止修正過(guò)頭而破壞語(yǔ)義。論文的理論部分也嚴(yán)格證明了:只要修正幅度被控制在一定范圍內(nèi),原始表示的成對(duì)相似度結(jié)構(gòu)就能得到有界的保護(hù)。
六、實(shí)驗(yàn)結(jié)果:幾何上更像圖片,語(yǔ)義上更像文字,實(shí)際任務(wù)上更強(qiáng)
研究團(tuán)隊(duì)從兩個(gè)層面驗(yàn)證了AnisoAlign的效果:幾何診斷層面和多模態(tài)大語(yǔ)言模型訓(xùn)練層面。
在幾何診斷上,他們比較了四種方法:直接使用原始文字表示(Text)、C3對(duì)齊(只做整體平移加高斯噪聲)、ReAlign(全局統(tǒng)計(jì)矯正)和AnisoAlign。衡量維度包括:轉(zhuǎn)換后表示與圖片中心的距離、轉(zhuǎn)換后表示與真實(shí)圖片在局部鄰域的混合程度、殘余差距的各向異性程度,以及對(duì)源模態(tài)語(yǔ)義的保留質(zhì)量。
結(jié)果顯示,AnisoAlign在"進(jìn)入圖片分布支撐區(qū)域"這個(gè)方面達(dá)到了最好的平衡——它的局部滲透分?jǐn)?shù)和局部覆蓋分?jǐn)?shù)都是四種方法中最均衡的,而Text和C3在這兩個(gè)方向上存在明顯的不對(duì)稱(要么滲透了但沒(méi)有覆蓋,要么相反)。在語(yǔ)義保留方面,AnisoAlign在實(shí)例一致性、相對(duì)幾何一致性和鄰域一致性三個(gè)指標(biāo)上都取得了最高分,分別達(dá)到0.941、0.983和0.945,明顯優(yōu)于ReAlign的0.923、0.836和0.945,更大幅領(lǐng)先C3的0.899、0.925和0.840。換句話說(shuō),AnisoAlign轉(zhuǎn)換后的表示既更像圖片,又更大程度地保留了原始文字的語(yǔ)義結(jié)構(gòu)。
在多模態(tài)大語(yǔ)言模型訓(xùn)練上,研究團(tuán)隊(duì)做了三個(gè)遞進(jìn)式的實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是"全程不用真實(shí)圖片",完全依靠轉(zhuǎn)換后的文字表示來(lái)訓(xùn)練模型,在11個(gè)涵蓋通用感知、復(fù)雜推理和幻覺(jué)檢測(cè)的基準(zhǔn)上進(jìn)行評(píng)測(cè)。AnisoAlign取得了47.49的平均分,優(yōu)于ReAlign的45.00、C3對(duì)齊的42.44、Unicorn框架的42.57和不做任何對(duì)齊的40.08。這說(shuō)明文字表示的質(zhì)量直接影響了模型的視覺(jué)能力,而更好的幾何對(duì)齊帶來(lái)了更好的下游表現(xiàn)。
第二個(gè)實(shí)驗(yàn)是"先用文字預(yù)訓(xùn)練,再用真實(shí)圖文微調(diào)",檢驗(yàn)AnisoAlign是否能作為更好的預(yù)訓(xùn)練接口。結(jié)果AnisoAlign在同樣設(shè)定下達(dá)到了51.59的平均分,比ReAlign高1.43分,比C3對(duì)齊高3.53分,比不做對(duì)齊高4.09分。這說(shuō)明即使后續(xù)有真實(shí)圖片數(shù)據(jù)補(bǔ)充,預(yù)訓(xùn)練階段的表示質(zhì)量也有顯著影響,而AnisoAlign在這個(gè)階段提供了更好的視覺(jué)替代界面。
第三個(gè)實(shí)驗(yàn)檢驗(yàn)了一個(gè)更有野心的問(wèn)題:如果一直擴(kuò)大文字?jǐn)?shù)據(jù)的規(guī)模,AnisoAlign能不能讓純文字預(yù)訓(xùn)練接近甚至超越真實(shí)圖片預(yù)訓(xùn)練?實(shí)驗(yàn)對(duì)比了三種方案:用真實(shí)圖片做預(yù)訓(xùn)練(平均52.72分)、用100萬(wàn)文字樣本做AnisoAlign預(yù)訓(xùn)練(51.60分)和用200萬(wàn)文字樣本做AnisoAlign預(yù)訓(xùn)練(52.75分)。結(jié)果顯示,AnisoAlign-2M以微弱優(yōu)勢(shì)超越了真實(shí)圖片預(yù)訓(xùn)練。這意味著,當(dāng)文字?jǐn)?shù)據(jù)規(guī)模足夠大、表示對(duì)齊質(zhì)量足夠高時(shí),大規(guī)模文字?jǐn)?shù)據(jù)有潛力成為真實(shí)圖片數(shù)據(jù)的經(jīng)濟(jì)替代品。
消融實(shí)驗(yàn)進(jìn)一步拆解了AnisoAlign各個(gè)組件的貢獻(xiàn)。僅使用全局初始化時(shí)平均分為43.59,加入實(shí)例條件精細(xì)修正后提升到44.93,進(jìn)一步加入目標(biāo)模態(tài)相位先驗(yàn)約束提升到46.56,加入相對(duì)角度變形約束達(dá)到46.45,完整的AnisoAlign最終達(dá)到47.49。每個(gè)組件都有獨(dú)立貢獻(xiàn),且四個(gè)部分相互補(bǔ)充,缺一不可。
七、這項(xiàng)研究背后的數(shù)學(xué)邏輯
為了讓方法有堅(jiān)實(shí)的理論基礎(chǔ),研究團(tuán)隊(duì)在論文附錄中系統(tǒng)地推導(dǎo)了上述所有直覺(jué)判斷背后的數(shù)學(xué)支撐。
關(guān)于"為什么整體平移不夠用",他們通過(guò)分解公式嚴(yán)格證明了:配對(duì)差距的期望值可以被正交分解為"均值偏移項(xiàng)"加上"中心化殘余項(xiàng)",兩者互相獨(dú)立,僅消除均值偏移無(wú)法減少殘余項(xiàng)的能量。
關(guān)于"為什么殘余方向的修正最高效",他們引用了矩陣論中的Ky Fan最大值原理,證明了在所有秩為K的正交投影矩陣中,投影到殘余協(xié)方差最大K個(gè)特征方向上的修正方案,是減少殘余能量最有效的選擇。當(dāng)殘余各向異性比率Ar越大,這種定向修正相對(duì)于隨機(jī)修正的優(yōu)勢(shì)就越明顯。
關(guān)于"為什么只匹配目標(biāo)分布是不夠的",他們給出了一個(gè)簡(jiǎn)潔的不可識(shí)別性命題:如果一個(gè)變換T0滿足把源模態(tài)推入目標(biāo)模態(tài)分布,那么任何保持目標(biāo)模態(tài)分布不變的混淆變換S與T0的復(fù)合也滿足同樣的分布條件——這意味著僅憑分布匹配無(wú)法區(qū)分語(yǔ)義保留和語(yǔ)義破壞的變換,必須引入額外的語(yǔ)義結(jié)構(gòu)約束。
關(guān)于"為什么有界修正能保護(hù)語(yǔ)義",他們通過(guò)Lemma A.4嚴(yán)格推導(dǎo)了:對(duì)于歸一化表示,當(dāng)修正量的歐氏范數(shù)不超過(guò)ε時(shí),任意兩個(gè)樣本之間的余弦相似度變化上界為4ε/(1-ε)。Stage II中tanh約束直接限制了修正量的范數(shù)上界,從而提供了語(yǔ)義相似度保護(hù)的理論保證。
此外,他們還解釋了為什么在實(shí)際的無(wú)配對(duì)對(duì)齊中,無(wú)法直接用殘余協(xié)方差的特征方向來(lái)定義修正空間——因?yàn)闅堄鄥f(xié)方差的計(jì)算需要配對(duì)數(shù)據(jù),而配對(duì)數(shù)據(jù)在無(wú)監(jiān)督設(shè)定下不可得。因此,研究團(tuán)隊(duì)轉(zhuǎn)而使用圖片和文字協(xié)方差之和的特征方向作為代理,并從理論上論證了這個(gè)代理的合理性:兩個(gè)模態(tài)共享的主導(dǎo)幾何方向正好也是殘余結(jié)構(gòu)集中的地方,因此聯(lián)合協(xié)方差的主子空間是一個(gè)可計(jì)算的合理替代。
Q&A
Q1:模態(tài)差距(Modality Gap)是什么?為什么AI處理圖文時(shí)會(huì)出現(xiàn)這個(gè)問(wèn)題?
A:模態(tài)差距指的是,即使在同一個(gè)共享語(yǔ)義空間里,圖片的表示向量和文字的表示向量仍然存在系統(tǒng)性的幾何分離。打個(gè)比方,同一個(gè)概念"貓",用圖片編碼出來(lái)的坐標(biāo)和用文字編碼出來(lái)的坐標(biāo),并不在同一個(gè)位置,而是存在方向性的偏差。這種偏差在大規(guī)模對(duì)比預(yù)訓(xùn)練之后依然存在。AnisoAlign的研究揭示了這個(gè)偏差不只是整體位移,還有集中在少數(shù)特定方向上的各向異性殘余結(jié)構(gòu),這正是簡(jiǎn)單的平移方法無(wú)法解決問(wèn)題的根本原因。
Q2:AnisoAlign方法需要配對(duì)的圖文數(shù)據(jù)嗎?普通用戶怎么理解它的工作方式?
A:AnisoAlign在實(shí)際對(duì)齊階段不需要任何圖文配對(duì)數(shù)據(jù),只需要分別收集圖片表示和文字表示的無(wú)配對(duì)樣本。直觀地說(shuō),它先從圖片數(shù)據(jù)中學(xué)習(xí)"圖片喜歡住在空間的哪些方向",形成一份"圖片居住習(xí)慣地圖",然后把文字表示按照這份地圖做有限度的調(diào)整,讓文字表示在保留自身語(yǔ)義邏輯的前提下,逐漸"搬進(jìn)"圖片喜歡的區(qū)域。整個(gè)過(guò)程無(wú)需告訴系統(tǒng)哪張圖片對(duì)應(yīng)哪段文字。
Q3:AnisoAlign用2M文字樣本的效果能超過(guò)真實(shí)圖片預(yù)訓(xùn)練,這是否意味著以后訓(xùn)練視覺(jué)AI不需要圖片了?
A:目前這個(gè)結(jié)論需要謹(jǐn)慎理解。實(shí)驗(yàn)結(jié)果顯示,在特定的預(yù)訓(xùn)練加微調(diào)流程中,用2M經(jīng)過(guò)AnisoAlign處理的文字樣本確實(shí)略微超越了真實(shí)圖片預(yù)訓(xùn)練的效果。但這建立在兩個(gè)前提上:一是后續(xù)仍然有真實(shí)圖文數(shù)據(jù)用于指令微調(diào);二是使用的是LLM2CLIP這類已經(jīng)建立了高質(zhì)量共享語(yǔ)義空間的編碼器。當(dāng)預(yù)訓(xùn)練編碼器的共享空間質(zhì)量較差時(shí),AnisoAlign的優(yōu)勢(shì)會(huì)下降。因此,更準(zhǔn)確的解讀是:文字?jǐn)?shù)據(jù)在條件合適時(shí)可以作為視覺(jué)預(yù)訓(xùn)練數(shù)據(jù)的經(jīng)濟(jì)替代或補(bǔ)充,而非完全消除對(duì)圖片數(shù)據(jù)的依賴。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.