網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

港科大等機(jī)構(gòu)發(fā)現(xiàn)：AI的"眼睛"和"耳朵"其實(shí)可以相互替代的關(guān)鍵

2026-05-14 22:14:13　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由香港科技大學(xué)（廣州）、新加坡國(guó)立大學(xué)、加州大學(xué)圣地亞哥分校、斯坦福大學(xué)、北京大學(xué)和清華大學(xué)聯(lián)合開(kāi)展的研究，以預(yù)印本形式發(fā)布于2026年5月，論文編號(hào)為arXiv:2605.07825，有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

一、為什么AI同時(shí)看圖和讀文字，竟然是個(gè)大難題

訓(xùn)練一個(gè)既能看圖又能讀文字的AI，聽(tīng)起來(lái)理所應(yīng)當(dāng)——畢竟人類自己也是同時(shí)用眼睛和耳朵感知世界的。然而對(duì)于當(dāng)今的大型多模態(tài)語(yǔ)言模型（簡(jiǎn)單說(shuō)就是那種既能理解圖片又能理解文字的AI系統(tǒng)）來(lái)說(shuō)，這件事遠(yuǎn)沒(méi)有表面上那么簡(jiǎn)單。核心難題在于：要訓(xùn)練這類系統(tǒng)，你需要海量"圖文配對(duì)"數(shù)據(jù)，也就是每一張圖片都配有對(duì)應(yīng)的文字描述。這類數(shù)據(jù)的收集和標(biāo)注成本極高，數(shù)量也遠(yuǎn)不夠用。

于是研究者們想到一個(gè)聰明的迂回方案：既然CLIP這類多模態(tài)對(duì)比學(xué)習(xí)模型（它的職責(zé)是把圖片和文字映射到同一個(gè)"語(yǔ)義空間"里，讓含義相近的圖文在這個(gè)空間里靠得很近），已經(jīng)把圖片和文字都放進(jìn)了同一個(gè)空間，那能不能干脆把文字的表示"變裝"成圖片的表示，然后只用文字?jǐn)?shù)據(jù)就訓(xùn)練出能處理視覺(jué)任務(wù)的AI？

這個(gè)思路很吸引人，但它有一個(gè)根本前提沒(méi)有得到足夠重視：圖片的表示和文字的表示在那個(gè)"共享空間"里，真的可以互換嗎？?jī)烧咧g的差距究竟是什么性質(zhì)的？如果連這個(gè)問(wèn)題都沒(méi)搞清楚，所謂的"變裝"就只是在瞎猜。

正是帶著這個(gè)問(wèn)題，這支跨機(jī)構(gòu)的研究團(tuán)隊(duì)開(kāi)始了一場(chǎng)系統(tǒng)性的幾何偵查。他們把圖片表示和文字表示放在同一個(gè)坐標(biāo)系下仔細(xì)審視，試圖弄清楚：這兩個(gè)"居民"在同一片土地上，到底住得有多近，又因?yàn)槭裁丛蚋窀癫蝗耄?/p>

二、共同的"地圖"：兩種模態(tài)其實(shí)說(shuō)著同一種語(yǔ)言

這場(chǎng)偵查的第一步，是檢驗(yàn)圖片表示和文字表示是否具有相似的"基本骨架"。用一個(gè)更直覺(jué)的比喻來(lái)說(shuō)：假設(shè)整個(gè)語(yǔ)義空間是一張城市地圖，圖片的聚居區(qū)和文字的聚居區(qū)是否遵循相似的城市規(guī)劃規(guī)律？

研究團(tuán)隊(duì)分析了一百萬(wàn)對(duì)圖文表示數(shù)據(jù)，分別計(jì)算了圖片和文字各自的"協(xié)方差譜"——這個(gè)概念描述的是，在這片空間里，各個(gè)方向上信息是如何分布的。結(jié)果發(fā)現(xiàn)，圖片和文字的信息分布模式驚人地相似：都是少數(shù)幾個(gè)方向承載了大量信息，而其他方向的信息則迅速衰減，形成一條長(zhǎng)長(zhǎng)的尾巴。這種相似程度用一個(gè)相關(guān)系數(shù)來(lái)衡量，達(dá)到了0.845——接近完美正相關(guān)。

但僅僅是"分布形狀"像，不代表兩者用的是同一批方向。用城市的比喻來(lái)說(shuō)：兩個(gè)城市的道路可能都是棋盤格式，但東西南北的方向可能完全不同。于是研究團(tuán)隊(duì)進(jìn)一步比較了兩種模態(tài)最重要的那批"方向"是否重合，專業(yè)上叫做"主子空間重疊度"。

結(jié)果同樣令人振奮。當(dāng)取最重要的128個(gè)方向時(shí)，圖片和文字的重疊度達(dá)到了0.441，而如果兩者是隨機(jī)無(wú)關(guān)的，期望重疊度只有0.100。換言之，觀測(cè)到的重疊程度是隨機(jī)情況的四倍多，說(shuō)明兩種模態(tài)確實(shí)共享了一批"非隨機(jī)的主要方向"。

由此可以得出第一個(gè)結(jié)論：多模態(tài)對(duì)比預(yù)訓(xùn)練已經(jīng)在圖片和文字之間建立了一套共同的幾何骨架。它們不是兩個(gè)毫不相關(guān)的世界，而更像兩座在同一城市規(guī)劃體系下建造的城區(qū)，基礎(chǔ)設(shè)施是共通的。

三、"搬家"不夠用：模態(tài)差距比想象中復(fù)雜得多

既然兩種模態(tài)有共同的基礎(chǔ)，那它們之間的差距是不是僅僅因?yàn)?地址不同"——也就是說(shuō)，只要把文字的聚居地整體平移到圖片聚居地的位置，問(wèn)題就解決了？

這是一個(gè)直覺(jué)上很合理的假設(shè)，也是很多早期方法的默認(rèn)思路：計(jì)算出圖片中心和文字中心之間的偏移，然后把所有文字表示統(tǒng)一往那個(gè)方向移動(dòng)一段距離。

研究團(tuán)隊(duì)用實(shí)驗(yàn)直接檢驗(yàn)了這個(gè)假設(shè)。他們固定圖片表示不動(dòng)，把所有文字表示整體移到圖片那邊，然后測(cè)量移動(dòng)之后配對(duì)圖文之間的殘余距離。結(jié)果發(fā)現(xiàn)，移動(dòng)之后，配對(duì)差距殘余比率高達(dá)0.89——意思是，原本的差距幾乎沒(méi)有消除，89%的不匹配還留在那里。

更進(jìn)一步，研究團(tuán)隊(duì)檢驗(yàn)了這個(gè)殘余差距的"形狀"。如果殘余差距只是隨機(jī)的各向同性噪聲（用城市比喻來(lái)說(shuō)，就是兩個(gè)聚居區(qū)的居民散落程度相同，只是隨機(jī)地分布在各處），那么殘余的協(xié)方差矩陣應(yīng)該接近"各方向相等"。然而實(shí)際情況完全不是這樣：殘余協(xié)方差的最大特征值比平均特征值大了28.6倍，這個(gè)數(shù)字叫做"各向異性比率"，它清楚地說(shuō)明殘余差距高度集中在少數(shù)幾個(gè)特定方向上，而不是均勻散布的噪聲。

計(jì)算"有效維度"（衡量差距實(shí)際集中在多少個(gè)方向上）時(shí)，結(jié)果顯示有效維度只占總維度的28.4%，進(jìn)一步確認(rèn)了這個(gè)殘余差距其實(shí)是一個(gè)低維結(jié)構(gòu)的集中分布。

這就引出了第二個(gè)關(guān)鍵結(jié)論：模態(tài)差距的本質(zhì)不是"整體偏移"，而是一個(gè)低維的、方向性極強(qiáng)的"各向異性殘余結(jié)構(gòu)"。就好像兩個(gè)城區(qū)不只是東西方向上相差了幾公里，而是在某幾條特定的街道上存在明顯的地形扭曲，解決這種扭曲靠簡(jiǎn)單的整體平移是不夠的。

四、對(duì)齊的正確姿勢(shì)：既要"搬進(jìn)去"，也要"保持自己"

這個(gè)發(fā)現(xiàn)直接導(dǎo)向了一個(gè)方法論上的新原則：有效的模態(tài)對(duì)齊，必須同時(shí)滿足兩個(gè)要求，而不是只追求其中一個(gè)。

研究團(tuán)隊(duì)用五種不同的變換方式做了對(duì)比實(shí)驗(yàn)，像五種不同的"變裝策略"：第一種是什么都不做，直接用原始文字表示；第二種只做整體平移，把文字移到圖片的中心位置；第三種做更完整的統(tǒng)計(jì)矯正，不僅平移，還調(diào)整整體的分布形狀；第四種是"反面教材"，直接隨機(jī)抽取真實(shí)圖片表示替換掉文字表示，強(qiáng)行模仿圖片分布；第五種則是沿著之前發(fā)現(xiàn)的"主要?dú)堄喾较?做有控制的插值修正。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)清晰的權(quán)衡關(guān)系。直接隨機(jī)替換確實(shí)讓分布從外觀上看像圖片了，但它完全破壞了文字本來(lái)的語(yǔ)義結(jié)構(gòu)——兩個(gè)語(yǔ)義相近的文字表示，被替換之后在空間里可能離得很遠(yuǎn)。相反，只做統(tǒng)計(jì)矯正在整體分布上有所改善，但對(duì)語(yǔ)義結(jié)構(gòu)造成了明顯擾動(dòng)。只有沿著"主要?dú)堄喾较?做有界修正的策略，才能在保留原有語(yǔ)義的同時(shí)，讓表示真正進(jìn)入圖片分布的支撐區(qū)域。

這就好像你要把一段錄音"變裝"成視頻：只改變音量高低（整體縮放）或只換一段別人的視頻（隨機(jī)替換），都達(dá)不到目的。真正需要做的是，找到錄音和視頻之間在特定維度上的結(jié)構(gòu)差異，然后有針對(duì)性地、有限度地去調(diào)整那幾個(gè)關(guān)鍵維度，同時(shí)保證音頻本身的內(nèi)容邏輯不被破壞。

由此，研究團(tuán)隊(duì)提出了"各向異性模態(tài)對(duì)齊原則"：有效的模態(tài)對(duì)齊應(yīng)當(dāng)保留源模態(tài)的語(yǔ)義幾何結(jié)構(gòu)，同時(shí)修正阻礙其與目標(biāo)模態(tài)分布兼容的主要各向異性殘余方向。

五、AnisoAlign：一個(gè)三步走的精準(zhǔn)"變裝"方案

基于上述原則，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為AnisoAlign的方法，它的工作邏輯可以用一個(gè)精心規(guī)劃的"裝修改造"來(lái)理解：你的房子（文字表示）和隔壁的參考房子（圖片表示）建在同一個(gè)社區(qū)（共享空間），整體格局相似，但某幾面墻的方向和厚度有系統(tǒng)性的偏差。改造的目標(biāo)是讓你的房子在這幾個(gè)關(guān)鍵維度上跟參考房子一致，但不要把家具都搬走重新布置——因?yàn)槟切┘揖叩臄[放位置承載著你自己的生活邏輯（語(yǔ)義結(jié)構(gòu)）。

第一步是"劃定施工區(qū)域"。研究團(tuán)隊(duì)把整個(gè)共享空間分成兩個(gè)子空間：一個(gè)是"主導(dǎo)子空間"，包含了圖片和文字共同方差最大的那批方向；另一個(gè)是其余的補(bǔ)充空間。主導(dǎo)子空間通過(guò)計(jì)算圖片和文字協(xié)方差矩陣之和的前若干個(gè)特征向量來(lái)確定，所有后續(xù)的改造工作主要在這個(gè)子空間內(nèi)進(jìn)行。

第二步是"極坐標(biāo)解耦"。在主導(dǎo)子空間內(nèi)，研究團(tuán)隊(duì)把每一對(duì)坐標(biāo)軸兩兩組合，形成多個(gè)二維"街區(qū)"，然后在每個(gè)街區(qū)內(nèi)用極坐標(biāo)（半徑+角度）來(lái)描述表示向量的位置。這樣做的好處是把"能量大小"（半徑）和"方向偏好"（角度）分開(kāi)來(lái)處理。為了避免這種分組方式對(duì)特征向量的任意排列順序產(chǎn)生依賴，系統(tǒng)引入了一個(gè)可學(xué)習(xí)的正交混合矩陣，讓分組方式自適應(yīng)地找到最穩(wěn)定的內(nèi)部坐標(biāo)組織。

第三步分為兩個(gè)階段。第一階段只用圖片數(shù)據(jù)來(lái)學(xué)習(xí)圖片在"角度空間"里的分布規(guī)律，具體包括每個(gè)二維街區(qū)的典型方向偏好，以及不同街區(qū)之間的角度關(guān)聯(lián)結(jié)構(gòu)。這個(gè)學(xué)習(xí)的結(jié)果被固化為一個(gè)"目標(biāo)模態(tài)相位先驗(yàn)"，相當(dāng)于一份描述"圖片的空間居住習(xí)慣"的地圖。第二階段才引入文字表示，先做一次基于統(tǒng)計(jì)的全局初始化（包括整體平移、半徑分布對(duì)齊和補(bǔ)充空間的方差匹配），然后用一個(gè)輕量網(wǎng)絡(luò)在這個(gè)初始化基礎(chǔ)上進(jìn)行有界的精細(xì)修正。這個(gè)修正既受到第一階段學(xué)到的圖片角度先驗(yàn)約束（鼓勵(lì)修正后的角度分布與圖片一致），也受到一個(gè)"相對(duì)角度變形約束"（防止街區(qū)之間的角度關(guān)系被過(guò)度改變，從而保護(hù)語(yǔ)義結(jié)構(gòu)）。最終輸出的表示經(jīng)過(guò)歸一化和全局中心校準(zhǔn)，就成為可以替代真實(shí)圖片表示的"文字版視覺(jué)表示"。

整個(gè)方案的設(shè)計(jì)核心是"有界性"——無(wú)論是角度的修正量還是半徑的縮放比例，都被tanh函數(shù)（一種把輸出限制在有限范圍內(nèi)的數(shù)學(xué)工具）嚴(yán)格壓縮，防止修正過(guò)頭而破壞語(yǔ)義。論文的理論部分也嚴(yán)格證明了：只要修正幅度被控制在一定范圍內(nèi)，原始表示的成對(duì)相似度結(jié)構(gòu)就能得到有界的保護(hù)。

六、實(shí)驗(yàn)結(jié)果：幾何上更像圖片，語(yǔ)義上更像文字，實(shí)際任務(wù)上更強(qiáng)

研究團(tuán)隊(duì)從兩個(gè)層面驗(yàn)證了AnisoAlign的效果：幾何診斷層面和多模態(tài)大語(yǔ)言模型訓(xùn)練層面。

在幾何診斷上，他們比較了四種方法：直接使用原始文字表示（Text）、C3對(duì)齊（只做整體平移加高斯噪聲）、ReAlign（全局統(tǒng)計(jì)矯正）和AnisoAlign。衡量維度包括：轉(zhuǎn)換后表示與圖片中心的距離、轉(zhuǎn)換后表示與真實(shí)圖片在局部鄰域的混合程度、殘余差距的各向異性程度，以及對(duì)源模態(tài)語(yǔ)義的保留質(zhì)量。

結(jié)果顯示，AnisoAlign在"進(jìn)入圖片分布支撐區(qū)域"這個(gè)方面達(dá)到了最好的平衡——它的局部滲透分?jǐn)?shù)和局部覆蓋分?jǐn)?shù)都是四種方法中最均衡的，而Text和C3在這兩個(gè)方向上存在明顯的不對(duì)稱（要么滲透了但沒(méi)有覆蓋，要么相反）。在語(yǔ)義保留方面，AnisoAlign在實(shí)例一致性、相對(duì)幾何一致性和鄰域一致性三個(gè)指標(biāo)上都取得了最高分，分別達(dá)到0.941、0.983和0.945，明顯優(yōu)于ReAlign的0.923、0.836和0.945，更大幅領(lǐng)先C3的0.899、0.925和0.840。換句話說(shuō)，AnisoAlign轉(zhuǎn)換后的表示既更像圖片，又更大程度地保留了原始文字的語(yǔ)義結(jié)構(gòu)。

在多模態(tài)大語(yǔ)言模型訓(xùn)練上，研究團(tuán)隊(duì)做了三個(gè)遞進(jìn)式的實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是"全程不用真實(shí)圖片"，完全依靠轉(zhuǎn)換后的文字表示來(lái)訓(xùn)練模型，在11個(gè)涵蓋通用感知、復(fù)雜推理和幻覺(jué)檢測(cè)的基準(zhǔn)上進(jìn)行評(píng)測(cè)。AnisoAlign取得了47.49的平均分，優(yōu)于ReAlign的45.00、C3對(duì)齊的42.44、Unicorn框架的42.57和不做任何對(duì)齊的40.08。這說(shuō)明文字表示的質(zhì)量直接影響了模型的視覺(jué)能力，而更好的幾何對(duì)齊帶來(lái)了更好的下游表現(xiàn)。

第二個(gè)實(shí)驗(yàn)是"先用文字預(yù)訓(xùn)練，再用真實(shí)圖文微調(diào)"，檢驗(yàn)AnisoAlign是否能作為更好的預(yù)訓(xùn)練接口。結(jié)果AnisoAlign在同樣設(shè)定下達(dá)到了51.59的平均分，比ReAlign高1.43分，比C3對(duì)齊高3.53分，比不做對(duì)齊高4.09分。這說(shuō)明即使后續(xù)有真實(shí)圖片數(shù)據(jù)補(bǔ)充，預(yù)訓(xùn)練階段的表示質(zhì)量也有顯著影響，而AnisoAlign在這個(gè)階段提供了更好的視覺(jué)替代界面。

第三個(gè)實(shí)驗(yàn)檢驗(yàn)了一個(gè)更有野心的問(wèn)題：如果一直擴(kuò)大文字?jǐn)?shù)據(jù)的規(guī)模，AnisoAlign能不能讓純文字預(yù)訓(xùn)練接近甚至超越真實(shí)圖片預(yù)訓(xùn)練？實(shí)驗(yàn)對(duì)比了三種方案：用真實(shí)圖片做預(yù)訓(xùn)練（平均52.72分）、用100萬(wàn)文字樣本做AnisoAlign預(yù)訓(xùn)練（51.60分）和用200萬(wàn)文字樣本做AnisoAlign預(yù)訓(xùn)練（52.75分）。結(jié)果顯示，AnisoAlign-2M以微弱優(yōu)勢(shì)超越了真實(shí)圖片預(yù)訓(xùn)練。這意味著，當(dāng)文字?jǐn)?shù)據(jù)規(guī)模足夠大、表示對(duì)齊質(zhì)量足夠高時(shí)，大規(guī)模文字?jǐn)?shù)據(jù)有潛力成為真實(shí)圖片數(shù)據(jù)的經(jīng)濟(jì)替代品。

消融實(shí)驗(yàn)進(jìn)一步拆解了AnisoAlign各個(gè)組件的貢獻(xiàn)。僅使用全局初始化時(shí)平均分為43.59，加入實(shí)例條件精細(xì)修正后提升到44.93，進(jìn)一步加入目標(biāo)模態(tài)相位先驗(yàn)約束提升到46.56，加入相對(duì)角度變形約束達(dá)到46.45，完整的AnisoAlign最終達(dá)到47.49。每個(gè)組件都有獨(dú)立貢獻(xiàn)，且四個(gè)部分相互補(bǔ)充，缺一不可。

七、這項(xiàng)研究背后的數(shù)學(xué)邏輯

為了讓方法有堅(jiān)實(shí)的理論基礎(chǔ)，研究團(tuán)隊(duì)在論文附錄中系統(tǒng)地推導(dǎo)了上述所有直覺(jué)判斷背后的數(shù)學(xué)支撐。

關(guān)于"為什么整體平移不夠用"，他們通過(guò)分解公式嚴(yán)格證明了：配對(duì)差距的期望值可以被正交分解為"均值偏移項(xiàng)"加上"中心化殘余項(xiàng)"，兩者互相獨(dú)立，僅消除均值偏移無(wú)法減少殘余項(xiàng)的能量。

關(guān)于"為什么殘余方向的修正最高效"，他們引用了矩陣論中的Ky Fan最大值原理，證明了在所有秩為K的正交投影矩陣中，投影到殘余協(xié)方差最大K個(gè)特征方向上的修正方案，是減少殘余能量最有效的選擇。當(dāng)殘余各向異性比率Ar越大，這種定向修正相對(duì)于隨機(jī)修正的優(yōu)勢(shì)就越明顯。

關(guān)于"為什么只匹配目標(biāo)分布是不夠的"，他們給出了一個(gè)簡(jiǎn)潔的不可識(shí)別性命題：如果一個(gè)變換T0滿足把源模態(tài)推入目標(biāo)模態(tài)分布，那么任何保持目標(biāo)模態(tài)分布不變的混淆變換S與T0的復(fù)合也滿足同樣的分布條件——這意味著僅憑分布匹配無(wú)法區(qū)分語(yǔ)義保留和語(yǔ)義破壞的變換，必須引入額外的語(yǔ)義結(jié)構(gòu)約束。

關(guān)于"為什么有界修正能保護(hù)語(yǔ)義"，他們通過(guò)Lemma A.4嚴(yán)格推導(dǎo)了：對(duì)于歸一化表示，當(dāng)修正量的歐氏范數(shù)不超過(guò)ε時(shí)，任意兩個(gè)樣本之間的余弦相似度變化上界為4ε/(1-ε)。Stage II中tanh約束直接限制了修正量的范數(shù)上界，從而提供了語(yǔ)義相似度保護(hù)的理論保證。

此外，他們還解釋了為什么在實(shí)際的無(wú)配對(duì)對(duì)齊中，無(wú)法直接用殘余協(xié)方差的特征方向來(lái)定義修正空間——因?yàn)闅堄鄥f(xié)方差的計(jì)算需要配對(duì)數(shù)據(jù)，而配對(duì)數(shù)據(jù)在無(wú)監(jiān)督設(shè)定下不可得。因此，研究團(tuán)隊(duì)轉(zhuǎn)而使用圖片和文字協(xié)方差之和的特征方向作為代理，并從理論上論證了這個(gè)代理的合理性：兩個(gè)模態(tài)共享的主導(dǎo)幾何方向正好也是殘余結(jié)構(gòu)集中的地方，因此聯(lián)合協(xié)方差的主子空間是一個(gè)可計(jì)算的合理替代。

Q&A

Q1：模態(tài)差距（Modality Gap）是什么？為什么AI處理圖文時(shí)會(huì)出現(xiàn)這個(gè)問(wèn)題？

A：模態(tài)差距指的是，即使在同一個(gè)共享語(yǔ)義空間里，圖片的表示向量和文字的表示向量仍然存在系統(tǒng)性的幾何分離。打個(gè)比方，同一個(gè)概念"貓"，用圖片編碼出來(lái)的坐標(biāo)和用文字編碼出來(lái)的坐標(biāo)，并不在同一個(gè)位置，而是存在方向性的偏差。這種偏差在大規(guī)模對(duì)比預(yù)訓(xùn)練之后依然存在。AnisoAlign的研究揭示了這個(gè)偏差不只是整體位移，還有集中在少數(shù)特定方向上的各向異性殘余結(jié)構(gòu)，這正是簡(jiǎn)單的平移方法無(wú)法解決問(wèn)題的根本原因。

Q2：AnisoAlign方法需要配對(duì)的圖文數(shù)據(jù)嗎？普通用戶怎么理解它的工作方式？

A：AnisoAlign在實(shí)際對(duì)齊階段不需要任何圖文配對(duì)數(shù)據(jù)，只需要分別收集圖片表示和文字表示的無(wú)配對(duì)樣本。直觀地說(shuō)，它先從圖片數(shù)據(jù)中學(xué)習(xí)"圖片喜歡住在空間的哪些方向"，形成一份"圖片居住習(xí)慣地圖"，然后把文字表示按照這份地圖做有限度的調(diào)整，讓文字表示在保留自身語(yǔ)義邏輯的前提下，逐漸"搬進(jìn)"圖片喜歡的區(qū)域。整個(gè)過(guò)程無(wú)需告訴系統(tǒng)哪張圖片對(duì)應(yīng)哪段文字。

Q3：AnisoAlign用2M文字樣本的效果能超過(guò)真實(shí)圖片預(yù)訓(xùn)練，這是否意味著以后訓(xùn)練視覺(jué)AI不需要圖片了？

A：目前這個(gè)結(jié)論需要謹(jǐn)慎理解。實(shí)驗(yàn)結(jié)果顯示，在特定的預(yù)訓(xùn)練加微調(diào)流程中，用2M經(jīng)過(guò)AnisoAlign處理的文字樣本確實(shí)略微超越了真實(shí)圖片預(yù)訓(xùn)練的效果。但這建立在兩個(gè)前提上：一是后續(xù)仍然有真實(shí)圖文數(shù)據(jù)用于指令微調(diào)；二是使用的是LLM2CLIP這類已經(jīng)建立了高質(zhì)量共享語(yǔ)義空間的編碼器。當(dāng)預(yù)訓(xùn)練編碼器的共享空間質(zhì)量較差時(shí)，AnisoAlign的優(yōu)勢(shì)會(huì)下降。因此，更準(zhǔn)確的解讀是：文字?jǐn)?shù)據(jù)在條件合適時(shí)可以作為視覺(jué)預(yù)訓(xùn)練數(shù)據(jù)的經(jīng)濟(jì)替代或補(bǔ)充，而非完全消除對(duì)圖片數(shù)據(jù)的依賴。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.