<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      港科大等機(jī)構(gòu)發(fā)現(xiàn):AI的"眼睛"和"耳朵"其實(shí)可以相互替代的關(guān)鍵

      0
      分享至


      這項(xiàng)由香港科技大學(xué)(廣州)、新加坡國(guó)立大學(xué)、加州大學(xué)圣地亞哥分校、斯坦福大學(xué)、北京大學(xué)和清華大學(xué)聯(lián)合開(kāi)展的研究,以預(yù)印本形式發(fā)布于2026年5月,論文編號(hào)為arXiv:2605.07825,有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

      一、為什么AI同時(shí)看圖和讀文字,竟然是個(gè)大難題

      訓(xùn)練一個(gè)既能看圖又能讀文字的AI,聽(tīng)起來(lái)理所應(yīng)當(dāng)——畢竟人類自己也是同時(shí)用眼睛和耳朵感知世界的。然而對(duì)于當(dāng)今的大型多模態(tài)語(yǔ)言模型(簡(jiǎn)單說(shuō)就是那種既能理解圖片又能理解文字的AI系統(tǒng))來(lái)說(shuō),這件事遠(yuǎn)沒(méi)有表面上那么簡(jiǎn)單。核心難題在于:要訓(xùn)練這類系統(tǒng),你需要海量"圖文配對(duì)"數(shù)據(jù),也就是每一張圖片都配有對(duì)應(yīng)的文字描述。這類數(shù)據(jù)的收集和標(biāo)注成本極高,數(shù)量也遠(yuǎn)不夠用。

      于是研究者們想到一個(gè)聰明的迂回方案:既然CLIP這類多模態(tài)對(duì)比學(xué)習(xí)模型(它的職責(zé)是把圖片和文字映射到同一個(gè)"語(yǔ)義空間"里,讓含義相近的圖文在這個(gè)空間里靠得很近),已經(jīng)把圖片和文字都放進(jìn)了同一個(gè)空間,那能不能干脆把文字的表示"變裝"成圖片的表示,然后只用文字?jǐn)?shù)據(jù)就訓(xùn)練出能處理視覺(jué)任務(wù)的AI?

      這個(gè)思路很吸引人,但它有一個(gè)根本前提沒(méi)有得到足夠重視:圖片的表示和文字的表示在那個(gè)"共享空間"里,真的可以互換嗎??jī)烧咧g的差距究竟是什么性質(zhì)的?如果連這個(gè)問(wèn)題都沒(méi)搞清楚,所謂的"變裝"就只是在瞎猜。

      正是帶著這個(gè)問(wèn)題,這支跨機(jī)構(gòu)的研究團(tuán)隊(duì)開(kāi)始了一場(chǎng)系統(tǒng)性的幾何偵查。他們把圖片表示和文字表示放在同一個(gè)坐標(biāo)系下仔細(xì)審視,試圖弄清楚:這兩個(gè)"居民"在同一片土地上,到底住得有多近,又因?yàn)槭裁丛蚋窀癫蝗耄?/p>

      二、共同的"地圖":兩種模態(tài)其實(shí)說(shuō)著同一種語(yǔ)言

      這場(chǎng)偵查的第一步,是檢驗(yàn)圖片表示和文字表示是否具有相似的"基本骨架"。用一個(gè)更直覺(jué)的比喻來(lái)說(shuō):假設(shè)整個(gè)語(yǔ)義空間是一張城市地圖,圖片的聚居區(qū)和文字的聚居區(qū)是否遵循相似的城市規(guī)劃規(guī)律?

      研究團(tuán)隊(duì)分析了一百萬(wàn)對(duì)圖文表示數(shù)據(jù),分別計(jì)算了圖片和文字各自的"協(xié)方差譜"——這個(gè)概念描述的是,在這片空間里,各個(gè)方向上信息是如何分布的。結(jié)果發(fā)現(xiàn),圖片和文字的信息分布模式驚人地相似:都是少數(shù)幾個(gè)方向承載了大量信息,而其他方向的信息則迅速衰減,形成一條長(zhǎng)長(zhǎng)的尾巴。這種相似程度用一個(gè)相關(guān)系數(shù)來(lái)衡量,達(dá)到了0.845——接近完美正相關(guān)。

      但僅僅是"分布形狀"像,不代表兩者用的是同一批方向。用城市的比喻來(lái)說(shuō):兩個(gè)城市的道路可能都是棋盤格式,但東西南北的方向可能完全不同。于是研究團(tuán)隊(duì)進(jìn)一步比較了兩種模態(tài)最重要的那批"方向"是否重合,專業(yè)上叫做"主子空間重疊度"。

      結(jié)果同樣令人振奮。當(dāng)取最重要的128個(gè)方向時(shí),圖片和文字的重疊度達(dá)到了0.441,而如果兩者是隨機(jī)無(wú)關(guān)的,期望重疊度只有0.100。換言之,觀測(cè)到的重疊程度是隨機(jī)情況的四倍多,說(shuō)明兩種模態(tài)確實(shí)共享了一批"非隨機(jī)的主要方向"。

      由此可以得出第一個(gè)結(jié)論:多模態(tài)對(duì)比預(yù)訓(xùn)練已經(jīng)在圖片和文字之間建立了一套共同的幾何骨架。它們不是兩個(gè)毫不相關(guān)的世界,而更像兩座在同一城市規(guī)劃體系下建造的城區(qū),基礎(chǔ)設(shè)施是共通的。

      三、"搬家"不夠用:模態(tài)差距比想象中復(fù)雜得多

      既然兩種模態(tài)有共同的基礎(chǔ),那它們之間的差距是不是僅僅因?yàn)?地址不同"——也就是說(shuō),只要把文字的聚居地整體平移到圖片聚居地的位置,問(wèn)題就解決了?

      這是一個(gè)直覺(jué)上很合理的假設(shè),也是很多早期方法的默認(rèn)思路:計(jì)算出圖片中心和文字中心之間的偏移,然后把所有文字表示統(tǒng)一往那個(gè)方向移動(dòng)一段距離。

      研究團(tuán)隊(duì)用實(shí)驗(yàn)直接檢驗(yàn)了這個(gè)假設(shè)。他們固定圖片表示不動(dòng),把所有文字表示整體移到圖片那邊,然后測(cè)量移動(dòng)之后配對(duì)圖文之間的殘余距離。結(jié)果發(fā)現(xiàn),移動(dòng)之后,配對(duì)差距殘余比率高達(dá)0.89——意思是,原本的差距幾乎沒(méi)有消除,89%的不匹配還留在那里。

      更進(jìn)一步,研究團(tuán)隊(duì)檢驗(yàn)了這個(gè)殘余差距的"形狀"。如果殘余差距只是隨機(jī)的各向同性噪聲(用城市比喻來(lái)說(shuō),就是兩個(gè)聚居區(qū)的居民散落程度相同,只是隨機(jī)地分布在各處),那么殘余的協(xié)方差矩陣應(yīng)該接近"各方向相等"。然而實(shí)際情況完全不是這樣:殘余協(xié)方差的最大特征值比平均特征值大了28.6倍,這個(gè)數(shù)字叫做"各向異性比率",它清楚地說(shuō)明殘余差距高度集中在少數(shù)幾個(gè)特定方向上,而不是均勻散布的噪聲。

      計(jì)算"有效維度"(衡量差距實(shí)際集中在多少個(gè)方向上)時(shí),結(jié)果顯示有效維度只占總維度的28.4%,進(jìn)一步確認(rèn)了這個(gè)殘余差距其實(shí)是一個(gè)低維結(jié)構(gòu)的集中分布。

      這就引出了第二個(gè)關(guān)鍵結(jié)論:模態(tài)差距的本質(zhì)不是"整體偏移",而是一個(gè)低維的、方向性極強(qiáng)的"各向異性殘余結(jié)構(gòu)"。就好像兩個(gè)城區(qū)不只是東西方向上相差了幾公里,而是在某幾條特定的街道上存在明顯的地形扭曲,解決這種扭曲靠簡(jiǎn)單的整體平移是不夠的。

      四、對(duì)齊的正確姿勢(shì):既要"搬進(jìn)去",也要"保持自己"

      這個(gè)發(fā)現(xiàn)直接導(dǎo)向了一個(gè)方法論上的新原則:有效的模態(tài)對(duì)齊,必須同時(shí)滿足兩個(gè)要求,而不是只追求其中一個(gè)。

      研究團(tuán)隊(duì)用五種不同的變換方式做了對(duì)比實(shí)驗(yàn),像五種不同的"變裝策略":第一種是什么都不做,直接用原始文字表示;第二種只做整體平移,把文字移到圖片的中心位置;第三種做更完整的統(tǒng)計(jì)矯正,不僅平移,還調(diào)整整體的分布形狀;第四種是"反面教材",直接隨機(jī)抽取真實(shí)圖片表示替換掉文字表示,強(qiáng)行模仿圖片分布;第五種則是沿著之前發(fā)現(xiàn)的"主要?dú)堄喾较?做有控制的插值修正。

      實(shí)驗(yàn)結(jié)果揭示了一個(gè)清晰的權(quán)衡關(guān)系。直接隨機(jī)替換確實(shí)讓分布從外觀上看像圖片了,但它完全破壞了文字本來(lái)的語(yǔ)義結(jié)構(gòu)——兩個(gè)語(yǔ)義相近的文字表示,被替換之后在空間里可能離得很遠(yuǎn)。相反,只做統(tǒng)計(jì)矯正在整體分布上有所改善,但對(duì)語(yǔ)義結(jié)構(gòu)造成了明顯擾動(dòng)。只有沿著"主要?dú)堄喾较?做有界修正的策略,才能在保留原有語(yǔ)義的同時(shí),讓表示真正進(jìn)入圖片分布的支撐區(qū)域。

      這就好像你要把一段錄音"變裝"成視頻:只改變音量高低(整體縮放)或只換一段別人的視頻(隨機(jī)替換),都達(dá)不到目的。真正需要做的是,找到錄音和視頻之間在特定維度上的結(jié)構(gòu)差異,然后有針對(duì)性地、有限度地去調(diào)整那幾個(gè)關(guān)鍵維度,同時(shí)保證音頻本身的內(nèi)容邏輯不被破壞。

      由此,研究團(tuán)隊(duì)提出了"各向異性模態(tài)對(duì)齊原則":有效的模態(tài)對(duì)齊應(yīng)當(dāng)保留源模態(tài)的語(yǔ)義幾何結(jié)構(gòu),同時(shí)修正阻礙其與目標(biāo)模態(tài)分布兼容的主要各向異性殘余方向。

      五、AnisoAlign:一個(gè)三步走的精準(zhǔn)"變裝"方案

      基于上述原則,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為AnisoAlign的方法,它的工作邏輯可以用一個(gè)精心規(guī)劃的"裝修改造"來(lái)理解:你的房子(文字表示)和隔壁的參考房子(圖片表示)建在同一個(gè)社區(qū)(共享空間),整體格局相似,但某幾面墻的方向和厚度有系統(tǒng)性的偏差。改造的目標(biāo)是讓你的房子在這幾個(gè)關(guān)鍵維度上跟參考房子一致,但不要把家具都搬走重新布置——因?yàn)槟切┘揖叩臄[放位置承載著你自己的生活邏輯(語(yǔ)義結(jié)構(gòu))。

      第一步是"劃定施工區(qū)域"。研究團(tuán)隊(duì)把整個(gè)共享空間分成兩個(gè)子空間:一個(gè)是"主導(dǎo)子空間",包含了圖片和文字共同方差最大的那批方向;另一個(gè)是其余的補(bǔ)充空間。主導(dǎo)子空間通過(guò)計(jì)算圖片和文字協(xié)方差矩陣之和的前若干個(gè)特征向量來(lái)確定,所有后續(xù)的改造工作主要在這個(gè)子空間內(nèi)進(jìn)行。

      第二步是"極坐標(biāo)解耦"。在主導(dǎo)子空間內(nèi),研究團(tuán)隊(duì)把每一對(duì)坐標(biāo)軸兩兩組合,形成多個(gè)二維"街區(qū)",然后在每個(gè)街區(qū)內(nèi)用極坐標(biāo)(半徑+角度)來(lái)描述表示向量的位置。這樣做的好處是把"能量大小"(半徑)和"方向偏好"(角度)分開(kāi)來(lái)處理。為了避免這種分組方式對(duì)特征向量的任意排列順序產(chǎn)生依賴,系統(tǒng)引入了一個(gè)可學(xué)習(xí)的正交混合矩陣,讓分組方式自適應(yīng)地找到最穩(wěn)定的內(nèi)部坐標(biāo)組織。

      第三步分為兩個(gè)階段。第一階段只用圖片數(shù)據(jù)來(lái)學(xué)習(xí)圖片在"角度空間"里的分布規(guī)律,具體包括每個(gè)二維街區(qū)的典型方向偏好,以及不同街區(qū)之間的角度關(guān)聯(lián)結(jié)構(gòu)。這個(gè)學(xué)習(xí)的結(jié)果被固化為一個(gè)"目標(biāo)模態(tài)相位先驗(yàn)",相當(dāng)于一份描述"圖片的空間居住習(xí)慣"的地圖。第二階段才引入文字表示,先做一次基于統(tǒng)計(jì)的全局初始化(包括整體平移、半徑分布對(duì)齊和補(bǔ)充空間的方差匹配),然后用一個(gè)輕量網(wǎng)絡(luò)在這個(gè)初始化基礎(chǔ)上進(jìn)行有界的精細(xì)修正。這個(gè)修正既受到第一階段學(xué)到的圖片角度先驗(yàn)約束(鼓勵(lì)修正后的角度分布與圖片一致),也受到一個(gè)"相對(duì)角度變形約束"(防止街區(qū)之間的角度關(guān)系被過(guò)度改變,從而保護(hù)語(yǔ)義結(jié)構(gòu))。最終輸出的表示經(jīng)過(guò)歸一化和全局中心校準(zhǔn),就成為可以替代真實(shí)圖片表示的"文字版視覺(jué)表示"。

      整個(gè)方案的設(shè)計(jì)核心是"有界性"——無(wú)論是角度的修正量還是半徑的縮放比例,都被tanh函數(shù)(一種把輸出限制在有限范圍內(nèi)的數(shù)學(xué)工具)嚴(yán)格壓縮,防止修正過(guò)頭而破壞語(yǔ)義。論文的理論部分也嚴(yán)格證明了:只要修正幅度被控制在一定范圍內(nèi),原始表示的成對(duì)相似度結(jié)構(gòu)就能得到有界的保護(hù)。

      六、實(shí)驗(yàn)結(jié)果:幾何上更像圖片,語(yǔ)義上更像文字,實(shí)際任務(wù)上更強(qiáng)

      研究團(tuán)隊(duì)從兩個(gè)層面驗(yàn)證了AnisoAlign的效果:幾何診斷層面和多模態(tài)大語(yǔ)言模型訓(xùn)練層面。

      在幾何診斷上,他們比較了四種方法:直接使用原始文字表示(Text)、C3對(duì)齊(只做整體平移加高斯噪聲)、ReAlign(全局統(tǒng)計(jì)矯正)和AnisoAlign。衡量維度包括:轉(zhuǎn)換后表示與圖片中心的距離、轉(zhuǎn)換后表示與真實(shí)圖片在局部鄰域的混合程度、殘余差距的各向異性程度,以及對(duì)源模態(tài)語(yǔ)義的保留質(zhì)量。

      結(jié)果顯示,AnisoAlign在"進(jìn)入圖片分布支撐區(qū)域"這個(gè)方面達(dá)到了最好的平衡——它的局部滲透分?jǐn)?shù)和局部覆蓋分?jǐn)?shù)都是四種方法中最均衡的,而Text和C3在這兩個(gè)方向上存在明顯的不對(duì)稱(要么滲透了但沒(méi)有覆蓋,要么相反)。在語(yǔ)義保留方面,AnisoAlign在實(shí)例一致性、相對(duì)幾何一致性和鄰域一致性三個(gè)指標(biāo)上都取得了最高分,分別達(dá)到0.941、0.983和0.945,明顯優(yōu)于ReAlign的0.923、0.836和0.945,更大幅領(lǐng)先C3的0.899、0.925和0.840。換句話說(shuō),AnisoAlign轉(zhuǎn)換后的表示既更像圖片,又更大程度地保留了原始文字的語(yǔ)義結(jié)構(gòu)。

      在多模態(tài)大語(yǔ)言模型訓(xùn)練上,研究團(tuán)隊(duì)做了三個(gè)遞進(jìn)式的實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是"全程不用真實(shí)圖片",完全依靠轉(zhuǎn)換后的文字表示來(lái)訓(xùn)練模型,在11個(gè)涵蓋通用感知、復(fù)雜推理和幻覺(jué)檢測(cè)的基準(zhǔn)上進(jìn)行評(píng)測(cè)。AnisoAlign取得了47.49的平均分,優(yōu)于ReAlign的45.00、C3對(duì)齊的42.44、Unicorn框架的42.57和不做任何對(duì)齊的40.08。這說(shuō)明文字表示的質(zhì)量直接影響了模型的視覺(jué)能力,而更好的幾何對(duì)齊帶來(lái)了更好的下游表現(xiàn)。

      第二個(gè)實(shí)驗(yàn)是"先用文字預(yù)訓(xùn)練,再用真實(shí)圖文微調(diào)",檢驗(yàn)AnisoAlign是否能作為更好的預(yù)訓(xùn)練接口。結(jié)果AnisoAlign在同樣設(shè)定下達(dá)到了51.59的平均分,比ReAlign高1.43分,比C3對(duì)齊高3.53分,比不做對(duì)齊高4.09分。這說(shuō)明即使后續(xù)有真實(shí)圖片數(shù)據(jù)補(bǔ)充,預(yù)訓(xùn)練階段的表示質(zhì)量也有顯著影響,而AnisoAlign在這個(gè)階段提供了更好的視覺(jué)替代界面。

      第三個(gè)實(shí)驗(yàn)檢驗(yàn)了一個(gè)更有野心的問(wèn)題:如果一直擴(kuò)大文字?jǐn)?shù)據(jù)的規(guī)模,AnisoAlign能不能讓純文字預(yù)訓(xùn)練接近甚至超越真實(shí)圖片預(yù)訓(xùn)練?實(shí)驗(yàn)對(duì)比了三種方案:用真實(shí)圖片做預(yù)訓(xùn)練(平均52.72分)、用100萬(wàn)文字樣本做AnisoAlign預(yù)訓(xùn)練(51.60分)和用200萬(wàn)文字樣本做AnisoAlign預(yù)訓(xùn)練(52.75分)。結(jié)果顯示,AnisoAlign-2M以微弱優(yōu)勢(shì)超越了真實(shí)圖片預(yù)訓(xùn)練。這意味著,當(dāng)文字?jǐn)?shù)據(jù)規(guī)模足夠大、表示對(duì)齊質(zhì)量足夠高時(shí),大規(guī)模文字?jǐn)?shù)據(jù)有潛力成為真實(shí)圖片數(shù)據(jù)的經(jīng)濟(jì)替代品。

      消融實(shí)驗(yàn)進(jìn)一步拆解了AnisoAlign各個(gè)組件的貢獻(xiàn)。僅使用全局初始化時(shí)平均分為43.59,加入實(shí)例條件精細(xì)修正后提升到44.93,進(jìn)一步加入目標(biāo)模態(tài)相位先驗(yàn)約束提升到46.56,加入相對(duì)角度變形約束達(dá)到46.45,完整的AnisoAlign最終達(dá)到47.49。每個(gè)組件都有獨(dú)立貢獻(xiàn),且四個(gè)部分相互補(bǔ)充,缺一不可。

      七、這項(xiàng)研究背后的數(shù)學(xué)邏輯

      為了讓方法有堅(jiān)實(shí)的理論基礎(chǔ),研究團(tuán)隊(duì)在論文附錄中系統(tǒng)地推導(dǎo)了上述所有直覺(jué)判斷背后的數(shù)學(xué)支撐。

      關(guān)于"為什么整體平移不夠用",他們通過(guò)分解公式嚴(yán)格證明了:配對(duì)差距的期望值可以被正交分解為"均值偏移項(xiàng)"加上"中心化殘余項(xiàng)",兩者互相獨(dú)立,僅消除均值偏移無(wú)法減少殘余項(xiàng)的能量。

      關(guān)于"為什么殘余方向的修正最高效",他們引用了矩陣論中的Ky Fan最大值原理,證明了在所有秩為K的正交投影矩陣中,投影到殘余協(xié)方差最大K個(gè)特征方向上的修正方案,是減少殘余能量最有效的選擇。當(dāng)殘余各向異性比率Ar越大,這種定向修正相對(duì)于隨機(jī)修正的優(yōu)勢(shì)就越明顯。

      關(guān)于"為什么只匹配目標(biāo)分布是不夠的",他們給出了一個(gè)簡(jiǎn)潔的不可識(shí)別性命題:如果一個(gè)變換T0滿足把源模態(tài)推入目標(biāo)模態(tài)分布,那么任何保持目標(biāo)模態(tài)分布不變的混淆變換S與T0的復(fù)合也滿足同樣的分布條件——這意味著僅憑分布匹配無(wú)法區(qū)分語(yǔ)義保留和語(yǔ)義破壞的變換,必須引入額外的語(yǔ)義結(jié)構(gòu)約束。

      關(guān)于"為什么有界修正能保護(hù)語(yǔ)義",他們通過(guò)Lemma A.4嚴(yán)格推導(dǎo)了:對(duì)于歸一化表示,當(dāng)修正量的歐氏范數(shù)不超過(guò)ε時(shí),任意兩個(gè)樣本之間的余弦相似度變化上界為4ε/(1-ε)。Stage II中tanh約束直接限制了修正量的范數(shù)上界,從而提供了語(yǔ)義相似度保護(hù)的理論保證。

      此外,他們還解釋了為什么在實(shí)際的無(wú)配對(duì)對(duì)齊中,無(wú)法直接用殘余協(xié)方差的特征方向來(lái)定義修正空間——因?yàn)闅堄鄥f(xié)方差的計(jì)算需要配對(duì)數(shù)據(jù),而配對(duì)數(shù)據(jù)在無(wú)監(jiān)督設(shè)定下不可得。因此,研究團(tuán)隊(duì)轉(zhuǎn)而使用圖片和文字協(xié)方差之和的特征方向作為代理,并從理論上論證了這個(gè)代理的合理性:兩個(gè)模態(tài)共享的主導(dǎo)幾何方向正好也是殘余結(jié)構(gòu)集中的地方,因此聯(lián)合協(xié)方差的主子空間是一個(gè)可計(jì)算的合理替代。

      Q&A

      Q1:模態(tài)差距(Modality Gap)是什么?為什么AI處理圖文時(shí)會(huì)出現(xiàn)這個(gè)問(wèn)題?

      A:模態(tài)差距指的是,即使在同一個(gè)共享語(yǔ)義空間里,圖片的表示向量和文字的表示向量仍然存在系統(tǒng)性的幾何分離。打個(gè)比方,同一個(gè)概念"貓",用圖片編碼出來(lái)的坐標(biāo)和用文字編碼出來(lái)的坐標(biāo),并不在同一個(gè)位置,而是存在方向性的偏差。這種偏差在大規(guī)模對(duì)比預(yù)訓(xùn)練之后依然存在。AnisoAlign的研究揭示了這個(gè)偏差不只是整體位移,還有集中在少數(shù)特定方向上的各向異性殘余結(jié)構(gòu),這正是簡(jiǎn)單的平移方法無(wú)法解決問(wèn)題的根本原因。

      Q2:AnisoAlign方法需要配對(duì)的圖文數(shù)據(jù)嗎?普通用戶怎么理解它的工作方式?

      A:AnisoAlign在實(shí)際對(duì)齊階段不需要任何圖文配對(duì)數(shù)據(jù),只需要分別收集圖片表示和文字表示的無(wú)配對(duì)樣本。直觀地說(shuō),它先從圖片數(shù)據(jù)中學(xué)習(xí)"圖片喜歡住在空間的哪些方向",形成一份"圖片居住習(xí)慣地圖",然后把文字表示按照這份地圖做有限度的調(diào)整,讓文字表示在保留自身語(yǔ)義邏輯的前提下,逐漸"搬進(jìn)"圖片喜歡的區(qū)域。整個(gè)過(guò)程無(wú)需告訴系統(tǒng)哪張圖片對(duì)應(yīng)哪段文字。

      Q3:AnisoAlign用2M文字樣本的效果能超過(guò)真實(shí)圖片預(yù)訓(xùn)練,這是否意味著以后訓(xùn)練視覺(jué)AI不需要圖片了?

      A:目前這個(gè)結(jié)論需要謹(jǐn)慎理解。實(shí)驗(yàn)結(jié)果顯示,在特定的預(yù)訓(xùn)練加微調(diào)流程中,用2M經(jīng)過(guò)AnisoAlign處理的文字樣本確實(shí)略微超越了真實(shí)圖片預(yù)訓(xùn)練的效果。但這建立在兩個(gè)前提上:一是后續(xù)仍然有真實(shí)圖文數(shù)據(jù)用于指令微調(diào);二是使用的是LLM2CLIP這類已經(jīng)建立了高質(zhì)量共享語(yǔ)義空間的編碼器。當(dāng)預(yù)訓(xùn)練編碼器的共享空間質(zhì)量較差時(shí),AnisoAlign的優(yōu)勢(shì)會(huì)下降。因此,更準(zhǔn)確的解讀是:文字?jǐn)?shù)據(jù)在條件合適時(shí)可以作為視覺(jué)預(yù)訓(xùn)練數(shù)據(jù)的經(jīng)濟(jì)替代或補(bǔ)充,而非完全消除對(duì)圖片數(shù)據(jù)的依賴。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      上海隊(duì)和北京隊(duì),誰(shuí)能晉級(jí)CBA總決賽?西熱力江給出了1個(gè)答案!

      上海隊(duì)和北京隊(duì),誰(shuí)能晉級(jí)CBA總決賽?西熱力江給出了1個(gè)答案!

      體育哲人
      2026-05-15 07:53:04
      陳永貴詩(shī)歌手稿樸實(shí)珍貴,書(shū)法界繁體字爭(zhēng)議再起

      陳永貴詩(shī)歌手稿樸實(shí)珍貴,書(shū)法界繁體字爭(zhēng)議再起

      書(shū)畫(huà)相約
      2026-05-15 09:17:02
      京東集團(tuán)與萬(wàn)事達(dá)卡開(kāi)啟戰(zhàn)略合作

      京東集團(tuán)與萬(wàn)事達(dá)卡開(kāi)啟戰(zhàn)略合作

      證券時(shí)報(bào)
      2026-05-15 22:32:10
      氣炸!許利民不滿北京球員連續(xù)失誤怒拍廣告牌 無(wú)緣完成20分大逆轉(zhuǎn)

      氣炸!許利民不滿北京球員連續(xù)失誤怒拍廣告牌 無(wú)緣完成20分大逆轉(zhuǎn)

      狼叔評(píng)論
      2026-05-15 22:30:17
      黑衣美女,顏值真高

      黑衣美女,顏值真高

      藍(lán)色海洋009
      2026-04-24 21:32:46
      詹姆斯與湖人關(guān)系破裂:一顆比賽用球成導(dǎo)火索

      詹姆斯與湖人關(guān)系破裂:一顆比賽用球成導(dǎo)火索

      墜入溫柔晚風(fēng)
      2026-05-16 01:46:29
      男子冒充大老板,訂購(gòu)5輛奔馳,總價(jià)450萬(wàn)。美女銷售為促成大單,為其墊付6000余元食宿,誰(shuí)知,3天后,男子突然消失,女銷售才發(fā)現(xiàn)被騙

      男子冒充大老板,訂購(gòu)5輛奔馳,總價(jià)450萬(wàn)。美女銷售為促成大單,為其墊付6000余元食宿,誰(shuí)知,3天后,男子突然消失,女銷售才發(fā)現(xiàn)被騙

      大愛(ài)三湘
      2026-05-08 11:09:27
      引擎轟鳴 裝甲列陣 從川普車隊(duì)看油電之爭(zhēng)

      引擎轟鳴 裝甲列陣 從川普車隊(duì)看油電之爭(zhēng)

      鐵流1988
      2026-05-15 06:55:20
      未婚女孩隱私部位膿腫南京明基醫(yī)院要求住院手術(shù) 女孩換家三甲醫(yī)院開(kāi)了4塊錢藥治好

      未婚女孩隱私部位膿腫南京明基醫(yī)院要求住院手術(shù) 女孩換家三甲醫(yī)院開(kāi)了4塊錢藥治好

      墜入二次元的海洋
      2026-05-15 19:16:40
      商業(yè)航天翻倍股被立案,股價(jià)一年漲超300%

      商業(yè)航天翻倍股被立案,股價(jià)一年漲超300%

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2026-05-15 21:30:45
      中方是否同意未來(lái)購(gòu)買美國(guó)石油?外交部回應(yīng)

      中方是否同意未來(lái)購(gòu)買美國(guó)石油?外交部回應(yīng)

      澎湃新聞
      2026-05-15 15:30:31
      綠豆立大功!研究發(fā)現(xiàn):綠豆,顯著降低膽固醇,減少肝臟脂肪

      綠豆立大功!研究發(fā)現(xiàn):綠豆,顯著降低膽固醇,減少肝臟脂肪

      小胡軍事愛(ài)好
      2026-05-14 21:51:26
      教你一個(gè)玄學(xué)法則:當(dāng)你的孩子主動(dòng)給你買衣服、買吃的,或者主動(dòng)給你發(fā)紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      教你一個(gè)玄學(xué)法則:當(dāng)你的孩子主動(dòng)給你買衣服、買吃的,或者主動(dòng)給你發(fā)紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      心理觀察局
      2026-05-13 09:18:07
      “23歲研究生被少年無(wú)證駕車撞致顱腦損傷”追蹤:當(dāng)?shù)卣疄槠渖贽k困難補(bǔ)助,愛(ài)心網(wǎng)友捐款相助

      “23歲研究生被少年無(wú)證駕車撞致顱腦損傷”追蹤:當(dāng)?shù)卣疄槠渖贽k困難補(bǔ)助,愛(ài)心網(wǎng)友捐款相助

      紅星新聞
      2026-05-14 21:02:57
      單挑第2!泰山雙核停賽,韓鵬被迫變陣,裁判安排出爐,央視直播

      單挑第2!泰山雙核停賽,韓鵬被迫變陣,裁判安排出爐,央視直播

      萌蘭聊個(gè)球
      2026-05-15 10:29:51
      央視怒批、中紀(jì)委點(diǎn)名,這次中央下狠手了

      央視怒批、中紀(jì)委點(diǎn)名,這次中央下狠手了

      職場(chǎng)資深秘書(shū)
      2026-05-15 10:57:46
      “善心”收留難民反遭驅(qū)逐的鬧劇

      “善心”收留難民反遭驅(qū)逐的鬧劇

      風(fēng)鈴草語(yǔ)
      2026-05-15 06:37:37
      悍匪10年來(lái)殺人無(wú)數(shù),女性受害者超100名,卻被農(nóng)婦砍斷作案器官

      悍匪10年來(lái)殺人無(wú)數(shù),女性受害者超100名,卻被農(nóng)婦砍斷作案器官

      莫地方
      2026-05-16 01:40:03
      萬(wàn)萬(wàn)沒(méi)想到,在特朗普離京之前,中美竟訂下“三年之約”!

      萬(wàn)萬(wàn)沒(méi)想到,在特朗普離京之前,中美竟訂下“三年之約”!

      春之寞陌
      2026-05-16 02:32:00
      換個(gè)角度更有態(tài)度,極狐S3成北京車展純電家轎新焦點(diǎn)

      換個(gè)角度更有態(tài)度,極狐S3成北京車展純電家轎新焦點(diǎn)

      汽車觀察AUTO
      2026-04-26 12:13:29
      2026-05-16 04:51:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8357文章數(shù) 564關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋(píng)果華為率先開(kāi)啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問(wèn)“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問(wèn)“這是什么東西”

      體育要聞

      德約科維奇買的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂(lè)要聞

      方媛為何要來(lái)《桃花塢6》沒(méi)苦硬吃?

      財(cái)經(jīng)要聞

      騰訊掉隊(duì),馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      時(shí)尚
      本地
      藝術(shù)
      數(shù)碼
      軍事航空

      頂級(jí)團(tuán)隊(duì)拍出來(lái)的作品不如素人,問(wèn)題出在哪兒了?

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      藝術(shù)要聞

      1008米!沙特“世界第一高樓”項(xiàng)目,為何極有可能建成?

      數(shù)碼要聞

      聯(lián)想發(fā)布ThinkPad T14 Gen 7 支持LPCAMM2可更換內(nèi)存

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕AV在线| 97欧美精品激情在线观看最新| 国产高清精品在线一区二区| 国产波霸爆乳一区二区| 在线观看成人无码中文AV天堂| 人与鲁专区| 国产成人精品麻豆| 亚洲色图视频在线观看网站| 亚洲的天堂av无码| 国产精品亚洲精品日韩已满| 成人av无码一区二区三区| 久久福利影院| 波霸影院一区二区| 伊人久久av| 无码中文字幕乱码一区| 色香欲天天影视综合网| 欧洲熟妇色xxxx欧美老妇多毛| 国产天美传媒性色av| 精品麻豆一卡2卡三卡4卡乱码| 色五月五月丁香亚洲综合网| 中文字字幕国产精品| 欧美偷拍视频| 麻豆亚洲AV成人无码久久精品| 亚洲AV无码成人精品区网页| 日本精品中文字幕| 国产精品无码成人午夜电影| 衡南县| 中文字幕一精品亚洲无线一区| 国产精品久久午夜夜伦鲁鲁| 911国产自产精品a| 三上悠亚精品二区在线观看| 制服丝袜人妻| 99久久老司机免费精品免费| 精品久久亚洲一级α| 国产成人免费a在线视频| 99激情| 伊人久久大香线蕉av色婷婷色| 亚洲中文字幕一二三四| 精品偷拍一区二区三区| 嫩草亚洲小泬久久夂| 精品久久人人做爽综合|