網易首頁 > 網易號 > 正文申請入駐

Cohere、SEACrowd等機構的視覺語言模型區域化適配研究全解析

2026-04-26 19:15:36　來源: 科技行者

天津舉報

分享至

這項由Cohere、SEACrowd、AI Singapore、MBZUAI、卡內基梅隆大學、斯坦福大學、布朗大學等數十家機構聯合完成的研究，發表于2026年4月，論文編號為arXiv:2604.11490，有興趣深入了解的讀者可以通過該編號查詢完整論文。研究聚焦于一個聽起來有些抽象但其實與每個人都息息相關的問題：當人工智能走向全球，它真的能理解不同地區的文化嗎？

你有沒有想過，當一個東南亞人對著手機AI助手展示一張炸香蕉餅或者宋卡湖的照片時，AI是否真的"認識"這些東西？或者當一個泰國人問AI"這道菜是什么"，AI是否能給出真正符合當地文化背景的回答？事實往往令人失望：絕大多數AI系統是在以英語為主的西方數據上訓練的，它們對非洲、印度、中東、東南亞等地區的文化認知，可以說相當貧乏。

正是為了解決這個現實問題，來自全球超過30所頂尖機構的研究人員聯手，提出了一套全新的框架和方法。他們的核心主張是：AI不僅要"聰明"，還要"有文化"，而且這兩件事不應該互相矛盾。

一、為什么AI會"水土不服"，以及這件事有多嚴重

以餐廳的服務員做比較，能解釋清楚這個問題的根源。一位在紐約五星級酒店培訓了多年的服務員，去到東南亞鄉村小館子，可能完全不知道如何向顧客推薦椰漿飯，也不懂得當地的飲食文化禮儀。這并不是因為他不夠聰明，而是他從來沒有接受過這方面的訓練。

當今最強大的視覺語言模型——也就是那些既能"看圖"又能"說話"的AI系統——面臨的恰恰是同樣的困境。這類模型的訓練數據絕大部分來自互聯網上以英語為主的內容，而互聯網上的內容本身就極度不均衡：西方國家、東亞發達地區產出的數字內容遠遠多于東南亞、南亞、非洲等地區。結果就是，AI系統在被問到歐美文化內容時表現出色，一旦遇到東南亞的傳統服飾、地方建筑、本土食物，就開始"答非所問"甚至給出帶有刻板印象的回答。

研究團隊對此做了系統性觀察。他們發現，現有的多語言視覺語言模型，包括MAYA-8B、PaliGemma-2-10B、Pangea-7B、Qwen2-VL-7B、Gemma-3等一系列知名系統，在面對專門為東南亞文化設計的測試題目時，表現都不盡如人意。這些測試包括SEAVQA（東南亞視覺問答）、CVQA（文化多樣性視覺問答）和World Cuisines（全球菜肴識別）等基準測試。

與此同時，確實存在一些專門為特定地區定制的AI模型，比如專為阿拉伯語設計的VIOLET、為韓語優化的VARCO-VISION、以及面向東南亞的SEA-LION-VL。這些"本土專家"在自己的主場表現很好，但一旦被問到更廣泛的全球性問題，它們就顯得力不從心了。這就像一位精通川菜的廚師，突然被要求制作法式大餐時會手忙腳亂。

于是，研究者們面對一個兩難困境：要么是"全能選手"（全球模型）——什么都會一點但對東南亞文化一知半解；要么是"地方專家"（區域模型）——本地文化了解透徹但出了自己的地盤就不行了。這項研究的核心，就是找到一條同時兼顧兩者的道路。

二、"擬人化區域適配"：給AI量身定制的文化融合框架

研究團隊提出了一個聽起來有點學術但本質上非常直觀的框架，稱為"擬人化區域適配"（Anthropogenic Regional Adaptation）。"擬人化"這個詞在這里的意思是，AI的目標是理解人類文化和社會活動，而不僅僅是識別圖像中的物理特征。

從數學上說，研究者把整個世界劃分成若干個"區域"，每個區域有自己獨特的評價標準和文化特征。模型的目標是在優化特定目標區域表現的同時，不能讓全球范圍內的整體表現大幅下滑。為了量化這種平衡，他們引入了一個叫做"全球化因子"的參數，用希臘字母α表示，取值在0到1之間。當α接近1時，模型更注重維持全球通用能力；當α接近0時，模型更專注于強化某個特定區域的表現。

更巧妙的是，研究團隊并沒有憑空設定這個參數，而是借用了一個來自社會科學領域的工具——KOF全球化指數（Konjunkturforschungsstelle Globalization Index）。這個指數由瑞士蘇黎世聯邦理工學院每年更新，衡量全球190個國家在政治、經濟、社會等多個維度上的全球化程度。

用一個直觀的例子來理解：新加坡是一個高度全球化的城市國家，與國際接軌程度極高，所以針對新加坡優化的AI模型應該設置一個較高的α值，確保其保持強大的全球通用能力。相比之下，緬甸或老撾的全球化程度相對較低，社會文化更具本地特色，針對這些國家的模型可以把α設得低一些，更側重本地文化的表達。

研究團隊以2023年KOF全球化指數中的"事實人際交往"分項作為基準，計算東南亞區域所有國家的平均值，得出α=0.43。這意味著在評估東南亞模型時，43%的權重給全球通用表現，57%的權重給東南亞地區特定表現。這個比例的確定不是研究者拍腦袋定的，而是有可量化、可復現的社會科學依據。

研究者還指出，隨著時間推移，全球化指數本身也在變化——從1993年到2023年，東南亞地區的全球化指數從36.04穩步上升到43.40。這意味著這套評價體系會隨時代變化而自然調整，不會一成不變。

三、"GG-EZ"：讓AI輕松實現文化適配的兩步走方法

框架有了，具體怎么做呢？研究團隊設計了一套名為"GG-EZ"的方法，全稱是"地理泛化輕松實現"（Geographical Generalization Made Easy）。這個名字帶著一絲幽默感，暗指這個方法的操作相對簡單卻效果顯著。

GG-EZ的核心思路可以用改造一位廚師來比喻。假設你有一位接受過嚴格法式料理訓練的廚師（全球模型），現在你希望他也能做出地道的東南亞菜肴，同時不要忘掉他原本掌握的法式技藝。GG-EZ分兩步走完成這個改造。

第一步叫做"區域質量過濾"。這一步的任務是精心挑選用于培訓的食材和食譜。具體來說，研究團隊首先用一個地理過濾器，從海量數據中篩選出真正屬于東南亞文化背景的內容。一張越南河粉的圖片和一篇關于菲律賓節日的文字，會被保留下來；而一張通用的意大利面圖片就會被過濾掉。

光靠地理標簽還不夠，因為互聯網上東南亞相關的內容質量良莠不齊。研究團隊還引入了一個專門評估數據質量的"獎勵模型"（UnifiedReward），為每條數據打分，只保留得分在3分及以上的高質量內容。他們對比了四種不同的質量評估工具：ImageReward、HPSv2、VisionReward-Image和UnifiedReward，最終選擇UnifiedReward的原因是它在與人類評判一致性方面表現良好（正確率44.2%），同時支持批量高效處理，適合大規模數據過濾。

除了篩選現有數據，團隊還做了一件重要的事：把高質量的英語數據翻譯成東南亞地區的主要語言，包括印度尼西亞語、馬來語、泰語、越南語、菲律賓語、高棉語、老撾語、中文和泰米爾語。對于高棉語和老撾語這樣的小語種，他們專門測試了多種翻譯工具的效果，最終為不同語言選擇了最合適的翻譯系統——Gemini-2.5-Flash被用于泰語、緬甸語、老撾語、高棉語和泰米爾語，而Gemma-3-27B則被用于印度尼西亞語、越南語、標準馬來語、菲律賓語和中文。

第二步叫做"全球-區域精煉"，分為兩個環節：先用精心篩選的東南亞數據對全球模型進行微調訓練，把它變成一個東南亞文化專家；然后用一種叫做"模型合并"的技術，把這個新培訓出來的區域專家模型與原始的全球模型進行線性融合。融合的比例用參數β來控制：β=1意味著完全用區域專家模型，β=0意味著完全用原始全球模型，而β=0.1則表示10%區域模型加90%原始全球模型的組合。

模型合并這個概念值得多解釋幾句。當你對一個AI模型進行專門訓練時，它在新領域的表現會提升，但往往會"忘記"一些原本掌握的能力，這個現象叫做"災難性遺忘"——就好比那位廚師學了兩年東南亞菜之后，突然發現自己連紅酒燉牛肉都做不好了。模型合并的作用，就是讓兩個版本的"知識"融合在一起，既保住了原有能力，又融入了新學到的文化知識。

四、三種架構、十一個國家、一場大規模實驗

研究團隊沒有滿足于在一種AI架構上驗證方法，而是在三種截然不同的視覺語言模型架構上同時進行了實驗，以東南亞地區（涵蓋新加坡、印度尼西亞、馬來西亞、文萊、泰國、菲律賓、越南、緬甸、柬埔寨、老撾、東帝汶共11個國家，總人口約7億）作為案例研究對象。

第一種是大規模視覺語言模型SEA-VLM，基于Google的Gemma-3 27B模型（一個擁有270億參數的龐大系統）。這個模型被用來回答關于圖像內容的問題，比如識別東南亞傳統服飾、理解本地文化習俗。訓練時使用了批次大小64、學習率2e-5、權重衰減0.01，訓練了3個完整輪次。在此之前，還對Gemma-3進行了持續預訓練，使用了SEA-VL、XM3600和Flickr30k等數據集的東南亞語言翻譯版本。

第二種是文字轉圖片的擴散模型SEA-ImageGen，基于Stability AI的SDXL（3.5B參數）。這類模型的任務是根據文字描述生成圖片——比如你輸入"一盤馬來西亞椰漿飯"，它就應該生成一張真實、準確、有文化細節的椰漿飯圖片。訓練時只微調了模型中的UNet模塊，保留了VAE模塊不變，使用批次大小32、學習率1e-5，訓練了4個輪次。

第三種是視覺語言嵌入模型SEA-VL Embed，基于Google的SigLIP-2（1B參數）。這類模型的功能是理解圖文之間的關聯性，比如判斷一張圖片和一段文字描述是否匹配。這個模型進行了完整的全參數微調，使用批次大小128、學習率5e-6、權重衰減0.001，訓練了2個輪次。

為了評估模型的表現，研究團隊還專門構建了兩個人工標注的測試集。第一個叫SEA-VL VQA，包含約1100道視覺問答題，覆蓋馬來語、越南語、泰語、印度尼西亞語、菲律賓語、泰米爾語、高棉語、中文、緬甸語共9種語言，所有題目都由母語使用者創作，并經過兩位額外的母語使用者審核。題目要求緊密結合圖像中的文化元素，比如傳統服飾、本地美食、宗教習俗、建筑風格，而不是泛泛的"圖中有什么"這類通用問題。第二個叫SEA AYA，是將Aya Vision Benchmark中的135道視覺語言題目翻譯成6種東南亞語言（泰語、馬來語、菲律賓語、泰米爾語、中文、緬甸語），覆蓋圖像描述、圖表理解、視覺推理等9種任務類型。

五、實驗結果：小改動，大效果

實驗結果驗證了GG-EZ方法的有效性，但也揭示了一些出人意料的細節。

在大規模視覺語言模型方面，未經過模型合并的純微調版本SEA-Gemma-3表現呈現出矛盾的特征。在專門針對東南亞文化的SEAVQA測試中，它的得分從41.0提升到41.9，顯示出對區域文化有所掌握。然而，在更通用的CVQA和WorldCuisine測試中，它的表現卻大幅下滑，CVQA均分從67.2跌至35.6，WorldCuisine從59.8跌至48.5。這正是"災難性遺忘"的體現——專攻東南亞之后，它在更廣泛的文化理解上退步了。

加入模型合并之后，情況發生了戲劇性的改變。將10%的區域微調模型與90%的原始Gemma-3合并后（即SEA-Gemma-3 10%），模型在所有指標上都超過了原始Gemma-3：全球通用表現從63.5提升到64.4，東南亞專項表現從56.3提升到63.8，綜合的"全球-區域平衡分"（GRP分）從59.4提升到64.1。這相當于用僅僅10%的區域知識"點綴"，就讓模型既保住了全球能力，又獲得了東南亞文化加持。

5%合并比例（SEA-Gemma-3 5%）也展現了相似的提升，GRP分達到64.0。而50%和70%的合并比例則出現了不同程度的整體下滑，說明區域知識的比例并非越多越好，過多的區域專項訓練會在全球表現上造成損失，合并比例需要仔細調整。

人工評估的結果提供了更細膩的視角。評估者（每種語言均為母語使用者）對三個模型的回答進行了排名：SEA-Gemma-3（無合并）在東南亞語言中整體排名最高，尤其在菲律賓語（2.75分）、印度尼西亞語（2.29分）、泰語（2.33分）方面表現出色，證明純區域微調確實讓模型在本地語言上更接地氣。而原始Gemma-3在全球任務上依然最強（2.54分）。SEA-Gemma-3 10%則在越南語（2.61分，最高）和馬來語（2.25分）方面取得最佳，綜合GRP分為2.31，高于原始Gemma-3的2.29，在全球表現（2.42分）略低于原版的情況下，實現了整體最優的平衡。

在圖片生成模型方面，即便是沒有模型合并的純微調版SEA-SDXL，在通用圖像生成基準DPGBench上的總分也略有提升（從73.75升至74.32），這說明東南亞區域訓練對圖像生成質量沒有拖累。經過25%合并后的SEA-SDXL 25%，DPGBench總分達到74.75，是所有變體中最高的。在專門評估東南亞文化準確性的人工評估中，SEA-SDXL 25%在傳統服飾、地標建筑、本地美食三個維度的正確性和自然度上，全面超過了原始SDXL和純微調版SEA-SDXL。以椰漿飯為例，原始SDXL生成的圖片雖然也有白飯和雞蛋，但缺少黃瓜、花生和鳳尾魚這些關鍵配料；而SEA-SDXL 25%生成的圖片則包含了這些細節，更接近真實的馬來西亞椰漿飯。

在視覺語言嵌入模型方面，有一個值得關注的有趣現象：純微調的SEA-SigLIP2不僅在東南亞區域測試上超過了原始SigLIP2，甚至在非東南亞地區的測試上也有所提升。這可能意味著東南亞文化訓練數據中包含的視覺多樣性，對模型的整體理解能力有正向遷移作用。經過75%合并的SEA-SigLIP2 75%表現最為均衡，SEAVQA總分29.66，在印度尼西亞（30.05）和越南（28.75）數據上創下最高分，同時全球CVQA分依然保持在27.12的較高水準，綜合GRP分達到27.96，遠超原始模型的25.17。

六、數據配方的學問：并非越多越好

研究者們對數據配方做了一系列細致的消融實驗，結果揭示了一個重要教訓：在AI訓練中，數據的質量和形式比數量更重要。

基準數據集是將MAmmoTH-VL指令數據翻譯成10種東南亞語言（共約25萬條數據）的完整版本，在SEA-VQA測試中得到39.6分。當研究者嘗試只使用其中20%的數據時，分數驟降至13.0分，下滑幅度超過70%，證明數據規模是基礎保障，不能隨意壓縮。

接下來，研究者在基準數據集的基礎上，分別加入了不同類型的額外文化數據，結果大相徑庭。加入CulturalGround數據集（來自斯坦福大學與卡內基梅隆大學合作構建的多文化圖文數據集）的開放式問答版本，分數從39.6升至41.9，帶來了溫和但積極的提升。然而，加入同一數據集的多項選擇題版本，分數卻大幅下滑至21.6——同樣的圖片，只是換了問題形式，效果竟然完全相反！研究者認為，多項選擇題的格式可能與預訓練時使用的問答格式存在沖突，導致模型混淆。

加入WorldCuisine美食數據集的結果同樣令人意外：分數降至30.4，比基準還低。研究者的解釋是，WorldCuisine專注于食物識別這一個細分領域，過于單一的訓練數據使模型的注意力過度集中在菜肴上，反而削弱了它對其他文化元素（如地標、傳統習俗、歷史文化）的理解能力。

這個發現的實踐意義在于：在區域適配過程中，不能簡單地"往鍋里扔越多食材越好"，而要精心考量每種數據的類型、格式、領域覆蓋范圍，以及它們與目標任務的匹配程度。

七、全球化因子的深層意義：AI也需要與時俱進

研究中還有一個常被忽視但頗具哲學深度的討論：如何決定一個模型應該在多大程度上"入鄉隨俗"，在多大程度上保持"全球視野"？

研究團隊的答案是，這不應該是一個固定的主觀判斷，而應該反映目標區域的實際社會狀態。他們展示了一組全球各地區從1993年到2023年的KOF全球化指數變化曲線。歐洲和中亞地區的全球化指數始終最高，穩定在70分以上；北美緊隨其后；東南亞從1993年的36分穩步上升到2023年的43分；南亞和撒哈拉以南非洲則相對滯后。

從實際操作角度來看，α值的設置對模型的最終效果有顯著影響。實驗顯示，在不同α值下，三個模型（原始Gemma-3、SEA-Gemma-3 10%和SEA-Gemma-3無合并版）的GRP分排名會發生變化。當α接近0時，純區域微調模型占優；當α接近1時，原始全球模型占優；而在α=0.43附近，SEA-Gemma-3 10%取得了最高的GRP分。這說明，如果你用一個不符合目標區域實際全球化程度的α值來評估模型，很可能得出錯誤的結論。

隨著全球化指數隨時間變化，評估模型的標準也應該動態調整。研究團隊認為，這種與社會現實掛鉤的動態評估體系，比任何靜態的主觀設定都更具科學性。

歸根結底，這項研究解決的其實是一個關于"包容性"的問題：全球化的AI技術不能只服務于數字富裕地區的用戶，也應該能夠理解和服務于那些文化獨特、語言多樣的地區。GG-EZ證明了這件事不需要從頭開發一個全新的模型，只需要對現有強大模型進行精心的"文化改造"，就能讓它既保持全球競爭力，又獲得對特定地區的深刻理解。

更重要的是，這套方法是架構無關的——無論是文字問答模型、圖片生成模型還是圖文匹配模型，GG-EZ都能派上用場。這意味著它具有廣泛的推廣潛力，未來可以用于非洲、南亞、中東等其他代表性不足的地區，幫助更多人獲得真正"懂自己文化"的AI服務。

當然，研究也存在一些局限和尚待探索的方向。模型合并的最優β值在不同架構之間存在差異（VLM的最優值約為10%，Embed模型約為75%，擴散模型約為25%），目前還沒有一個能自動預測最優β的通用方法。此外，實驗主要集中在東南亞地區，方法在其他區域的效果仍有待驗證。對于感興趣的讀者，可以通過arXiv:2604.11490獲取完整論文，研究團隊也在Hugging Face上公開了所有訓練數據、評估數據集和模型權重，供研究者直接使用和進一步探索。

Q&A

Q1：GG-EZ方法的兩個步驟分別是什么，為什么需要模型合并？

A：GG-EZ分兩步走。第一步是用地理過濾器和質量評分模型，從海量數據中篩選出高質量的區域文化數據，同時把英語數據翻譯成目標語言。第二步是先用這些數據對全球模型進行微調，再把微調后的區域模型和原始全球模型按比例線性融合。模型合并的必要性在于，純微調往往會讓模型"忘記"原本掌握的通用能力，合并能把區域知識和全球知識同時保留在模型里。

Q2：全球化因子α=0.43是怎么確定的，為什么不直接用固定值？

A：α的值來源于2023年KOF全球化指數中東南亞各國"事實人際交往"分項的平均值。選擇這個指數而非固定值，是因為它能客觀反映一個地區與全球社會的實際融合程度——全球化程度高的地區（如新加坡）應該更注重保持全球通用能力，而全球化程度低的地區可以更側重本地文化。此外，全球化指數會隨時間變化，評估標準也能隨之動態更新，避免了主觀判斷帶來的偏差。

Q3：為什么加入更多東南亞文化數據反而會讓模型變差？

A：研究發現，不是所有數據都有正向效果。加入同一數據集的多項選擇題版本會拖累模型，可能是因為格式與預訓練產生沖突。加入專門的美食識別數據集WorldCuisine后，模型過于專注食物識別，反而削弱了對地標、傳統服飾、歷史文化等其他方面的理解。這說明區域數據的類型、格式、領域覆蓋范圍都需要精心設計，盲目堆砌數據會適得其反。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.