![]()
這項由Cohere、SEACrowd、AI Singapore、MBZUAI、卡內基梅隆大學、斯坦福大學、布朗大學等數十家機構聯合完成的研究,發表于2026年4月,論文編號為arXiv:2604.11490,有興趣深入了解的讀者可以通過該編號查詢完整論文。研究聚焦于一個聽起來有些抽象但其實與每個人都息息相關的問題:當人工智能走向全球,它真的能理解不同地區的文化嗎?
你有沒有想過,當一個東南亞人對著手機AI助手展示一張炸香蕉餅或者宋卡湖的照片時,AI是否真的"認識"這些東西?或者當一個泰國人問AI"這道菜是什么",AI是否能給出真正符合當地文化背景的回答?事實往往令人失望:絕大多數AI系統是在以英語為主的西方數據上訓練的,它們對非洲、印度、中東、東南亞等地區的文化認知,可以說相當貧乏。
正是為了解決這個現實問題,來自全球超過30所頂尖機構的研究人員聯手,提出了一套全新的框架和方法。他們的核心主張是:AI不僅要"聰明",還要"有文化",而且這兩件事不應該互相矛盾。
一、為什么AI會"水土不服",以及這件事有多嚴重
以餐廳的服務員做比較,能解釋清楚這個問題的根源。一位在紐約五星級酒店培訓了多年的服務員,去到東南亞鄉村小館子,可能完全不知道如何向顧客推薦椰漿飯,也不懂得當地的飲食文化禮儀。這并不是因為他不夠聰明,而是他從來沒有接受過這方面的訓練。
當今最強大的視覺語言模型——也就是那些既能"看圖"又能"說話"的AI系統——面臨的恰恰是同樣的困境。這類模型的訓練數據絕大部分來自互聯網上以英語為主的內容,而互聯網上的內容本身就極度不均衡:西方國家、東亞發達地區產出的數字內容遠遠多于東南亞、南亞、非洲等地區。結果就是,AI系統在被問到歐美文化內容時表現出色,一旦遇到東南亞的傳統服飾、地方建筑、本土食物,就開始"答非所問"甚至給出帶有刻板印象的回答。
研究團隊對此做了系統性觀察。他們發現,現有的多語言視覺語言模型,包括MAYA-8B、PaliGemma-2-10B、Pangea-7B、Qwen2-VL-7B、Gemma-3等一系列知名系統,在面對專門為東南亞文化設計的測試題目時,表現都不盡如人意。這些測試包括SEAVQA(東南亞視覺問答)、CVQA(文化多樣性視覺問答)和World Cuisines(全球菜肴識別)等基準測試。
與此同時,確實存在一些專門為特定地區定制的AI模型,比如專為阿拉伯語設計的VIOLET、為韓語優化的VARCO-VISION、以及面向東南亞的SEA-LION-VL。這些"本土專家"在自己的主場表現很好,但一旦被問到更廣泛的全球性問題,它們就顯得力不從心了。這就像一位精通川菜的廚師,突然被要求制作法式大餐時會手忙腳亂。
于是,研究者們面對一個兩難困境:要么是"全能選手"(全球模型)——什么都會一點但對東南亞文化一知半解;要么是"地方專家"(區域模型)——本地文化了解透徹但出了自己的地盤就不行了。這項研究的核心,就是找到一條同時兼顧兩者的道路。
二、"擬人化區域適配":給AI量身定制的文化融合框架
研究團隊提出了一個聽起來有點學術但本質上非常直觀的框架,稱為"擬人化區域適配"(Anthropogenic Regional Adaptation)。"擬人化"這個詞在這里的意思是,AI的目標是理解人類文化和社會活動,而不僅僅是識別圖像中的物理特征。
從數學上說,研究者把整個世界劃分成若干個"區域",每個區域有自己獨特的評價標準和文化特征。模型的目標是在優化特定目標區域表現的同時,不能讓全球范圍內的整體表現大幅下滑。為了量化這種平衡,他們引入了一個叫做"全球化因子"的參數,用希臘字母α表示,取值在0到1之間。當α接近1時,模型更注重維持全球通用能力;當α接近0時,模型更專注于強化某個特定區域的表現。
更巧妙的是,研究團隊并沒有憑空設定這個參數,而是借用了一個來自社會科學領域的工具——KOF全球化指數(Konjunkturforschungsstelle Globalization Index)。這個指數由瑞士蘇黎世聯邦理工學院每年更新,衡量全球190個國家在政治、經濟、社會等多個維度上的全球化程度。
用一個直觀的例子來理解:新加坡是一個高度全球化的城市國家,與國際接軌程度極高,所以針對新加坡優化的AI模型應該設置一個較高的α值,確保其保持強大的全球通用能力。相比之下,緬甸或老撾的全球化程度相對較低,社會文化更具本地特色,針對這些國家的模型可以把α設得低一些,更側重本地文化的表達。
研究團隊以2023年KOF全球化指數中的"事實人際交往"分項作為基準,計算東南亞區域所有國家的平均值,得出α=0.43。這意味著在評估東南亞模型時,43%的權重給全球通用表現,57%的權重給東南亞地區特定表現。這個比例的確定不是研究者拍腦袋定的,而是有可量化、可復現的社會科學依據。
研究者還指出,隨著時間推移,全球化指數本身也在變化——從1993年到2023年,東南亞地區的全球化指數從36.04穩步上升到43.40。這意味著這套評價體系會隨時代變化而自然調整,不會一成不變。
三、"GG-EZ":讓AI輕松實現文化適配的兩步走方法
框架有了,具體怎么做呢?研究團隊設計了一套名為"GG-EZ"的方法,全稱是"地理泛化輕松實現"(Geographical Generalization Made Easy)。這個名字帶著一絲幽默感,暗指這個方法的操作相對簡單卻效果顯著。
GG-EZ的核心思路可以用改造一位廚師來比喻。假設你有一位接受過嚴格法式料理訓練的廚師(全球模型),現在你希望他也能做出地道的東南亞菜肴,同時不要忘掉他原本掌握的法式技藝。GG-EZ分兩步走完成這個改造。
第一步叫做"區域質量過濾"。這一步的任務是精心挑選用于培訓的食材和食譜。具體來說,研究團隊首先用一個地理過濾器,從海量數據中篩選出真正屬于東南亞文化背景的內容。一張越南河粉的圖片和一篇關于菲律賓節日的文字,會被保留下來;而一張通用的意大利面圖片就會被過濾掉。
光靠地理標簽還不夠,因為互聯網上東南亞相關的內容質量良莠不齊。研究團隊還引入了一個專門評估數據質量的"獎勵模型"(UnifiedReward),為每條數據打分,只保留得分在3分及以上的高質量內容。他們對比了四種不同的質量評估工具:ImageReward、HPSv2、VisionReward-Image和UnifiedReward,最終選擇UnifiedReward的原因是它在與人類評判一致性方面表現良好(正確率44.2%),同時支持批量高效處理,適合大規模數據過濾。
除了篩選現有數據,團隊還做了一件重要的事:把高質量的英語數據翻譯成東南亞地區的主要語言,包括印度尼西亞語、馬來語、泰語、越南語、菲律賓語、高棉語、老撾語、中文和泰米爾語。對于高棉語和老撾語這樣的小語種,他們專門測試了多種翻譯工具的效果,最終為不同語言選擇了最合適的翻譯系統——Gemini-2.5-Flash被用于泰語、緬甸語、老撾語、高棉語和泰米爾語,而Gemma-3-27B則被用于印度尼西亞語、越南語、標準馬來語、菲律賓語和中文。
第二步叫做"全球-區域精煉",分為兩個環節:先用精心篩選的東南亞數據對全球模型進行微調訓練,把它變成一個東南亞文化專家;然后用一種叫做"模型合并"的技術,把這個新培訓出來的區域專家模型與原始的全球模型進行線性融合。融合的比例用參數β來控制:β=1意味著完全用區域專家模型,β=0意味著完全用原始全球模型,而β=0.1則表示10%區域模型加90%原始全球模型的組合。
模型合并這個概念值得多解釋幾句。當你對一個AI模型進行專門訓練時,它在新領域的表現會提升,但往往會"忘記"一些原本掌握的能力,這個現象叫做"災難性遺忘"——就好比那位廚師學了兩年東南亞菜之后,突然發現自己連紅酒燉牛肉都做不好了。模型合并的作用,就是讓兩個版本的"知識"融合在一起,既保住了原有能力,又融入了新學到的文化知識。
四、三種架構、十一個國家、一場大規模實驗
研究團隊沒有滿足于在一種AI架構上驗證方法,而是在三種截然不同的視覺語言模型架構上同時進行了實驗,以東南亞地區(涵蓋新加坡、印度尼西亞、馬來西亞、文萊、泰國、菲律賓、越南、緬甸、柬埔寨、老撾、東帝汶共11個國家,總人口約7億)作為案例研究對象。
第一種是大規模視覺語言模型SEA-VLM,基于Google的Gemma-3 27B模型(一個擁有270億參數的龐大系統)。這個模型被用來回答關于圖像內容的問題,比如識別東南亞傳統服飾、理解本地文化習俗。訓練時使用了批次大小64、學習率2e-5、權重衰減0.01,訓練了3個完整輪次。在此之前,還對Gemma-3進行了持續預訓練,使用了SEA-VL、XM3600和Flickr30k等數據集的東南亞語言翻譯版本。
第二種是文字轉圖片的擴散模型SEA-ImageGen,基于Stability AI的SDXL(3.5B參數)。這類模型的任務是根據文字描述生成圖片——比如你輸入"一盤馬來西亞椰漿飯",它就應該生成一張真實、準確、有文化細節的椰漿飯圖片。訓練時只微調了模型中的UNet模塊,保留了VAE模塊不變,使用批次大小32、學習率1e-5,訓練了4個輪次。
第三種是視覺語言嵌入模型SEA-VL Embed,基于Google的SigLIP-2(1B參數)。這類模型的功能是理解圖文之間的關聯性,比如判斷一張圖片和一段文字描述是否匹配。這個模型進行了完整的全參數微調,使用批次大小128、學習率5e-6、權重衰減0.001,訓練了2個輪次。
為了評估模型的表現,研究團隊還專門構建了兩個人工標注的測試集。第一個叫SEA-VL VQA,包含約1100道視覺問答題,覆蓋馬來語、越南語、泰語、印度尼西亞語、菲律賓語、泰米爾語、高棉語、中文、緬甸語共9種語言,所有題目都由母語使用者創作,并經過兩位額外的母語使用者審核。題目要求緊密結合圖像中的文化元素,比如傳統服飾、本地美食、宗教習俗、建筑風格,而不是泛泛的"圖中有什么"這類通用問題。第二個叫SEA AYA,是將Aya Vision Benchmark中的135道視覺語言題目翻譯成6種東南亞語言(泰語、馬來語、菲律賓語、泰米爾語、中文、緬甸語),覆蓋圖像描述、圖表理解、視覺推理等9種任務類型。
五、實驗結果:小改動,大效果
實驗結果驗證了GG-EZ方法的有效性,但也揭示了一些出人意料的細節。
在大規模視覺語言模型方面,未經過模型合并的純微調版本SEA-Gemma-3表現呈現出矛盾的特征。在專門針對東南亞文化的SEAVQA測試中,它的得分從41.0提升到41.9,顯示出對區域文化有所掌握。然而,在更通用的CVQA和WorldCuisine測試中,它的表現卻大幅下滑,CVQA均分從67.2跌至35.6,WorldCuisine從59.8跌至48.5。這正是"災難性遺忘"的體現——專攻東南亞之后,它在更廣泛的文化理解上退步了。
加入模型合并之后,情況發生了戲劇性的改變。將10%的區域微調模型與90%的原始Gemma-3合并后(即SEA-Gemma-3 10%),模型在所有指標上都超過了原始Gemma-3:全球通用表現從63.5提升到64.4,東南亞專項表現從56.3提升到63.8,綜合的"全球-區域平衡分"(GRP分)從59.4提升到64.1。這相當于用僅僅10%的區域知識"點綴",就讓模型既保住了全球能力,又獲得了東南亞文化加持。
5%合并比例(SEA-Gemma-3 5%)也展現了相似的提升,GRP分達到64.0。而50%和70%的合并比例則出現了不同程度的整體下滑,說明區域知識的比例并非越多越好,過多的區域專項訓練會在全球表現上造成損失,合并比例需要仔細調整。
人工評估的結果提供了更細膩的視角。評估者(每種語言均為母語使用者)對三個模型的回答進行了排名:SEA-Gemma-3(無合并)在東南亞語言中整體排名最高,尤其在菲律賓語(2.75分)、印度尼西亞語(2.29分)、泰語(2.33分)方面表現出色,證明純區域微調確實讓模型在本地語言上更接地氣。而原始Gemma-3在全球任務上依然最強(2.54分)。SEA-Gemma-3 10%則在越南語(2.61分,最高)和馬來語(2.25分)方面取得最佳,綜合GRP分為2.31,高于原始Gemma-3的2.29,在全球表現(2.42分)略低于原版的情況下,實現了整體最優的平衡。
在圖片生成模型方面,即便是沒有模型合并的純微調版SEA-SDXL,在通用圖像生成基準DPGBench上的總分也略有提升(從73.75升至74.32),這說明東南亞區域訓練對圖像生成質量沒有拖累。經過25%合并后的SEA-SDXL 25%,DPGBench總分達到74.75,是所有變體中最高的。在專門評估東南亞文化準確性的人工評估中,SEA-SDXL 25%在傳統服飾、地標建筑、本地美食三個維度的正確性和自然度上,全面超過了原始SDXL和純微調版SEA-SDXL。以椰漿飯為例,原始SDXL生成的圖片雖然也有白飯和雞蛋,但缺少黃瓜、花生和鳳尾魚這些關鍵配料;而SEA-SDXL 25%生成的圖片則包含了這些細節,更接近真實的馬來西亞椰漿飯。
在視覺語言嵌入模型方面,有一個值得關注的有趣現象:純微調的SEA-SigLIP2不僅在東南亞區域測試上超過了原始SigLIP2,甚至在非東南亞地區的測試上也有所提升。這可能意味著東南亞文化訓練數據中包含的視覺多樣性,對模型的整體理解能力有正向遷移作用。經過75%合并的SEA-SigLIP2 75%表現最為均衡,SEAVQA總分29.66,在印度尼西亞(30.05)和越南(28.75)數據上創下最高分,同時全球CVQA分依然保持在27.12的較高水準,綜合GRP分達到27.96,遠超原始模型的25.17。
六、數據配方的學問:并非越多越好
研究者們對數據配方做了一系列細致的消融實驗,結果揭示了一個重要教訓:在AI訓練中,數據的質量和形式比數量更重要。
基準數據集是將MAmmoTH-VL指令數據翻譯成10種東南亞語言(共約25萬條數據)的完整版本,在SEA-VQA測試中得到39.6分。當研究者嘗試只使用其中20%的數據時,分數驟降至13.0分,下滑幅度超過70%,證明數據規模是基礎保障,不能隨意壓縮。
接下來,研究者在基準數據集的基礎上,分別加入了不同類型的額外文化數據,結果大相徑庭。加入CulturalGround數據集(來自斯坦福大學與卡內基梅隆大學合作構建的多文化圖文數據集)的開放式問答版本,分數從39.6升至41.9,帶來了溫和但積極的提升。然而,加入同一數據集的多項選擇題版本,分數卻大幅下滑至21.6——同樣的圖片,只是換了問題形式,效果竟然完全相反!研究者認為,多項選擇題的格式可能與預訓練時使用的問答格式存在沖突,導致模型混淆。
加入WorldCuisine美食數據集的結果同樣令人意外:分數降至30.4,比基準還低。研究者的解釋是,WorldCuisine專注于食物識別這一個細分領域,過于單一的訓練數據使模型的注意力過度集中在菜肴上,反而削弱了它對其他文化元素(如地標、傳統習俗、歷史文化)的理解能力。
這個發現的實踐意義在于:在區域適配過程中,不能簡單地"往鍋里扔越多食材越好",而要精心考量每種數據的類型、格式、領域覆蓋范圍,以及它們與目標任務的匹配程度。
七、全球化因子的深層意義:AI也需要與時俱進
研究中還有一個常被忽視但頗具哲學深度的討論:如何決定一個模型應該在多大程度上"入鄉隨俗",在多大程度上保持"全球視野"?
研究團隊的答案是,這不應該是一個固定的主觀判斷,而應該反映目標區域的實際社會狀態。他們展示了一組全球各地區從1993年到2023年的KOF全球化指數變化曲線。歐洲和中亞地區的全球化指數始終最高,穩定在70分以上;北美緊隨其后;東南亞從1993年的36分穩步上升到2023年的43分;南亞和撒哈拉以南非洲則相對滯后。
從實際操作角度來看,α值的設置對模型的最終效果有顯著影響。實驗顯示,在不同α值下,三個模型(原始Gemma-3、SEA-Gemma-3 10%和SEA-Gemma-3無合并版)的GRP分排名會發生變化。當α接近0時,純區域微調模型占優;當α接近1時,原始全球模型占優;而在α=0.43附近,SEA-Gemma-3 10%取得了最高的GRP分。這說明,如果你用一個不符合目標區域實際全球化程度的α值來評估模型,很可能得出錯誤的結論。
隨著全球化指數隨時間變化,評估模型的標準也應該動態調整。研究團隊認為,這種與社會現實掛鉤的動態評估體系,比任何靜態的主觀設定都更具科學性。
歸根結底,這項研究解決的其實是一個關于"包容性"的問題:全球化的AI技術不能只服務于數字富裕地區的用戶,也應該能夠理解和服務于那些文化獨特、語言多樣的地區。GG-EZ證明了這件事不需要從頭開發一個全新的模型,只需要對現有強大模型進行精心的"文化改造",就能讓它既保持全球競爭力,又獲得對特定地區的深刻理解。
更重要的是,這套方法是架構無關的——無論是文字問答模型、圖片生成模型還是圖文匹配模型,GG-EZ都能派上用場。這意味著它具有廣泛的推廣潛力,未來可以用于非洲、南亞、中東等其他代表性不足的地區,幫助更多人獲得真正"懂自己文化"的AI服務。
當然,研究也存在一些局限和尚待探索的方向。模型合并的最優β值在不同架構之間存在差異(VLM的最優值約為10%,Embed模型約為75%,擴散模型約為25%),目前還沒有一個能自動預測最優β的通用方法。此外,實驗主要集中在東南亞地區,方法在其他區域的效果仍有待驗證。對于感興趣的讀者,可以通過arXiv:2604.11490獲取完整論文,研究團隊也在Hugging Face上公開了所有訓練數據、評估數據集和模型權重,供研究者直接使用和進一步探索。
Q&A
Q1:GG-EZ方法的兩個步驟分別是什么,為什么需要模型合并?
A:GG-EZ分兩步走。第一步是用地理過濾器和質量評分模型,從海量數據中篩選出高質量的區域文化數據,同時把英語數據翻譯成目標語言。第二步是先用這些數據對全球模型進行微調,再把微調后的區域模型和原始全球模型按比例線性融合。模型合并的必要性在于,純微調往往會讓模型"忘記"原本掌握的通用能力,合并能把區域知識和全球知識同時保留在模型里。
Q2:全球化因子α=0.43是怎么確定的,為什么不直接用固定值?
A:α的值來源于2023年KOF全球化指數中東南亞各國"事實人際交往"分項的平均值。選擇這個指數而非固定值,是因為它能客觀反映一個地區與全球社會的實際融合程度——全球化程度高的地區(如新加坡)應該更注重保持全球通用能力,而全球化程度低的地區可以更側重本地文化。此外,全球化指數會隨時間變化,評估標準也能隨之動態更新,避免了主觀判斷帶來的偏差。
Q3:為什么加入更多東南亞文化數據反而會讓模型變差?
A:研究發現,不是所有數據都有正向效果。加入同一數據集的多項選擇題版本會拖累模型,可能是因為格式與預訓練產生沖突。加入專門的美食識別數據集WorldCuisine后,模型過于專注食物識別,反而削弱了對地標、傳統服飾、歷史文化等其他方面的理解。這說明區域數據的類型、格式、領域覆蓋范圍都需要精心設計,盲目堆砌數據會適得其反。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.