云知聲 U2-ASR 2.5上線：首個(gè)中文方言語義轉(zhuǎn)寫大模型

2026-05-13 09:54:44　來源: DoNews

北京舉報(bào)

分享至

DoNews5月13日消息，云知聲今日正式推出首個(gè)中文方言語義轉(zhuǎn)寫大模型——U2-ASR 2.5，全面覆蓋七大方言體系，支持100種以上方言及地方口音識別轉(zhuǎn)寫，方言人口覆蓋率高達(dá)90%以上。

在此基礎(chǔ)上，模型進(jìn)一步打通“方言識別-語義還原-普通話表達(dá)”鏈路，支持將晦澀、口語化、地域化的方言表達(dá)轉(zhuǎn)化為規(guī)范、準(zhǔn)確、可理解的普通話文本，讓AI不只聽清方言，更能真正聽懂大江南北。

最新一輪評測中，U2-ASR 2.5交出了一份足夠硬核的方言識別成績：在自有工業(yè)級方言測試集上，山海·知音整體識別效果全面超越主流ASR模型，從北方方言到西南官話，從粵語到華中口音，其多項(xiàng)方言識別準(zhǔn)確率突破 90%：濟(jì)南話識別準(zhǔn)確率高達(dá) 96.2%，四川話達(dá)到94.7%，粵語達(dá)到 93.0%，武漢話達(dá)到 92.1%，充分驗(yàn)證了山海·知音在口音差異顯著、地域表達(dá)復(fù)雜、方言與普通話混合使用頻繁等挑戰(zhàn)性場景下，具備業(yè)內(nèi)領(lǐng)先的方言ASR基礎(chǔ)能力。

工業(yè)級測試集測試結(jié)果

與此同時(shí)，U2-ASR 2.5在通用中英文識別任務(wù)中同樣表現(xiàn)強(qiáng)勁：在 AISHELL、FLEURS、LibriSpeech、WenetSpeech Meeting、KeSpeech 等公開測試集上，模型持續(xù)取得優(yōu)異成績，其中AISHELL-1達(dá)到 99.2%，Libri Clean達(dá)到 98.4%，AISHELL-3達(dá)到 98.4%。這意味著，模型并不是在通用ASR能力之外簡單疊加方言識別，而是在扎實(shí)的中英文語音識別底座上，進(jìn)一步向方言這一高難場景拓展。

中英文公開測試集測試結(jié)果

而此次升級的關(guān)鍵突破在于，在完成方言語音轉(zhuǎn)寫的基礎(chǔ)上，模型進(jìn)一步引入方言詞義映射、上下文意圖識別與普通話語義還原能力，能夠?qū)⒒逎⒖谡Z化、地域化的方言表達(dá)，轉(zhuǎn)化為更規(guī)范、更準(zhǔn)確、更易理解的普通話文本。

方言識別之所以難，是因?yàn)樗鎸Φ牟皇且惶讟?biāo)準(zhǔn)化語言，而是真實(shí)世界中極其復(fù)雜的聲音樣本和表達(dá)方式。不同地區(qū)、不同年齡、不同語境下，同一種方言都可能存在明顯差異；同一個(gè)詞，在不同地方可能發(fā)音不同、寫法不同、含義也不同。

再疊加錄音設(shè)備差異、環(huán)境噪聲、語速變化、方普混說等因素，方言ASR從一開始就不是簡單的語音轉(zhuǎn)文字任務(wù)，而是一項(xiàng)系統(tǒng)性的語音理解工程。

針對這一工程挑戰(zhàn)，U2-ASR 2.5圍繞數(shù)據(jù)、解碼與語義理解三條關(guān)鍵鏈路進(jìn)行了系統(tǒng)性優(yōu)化：數(shù)據(jù)：先把真實(shí)世界的聲音教給模型方言識別的難點(diǎn)，往往不在模型本身，而在數(shù)據(jù)。相比普通話語料，方言數(shù)據(jù)天然面臨樣本分散、錄音條件不一、轉(zhuǎn)寫標(biāo)準(zhǔn)不統(tǒng)一，以及同音異形、借詞混說更頻繁等問題。

在真實(shí)業(yè)務(wù)中，模型不僅要識別得準(zhǔn)，還要在噪聲、設(shè)備差異、多語音并發(fā)、長時(shí)間運(yùn)行等復(fù)雜條件下保持穩(wěn)定。云知聲更關(guān)注的，正是語音能力能否從實(shí)驗(yàn)室測試走向工業(yè)級落地。

圍繞這一目標(biāo)，U2-ASR 2.5構(gòu)建了貫穿前端信號處理、模型適配、熱詞增強(qiáng)、推理優(yōu)化與后端糾錯(cuò)的全鏈路工程化體系，讓方言識別不僅“分?jǐn)?shù)高”，更能“用得穩(wěn)”。

高識別率：先贏在準(zhǔn)確率，再贏下復(fù)雜場景

在方言語音識別中，準(zhǔn)確率不僅取決于模型是否“聽見”方言，更取決于其能否在口音差異、方普混說、口語化表達(dá)等復(fù)雜輸入中穩(wěn)定理解用戶意圖。

從官話、晉語到吳語、湘語，從贛語、閩語到客家話、粵語，U2-ASR 2.5 面向多類主要中文方言體系持續(xù)擴(kuò)展能力邊界，覆蓋南北多區(qū)域、多語系、多口音的真實(shí)表達(dá)場景，并在代表性體系樣本中展現(xiàn)出更穩(wěn)定、更準(zhǔn)確的方言識別能力，在自有工業(yè)級方言測試集上，其綜合識別表現(xiàn)整體領(lǐng)先主流ASR 模型。

工業(yè)級測試集測試結(jié)果

同時(shí)，U2-ASR 2.5在 AISHELL、LibriSpeech、FLEURS 等中英文公開測試集上同樣保持優(yōu)異表現(xiàn)，進(jìn)一步驗(yàn)證了其扎實(shí)的通用 ASR 底座能力。

中英文公開測試集測試結(jié)果

這意味著，U2-ASR 2.5不是只在單一方言上“刷高分”，而是在更廣泛、更復(fù)雜、更接近真實(shí)世界的語音場景中持續(xù)領(lǐng)先。它能覆蓋更豐富的地域表達(dá)，也能適應(yīng)更復(fù)雜的口音差異，讓方言語音識別從“可用”進(jìn)一步走向“好用”。

高噪識別：聽得懂夜市，也聽得懂醫(yī)院候診區(qū)

真實(shí)世界從來不是錄音棚。在早點(diǎn)攤、夜市、政務(wù)大廳、醫(yī)院候診區(qū)、客服中心等場景中，背景音復(fù)雜、說話人距離不一、多人聲音交疊，傳統(tǒng) ASR 模型很容易出現(xiàn)漏識、錯(cuò)識和語義斷裂。

U2-ASR 2.5在語音進(jìn)入模型前，通過多通道降噪、自適應(yīng)回聲消除與非穩(wěn)態(tài)噪聲優(yōu)化，對復(fù)雜聲學(xué)干擾進(jìn)行預(yù)處理，在壓制噪聲的同時(shí)盡可能保留有效語音信息。

同時(shí)，結(jié)合魯棒性建模與端點(diǎn)檢測優(yōu)化，模型能夠更準(zhǔn)確地捕捉有效語音，降低設(shè)備差異和環(huán)境噪聲帶來的影響。即使在高噪聲、高干擾的真實(shí)場景中，也能保持較高識別穩(wěn)定性。

專業(yè)增強(qiáng)：聽得懂方言，也聽得懂業(yè)務(wù)

在醫(yī)療、政務(wù)、客服等場景中，用戶表達(dá)往往不只是方言，還會夾雜大量專業(yè)詞匯、業(yè)務(wù)術(shù)語和專有名詞。云知聲支持熱詞動態(tài)注入與行業(yè)詞表適配，可針對醫(yī)療、政務(wù)、客服等專業(yè)場景，對高頻術(shù)語、專有名詞和業(yè)務(wù)關(guān)鍵詞進(jìn)行識別增強(qiáng)，降低誤識別概率，讓方言識別結(jié)果更貼近業(yè)務(wù)語義。這也是U2-ASR 2.5區(qū)別于普通ASR模型的重要能力：不僅懂語言，也懂場景。

低延遲響應(yīng)：識別更強(qiáng)，也要響應(yīng)更快

U2-ASR 2.5通過模型量化、算子融合、流式解碼與服務(wù)端并發(fā)調(diào)度優(yōu)化，壓縮推理鏈路，降低復(fù)雜方言識別帶來的計(jì)算開銷。同時(shí)，結(jié)合重打分與糾錯(cuò)機(jī)制，對人稱代詞混用、語氣詞誤識、口語化表達(dá)等細(xì)粒度問題進(jìn)行校驗(yàn)與修正，使輸出結(jié)果不僅更快，也更穩(wěn)定、更可用。

應(yīng)用場景：讓技術(shù)回歸

“人”的溫度在中國，方言依然是許多人日常交流中最自然、最熟悉的表達(dá)方式。尤其在政務(wù)、醫(yī)療、客服、適老化服務(wù)等場景中，語言習(xí)慣的差異，仍可能影響信息傳遞的效率與服務(wù)體驗(yàn)。

進(jìn)入大模型時(shí)代，語音交互不應(yīng)只適應(yīng)標(biāo)準(zhǔn)表達(dá)，也應(yīng)更好地理解真實(shí)人群的自然表達(dá)——智慧政務(wù)：在基層政務(wù)窗口、便民服務(wù)終端等場景中，群眾往往更習(xí)慣用方言表達(dá)訴求。

U2-ASR 2.5可幫助系統(tǒng)更準(zhǔn)確地理解方言表達(dá)，并轉(zhuǎn)化為規(guī)范、可處理的普通話文本，減少反復(fù)溝通帶來的理解成本，讓公共服務(wù)更自然地觸達(dá)不同地域用戶。

智慧醫(yī)療：在醫(yī)院導(dǎo)診、問診記錄、隨訪溝通等場景中，患者的口音、表達(dá)習(xí)慣和專業(yè)詞匯交織在一起，容易影響信息記錄與理解效率。通過抗噪聲優(yōu)化與醫(yī)療熱詞增強(qiáng)，U2-ASR 2.5可輔助系統(tǒng)更穩(wěn)定地識別患者主訴和關(guān)鍵信息，降低因口音差異帶來的溝通成本。

智慧金融保險(xiǎn)：在銀行、保險(xiǎn)、理賠等場景中，用戶表達(dá)往往包含方言口音、口語化描述、金融保險(xiǎn)術(shù)語與復(fù)雜業(yè)務(wù)信息，一旦關(guān)鍵信息識別不準(zhǔn)，就可能影響后續(xù)核驗(yàn)、審核與服務(wù)效率。

U2-ASR 2.5可結(jié)合方言識別、專業(yè)熱詞增強(qiáng)與語義理解能力，更穩(wěn)定地識別理賠、疾病名稱、賠付范圍、費(fèi)用明細(xì)等關(guān)鍵信息，并將口語化、方言化表達(dá)轉(zhuǎn)化為規(guī)范、可處理的普通話文本，增強(qiáng)理賠材料整理與風(fēng)險(xiǎn)審核等業(yè)務(wù)的準(zhǔn)確性、可追溯性與服務(wù)可信度。

智慧客服：在方言使用高頻區(qū)域，用戶并不總是愿意或能夠切換為標(biāo)準(zhǔn)普通話。面向熱線客服、智能外呼、智能坐席等場景，U2-ASR 2.5可支持更自然的方言表達(dá)識別，幫助客服系統(tǒng)更快理解用戶需求，減少重復(fù)確認(rèn)，提升服務(wù)效率與交互體驗(yàn)。

文旅與內(nèi)容創(chuàng)作： 在文旅宣推、紀(jì)錄片制作、地方文化記錄等場景中，大量真實(shí)、生動的方言素材往往難以被高效整理和傳播。U2-ASR 2.5可將方言語音轉(zhuǎn)化為更易理解、可編輯、可檢索的文本內(nèi)容，為地方文化傳播、非遺記錄和內(nèi)容生產(chǎn)提供新的技術(shù)支撐。

每一種方言，都是一套完整的意義系統(tǒng)，承載著當(dāng)?shù)氐纳罱?jīng)驗(yàn)與文化記憶。理解方言，不只是識別一段聲音，更是在復(fù)雜口音、混合表達(dá)與真實(shí)語境中，準(zhǔn)確捕捉用戶的意圖。此次上線U2-ASR 2.5，正是云知聲從“聽清”邁向“聽懂”的一次探索。

未來，云知聲將持續(xù)拓展方言語音能力，覆蓋更豐富的地域表達(dá)、更復(fù)雜的真實(shí)場景與更多元的人群需求，讓AI真正聽懂每一個(gè)人的自然表達(dá)。

目前，包含U2-ASR 、U2-TTS、U2-TTS-Clone在內(nèi)的山海·知音系列模型已全量上線云知聲Token Hub大模型服務(wù)平臺，開放標(biāo)準(zhǔn)API，支持一鍵接入、按需調(diào)用，按Token計(jì)費(fèi)，靈活可控。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.