DoNews5月13日消息,云知聲今日正式推出首個(gè)中文方言語義轉(zhuǎn)寫大模型——U2-ASR 2.5,全面覆蓋七大方言體系,支持100種以上方言及地方口音識別轉(zhuǎn)寫,方言人口覆蓋率高達(dá)90%以上。
在此基礎(chǔ)上,模型進(jìn)一步打通“方言識別-語義還原-普通話表達(dá)”鏈路,支持將晦澀、口語化、地域化的方言表達(dá)轉(zhuǎn)化為規(guī)范、準(zhǔn)確、可理解的普通話文本,讓AI不只聽清方言,更能真正聽懂大江南北。
最新一輪評測中,U2-ASR 2.5交出了一份足夠硬核的方言識別成績:在自有工業(yè)級方言測試集上,山海·知音整體識別效果全面超越主流ASR模型,從北方方言到西南官話,從粵語到華中口音,其多項(xiàng)方言識別準(zhǔn)確率突破 90%:濟(jì)南話識別準(zhǔn)確率高達(dá) 96.2%,四川話達(dá)到94.7%,粵語達(dá)到 93.0%,武漢話達(dá)到 92.1%,充分驗(yàn)證了山海·知音在口音差異顯著、地域表達(dá)復(fù)雜、方言與普通話混合使用頻繁等挑戰(zhàn)性場景下,具備業(yè)內(nèi)領(lǐng)先的方言ASR基礎(chǔ)能力。
![]()
工業(yè)級測試集測試結(jié)果
與此同時(shí),U2-ASR 2.5在通用中英文識別任務(wù)中同樣表現(xiàn)強(qiáng)勁:在 AISHELL、FLEURS、LibriSpeech、WenetSpeech Meeting、KeSpeech 等公開測試集上,模型持續(xù)取得優(yōu)異成績,其中AISHELL-1達(dá)到 99.2%,Libri Clean達(dá)到 98.4%,AISHELL-3達(dá)到 98.4%。這意味著,模型并不是在通用ASR能力之外簡單疊加方言識別,而是在扎實(shí)的中英文語音識別底座上,進(jìn)一步向方言這一高難場景拓展。
![]()
中英文公開測試集測試結(jié)果
而此次升級的關(guān)鍵突破在于,在完成方言語音轉(zhuǎn)寫的基礎(chǔ)上,模型進(jìn)一步引入方言詞義映射、上下文意圖識別與普通話語義還原能力,能夠?qū)⒒逎⒖谡Z化、地域化的方言表達(dá),轉(zhuǎn)化為更規(guī)范、更準(zhǔn)確、更易理解的普通話文本。
方言識別之所以難,是因?yàn)樗鎸Φ牟皇且惶讟?biāo)準(zhǔn)化語言,而是真實(shí)世界中極其復(fù)雜的聲音樣本和表達(dá)方式。不同地區(qū)、不同年齡、不同語境下,同一種方言都可能存在明顯差異;同一個(gè)詞,在不同地方可能發(fā)音不同、寫法不同、含義也不同。
再疊加錄音設(shè)備差異、環(huán)境噪聲、語速變化、方普混說等因素,方言ASR從一開始就不是簡單的語音轉(zhuǎn)文字任務(wù),而是一項(xiàng)系統(tǒng)性的語音理解工程。
針對這一工程挑戰(zhàn),U2-ASR 2.5圍繞數(shù)據(jù)、解碼與語義理解三條關(guān)鍵鏈路進(jìn)行了系統(tǒng)性優(yōu)化:數(shù)據(jù):先把真實(shí)世界的聲音教給模型方言識別的難點(diǎn),往往不在模型本身,而在數(shù)據(jù)。相比普通話語料,方言數(shù)據(jù)天然面臨樣本分散、錄音條件不一、轉(zhuǎn)寫標(biāo)準(zhǔn)不統(tǒng)一,以及同音異形、借詞混說更頻繁等問題。
在真實(shí)業(yè)務(wù)中,模型不僅要識別得準(zhǔn),還要在噪聲、設(shè)備差異、多語音并發(fā)、長時(shí)間運(yùn)行等復(fù)雜條件下保持穩(wěn)定。云知聲更關(guān)注的,正是語音能力能否從實(shí)驗(yàn)室測試走向工業(yè)級落地。
圍繞這一目標(biāo),U2-ASR 2.5構(gòu)建了貫穿前端信號處理、模型適配、熱詞增強(qiáng)、推理優(yōu)化與后端糾錯(cuò)的全鏈路工程化體系,讓方言識別不僅“分?jǐn)?shù)高”,更能“用得穩(wěn)”。
高識別率:先贏在準(zhǔn)確率,再贏下復(fù)雜場景
在方言語音識別中,準(zhǔn)確率不僅取決于模型是否“聽見”方言,更取決于其能否在口音差異、方普混說、口語化表達(dá)等復(fù)雜輸入中穩(wěn)定理解用戶意圖。
從官話、晉語到吳語、湘語,從贛語、閩語到客家話、粵語,U2-ASR 2.5 面向多類主要中文方言體系持續(xù)擴(kuò)展能力邊界,覆蓋南北多區(qū)域、多語系、多口音的真實(shí)表達(dá)場景,并在代表性體系樣本中展現(xiàn)出更穩(wěn)定、更準(zhǔn)確的方言識別能力,在自有工業(yè)級方言測試集上,其綜合識別表現(xiàn)整體領(lǐng)先主流ASR 模型。
![]()
工業(yè)級測試集測試結(jié)果
同時(shí),U2-ASR 2.5在 AISHELL、LibriSpeech、FLEURS 等中英文公開測試集上同樣保持優(yōu)異表現(xiàn),進(jìn)一步驗(yàn)證了其扎實(shí)的通用 ASR 底座能力。
![]()
中英文公開測試集測試結(jié)果
這意味著,U2-ASR 2.5不是只在單一方言上“刷高分”,而是在更廣泛、更復(fù)雜、更接近真實(shí)世界的語音場景中持續(xù)領(lǐng)先。它能覆蓋更豐富的地域表達(dá),也能適應(yīng)更復(fù)雜的口音差異,讓方言語音識別從“可用”進(jìn)一步走向“好用”。
高噪識別:聽得懂夜市,也聽得懂醫(yī)院候診區(qū)
真實(shí)世界從來不是錄音棚。在早點(diǎn)攤、夜市、政務(wù)大廳、醫(yī)院候診區(qū)、客服中心等場景中,背景音復(fù)雜、說話人距離不一、多人聲音交疊,傳統(tǒng) ASR 模型很容易出現(xiàn)漏識、錯(cuò)識和語義斷裂。
U2-ASR 2.5在語音進(jìn)入模型前,通過多通道降噪、自適應(yīng)回聲消除與非穩(wěn)態(tài)噪聲優(yōu)化,對復(fù)雜聲學(xué)干擾進(jìn)行預(yù)處理,在壓制噪聲的同時(shí)盡可能保留有效語音信息。
同時(shí),結(jié)合魯棒性建模與端點(diǎn)檢測優(yōu)化,模型能夠更準(zhǔn)確地捕捉有效語音,降低設(shè)備差異和環(huán)境噪聲帶來的影響。即使在高噪聲、高干擾的真實(shí)場景中,也能保持較高識別穩(wěn)定性。
專業(yè)增強(qiáng):聽得懂方言,也聽得懂業(yè)務(wù)
在醫(yī)療、政務(wù)、客服等場景中,用戶表達(dá)往往不只是方言,還會夾雜大量專業(yè)詞匯、業(yè)務(wù)術(shù)語和專有名詞。云知聲支持熱詞動態(tài)注入與行業(yè)詞表適配,可針對醫(yī)療、政務(wù)、客服等專業(yè)場景,對高頻術(shù)語、專有名詞和業(yè)務(wù)關(guān)鍵詞進(jìn)行識別增強(qiáng),降低誤識別概率,讓方言識別結(jié)果更貼近業(yè)務(wù)語義。這也是U2-ASR 2.5區(qū)別于普通ASR模型的重要能力:不僅懂語言,也懂場景。
低延遲響應(yīng):識別更強(qiáng),也要響應(yīng)更快
U2-ASR 2.5通過模型量化、算子融合、流式解碼與服務(wù)端并發(fā)調(diào)度優(yōu)化,壓縮推理鏈路,降低復(fù)雜方言識別帶來的計(jì)算開銷。同時(shí),結(jié)合重打分與糾錯(cuò)機(jī)制,對人稱代詞混用、語氣詞誤識、口語化表達(dá)等細(xì)粒度問題進(jìn)行校驗(yàn)與修正,使輸出結(jié)果不僅更快,也更穩(wěn)定、更可用。
應(yīng)用場景:讓技術(shù)回歸
“人”的溫度在中國,方言依然是許多人日常交流中最自然、最熟悉的表達(dá)方式。尤其在政務(wù)、醫(yī)療、客服、適老化服務(wù)等場景中,語言習(xí)慣的差異,仍可能影響信息傳遞的效率與服務(wù)體驗(yàn)。
進(jìn)入大模型時(shí)代,語音交互不應(yīng)只適應(yīng)標(biāo)準(zhǔn)表達(dá),也應(yīng)更好地理解真實(shí)人群的自然表達(dá)——智慧政務(wù):在基層政務(wù)窗口、便民服務(wù)終端等場景中,群眾往往更習(xí)慣用方言表達(dá)訴求。
U2-ASR 2.5可幫助系統(tǒng)更準(zhǔn)確地理解方言表達(dá),并轉(zhuǎn)化為規(guī)范、可處理的普通話文本,減少反復(fù)溝通帶來的理解成本,讓公共服務(wù)更自然地觸達(dá)不同地域用戶。
智慧醫(yī)療:在醫(yī)院導(dǎo)診、問診記錄、隨訪溝通等場景中,患者的口音、表達(dá)習(xí)慣和專業(yè)詞匯交織在一起,容易影響信息記錄與理解效率。通過抗噪聲優(yōu)化與醫(yī)療熱詞增強(qiáng),U2-ASR 2.5可輔助系統(tǒng)更穩(wěn)定地識別患者主訴和關(guān)鍵信息,降低因口音差異帶來的溝通成本。
智慧金融保險(xiǎn):在銀行、保險(xiǎn)、理賠等場景中,用戶表達(dá)往往包含方言口音、口語化描述、金融保險(xiǎn)術(shù)語與復(fù)雜業(yè)務(wù)信息,一旦關(guān)鍵信息識別不準(zhǔn),就可能影響后續(xù)核驗(yàn)、審核與服務(wù)效率。
U2-ASR 2.5可結(jié)合方言識別、專業(yè)熱詞增強(qiáng)與語義理解能力,更穩(wěn)定地識別理賠、疾病名稱、賠付范圍、費(fèi)用明細(xì)等關(guān)鍵信息,并將口語化、方言化表達(dá)轉(zhuǎn)化為規(guī)范、可處理的普通話文本,增強(qiáng)理賠材料整理與風(fēng)險(xiǎn)審核等業(yè)務(wù)的準(zhǔn)確性、可追溯性與服務(wù)可信度。
智慧客服:在方言使用高頻區(qū)域,用戶并不總是愿意或能夠切換為標(biāo)準(zhǔn)普通話。面向熱線客服、智能外呼、智能坐席等場景,U2-ASR 2.5可支持更自然的方言表達(dá)識別,幫助客服系統(tǒng)更快理解用戶需求,減少重復(fù)確認(rèn),提升服務(wù)效率與交互體驗(yàn)。
文旅與內(nèi)容創(chuàng)作: 在文旅宣推、紀(jì)錄片制作、地方文化記錄等場景中,大量真實(shí)、生動的方言素材往往難以被高效整理和傳播。U2-ASR 2.5可將方言語音轉(zhuǎn)化為更易理解、可編輯、可檢索的文本內(nèi)容,為地方文化傳播、非遺記錄和內(nèi)容生產(chǎn)提供新的技術(shù)支撐。
每一種方言,都是一套完整的意義系統(tǒng),承載著當(dāng)?shù)氐纳罱?jīng)驗(yàn)與文化記憶。理解方言,不只是識別一段聲音,更是在復(fù)雜口音、混合表達(dá)與真實(shí)語境中,準(zhǔn)確捕捉用戶的意圖。此次上線U2-ASR 2.5,正是云知聲從“聽清”邁向“聽懂”的一次探索。
未來,云知聲將持續(xù)拓展方言語音能力,覆蓋更豐富的地域表達(dá)、更復(fù)雜的真實(shí)場景與更多元的人群需求,讓AI真正聽懂每一個(gè)人的自然表達(dá)。
目前,包含U2-ASR 、U2-TTS、U2-TTS-Clone在內(nèi)的山海·知音系列模型已全量上線云知聲Token Hub大模型服務(wù)平臺,開放標(biāo)準(zhǔn)API,支持一鍵接入、按需調(diào)用,按Token計(jì)費(fèi),靈活可控。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.