今年1月,云知聲發(fā)布了山海·知音2.0,作為云知聲面向真實語音世界打造的旗艦語音大模型,其憑借全場景ASR、高擬人TTS與全雙工毫秒級響應三大核心能力,重新定義了人機交互的性能基準。
今天,歷經(jīng)多輪算法迭代與大規(guī)模地域語料的針對性訓練,山海·知音2.0完成新一輪能力升級,正式推出首個中文方言語義轉(zhuǎn)寫大模型——U2-ASR 2.5,全面覆蓋七大方言體系,支持100種以上方言及地方口音識別轉(zhuǎn)寫,方言人口覆蓋率高達90%以上。在此基礎上,模型進一步打通“方言識別-語義還原-普通話表達”鏈路,支持將晦澀、口語化、地域化的方言表達轉(zhuǎn)化為規(guī)范、準確、可理解的普通話文本,讓AI不只聽清方言,更能真正聽懂大江南北。
最新一輪評測中,U2-ASR 2.5交出了一份足夠硬核的方言識別成績:在自有工業(yè)級方言測試集上,山海·知音整體識別效果全面超越主流ASR模型,從北方方言到西南官話,從粵語到華中口音,其多項方言識別準確率突破 90%:濟南話識別準確率高達 96.2%,四川話達到94.7%,粵語達到 93.0%,武漢話達到 92.1%,充分驗證了山海·知音在口音差異顯著、地域表達復雜、方言與普通話混合使用頻繁等挑戰(zhàn)性場景下,具備業(yè)內(nèi)領先的方言ASR基礎能力。
![]()
工業(yè)級測試集測試結(jié)果
與此同時,U2-ASR 2.5在通用中英文識別任務中同樣表現(xiàn)強勁:在 AISHELL、FLEURS、LibriSpeech、WenetSpeech Meeting、KeSpeech 等公開測試集上,模型持續(xù)取得優(yōu)異成績,其中AISHELL-1達到 99.2%,Libri Clean達到 98.4%,AISHELL-3達到 98.4%。這意味著,模型并不是在通用ASR能力之外簡單疊加方言識別,而是在扎實的中英文語音識別底座上,進一步向方言這一高難場景拓展。
![]()
中英文公開測試集測試結(jié)果
而此次升級的關鍵突破在于,在完成方言語音轉(zhuǎn)寫的基礎上,模型進一步引入方言詞義映射、上下文意圖識別與普通話語義還原能力,能夠?qū)⒒逎⒖谡Z化、地域化的方言表達,轉(zhuǎn)化為更規(guī)范、更準確、更易理解的普通話文本。
01 技術解構:如何實現(xiàn)“方言通”?
方言識別之所以難,是因為它面對的不是一套標準化語言,而是真實世界中極其復雜的聲音樣本和表達方式。
不同地區(qū)、不同年齡、不同語境下,同一種方言都可能存在明顯差異;同一個詞,在不同地方可能發(fā)音不同、寫法不同、含義也不同。再疊加錄音設備差異、環(huán)境噪聲、語速變化、方普混說等因素,方言ASR從一開始就不是簡單的語音轉(zhuǎn)文字任務,而是一項系統(tǒng)性的語音理解工程。
針對這一工程挑戰(zhàn),U2-ASR 2.5圍繞數(shù)據(jù)、解碼與語義理解三條關鍵鏈路進行了系統(tǒng)性優(yōu)化:
● 數(shù)據(jù):先把真實世界的聲音教給模型
方言識別的難點,往往不在模型本身,而在數(shù)據(jù)。
相比普通話語料,方言數(shù)據(jù)天然面臨樣本分散、錄音條件不一、轉(zhuǎn)寫標準不統(tǒng)一,以及同音異形、借詞混說更頻繁等問題。圍繞這些挑戰(zhàn),我們構建了“真實數(shù)據(jù)收集+公開語料補充+半監(jiān)督擴增+人工校準”的數(shù)據(jù)治理閉環(huán),通過 VAD、降噪、去重、語段切分與置信度過濾等多環(huán)節(jié)處理,提升可訓練數(shù)據(jù)的純度與一致性,并結(jié)合語音合成與數(shù)據(jù)增強技術擴大樣本規(guī)模。
針對同一方言內(nèi)部“十里不同音”的現(xiàn)實,模型訓練不再按方言名稱做粗粒度劃分,而是在統(tǒng)一語音底座上,通過跨區(qū)域采樣與發(fā)音變體建模,讓模型學習可遷移的發(fā)音規(guī)律,而非依賴少數(shù)樣本的口音模板,從而在更大方言區(qū)間內(nèi)保持穩(wěn)定識別。
● 解碼:在混合語境中保持連續(xù)與穩(wěn)定
真實對話里,方言、普通話、英語往往不是分段出現(xiàn),而是以詞級、短語級形式交替穿插。為此,我們引入了更細粒度的語言邊界檢測,實現(xiàn)三大技術創(chuàng)新:
一是在模型輸入層引入語種邊界預測模塊,實時預判語種切換發(fā)生的時間點;二是設計了動態(tài)語種注意力機制,在解碼過程中根據(jù)當前語音特征自動調(diào)整對方言、普通話、英語三類語言模型的權重分配;三是構建了數(shù)萬小時級的語種切換語料庫,覆蓋常見的方言-普通話混合表達模式。
● 從聽清到聽懂:語義層能力升級
此次升級不僅停留在“聽清說了什么”,更進一步走向“理解在說什么”。
在完成方言語音轉(zhuǎn)寫的基礎上,我們通過方言詞義映射、上下文意圖識別以及多源知識融合,對原始表達進行語義還原,輸出更易理解的普通話文本。
這意味著,我們的大模型不只是逐字記錄方言內(nèi)容,而是能夠在保留原始表達的同時,對其進行規(guī)范化解釋,從而為后續(xù)的意圖理解、任務執(zhí)行等能力提供更清晰、可用的輸入基礎。
從這個角度看,U2-ASR 2.5不只是ASR模型的識別能力升級,更是語音理解能力的一次躍遷。
02 從“能識別”到“穩(wěn)識別”:方言語音的工程化挑戰(zhàn)
在真實業(yè)務中,模型不僅要識別得準,還要在噪聲、設備差異、多語音并發(fā)、長時間運行等復雜條件下保持穩(wěn)定。云知聲更關注的,正是語音能力能否從實驗室測試走向工業(yè)級落地。
圍繞這一目標,U2-ASR 2.5構建了貫穿前端信號處理、模型適配、熱詞增強、推理優(yōu)化與后端糾錯的全鏈路工程化體系,讓方言識別不僅“分數(shù)高”,更能“用得穩(wěn)”。
● 高識別率:先贏在準確率,再贏下復雜場景
在方言語音識別中,準確率不僅取決于模型是否“聽見”方言,更取決于其能否在口音差異、方普混說、口語化表達等復雜輸入中穩(wěn)定理解用戶意圖。
從官話、晉語到吳語、湘語,從贛語、閩語到客家話、粵語,U2-ASR 2.5 面向多類主要中文方言體系持續(xù)擴展能力邊界,覆蓋南北多區(qū)域、多語系、多口音的真實表達場景,并在代表性體系樣本中展現(xiàn)出更穩(wěn)定、更準確的方言識別能力,在自有工業(yè)級方言測試集上,其綜合識別表現(xiàn)整體領先主流ASR 模型。
![]()
工業(yè)級測試集測試結(jié)果
同時,U2-ASR 2.5在 AISHELL、LibriSpeech、FLEURS 等中英文公開測試集上同樣保持優(yōu)異表現(xiàn),進一步驗證了其扎實的通用 ASR 底座能力。
![]()
中英文公開測試集測試結(jié)果
這意味著,U2-ASR 2.5不是只在單一方言上“刷高分”,而是在更廣泛、更復雜、更接近真實世界的語音場景中持續(xù)領先。它能覆蓋更豐富的地域表達,也能適應更復雜的口音差異,讓方言語音識別從“可用”進一步走向“好用”。
● 高噪識別:聽得懂夜市,也聽得懂醫(yī)院候診區(qū)
真實世界從來不是錄音棚。在早點攤、夜市、政務大廳、醫(yī)院候診區(qū)、客服中心等場景中,背景音復雜、說話人距離不一、多人聲音交疊,傳統(tǒng) ASR 模型很容易出現(xiàn)漏識、錯識和語義斷裂。
U2-ASR 2.5在語音進入模型前,通過多通道降噪、自適應回聲消除與非穩(wěn)態(tài)噪聲優(yōu)化,對復雜聲學干擾進行預處理,在壓制噪聲的同時盡可能保留有效語音信息。同時,結(jié)合魯棒性建模與端點檢測優(yōu)化,模型能夠更準確地捕捉有效語音,降低設備差異和環(huán)境噪聲帶來的影響。即使在高噪聲、高干擾的真實場景中,也能保持較高識別穩(wěn)定性。
● 專業(yè)增強:聽得懂方言,也聽得懂業(yè)務
在醫(yī)療、政務、客服等場景中,用戶表達往往不只是方言,還會夾雜大量專業(yè)詞匯、業(yè)務術語和專有名詞。
云知聲支持熱詞動態(tài)注入與行業(yè)詞表適配,可針對醫(yī)療、政務、客服等專業(yè)場景,對高頻術語、專有名詞和業(yè)務關鍵詞進行識別增強,降低誤識別概率,讓方言識別結(jié)果更貼近業(yè)務語義。
這也是U2-ASR 2.5區(qū)別于普通ASR模型的重要能力:不僅懂語言,也懂場景。
● 低延遲響應:識別更強,也要響應更快
U2-ASR 2.5通過模型量化、算子融合、流式解碼與服務端并發(fā)調(diào)度優(yōu)化,壓縮推理鏈路,降低復雜方言識別帶來的計算開銷。同時,結(jié)合重打分與糾錯機制,對人稱代詞混用、語氣詞誤識、口語化表達等細粒度問題進行校驗與修正,使輸出結(jié)果不僅更快,也更穩(wěn)定、更可用。
03 應用場景:讓技術回歸“人”的溫度
在中國,方言依然是許多人日常交流中最自然、最熟悉的表達方式。尤其在政務、醫(yī)療、客服、適老化服務等場景中,語言習慣的差異,仍可能影響信息傳遞的效率與服務體驗。
進入大模型時代,語音交互不應只適應標準表達,也應更好地理解真實人群的自然表達——
智慧政務:在基層政務窗口、便民服務終端等場景中,群眾往往更習慣用方言表達訴求。U2-ASR 2.5可幫助系統(tǒng)更準確地理解方言表達,并轉(zhuǎn)化為規(guī)范、可處理的普通話文本,減少反復溝通帶來的理解成本,讓公共服務更自然地觸達不同地域用戶。
智慧醫(yī)療:在醫(yī)院導診、問診記錄、隨訪溝通等場景中,患者的口音、表達習慣和專業(yè)詞匯交織在一起,容易影響信息記錄與理解效率。通過抗噪聲優(yōu)化與醫(yī)療熱詞增強,U2-ASR 2.5可輔助系統(tǒng)更穩(wěn)定地識別患者主訴和關鍵信息,降低因口音差異帶來的溝通成本。
智慧金融保險:在銀行、保險、理賠等場景中,用戶表達往往包含方言口音、口語化描述、金融保險術語與復雜業(yè)務信息,一旦關鍵信息識別不準,就可能影響后續(xù)核驗、審核與服務效率。U2-ASR 2.5可結(jié)合方言識別、專業(yè)熱詞增強與語義理解能力,更穩(wěn)定地識別理賠、疾病名稱、賠付范圍、費用明細等關鍵信息,并將口語化、方言化表達轉(zhuǎn)化為規(guī)范、可處理的普通話文本,增強理賠材料整理與風險審核等業(yè)務的準確性、可追溯性與服務可信度。
智慧客服:在方言使用高頻區(qū)域,用戶并不總是愿意或能夠切換為標準普通話。面向熱線客服、智能外呼、智能坐席等場景,U2-ASR 2.5可支持更自然的方言表達識別,幫助客服系統(tǒng)更快理解用戶需求,減少重復確認,提升服務效率與交互體驗。
文旅與內(nèi)容創(chuàng)作:在文旅宣推、紀錄片制作、地方文化記錄等場景中,大量真實、生動的方言素材往往難以被高效整理和傳播。U2-ASR 2.5可將方言語音轉(zhuǎn)化為更易理解、可編輯、可檢索的文本內(nèi)容,為地方文化傳播、非遺記錄和內(nèi)容生產(chǎn)提供新的技術支撐。
每一種方言,都是一套完整的意義系統(tǒng),承載著當?shù)氐纳罱?jīng)驗與文化記憶。理解方言,不只是識別一段聲音,更是在復雜口音、混合表達與真實語境中,準確捕捉用戶的意圖。此次上線U2-ASR 2.5,正是云知聲從“聽清”邁向“聽懂”的一次探索。
未來,云知聲將持續(xù)拓展方言語音能力,覆蓋更豐富的地域表達、更復雜的真實場景與更多元的人群需求,讓AI真正聽懂每一個人的自然表達。
目前,包含U2-ASR 、U2-TTS、U2-TTS-Clone在內(nèi)的山海·知音系列模型已全量上線云知聲Token Hub大模型服務平臺,開放標準API,支持一鍵接入、按需調(diào)用,按Token計費,靈活可控。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.