<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      TTS也要真人感!首個字級內容、毫秒級停頓控制的語音合成系統

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】語音合成這兩年發展迅速:把一段話順順當當地念完,已經不算難事;難的是該慢的時候慢,該頓的時候頓,該強調的時候真能把重點托出來。

      語音合成這些年最明顯的進展,是越來越會模擬真人輸出語音。

      自然度更高了,聲音更像真人了,零樣本克隆也越來越成熟了。可一旦要求模型別再只是平著往下讀,而是對一句話內部的節奏做有選擇的安排,問題就暴露出來了。很多系統能做到整體變快、整體變慢,也能給整段話套一個風格標簽,但真到關鍵位置,往往還是一起變,很難做到只改重點區域。

      而產品場景里,用戶在意的常常就是只改重點區域。

      驗證碼播報里,數字之間要不要刻意拉開;導航播報里,動作信息要不要被單獨頂出來;教學糾音里,兩個容易混淆的詞能不能被故意說出差別;劇情化表達里,結尾那個關鍵詞之前能不能多留半拍。這些需求都不是靠整句降速就能混過去的。

      華南理工最新工作MAGIC-TTS首次把字級時長和邊界停連同時拉到 token 級,做成了局部可控的語音生成能力。


      論文鏈接: https://arxiv.org/abs/2604.21164v1

      代碼鏈接: https://github.com/yongaifadian1/MAGIC-TTS/tree/main

      演示鏈接: https://yongaifadian1.github.io/MAGIC-TTS/

      所以,這篇工作真正值得看的點在于它在把一件以前很難穩定實現的能力往前推:讓模型不只是會發聲,還開始會安排一句話內部的節奏,同時不犧牲合成質量和克隆語音的相似程度。

      如果把MAGIC-TTS放回真實使用場景里看,它最先改動的,其實是三類任務。

      第一類,是高辨識播報。

      這一類任務的核心不是更自然,而是更不容易聽錯。論文里拿了驗證碼播報做例子。作者先給整句內容設置均勻時長,再刻意把中間分組的停頓拉開,最后進一步把數字本身也放慢。這樣做的結果不是簡單的整句慢下來,而是用戶先聽清分組,再聽清每個數字。換到產品里,這種處理顯然不只適用于驗證碼,還適用于訂單號、取件碼、地址、藥品名這類高辨識內容。

      地鐵播報也是同一路數。作者沒有讓整句一起拖慢,而是把站點出現前的停連做得更明顯,同時把真正需要乘客注意的站名壓得更重一些。對這類高實時任務來說,節奏是否準確,很多時候比聲音是否足夠像真人更有價值。

      第二類,是教學和糾錯。

      論文里給出的案例是英文近音詞糾正。作者通過縮短前一個詞、拉長后一個詞,并在糾正關系出現前加入短暫停頓,讓兩者之間的差異不再糊成一團。這個例子最關鍵的地方,不是能合成英文,而是模型開始能利用節奏本身去幫助區分語義關系。

      這類能力一旦成熟,對外語學習、兒童跟讀、口語訓練會很直接。因為教學場景需要的從來不是一臺平鋪直敘的朗讀器,而是一個能把差異做出來、把重點放出來的示范系統。

      第三類,是表達型語音。

      論文還展示了一個戲劇化場景:在句尾關鍵詞出現之前先留一小段空白,再把最后那個詞拉開。這個動作非常小,但聽感會一下從把句子讀完變成把情緒送出來。也就是說,局部節奏控制影響的不只是信息清晰度,還會開始影響敘事張力和表現力。

      過去,這類處理通常被認為屬于真人配音、導演調度或者后期剪輯的領地。現在,TTS 也開始往這個方向摸了。

      為什么這件事早就該有

      卻一直很難真正落地

      第一,整句控制和句內控制,根本不是一回事。讓一整段話慢一點,本質上還是全局調節;但讓某個詞多占幾十毫秒、讓某個邊界多留一段停頓,要求的是模型在局部位置精確地重新分配時間。

      第二,停頓和字時長也不是同一種難度。停頓更接近邊界留白,內容時長則直接涉及 token 內部的聲學展開。前者像在內容之間插空,后者則是改內容本身怎么展開。真正難啃的是后者。

      第三,局部控制越細,對訓練時的監督邊界越苛刻。假如在訓練中,一個 token 的起止位置本來就不穩,那么后面在推理時不管是要拉長它,還是要在它后面加停頓,都會變成一件漂浮不定的事。

      所以,這類問題真正卡住行業的,往往不是有沒有想法,而是能不能把它做成一個不會穩定的,可以應用在真實場景的模型。

      方法

      從方法上看,MAGIC-TTS 真正抓住的,是三個更底層的環節


      第一,是把一句話里的兩種時間因素拆開。

      這篇工作沒有再把節奏當成一個模糊的整體感覺去學,而是明確地區分每一個詞要占多久和每一個詞之后要停多久。前者對應 token 本身的展開長度,后者對應邊界停頓。把這兩件事拆開,等于承認了一句自然語音的節奏,本來就不是一個總時長數字能夠概括的。

      第二,是先把每個詞的邊界監督校準。

      論文里一個很關鍵的工程步驟,是先用 Stable-ts 在總時長為3萬小時大規模語音上構造 token 級時序標簽進行持續預訓練,再用 Stable-ts 和 MFA 做交叉驗證,篩掉不可靠樣本。最終留下來的高置信度子集總時長 230.72 小時,進行精細指令微調。這個步驟決定了后面的控制是不是建在堅實的基礎上。如果邊界不準,所有精細調節都會被噪聲吞掉。

      第三,是解決停頓控制會不會污染內容控制。

      這篇工作的一個現實問題:模型為每個位置都編碼了內容控制殘差和停頓殘差,但關鍵是,不是每個位置都應該有停頓,對于自然語音,大多數時候句子內的字都是黏連在一起發聲,因此很多位置的停頓殘差天然就該是 0。

      但是如果模型單純采用MLP去編碼停頓殘差,這會導致如果模型將這些不存在的停頓都編碼成有偏信號,整句里就會不斷積累無意義干擾,最后把更難學的內容時長控制的影響削弱。論文里的零值校正,本質上就是在處理這個問題:該沒有影響的時候,就盡量真的沒有影響。

      與此同時,作者還專門做了缺失控制魯棒性訓練。原因很現實,用戶不可能每次都給整句配一套精細時序。如果一個系統只有在滿配控制條件下才表現好,那它就更像實驗演示,而不是實際能力。把默認合成和局部調節同時保住,才更接近真正可用的方向。

      最值得看的證據,不只是會不會停,而是能不能穩穩地控字。

      這篇論文的數據結果里,最重要的其實不是停頓,而是內容時長。

      在顯式給出token級內容時長和停頓條件之后,每個字的內容時長 MAE(平均絕對誤差) 從36.88ms 降到了10.56 ms,相關性從0.588提升到0.918。停頓方面,MAE從18.92 ms 降到8.32ms,相關性從0.283提升到0.793。

      為什么說內容時長更關鍵?因為會停一下相對容易理解,也更容易被實現成邊界層面的動作;但把這個 token 本身說得更長一點、又不把整句帶壞,難度明顯更高。也正因為如此,內容時長指標的大幅提升,比單純的停頓跟隨更能說明問題。

      應用場景

      如果這條路線跑通,最先吃到紅利的那幾類產品

      最先受益的,還是那些聽錯一個字都麻煩的場景。

      高辨識播報會是第一批,包括驗證碼、訂單號、地址、藥品名、導航、車載播報。比起聲音不擬人,這些地方最怕的是信息沒聽清。過去很多系統只能靠整句放慢來保底,但那往往會犧牲效率,且對于重點的突出效果不是那么好;如果節奏能局部編排,系統就能把該重點聽的地方單獨拉出來。

      第二批會是教學糾音。兒童跟讀、外語學習、示范式朗讀,都更需要一個會示范差異的系統,而不是一個把文本順著念完的系統。誰能把停連、重音、對比關系更清楚地演示出來,誰在這一類產品里就更有優勢。

      再往后,是表達型語音。數字人、劇情化配音、音頻內容生成、故事講述,這些方向對局部節奏的要求更高,但一旦能力成熟,帶來的產品觀感提升也會更明顯。

      小結

      MAGIC-TTS的核心價值在于把語音合成從「把話念自然」推進到「能精細安排句內節奏」,如何同時控制 token 級字時長和邊界停頓,讓現實應用場景中的重點內容被更清楚、更有表現力地說出來,是下一階段要重視的問題。

      參考資料:

      https://arxiv.org/abs/2604.21164

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      瀟拾億郎
      2026-05-12 18:03:02
      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      深度報
      2026-05-10 22:38:11
      出大事了!美國兩大行強行凍結中企4000萬,中企硬核反擊,太解氣

      出大事了!美國兩大行強行凍結中企4000萬,中企硬核反擊,太解氣

      霽寒飄雪
      2026-05-12 16:48:12
      中美關系的潛力、張力、角力|閻學通:戰略競爭對手也不應放棄對話的方式

      中美關系的潛力、張力、角力|閻學通:戰略競爭對手也不應放棄對話的方式

      澎湃新聞
      2026-05-12 17:04:26
      2026年最強反腐已來了 , 中紀委:害群之馬將清除到底!

      2026年最強反腐已來了 , 中紀委:害群之馬將清除到底!

      細說職場
      2026-05-11 18:50:29
      創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

      創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

      界面新聞
      2026-05-12 11:58:06
      上海大學通報“院長蘇某某論文被舉報數據造假”:已成立調查組,啟動調查程序 ,將根據調查情況嚴肅認真處理

      上海大學通報“院長蘇某某論文被舉報數據造假”:已成立調查組,啟動調查程序 ,將根據調查情況嚴肅認真處理

      魯中晨報
      2026-05-12 16:54:06
      突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

      突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

      每日經濟新聞
      2026-05-12 17:45:51
      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      真的好愛你
      2026-05-12 06:49:30
      普京已經開始絕望:戰爭發生轉折了

      普京已經開始絕望:戰爭發生轉折了

      黔有虎
      2026-05-11 20:02:09
      特斯拉宣布停產,震驚全網!

      特斯拉宣布停產,震驚全網!

      財經三分鐘pro
      2026-05-12 15:10:58
      23歲男子自帶挖掘機為社區修路墜崖身亡 家屬與社區就“工亡”認定未達一致 律師解讀分歧

      23歲男子自帶挖掘機為社區修路墜崖身亡 家屬與社區就“工亡”認定未達一致 律師解讀分歧

      封面新聞
      2026-05-12 20:32:02
      宇樹發布GD01載人變形機甲 定價390萬元起

      宇樹發布GD01載人變形機甲 定價390萬元起

      財聯社
      2026-05-12 12:27:07
      痛心!青海17歲女生遺體已找到,凌晨復印試卷家長無視讓人意難平

      痛心!青海17歲女生遺體已找到,凌晨復印試卷家長無視讓人意難平

      社會日日鮮
      2026-05-12 08:03:00
      中國在美伊開戰后石油日進口減少25%,但庫存創新高,還將部分石油出售

      中國在美伊開戰后石油日進口減少25%,但庫存創新高,還將部分石油出售

      爆角追蹤
      2026-05-12 09:20:42
      這和不穿有啥區別?內衣外穿,趙露思演唱會“辣眼”穿搭,被眾嘲

      這和不穿有啥區別?內衣外穿,趙露思演唱會“辣眼”穿搭,被眾嘲

      以茶帶書
      2026-05-11 23:15:37
      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      奇思妙想草葉君
      2026-05-12 02:14:56
      央視與國際足聯談判破裂,越南1500萬購中國8000萬嫌貴

      央視與國際足聯談判破裂,越南1500萬購中國8000萬嫌貴

      無意爭春
      2026-05-12 12:24:43
      北京地下城重新向市民開放!免費!地址——

      北京地下城重新向市民開放!免費!地址——

      首都之窗
      2026-05-12 18:55:37
      女生索要13天工資被老板辱罵“傻不拉幾”,街道辦回應:已告知單位離職5日內結清

      女生索要13天工資被老板辱罵“傻不拉幾”,街道辦回應:已告知單位離職5日內結清

      瀟湘晨報
      2026-05-12 19:43:44
      2026-05-12 21:44:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15194文章數 66863關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      新電動車到手不足一月頻繁自動鎖死 老人被摔傷五六次

      頭條要聞

      新電動車到手不足一月頻繁自動鎖死 老人被摔傷五六次

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      教育
      時尚
      健康
      藝術
      本地

      教育要聞

      想進深圳體制內的中小學校?看完這3092人名單,我勸你先考研

      穿極簡風的夏天,是真高級!

      干細胞能讓人“返老還童”嗎

      藝術要聞

      這位畫家的油畫美人讓人驚嘆不已!

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲尤物视频在线观看| 洋洋av| 亚洲日韩av一区二区三区四区| 国产精品无需播放器在线播放| 国产亚洲欧美日本一二三本道 | 国产v片| 欧美屁股大的xxxxx| 国产人免费人成免费视频| 中文字幕一区二区三区久久蜜桃| 亚洲国产精品国自产拍A| 国产精品久久久久9999爆乳| 亚洲精品四区| 国产成a人亚洲精v品无码| 麻豆蜜桃在线观看| 精品熟女亚洲av在线观看| 色先锋av资源中文字幕| 日本少妇自慰免费完整版| 日本毛不卡免费| 亚洲青青草视频在线播放| 亚洲综合成人一区二区三区| 亚洲AV无码1区2区久久| 韩城市| 成人韩免费网站| 国产精品一区二区三区黄色| www.大熟女| 亚洲熟妇自偷自拍另欧美| 人人做人人妻人人精| 欧美国产日韩在线播放| 无码人妻av一区二区三区波多野 | 熟女爱V| 好想被狂躁无码视频在线字幕| 国产成人中文字幕精品在线| 国产精品无码人妻在线| 韩国美女av| 99视频精品全国免费品| 韩国三级网址| 精品亚洲国产成人av在线小说| 成人肏屄视频| 在线中文一区字幕对白| 国产av中文字幕| 国产永久免费高清在线播放|