<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      羅福莉又上分了!小米連甩4款模型,讓AI超逼真配音

      0
      分享至


      智東西
      作者 程茜
      編輯 心緣

      智東西4月24日報道,今天,小米MiMo-V2.5家族語音模型系列正式發(fā)布:MiMo-V2.5-TTS Series、MiMo-V2.5-ASR,前者可免費體驗,后者發(fā)布即開源。其中TTS Series包括語音、語音設(shè)計、語音克隆模型三款。


      就在昨天,小米MiMo官宣MiMo-V2.5中旗艦推理模型MiMo-V2.5、全模態(tài)Agent模型V2.5-Pro開啟公測、即將開源,再加上今天的4款語音模型,該系列共計6款模型。

      MiMo-V2.5-TTS Series包含三款模型:語音模型MiMo-V2.5-TTS、語音設(shè)計模型MiMo-V2.5-TTS-VoiceDesign、語音克隆模型MiMo-V2.5-TTS-VoiceClone,MiMo-V2.5-ASR是這些語音模型的聽覺基座,發(fā)布即開源。

      MiMo-V2.5-TTS的模型集成多款音色、支持一句話復刻音色、定制全新音色等。MiMo-V2.5-ASR則支持中英雙語、中文方言、強噪音、多說話人等復雜場景的語音識別。

      小米此次發(fā)布的幾大模型,均為智能體場景打造,其在官方文章里透露了幾大模型可以搭配使用的智能體式創(chuàng)作鏈路:用MiMo-V2.5-Pro作為規(guī)劃與編劇,拆任務(wù)、寫劇本、排節(jié)奏、決定剪輯順序;用MiMo-V2.5-TTS Series提供音色與素材,VoiceDesign生成音色、VoiceClone合成內(nèi)容;MiMo-V2.5扮演裁判,聽反饋的音頻中角色一不一致、節(jié)奏對不對、有沒有跟用戶初衷偏離。

      其放出了一條經(jīng)這一套鏈路生成的音頻:

      https://oss.zhidx.com/39b5545ddd0d31e4ca8895613acdeb2a/69ea4200/uploads/2026/04/69eb083e59674_69eb083e538e7_69eb083e538a1_Agent%E8%87%AA%E5%B7%B1%E5%81%9A%E9%9F%B3%E9%A2%91.mp3

      不過音頻中,有出現(xiàn)主人公邊說邊自己旁白的情況,且爺爺?shù)穆曇籼攸c并沒有在整個說話環(huán)節(jié)都保持一致,中間會突然背離需求的“嗓門啞、拖長音”,語氣突然變快等。

      小米MiMo大模型負責人是原DeepSeek核心成員、被業(yè)內(nèi)稱為“天才少女”的羅福莉,今天凌晨,她在社交平臺轉(zhuǎn)發(fā)了大語言模型智能體端到端透明基準測試框架Claw-Eval、香港應用科技大學博士生Lei Li的帖子,其帖子提到,MiMo V2.5 Pro目前在Claw-Eval排名第3,MiMo V2.5排5,接下來是DeepSeek V4嗎?


      雷軍昨日轉(zhuǎn)發(fā)了小米-V2.5系列發(fā)布微博,并配文“繼續(xù)進步!”


      語音模型均可以在MiMo-Studio免費體驗,面向開發(fā)者,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone均在Xiaomi MiMo API開放平臺限時免費提供。

      在開源方面,MiMo-V2.5-ASR目前已開源模型權(quán)重和代碼,MiMo-V2.5-TTS相關(guān)模型的接入Skill全面開源。

      MiMo-Studio 快速體驗地址:https://aistudio.xiaomimimo.com/#/c

      MiMo-V2.5-ASR開源地址:https://github.com/XiaomiMiMo/MiMo-V2.5-ASR

      MiMo-V2.5-TTS模型的接入Skill開源地址:https://github.com/XiaomiMiMo/MiMo-Skills

      一、三款語音模型+一款聽覺模型,小米為通用語音智能放大招

      MiMo-V2.5-TTS Series包含三款模型,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone。

      三款模型的相同之處在于,其擁有統(tǒng)一的風格指令遵循、音頻標簽控制與文本理解能力。

      不同之處在于針對的創(chuàng)作需求:

      MiMo-V2.5-TTS內(nèi)置多款音色,支持語速、情緒、語氣等精細化控制,開箱即用,能滿足多場景表達;MiMo-V2.5-TTS-VoiceDesign支持一句話快速定義并生成全新音色;MiMo-V2.5-TTS-VoiceClone能通過少量樣本高保真復刻目標音色,同時保持穩(wěn)定的風格指令遵循與音頻標簽控制能力。

      MiMo-V2.5-ASR發(fā)布即開源。根據(jù)小米官方信息,該模型在中英雙語、中文方言、Code-Switch、強噪音、多說話人等復雜真實場景下的語音識別性能達到業(yè)界領(lǐng)先水平。


      小米官方總結(jié)了這一模型的八大特點:

      中文方言:支持吳語、粵語、閩南語、四川話等方言;

      英文復雜場景:在AMI等復雜英文場景Open ASR Leaderboard上達到領(lǐng)先水平;

      Code-Switch:中英Code-Switch語音轉(zhuǎn)錄自由流暢,無需預設(shè)語種標簽;

      歌曲識別:中英文歌曲歌詞識別,在伴奏與人聲混合場景下保持高精度;

      強噪音場景:在高噪音、遠場拾音等復雜聲學環(huán)境中保持魯棒識別;

      多說話人:支持多人交叉對話場景的準確轉(zhuǎn)錄,如會議場景;

      強知識關(guān)聯(lián):古詩詞、專業(yè)術(shù)語、人名、地名等知識密集型內(nèi)容的精準識別;

      原生標點:結(jié)合語音韻律與語義原生輸出標點,轉(zhuǎn)寫結(jié)果即拿即用,無需后處理。

      其提到,對于智能體應用、內(nèi)容創(chuàng)作工具、會議系統(tǒng)、語音交互產(chǎn)品而言,MiMo-V2.5-ASR已經(jīng)在復雜真實世界語音中經(jīng)過驗證。

      二、導演劇本、音頻標簽都能看懂,沒需求只看音頻文本也能傳達情緒

      智東西實際體驗了MiMo-V2.5-TTS系列幾款模型的效果。

      首先是MiMo-V2.5-TTS,根據(jù)官方信息,該模型從情緒、語氣、語速、發(fā)聲方式到語言風格等多個維度,都能理解并遵循,其還可以支持導演劇本級的結(jié)構(gòu)化輸入:把人物、場景、詳細指導分層描述,各層按自己的節(jié)奏獨立更新、自由組合。

      智東西選擇了知性女聲,上傳的指令是“聲音輕柔舒緩,語速很慢,帶著安撫人心的溫度,說話時像在給客人遞一杯熱咖啡,語氣溫柔又有耐心,像開了幾十年書店的老板娘。”

      https://oss.zhidx.com/a5306e8f9755591888fa2c00afd53a59/69ea4200/uploads/2026/04/69eaca3a40aab_69eaca3a383b4_69eaca3a3836e_%E8%80%81%E6%9D%BF%E5%A8%98.wav

      生成的音頻中,老板娘說話整體語速偏慢、換氣舒緩,沒有急促感,字句之間留白自然,整體符合語言生成的需求。

      其次,除了自然語言指令,該模型還支持行內(nèi)音頻標簽,用于在文本特定位置精準控制情緒、狀態(tài)或風格。標簽支持中英雙語和開放文本描述,允許在同一段文本中靈活混用。

      智東西上傳了一段茶館說書人的音頻標簽文本,提示詞為

      (洪亮,開場)話說那江湖之上,有位少年俠客,仗劍走天涯。

      (壓低聲音,神秘)可誰也不知道,他腰間那把劍,藏著一段血海深仇。

      (拔高聲調(diào),激昂)今日,他終于要回來了!

      https://oss.zhidx.com/cd74afb87029babda1c37e2698debad5/69ea4200/uploads/2026/04/69eac916bcd9c_69eac916b13ce_69eac916b138a_%E8%AF%B4%E4%B9%A6.wav

      整體來看,音頻中的三句話都符合前面的音頻標簽特征,但每一句之間的銜接仍有優(yōu)化的空間,會出現(xiàn)聲音突然從高變低,又突然拔高的情況。

      最后是文本理解能力,即使用戶沒有上傳具體需求,模型也能根據(jù)文本判斷其中的韻律與情感,在音頻中表現(xiàn)出標點的停頓、句式的起伏等。

      官方提示詞為“Ten… nine… eight… seven… six… five… four… three… TWO… ONE… ZERO! LAUNCH! LAUNCH! WE HAVE LIFTOFF! GO GO GO! SHE’S CLIMBING! ALTITUDE 1,000… 5,000… 10,000 FEET AND CLIMBING! BEAUTIFUL! AB-SO-LUTE-LY BEAUTIFUL!”

      https://oss.zhidx.com/7200e145ca4c8a5e3dcd73cbf057b3d1/69ea4200/uploads/2026/04/69eb087415165_69eb087411e7a_69eb087411e40_%E5%80%92%E6%95%B0.mp3

      如上面這段提示詞,模型感知到文本的節(jié)奏逐漸加快,從倒計時階段的專業(yè)、冷靜到最后情緒爬升與贊嘆時,還原出了人物的情緒變化。

      三、無需參考音頻生成全新音色,還支持一句話復刻

      另外兩個是音色設(shè)計和克隆模型。

      音色設(shè)計模型MiMo-V2.5-TTS-VoiceDesign無需任何參考音頻,支持用戶通過自然語言描述從零生成一款全新音色。其可以自由使用年齡、性別、口音、音質(zhì)、發(fā)聲方式、性格氣質(zhì)等維度進行描述,模型即可合成對應的角色音色。

      智東西上傳的提示詞是“一位20多歲的女性,說南方軟語,聲線慵懶松弛,帶一點點剛睡醒的鼻音,她是深夜電臺主播念稿時尾音輕放,讀聽眾留言時會放柔語氣。”

      https://oss.zhidx.com/f227d7880cbaf01f32aad6d846507b03/69ea4200/uploads/2026/04/69eacc29cbba2_69eacc29bf53b_69eacc29bf501_1337854033_2ced17b706eea30cc90849ab71b278f3838974723809309239.wav

      生成的音頻確實聲線慵懶,聽起來是一位年輕女氣,但說話時仍然是普通話,沒有南方軟語的特征。其聲音為了刻意保持慵懶松弛,會在尾音時可以壓低聲音,會減弱松弛感。

      此外,小米官方給出了一段示例,其提示次是“一位年邁的老先生,說帶北方口音的普通話,語速緩慢而沉穩(wěn),嗓音略帶沙啞和滄桑感,仿佛一位飽經(jīng)風霜的老爺爺在講故事,充滿歲月的智慧”。

      https://oss.zhidx.com/c1310d41bf52d4015d21a4d3eaa5026e/69ea4200/uploads/2026/04/69eb08880113a_69eb0887f1a75_69eb0887f1a2c_getvoice.mp3

      音色克隆模型MiMo-V2.5-TTS-VoiceClone,用戶可以讓其復刻一位真人播客、配音演員、品牌代言人,或者用戶本人的聲音。

      其只需提供一段數(shù)秒的參考音頻,無需額外的訓練、標注或微調(diào)過程,復刻后的聲音可以保留原始說話人的音色身份,以及氣息、節(jié)奏、習慣性停頓等個人特征。

      小米放出的官方案例,用嚴肅、字正腔圓的新聞播報聲線,復刻了《康熙微服私訪記》中的一段經(jīng)典臺詞,極具反差感。

      https://oss.zhidx.com/491757d8d821845f15efc628eded3744/69ea4200/uploads/2026/04/69eb08a5eaa5a_69eb08a5e7519_69eb08a5e74df_getvoice-1.mp3

      其新音色的提示詞為“用尖銳刻薄的嗓音,帶著狐假虎威的得意感說話,在提到大人物的身份時故意放慢語速并加重語氣,營造壓迫感。”

      文本為“你以為我是誰,也敢在這兒跟我耍橫?我告訴你,站在我身后的那個人,說出來嚇死你——是當今的——萬歲爺!你今天要是不給我個說法,我讓你這鋪子明天就開不了門。”

      https://oss.zhidx.com/312f7cd291cf015feb9ca2caf4cd39ba/69ea4200/uploads/2026/04/69eb08b31a62a_69eb08b31714f_69eb08b317110_getvoice-2.mp3

      音頻中,音色與新聞播報的聲線保持一致,在說“萬歲爺”、“開不了門”等重點內(nèi)容時,還可以拉長聲線、加重語氣。

      結(jié)語:語音AI四大研發(fā)路線,打造真正通用語音智能

      小米公布了其下一步研發(fā)方向:

      1、更大規(guī)模的語音預訓練與強化學習后訓練:MiMo-V2.5-TTS-Series 證明了大規(guī)模預訓練與后訓練的巨大收益,擴大這兩者的規(guī)模:通過更多的數(shù)據(jù)、更大的模型、更強的算力,讓更強大的語音智能從規(guī)模中涌現(xiàn);更加精細的獎勵建模與強化學習算法,推動模型邁向更高階的語音表達智能。

      2、通用音頻生成:語音只是第一步,他們正在將能力擴展到更廣義的音頻生成:環(huán)境音效、動作聲、氛圍鋪底,乃至短樂句與旋律片段,逐步建模出一個完整的聲音世界。他們認為真正的通用音頻模型,不是把語音、音效、音樂簡單拼在一起,而是讓它們在同一套空間里彼此理解、協(xié)同創(chuàng)作。

      3、上下文理解能力:上下文理解意味著模型不再只是一個“逐句執(zhí)行的工具”,而是一個懂得故事語境的表達者。這是其邁向真正通用語音智能的關(guān)鍵一步。

      4、通用語音理解能力:他們的目標是,讓方言、噪音、中英混雜這些“真實世界的常態(tài)”不再成為語音識別的短板。未來,他們將持續(xù)擴展更多方言覆蓋、并深化上下文感知能力。


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      馬德里半決賽菲斯惹了最不該惹的人,外媒稱辛納或退羅馬賽

      馬德里半決賽菲斯惹了最不該惹的人,外媒稱辛納或退羅馬賽

      網(wǎng)球之家
      2026-05-01 22:39:21
      蔚來練就爆款秘籍:15.98萬起的樂道L80,讓市值一夜暴漲百億

      蔚來練就爆款秘籍:15.98萬起的樂道L80,讓市值一夜暴漲百億

      超電實驗室
      2026-04-29 18:39:51
      阿斯麥CEO:讓中國繼續(xù)落后,銷往中國光刻機落后尖端技術(shù)10年!

      阿斯麥CEO:讓中國繼續(xù)落后,銷往中國光刻機落后尖端技術(shù)10年!

      聊歷史的阿稼
      2026-04-30 19:39:20
      “富人才不會把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

      “富人才不會把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

      番外行
      2026-04-22 14:51:19
      34年后,《縱橫四海》憑什么還能收割票房?

      34年后,《縱橫四海》憑什么還能收割票房?

      閃存獵手
      2026-04-16 11:05:49
      斯諾克運動拯救者:奧沙利文并非不可或缺,我們從來不缺天才球員

      斯諾克運動拯救者:奧沙利文并非不可或缺,我們從來不缺天才球員

      楊華評論
      2026-05-01 22:18:39
      美國防部與7家AI公司達成協(xié)議

      美國防部與7家AI公司達成協(xié)議

      界面新聞
      2026-05-01 19:46:04
      “反向泡腳”最為危險?醫(yī)生:60歲以上老人,不能犯3個泡腳習慣

      “反向泡腳”最為危險?醫(yī)生:60歲以上老人,不能犯3個泡腳習慣

      芹姐說生活
      2026-05-01 22:13:44
      李澤楷做夢也想不到,為他連生3個兒子的梁洛施,會與馬浴柯戀愛

      李澤楷做夢也想不到,為他連生3個兒子的梁洛施,會與馬浴柯戀愛

      借你一生
      2026-05-01 14:58:29
      川航小姐姐,紅裙黑絲,太美了

      川航小姐姐,紅裙黑絲,太美了

      微微熱評
      2026-05-01 17:34:57
      南朝第一才子,被公開處決了

      南朝第一才子,被公開處決了

      最愛歷史
      2026-04-29 15:36:43
      張凌赫片場兩度倒地!低血糖只是借口?身高190cm體重曝光引眾怒

      張凌赫片場兩度倒地!低血糖只是借口?身高190cm體重曝光引眾怒

      白面書誏
      2026-04-29 19:18:48
      張?zhí)鞇圻@衣服拉太開了吧

      張?zhí)鞇圻@衣服拉太開了吧

      小椰的奶奶
      2026-04-28 08:47:57
      倒反天罡,鄭州女子被兩條狗咬到見骨,狗主補辦狗證,反過來索賠

      倒反天罡,鄭州女子被兩條狗咬到見骨,狗主補辦狗證,反過來索賠

      千言娛樂記
      2026-05-01 13:18:59
      荷蘭經(jīng)濟部長曾言:是我讓安世脫離中國,這一切全部為荷蘭與歐洲

      荷蘭經(jīng)濟部長曾言:是我讓安世脫離中國,這一切全部為荷蘭與歐洲

      真實世界
      2026-04-30 17:46:41
      查爾斯在美國國會說“基督教是精神支柱”,議員們?nèi)w鼓掌——但你真的聽懂了嗎?

      查爾斯在美國國會說“基督教是精神支柱”,議員們?nèi)w鼓掌——但你真的聽懂了嗎?

      守望的田野
      2026-04-30 17:42:53
      因凡蒂諾宣布參加下屆國際足聯(lián)主席選舉,若當選將成唯一連任四屆主席

      因凡蒂諾宣布參加下屆國際足聯(lián)主席選舉,若當選將成唯一連任四屆主席

      懂球帝
      2026-05-01 10:23:10
      62339人!大連梭魚灣刷新紀錄

      62339人!大連梭魚灣刷新紀錄

      半島晨報
      2026-05-01 22:27:26
      許家印案塵埃落定,幫他瞞天過海14年的審計巨頭栽了

      許家印案塵埃落定,幫他瞞天過海14年的審計巨頭栽了

      流蘇晚晴
      2026-05-01 20:40:19
      三觀炸裂!44歲李小璐五一曝美照,網(wǎng)友:像包容成龍一樣包容她

      三觀炸裂!44歲李小璐五一曝美照,網(wǎng)友:像包容成龍一樣包容她

      小叨娛樂
      2026-05-01 18:17:44
      2026-05-01 23:16:49
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
      11742文章數(shù) 117060關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek發(fā)布多模態(tài)論文又連夜刪除

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      頭條要聞

      8歲女孩跟隨鄰居長江游泳溺亡 鄰居曾抓住她又脫手

      體育要聞

      無奈!約基奇:這要在塞爾維亞 全隊早被炒了

      娛樂要聞

      馬筱梅產(chǎn)后身材恢復超好 現(xiàn)身戶外直播

      財經(jīng)要聞

      GPU神話松動,AI真正的戰(zhàn)場變了

      汽車要聞

      限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

      態(tài)度原創(chuàng)

      藝術(shù)
      手機
      房產(chǎn)
      數(shù)碼
      公開課

      藝術(shù)要聞

      砸20億,388米!2022年中國建成最高樓,就在深圳!

      手機要聞

      曝一加和realme合并,OPPO新成立子系列事業(yè)部

      房產(chǎn)要聞

      所有戶型全賣爆!海口TOP級豪宅,景觀樣板間五一全線開放!

      數(shù)碼要聞

      華碩官宣洛天依“出席”天選2026新品發(fā)布會,將有聯(lián)名新品

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 色综合色狠狠天天综合色| 国产日产韩国精品视频| 欧美黑人性暴力猛交喷水| 国产一区国产二区在线视频 | 亚洲精品国男人在线视频| 狠狠躁夜夜躁人人爽超碰97香蕉| 欧美成 人 网 站 免费| 特级做a爰片毛片免费看无码| 少妇人妻陈艳和黑人教练| 国产精品白丝久久AV网站| 一区二区三区午夜无码视频| 日韩欧美一区二区精品久久| 夜晚成人18禁区导航网站| 色欲综合久久中文字幕网| 亚洲乱码久久| 欧美777| 亚洲av本道一区二区三区四区 | 日韩精品中文女同在线播放| 色偷偷免费费视频在线| 国精产品自偷自偷ym使用方法| 中文字幕一区二区三区乱码不卡 | 久久精品视频91| 日产幕无线码三区在线| 人妻白浆| 国产精品无码一区二区桃花视频 | 成人一区二区免费中文字幕视频| 国产精品自拍视频第一页| 色色97| 特殊重囗味sm在线观看无码| 亚洲午夜精品一区二区蜜桃| 女人被强╳到高潮喷水在线观看 | 欧美性性性性性色大片免费的| 精品熟女视频专区| 亚洲群交| 在线天堂www在线国语对白| 亚洲综合成人一区二区三区| 亚洲18色大成www| 在线精品动漫一区二区无码| 爱豆传媒午夜福利| 久久精品人人做人人爽电影蜜月| 秋霞无码久久久精品|