品玩5月6日訊,據 MarkteChpost 報道,Inworld AI正式發布語音模型Realtime TTS-2,通過閉環系統架構革新語音交互體驗。該模型突破傳統文本轉語音模式,可實時處理對話音頻,感知用戶語調、節奏及情感狀態,實現更自然的擬人化交流。
TTS-2集成四大核心功能:支持開發者通過自然語言提示精準調控語音表達;基于閉環架構實現對話語境感知,自動延續情感與語調;提供跨語言支持,同一聲音身份可無縫切換100多種語言;創新“高級語音設計”功能,僅需文本描述即可生成可復用語音,無需音頻樣本。
技術層面,模型通過單Websocket連接整合Realtime STT、路由器及TTS層,確保200毫秒內響應。其生成的語音包含自然停頓、語氣詞等擬人化特征,支持語音克隆,適配多場景應用。
此次發布標志著Inworld AI從音質競爭轉向行為層創新,Realtime TTS-2在Artificial Analysis Speech Arena中已位列榜首,展現其技術領先性。該產品將助力AI交互從機械對話邁向更具情感理解力的“類人溝通”時代。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.