品玩4月29日訊,Hugging Face 近日正式開源名為 smol-audio 的代碼庫,旨在為開發者提供一套完整的本地音頻模型二次開發與部署腳手架,助力前沿音頻模型的快速迭代與應用落地。
該工具庫內置完善的微調腳本,原生支持 Whisper、Parakeet、Voxtral 及 Granite Speech 等主流語音大模型,并針對 Audio Flamingo 3 提供了全量參數微調及 LoRA 參考微調的完整代碼實現。在應用層面,smol-audio 集成了 Dia-1.6B 對話級文本轉語音模型,并接入 Meta 的 PE-AV 模型,支持開箱即用的視頻與音頻到文本的雙向跨模態檢索功能。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.