PANews 5月7日訊息,小米AI實驗室推出多語言語音克隆TTS模型OmniVoice,採用單一雙向Transformer極簡架構,支援646種語言語音合成,在中英文場景的合成品質和推理速度優於主流模型。該模型基於約58萬小時、50個開源資料集訓練,對低資源語種使用動態上採樣策略,在24種與102種語言測試中語音相似度和可懂度超越多款商用系統,部分指標接近甚至優於真實語音。 OmniVoice支援跨語言語音複製、自訂音色、帶噪參考音訊適配、副語言控制和發音糾錯,並已在Github和Huggingface等平台開源訓練、推理程式碼及模型權重。
小米開源覆蓋600多語言的語音克隆TTS模型OmniVoice
分享至:
作者:PA一线
本內容只為提供市場資訊,不構成投資建議。
關注PANews官方賬號,一起穿越牛熊
推薦閱讀




