小米開源覆蓋600多語言的語音克隆TTS模型OmniVoice

PANews 5月7日訊息,小米AI實驗室推出多語言語音克隆TTS模型OmniVoice,採用單一雙向Transformer極簡架構,支援646種語言語音合成,在中英文場景的合成品質和推理速度優於主流模型。該模型基於約58萬小時、50個開源資料集訓練,對低資源語種使用動態上採樣策略,在24種與102種語言測試中語音相似度和可懂度超越多款商用系統,部分指標接近甚至優於真實語音。 OmniVoice支援跨語言語音複製、自訂音色、帶噪參考音訊適配、副語言控制和發音糾錯,並已在Github和Huggingface等平台開源訓練、推理程式碼及模型權重。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
PANews APP
黃立成的帳戶餘額跌破100萬美元,自去年以來已累計虧損7,600萬美元
PANews 快訊