PANewsは5月7日、Xiaomi AI Labsが多言語音声クローニングTTSモデル「OmniVoice」を発表したと報じた。ミニマルなシングル双方向Transformerアーキテクチャを採用したこのモデルは、646言語での音声合成をサポートし、中国語と英語の両方のシナリオにおいて、合成品質と推論速度の両面で主流モデルを凌駕している。50のオープンソースデータセットから約58万時間分のデータで学習されたこのモデルは、リソースの少ない言語に対して動的なアップサンプリング戦略を採用している。24言語と102言語でのテストでは、音声類似性と明瞭度が多くの商用システムを上回り、一部の指標では実際の音声に匹敵するか、あるいはそれを上回っている。OmniVoiceは、クロス言語音声クローニング、カスタム音色、ノイズのある参照音声の適応、サブ言語制御、発音補正をサポートしている。トレーニングおよび推論コード、ならびにモデルの重みは、GitHubやHuggingfaceなどのプラットフォームでオープンソースとして公開されています。
Xiaomiは、600以上の言語に対応した音声クローン技術であるOmniVoiceをオープンソース化した。
共有先:
著者:PA一线
この内容は市場情報の提供のみを目的としており、投資助言を構成しません。
PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう
おすすめ記事
関連トピック
PANewsアプリ
24時間ブロックチェーン業界情報を追跡し、深掘り記事を解析。




