マルチモーダルビデオ生成技術の飛躍的進歩、Web3 はどのようにそのメリットを享受できるのでしょうか?

AI が集中型の大規模リソース割り当てからモジュール型のコラボレーションへと徐々に移行するにつれて、分散型プラットフォームに対する新たな需要が生じています。

著者:Haotian

AIローカリゼーションの「沈没」に加えて、最近のAIトラックにおける最も大きな変化は、マルチモーダルビデオ生成技術の飛躍的進歩であり、当初は純粋なテキストをサポートするビデオ生成から、テキスト+画像+オーディオのフルリンク統合生成技術へと移行しました。

ここでは、皆さんが体験できる技術革新の例をいくつかご紹介します。

1) ByteDanceがEX-4Dフレームワークをオープンソース化:単眼動画をわずか数秒で自由に視聴できる4Dコンテンツに変換でき、ユーザーからの支持率は70.7%に達しています。つまり、従来の動画からAIがあらゆる角度からの視聴効果を自動生成できるようになり、これまでは専門の3Dモデリングチームによる制作が必要でした。

2) 百度の「匯翔」プラットフォーム:1枚の写真から10秒間の動画が生成され、「映画並み」のクオリティを謳っているが、これはマーケティング上の誇張表現ではなく、実際の効果を確認するには8月のPro版アップデートを待つ必要がある。

3) Google DeepMind Veo:4K動画と環境音の同期生成を実現。重要な技術的ハイライトは「同期」機能の実現です。従来は映像と音声が別々に処理されていましたが、真の意味的一致を実現するには、大きな課題を克服する必要がありました。例えば、複雑なシーンでは、映像内の歩行動作や足音など、映像と音声の同期を実現する必要があります。

4) Douyin ContentV:80億パラメータ、1080p動画生成に2.3秒、5秒あたり3.67元。正直に言うと、コスト管理は良好だが、複雑なシーンを扱う際の現状の品質は依然として不十分だ。

これらの事例は、ビデオ品質、制作コスト、アプリケーション シナリオなどのブレークスルーという点で、なぜそれほど価値があり重要なのでしょうか。

1. 技術革新の観点から見ると、マルチモーダル動画の生成はしばしば指数関数的に複雑になります。1フレームの画像は約10の6乗ピクセルを生成します。動画は時間的な連続性(少なくとも100フレーム)に加え、音声同期(1秒あたり10の4乗サンプル)を確保し、3D空間の一貫性も考慮する必要があります。

まとめると、技術的な複雑さは決して低くありません。かつては、すべてのタスクを超大規模モデルで処理していました。Soraは動画生成機能を実現するために、数万台のH100を費やしたと言われています。現在では、モジュール分解+大規模モデルの分業と連携によって実現されています。例えば、ByteDanceのEX-4Dは、複雑なタスクを深度推定モジュール、遠近法変換モジュール、タイミング補間モジュール、レンダリング最適化モジュールなどに分解しています。各モジュールはそれぞれ特定のタスクに特化し、協調メカニズムを介して連携しています。

2. コスト削減: この背後にある最適化は、実際には推論アーキテクチャそのものであり、最初に低解像度でスケルトンを生成し、次に高解像度で画像コンテンツを強化する階層型生成戦略、類似シーンを再利用するキャッシュ再利用メカニズム、および特定のコンテンツの複雑さに応じてモデルの深さを実際に調整する動的リソース割り当てなどが含まれます。

この一連の最適化の後、Douyin ContentV は 3.67 元/5 秒という結果を達成しました。

3. 応用効果の観点から見ると、従来の動画制作は機材、会場、俳優、ポストプロダクションなど、多くの資産を必要とし、30秒のCM制作に数十万元かかるのが普通です。しかし、AIはこれらのプロセスをプロンプトと数分の待機時間に圧縮し、従来の撮影では実現が難しい遠近感や特殊効果を実現できます。

これにより、ビデオ制作における元々の技術的および財政的障壁が創造性と美的感覚へと変化し、クリエイター経済全体の再編が促進される可能性があります。

疑問は、Web2AI テクノロジーの需要側におけるこうしたすべての変化が、Web3AI とどのような関係があるのか​​ということです。

1. まず、コンピューティングパワーの要件構造が変化しました。かつてAIはコンピューティングパワーの規模で競争し、より均質なGPUクラスターを持つ企業が勝利しました。しかし、マルチモーダルビデオ生成には多様なコンピューティングパワーの組み合わせが必要であり、分散アイドルコンピューティングパワー、そして様々な分散微調整モデル、アルゴリズム、推論プラットフォームへの需要が生じる可能性があります。

2. 第二に、データアノテーションの需要も高まります。プロレベルの動画を生成するには、正確なシーン描写、参考画像、音声スタイル、カメラモーションの軌跡、照明条件などが必要であり、これらは専門的なデータアノテーションの新たな要件となります。Web3のインセンティブ方式を活用することで、写真家、サウンドエンジニア、3Dアーティストなどが専門的なデータ要素を提供するよう促し、専門的な垂直データアノテーションによってAI動画生成能力を高めることができます。

3. 最後に、AIが集中型の大規模リソース配分からモジュール型の連携へと徐々に移行していく中で、それ自体が分散型プラットフォームへの新たな需要を生み出すという点に言及しておく価値がある。その際、コンピューティングパワー、データ、モデル、インセンティブなどが融合し、自己強化的なフライホイールを形成し、Web3AIとWeb2AIのシナリオ統合を推進することになるだろう。

共有先:

著者:链上观

本記事はPANews入駐コラムニストの見解であり、PANewsの立場を代表するものではなく、法的責任を負いません。

記事及び見解は投資助言を構成しません

画像出典:链上观侵害がある場合は、著者に削除を連絡してください。

PANews公式アカウントをフォローして、一緒に強気相場と弱気相場を乗り越えましょう
おすすめ記事
23分前
1時間前
1時間前
1時間前
2時間前
2時間前

人気記事

業界ニュース
市場ホットスポット
厳選読み物

厳選特集

App内阅读