原題: AIキャラクターとバーチャルインフルエンサーがビデオ業界の新たなフロンティアである理由 ft ヘドラのマイケル・リンゲルバッハ
モデレーター: ジャスティン・ムーア、マット・ボーンスタイン、a16z
ゲスト:マイケル・リンゲルバッハ
JannaとChainCatcherによる編集
編集者注
Hedraの創設者兼CEOであるマイケル・リンゲルバッハ氏は、スタンフォード大学でコンピュータサイエンスの博士課程に在籍し、舞台俳優としても活躍しています。テクノロジーとパフォーマンスへの情熱を融合させ、業界をリードする生成型オーディオ・ビデオモデルの開発においてHedraを牽引しています。Hedraは、全身を使った対話型ビデオ生成を専門としています。その技術は、バーチャルインフルエンサーから教育コンテンツまで、幅広い用途に対応しており、コンテンツ制作への参入障壁を大幅に引き下げています。この記事はa16zポッドキャストを基に作成され、AI技術がバイラルミームからエンタープライズレベルのアプリケーションへとどのように移行してきたかに焦点を当て、生成型オーディオ・ビデオ技術の革新的な可能性を紹介します。
以下は ChainCatcher によってまとめられ、編集された会話です (一部削除あり)。
要約
- 人工知能は、消費者とビジネスのシナリオをシームレスに結びつけています。例えば、この技術は企業向けソフトウェアを宣伝するためのベビー広告を生成し、企業が新しいテクノロジーを導入する熱意を浮き彫りにしています。
- バイラルミームコンテンツは「Baby Podcast」のようにスタートアップにとって強力なツールとなり、ブランド認知度を急速に高め、マーケティング戦略の独創性を実証しました。
- 全身表現と対話主導のビデオ生成テクノロジーは、創造性のギャップを埋め、コンテンツ制作の時間とコストを大幅に削減します。
- ジョン・ラワのようなバーチャルインフルエンサーは、「モーゼス・ポッドキャスト」を通じてユニークなデジタルキャラクターを作成し、コンテンツに独特の個性と魅力を与えています。
- 「ママブロガー」などのコンテンツクリエイターは、テクノロジーを使用してビデオを迅速に制作し、ブランド活動を容易に維持して視聴者とつながります。
- リアルタイムのインタラクティブ ビデオ モデルにより、仮想キャラクターとの双方向の対話が可能になり、教育とエンターテイメントに没入型の体験がもたらされます。
- キャラクター中心のビデオ生成テクノロジーは、ダイナミックなコンテンツ作成のニーズを満たすために、個々の表現と複数の被写体の制御に重点を置いています。
- ダイアログ、モーション、レンダリングを統合し、高品質コンテンツのニーズを満たすスムーズな生成メディア エクスペリエンスを作成するプラットフォーム戦略。
- インタラクティブなアバター モデルにより、ビデオの感情や要素を動的に調整できるようになり、コンテンツ作成における次のイノベーションの波を告げています。
1. ミームからエンタープライズアプリケーションへのAI統合
ジャスティン:消費者向けと企業向けのAIアプリケーションが、興味深い形で融合しつつあります。数日前、フォーブス誌でHedraが制作した、しゃべる赤ちゃんが企業向けソフトウェアを宣伝する広告を見ました。これは、企業がAI技術を急速に熱心に取り入れている新しい時代が到来したことを示しています。
マイケル:スタートアップとして、私たちの役割は、消費者ユーザーの利用状況からインスピレーションを引き出し、ビジネスユーザーが信頼できる次世代のコンテンツ制作ツールへと進化させることです。ここ数ヶ月、Hedraが生み出したバイラルコンテンツの中には、初期のアニメ風キャラクターから「ベビーポッドキャスト」、そして今週のホットトレンド(一体何なのかよく分かりませんが)まで、幅広い注目を集めています。ミームは、多くのオーディエンスにリーチすることでユーザーの心を素早く掴む、非常に効果的なマーケティング戦略です。この戦略はスタートアップの間でますます普及しつつあります。例えば、a16zが投資したClueyは、Twitterでのバイラル拡散を通じて大きなブランド認知度を獲得しました。ミームの本質は、テクノロジーが人々に迅速な創造性の担い手を与え、短い動画コンテンツが文化意識を支配していることにあります。Hedraのジェネレーティブビデオテクノロジーは、ユーザーがあらゆるアイデアを数秒でコンテンツに変換できるようにします。
2. クリエイターやインフルエンサーがHedraを選ぶ理由
Justine: 人々が Hedra を使用してミームを作成する理由と使用方法、そしてこれがターゲット市場とどのように関係しているかを説明してください。
マイケル:ヘドラは、フルボディの対話型動画生成モデルを大規模に展開した最初の企業です。私たちは数百万ものコンテンツ制作を可能にしてきました。私たちの急速な人気は、コンテンツ制作技術スタックにおける重要なギャップを埋めたことに起因しています。これまで、生成型ポッドキャスト、アニメーションキャラクターの対話シーン、歌唱動画の制作は、困難で、費用がかかり、柔軟性に欠け、時間のかかるものでした。私たちのモデルは高速かつ手頃な価格で、バーチャルインフルエンサーの台頭を後押ししています。
ジャスティン:CNBCが最近、Hedraを活用したバーチャルインフルエンサーに関する記事を掲載しました。インフルエンサーがHedraをどのように活用しているのか、具体的な例を挙げていただけますか?
マイケル:例えば、有名俳優のジョン・ラワ(「ザ・リーグ」でタコ役を演じた)は、「モーゼス・ポッドキャスト」から「ベイビー・ポッドキャスト」まで、Hedraを使って様々なコンテンツを制作し、キャラクターたちはそれぞれ独自のアイデンティティを持つようになりました。また、Neural VizはHedraを使ってキャラクターのアイデンティティを中心とした「メタバース」を構築しました。ジェネレーティブ・パフォーマンスは、モデルに個性、一貫性、そしてコントロールを組み込む必要があるという点で、単純なメディアモデルとは異なります。これは特にビデオパフォーマンスにおいて重要です。その結果、実在の人間ではないにもかかわらず、これらのバーチャルキャラクターたちの個性が際立っています。
3. バーチャルインフルエンサーとデジタルアバター
マット:Instagram ReelsでHedraを使った動画をたくさん見てきました。Neural Vizシリーズのエイリアンのような全く新しいキャラクターが登場するもの(かつてはハリウッド映画でしか実現できなかったもの)もあれば、実在の人物がこれらのツールを使ってデジタルプレゼンスを拡大しているものもあります。多くのインフルエンサーやコンテンツクリエイターは、毎回衣装を着替えたり、照明を調整したり、メイクをしたりする手間を省きたいと思っています。Hedraを使えば、ママブロガーのような人たちは、準備に多くの時間を費やすことなく、メッセージを伝える動画を素早く作成できます。例えば、カメラに向かって直接語りかけるようなコンテンツを作成することも可能です。
マイケル:それは本当に重要な指摘ですね。コンテンツクリエイターにとってパーソナルブランドの維持は不可欠ですが、24時間365日オンライン状態を維持するのは非常に困難です。クリエイターが1週間更新を止めれば、フォロワーを失うリスクがあります。Hedraの自動化技術は、クリエイターの参入障壁を大幅に下げます。ユーザーはDeep Researchなどのツールを使ってスクリプトを作成し、Hedraを使って音声や動画コンテンツを生成し、自分のチャンネルに自動的に公開できます。実在の人物だけでなく、完全に架空のキャラクターであっても、自己主権型のデジタルアイデンティティを軸としたワークフローがますます増えています。
4. インタラクティブビデオの可能性と課題
ジャスティン:今、Reelsでは歴史動画がトレンドになっています。昔は歴史書を読んで歴史を学んでいましたが、それではちょっと退屈でした。もし登場人物を通して歴史を語り、ジェネレーティブな動画シーンを見せることができれば、体験はもっと魅力的になるでしょう。
マイケル:私たちは教育分野を直接ターゲットにしているわけではありませんが、多くの教育関連企業が私たちのAPIをベースにしたアプリケーションを開発しています。動画インタラクションはテキストインタラクションよりもはるかに高いエンゲージメント率を実現します。最近、リアルタイムインタラクティブビデオモデルをリリースしました。これは、低遅延のオーディオとビデオの体験を実現した初の製品です。言語学習から自己啓発アプリケーションまで、技術コストが十分に低ければ、大規模言語モデル(LLM)とのユーザーインタラクションの方法は大きく変わるでしょう。私のお気に入りのプロジェクトは、「お気に入りの本や映画の登場人物とチャットする」です。例えば、「殺人犯がいると分かっているのに、なぜあの暗い部屋に入ったのですか?」と質問することができます。このインタラクティブな体験は、従来のオーディオブックよりも豊かで、ユーザーが質問をしたり、コンテンツを何度も繰り返し見返したりできるため、より鮮明な体験が得られます。
Justine: ビデオモデルの探索空間は膨大です。1フレームの画像を生成するだけでも複雑ですが、120フレームの連続ビデオを生成するとなると、さらに困難です。Hedraは、他のビデオモデルとは異なる、独特で興味深い問題に焦点を当てています。この問題の定義と、その着想について教えてください。
Michael: 素晴らしい質問ですね。ベースモデル層では特化が進んでおり、Claudeがプログラミングモデルのベンチマークとなり、Open AIが汎用アシスタントを提供し、Geminiがコスト効率とスピードからエンタープライズシナリオに対応しています。Hedraはビデオモデル分野でも同様の位置付けです。当社のベースモデルは高性能で、特に次世代モデルはコンテンツ制作に多大な柔軟性を提供します。しかし、私たちはコンテンツに命を吹き込み、ユーザーがコンテンツとインタラクションし、一貫した個性と魅力を体験できるようにすることに重点を置いています。鍵となるのは、ビデオ内のキャラクターの知性とレンダリング体験を統合することです。私のビジョンは、ユーザーがビデオ内のキャラクターと双方向にコミュニケーションを取り、キャラクターが独自のプログラム可能な個性を持つようにすることです。そのためには、コアモデルの最適化だけでなく、将来のユーザーインタラクション体験を再考する垂直統合が必要です。
(V)「キャラクター中心」のビデオモデルと被写体制御
マイケル:私は演劇出身です。プロの俳優ではありませんが、キャラクター演技に情熱を注いでいます。広告、オンラインコース、Hedraが提供する顔の見えないチャンネルなど、動画は私たちの日々の交流の中核を成しています。そこで、動画との繋がりが非常に重要です。私たちは、参入障壁を下げ、プロセスを加速させることで、一般ユーザーがコンテンツを簡単に作成できるようにしています。将来的には、モデルの知能とレンダリングの境界線が曖昧になり、ユーザーは自分の意図を理解するシステムと対話するようになるはずです。私たちは、キャラクターを単なる動画ではなく、制御の中核ユニットと捉えています。そのためには、ユーザーからのフィードバックを収集し、キャラクターのリアリティと表現力を最適化し、複数のエージェントに制御レバーを提供することが不可欠です。
マット:私は様々な動画のキャラクター作成に多くの時間を費やしていますが、Hedraの強みは統合されたキャラクター作成ツールにあります。キャラクター画像を作成またはアップロードし、後で使用するために保存できるだけでなく、コンテキストを変換したり、声を複製したりすることも可能です。私のYouTube動画やチュートリアルの多くでは、冒頭のセリフにHedraで複製した私の声を使用しています。この統合されたエクスペリエンスは、細分化されたジェネレーティブメディア市場において特に貴重です。
(6)統合生成メディアプラットフォームの構築
ジャスティン:Black Forest Labsのような多くの企業は技術革新を達成していますが、消費者や企業に優れた体験を提供するには、Hedraのようなパートナーが必要です。単一の技術に限定されるのではなく、統合プラットフォームを構築することを決めたのはなぜですか?
マイケル:それは焦点とユーザーニーズの問題です。Hedraを創業した当時、メディアにセリフを統合するのが非常に難しいと感じていました。以前は、短い動画を作成するためにリップシンクを重ねる必要があり、統一感が欠けていました。私たちの技術的なインスピレーションは、呼吸やジェスチャーといった信号をセリフと統合し、より自然な動画モデルを作成することです。市場の観点から見ると、アプリケーションによってユーザーの支払い意欲に違いがあることが分かっています。人気のあるアプリケーションの中には、支払い意欲が低いものもありますが、コンテンツクリエイターなどの特定のセグメントは、高品質な体験を強く求めています。私たちは、ユーザーに最高の体験を提供するために、Hedraの技術であれ、11 Labsなどのパートナー企業であれ、最高の技術を統合することを選んでいます。
マット: 将来的には、AI キャラクターのテキスト、スクリプト、音声、ビジョンが単一のモデルによって生成されるようになるのでしょうか?
マイケル:業界はマルチモーダルな入出力パラダイムへと移行しつつあると思います。単一モデルでは制御が課題となります。ユーザーは音声、ピッチ、リズムといった細部を精密に調整する必要があります。入力を分離することで制御性は向上しますが、将来的にはオムニモーダルモデルへと移行していくかもしれません。つまり、ユーザーはガイダンス信号を用いて各モダリティの適合性を調整できるということです。
7. インタラクティブビデオの未来
ジャスティン:Hedraの長編動画生成能力には感銘を受けました。数分間の音声をアップロードするだけで、キャラクターのセリフ動画を生成できます。画像と音声を個別に調整できるので、一度にまとめて生成することでリソースを無駄にすることもありません。この高度な制御性は、インタラクティブ動画の未来に期待を膨らませます。
マイケル:先日リリースしたインタラクティブなアバターモデルにとても興奮しています。将来的には、ユーザーは動画の要素を流動的なキャンバスのように形作ることができるようになります。例えば、動画を一時停止したり、特定のセリフを言うときにキャラクターにもっと悲しげな表情をするように指示したりできるようになります。この双方向のコミュニケーションは次世代の体験を生み出すものであり、まもなく利用可能になります。
マット:真の AI 俳優は可能でしょうか?ユーザーは作成されたキャラクターとリアルタイムでやり取りし、指示を出すことができます。
マイケル:もちろん可能です。しかし、現状の限界はビデオモデルではなく、大規模言語モデルのパーソナリティのリアリティにあります。既存のAIコンパニオン(Character AIなど)には、依然としてモデリングの痕跡がはっきりと残っています。真にインタラクティブなデジタルキャラクターを実現するには、設定可能なパーソナリティに関するさらなる研究が必要です。
(8) ヘドラのオーディオ生成とAIネイティブアプリケーション
ジャスティン:ヘドラのビデオは素晴らしいですが、オーディオは時々物足りないです。11 Labs の最新モデルはオーディオ品質が向上しましたが、コンテンツの魅力はまだ改善の余地があります。
マイケル:音声生成はまだ未開拓の分野です。現在、生成音声は主にナレーションや吹き替えに使用されていますが、騒がしいカフェのような環境で自然な会話を生成することは依然として困難です。動画制作の自然さを向上させるには、周囲の音や複数ターンの会話を制御できる音声モデルが必要です。動画AIはまだ初期段階です。初期のCGI効果がリアルに見えたように、今では漫画のように見えます。私たちの第一世代のモデルはかつて私を驚かせましたが、今では粗雑に感じられます。高度に制御可能で、コスト効率が高く、リアルタイムなモデルを実現するには、まだ途上です。
マット: ユーザーは、本物の人間、シミュレートされた人間、それとも漫画のキャラクターとのやり取りをどれを好むでしょうか?
マイケル:ふわふわのボールや猫のキャラクターをたくさん生成しました。Hedraの統合モデルは、岩からロボットまで、様々なキャラクターを扱うことができるため、ユーザーは自由に実験し、これまでにないコンテンツを作成できます。従来の動画とリップシンクを組み合わせるのではなく、統合モデルを構築することで、ユーザーが技術的な制限に縛られることを防ぎます。ユーザーは「しゃべる岩」や「ロボットと人間のポッドキャスト」を試してみて、モデルが自動的にセリフと性格を処理できます。この柔軟性は、革新的な消費者シナリオの実現につながっています。
ジャスティン:AIのクロスオーバー応用は刺激的です。「ベビーポッドキャスト」のような消費者生成コンテンツは、エンタープライズアプリケーションに刺激を与えています。フォーブス誌で、Hedraが生成したエンタープライズソフトウェアを宣伝するベビー広告を見て驚きました。これは、企業がAIをいかに急速に取り入れているかを示しており、消費者のシグナルをエンタープライズグレードのソリューションに変換する必要があることを示しています。
マイケル:エンタープライズは最も急速に成長している分野です。ジェネレーティブAIは、コンテンツ作成にかかる時間を数週間からリアルタイムへと短縮しています。例えば、自動化されたニュースキャスターは、情報発信の方法を変えています。かつては、ローカルニュースは高コストのために入手が困難でしたが、今では一人でニュースチャンネルを運営できます。この「中規模パーソナライゼーション」は、地元のレストランやテーマパークへのターゲット広告など、特定のユーザー層に対応しており、過度にパーソナライズされたGoogleモデルよりも効果的です。
9. 創業者の道:挑戦、情熱、そして協働によるイノベーション
ジャスティン:創業者としての経験はどのようなものでしたか?どんな課題ややりがいを感じましたか?
マイケル:サンフランシスコでは、創業者の人生は画期的な技術を生み出すロマンチックな旅として、しばしば美化されます。フロリダの小さな町出身の私は、まさか自分がこんな道を歩むことになるとは想像もしていませんでした。しかし、創業者であることは99%の時間、大変なことです。常に前進し続けなければならず、目に見えない開発から大量のサポートメールへの対応まで、問題は尽きることがありません。肉体的にも疲れますが、心の満足感は他に類を見ません。私はユーザーとチームを愛しており、他のことは考えられません。まるで雪山を登るのと同じように、手足が痛くても頂上に到達した時にまた戻って来たくなるような、いわば「第二段階の楽しみ」です。私は毎朝7時半にオフィスに入り、午後10時に退社します。時には午前2時まで機能について議論していることもあります。仕事と生活の境界線を捨てなければなりませんが、情熱が私を突き動かしています。
マット:なぜ今でも自分でコードを書くのですか?自分のアイデアを表現するためですか?それともチームとコミュニケーションを取るためですか?
マイケル:両方です。プロトタイピングはアイデアを素早く検証し、期待を明確に伝えるのに役立ちます。リーダーとして、明確なコミュニケーションは不可欠です。デザイナーとエッジケースについて話し合い、システムのスケーラビリティを確保しています。コーディングはチームとの連携を維持し、彼らの課題を理解し、製品の方向性を迅速に検討するのに役立ちます。
