ステップバイステップのチュートリアル！Seedance 2.0 + GPT2.0を使って、話題のショートドラマを作ろう

著者：長安一巴眼コンテンツチーム

動画編集の経験が全くない人でも、ストーリー、セリフ、カメラワークの切り替えなどを含む、AI生成の短い動画を作成することは可能でしょうか？

はい、そして全工程は半日もかかりません。

この記事では、ストーリーを考える→ストーリーボードに分解する→ビデオを作成する→それを編集して映画にする、という手順を説明します。

事前の知識は一切不要です。手順通りに進めば、AIを使った短い動画が完成します。

I. アイデアからストーリーへ：AI動画は単一のプロンプトから生成されるわけではない

AI動画制作に初めて挑戦する多くの人が、まずJimoを開いて入力ボックスをぼんやりと見つめ、何を書けばいいのか分からなくなってしまう。数語入力してみると、生成されたコンテンツは想像していたものとはかけ離れており、ツールに不具合があるのか、それとも自分がプロンプトの書き方を知らないのかと疑問に思い始める。

例えば、「私はBiteyeの妹で、仮想通貨の世界で大物として生まれ変わりたい」というのはアイデアであって、物語ではない。

アイデアとは方向性を示すもので、おおよそ何をしたいかを教えてくれる。物語とは構成を示すもので、各フレームで何を撮影するかを教えてくれる。アイデアから物語へと至る過程には、脚本の企画というプロセスがある。

最も簡単な方法は、任意のLLMプログラムを開き、漠然としたアイデアを伝え、プログラムにストーリー構築を任せることです。すべての詳細を自分で考え出す必要はありません。方向性を示すだけで、あとはプログラムが残りの部分を推測してくれます。

ストーリーラインが確立したら、すぐにそれを細分化するのではなく、物語のリズムに合わせていくつかの大きなセクションに分け、各セクションの核心となるテーマを明確に定義しましょう。この手順は、全体のペースをコントロールし、どのセクションも冗長になったり、急ぎ足になったりするのを防ぐためのものです。

JiMengにおける1本の動画の最大長さは15秒ですが、実際には12秒未満の動画が最も安定しており、表示上の問題が発生する可能性も最も低くなります。各セグメントの平均長さを10秒と仮定すると、1分間の動画は約5つのセグメントに分割する必要があります。

私たちは物語を5つの部分に分けました。

第1段落：冒頭部分では、場面と登場人物を説明することが中心的な役割を担います。
第２段落：タイムトラベルでは、中心的な課題はタイムラインを確立することです。
第3段落：登場人物が混乱状態から明晰な思考状態へと変化していく様子を描いている。
第4段落：富を計算し、感情を最高潮にまで高める。
第5段落：反転を完了し、開始部分と閉じたループを形成する。

段落が完成したら、各段落を具体的なショット描写に分解してください。各ショットには、主要被写体、その場所、何が起こっているか、撮影角度の4つの要素を含める必要があります。ストーリーボードには動きを含めず、静止した瞬間のみを描写してください。

1段落目のスクリプトをAIチャットボックスにコピーし、「シーン1のスクリプトに基づいてストーリーボードの説明を書いてください」と入力してください。結果は以下のとおりです👇

II. ストーリーからビジュアルへ：まず、キャラクター、シーン、ストーリーボードを特定します。

この章は、全工程の中で最も重要な章です。ここで生成する画像の品質が、最終的な動画品質の上限を直接決定づけます。

まず、主要な被写体を特定するために、三面図を作成します。

ストーリーボードを作成する前に、まず最初にメインキャラクターの三面図を作成する必要があります。

三面図とは、同一人物の正面、側面、背面の3つの画像からなる図のことです。その目的は、人物の外見を固定し、後々どのようなシーンが生成される場合でも、これらの3つの画像を用いて人物の一貫性を維持することです。

この手順を省略して直接ストーリーボードを生成すると、生成されるキャラクターが毎回異なって見えることに気づくでしょう。髪型や顔の形が変わってしまい、ビデオを作成することができません。

ChatGPT/Seedreamを開き、ダイアログボックスに以下を入力してください。

「Biteyeの妹の三面図を生成してください。」

AIは、同一人物を3つの異なる角度から撮影した画像を生成します。生成された画像が期待と大きく異なる場合は、参照画像をアップロードしてください。

三面図に満足したら、ダウンロードしてください。動画を作成するたびに、参照用として再度アップロードする必要があります。

背景を定義するために、別のシーン参照画像を作成します。

キャラクターが決定したら、同じロジックを使用してシーン用の参照画像を別途生成します。ダイアログボックスに「オフィスの画像を生成する」と入力します。

ストーリーボードの作成を始める前に、基本的な概念を理解しておく必要があります。ショットとは、ビデオにおける表現の最小単位です。

カメラも語りかけることができます。ショットサイズによって伝えられる情報も異なります。一般的なショットサイズは以下のとおりです。

パノラマビュー：情報伝達に役立ち、観客に場面の場所や登場人物が誰であるかを知らせる。
ミディアムショット：物語の展開を促すために使用され、行動や表情をはっきりと捉えることができる。物語の中で最も頻繁に使用されるショットの種類である。
クローズアップ：感情を表現するために用いられるテクニックで、カメラが顔、手、または重要な小道具に焦点を当て、細部を拡大することで、観客に強い感情的なインパクトを与える。

単一のショットを理解したら、次の段階に進む必要があります。ビデオは単一のショットではなく、複数のショットがリズミカルなシーケンスで組み合わされた結果なのです。

実際の制作では、通常「四分割グリッド」や「九分割グリッド」を用いて映像のショット構成を整理します。つまり、映像の中に4つまたは9つのショットを配置して、完全な表現を完成させるのです。

4マスグリッドと9マスグリッドの選択は、本質的にはリズムをコントロールすることに関係している。

物語の導入部や感情の流れを締めくくるエンディングなど、ゆったりとした展開の場面では、4コマ構成で十分です。4つのコマがあれば、それぞれのコマにゆとりが生まれます。
戦闘のクライマックスなど、緊張感を生み出すためにカメラを素早く切り替える必要があるテンポの速い場面では、9つのショットを1つのビデオに圧縮する9グリッドレイアウトを使用することで、全く異なる印象を与えることができます。

カメラアングルやテンポを理解すれば、いよいよ実際の制作に取り掛かることができます。つまり、抽象的な物語を具体的な映像へと変換していく作業です。

キャラクターの三面図とシーンの参考画像が準備できたら、次のステップは、事前に作成したストーリーボードの説明を、一つずつ視覚的な画像に変換することです。理由は簡単です。AIは「絶えず変化するプロセス」よりも「決定論的な単一フレーム」の処理に優れているため、ガチャ率を大幅に下げることができるからです。

具体的な手順は以下のとおりです。

ショットを生成するたびに、まずキャラクターの三面図と対応するシーン参照画像をChatGPTダイアログにアップロードし、次にストーリーボード画像の生成プロンプトワードを入力します。

「ストーリーの概要と絵コンテの説明（以前の絵コンテのフレーズとAIが生成したフレーズを含む）に基づいて、4コマ構成の絵コンテを作成してください。また、シーンとキャラクターの画像も作成してください。」

モデルは、提供されたストーリーボード情報に基づいてこのショットを4つのフレームに分割し、以下に示すようにキャラクターとシーンの一貫性を確保します。

💡クイックヒント：テキスト画像を作成および複製する際によくある落とし穴がいくつかあります。それらを事前に知っておくと、多くのトラブルを回避できます。

スマートフォンでゲームをプレイしている人物を撮影する場合、生成されるスマートフォンの画面は自動的に視聴者の方を向きます。AIのロジックはコンテンツを「読みやすく」することにあるため、ゲーム画面が画像汚染の原因となってしまいます。正しい方法は、スマートフォンを両手で水平に持ち、画面を被写体の顔に向け、背面をカメラに向けることです。
職業名を入力すると、AIはそれを特定のシナリオと関連付けてしまうことがあります。「看護師」と入力すると病院を連想し、「シェフ」と入力するとキッチンを連想します。正しい方法は、職業名を使わずに、実際に欲しい服だけを説明することです。
生の画像からは静止画像しか生成できず、「頭を動かす」といった視覚的な状態は表現できません。正しいアプローチは、この単一フレームに存在するものだけを記述することです。

3. 視覚情報から動画へ：指示は視覚情報だけでなく、行動を説明するものでなければなりません。

絵コンテは全て完成しました。これからそれを動画に仕上げていきます。

🌟登録して、もう一度夢を見よう

ブラウザを開き、「Jimeng AI」と検索して公式サイトにアクセスしてください。右上の「ログイン」をクリックすると、Douyinアカウントまたは携帯電話番号で登録できます。中国国内から直接アクセス可能です。

新規ユーザーは15秒の動画を無料で作成できます。会員登録が必要な場合、Biteyeはオンライン上の複数のプラットフォームにおけるSeedance 2.0の価格を比較しています。詳細は、「Seedance 2.0の最安料金プランガイドはこちら！」をご覧ください。

🌟動画のプロンプトの書き方

これはこのステップの中で最も重要な部分であり、同時に初心者が最もミスを犯しやすい部分でもあります。

まず、すべての参考画像をチャットボックスにドロップしてください。Jimengは複数の参考画像の同時アップロードに対応しています。画像をチャットボックスにドラッグ＆ドロップするだけです。次に、前の章で準備したすべての素材（キャラクターの三面図、シーンの参考画像、4コマまたは9コマのストーリーボード）を一度にドラッグ＆ドロップしてください。Jimengはこれらの画像の情報を組み合わせて動画を生成します。

多くの初心者がここで間違いを犯します。それは、写真の内容をもう一度説明しようとすることです。アプリは既にアップロードされた写真を認識しているので、写真の内容を改めて伝える必要はありません。

プロンプトには、シーン内で何が動いているか、どのように動いているか、カメラ自体が動いているかどうか、そして各間隔で何が起こっているかを含めるべきです。

以下のテンプレートに従ってください。各行は動画内の特定の時間セグメントに対応しています。

「上記の絵コンテを参考に、動画を作成してください。」

[開始時間から終了時間]、[ショットの種類]、[カメラの動き]、[キャラクターまたは主要被写体] + [特定のアクション]、効果音: [サウンドの説明]。

🌟音声記述は、初心者が最も見落としやすい部分です。動画にセリフがある場合、「話し声」とだけ書くだけでは不十分です。モデルは参照としてランダムに音声を生成します。複数の動画クリップでキャラクターの声が一貫していることを確認するには、次の2つの方法があります。

1️⃣ 最初のセグメントの音声を参考にしてください。

まず、最初のビデオセグメントを生成します。結果に満足したら、音声を別途エクスポートします。以降の各セグメントでは、この音声をサウンドリファレンスとしてアップロードします。システムはこの音色を使用して後続のセグメントのボーカルを生成し、音声の一貫性を確保します。

2️⃣ Fish Audioを使用して参考音を見つける

Fish Audioを開き、キャラクターの気質に合った声を検索して聞き、サンプルをリファレンスオーディオとしてダウンロードします。このリファレンスオーディオを、作成するすべてのビデオセグメントで一貫して使用することで、映画全体を通して一貫したサウンドを確保できます。

🌟句読点を使ってAI音声のトーンをコントロールしましょう

AI音声モデルのセリフを書くのは、単にテキストを入力するほど単純な作業ではありません。同じ文章でも、句読点によって全く異なるトーンで発せられる可能性があるのです。

基本的な考え方はこうだ。句読点は間合いを制御し、間合いは雰囲気を決定づける。

...省略記号は音を中断するが、息は続く。これは、考えたり、ためらったり、言葉がまだ終わっていない場合に適している。

…！組み合わせて使用すると、抑制後の突然の爆発を表します。

括弧内のコンテンツの音量は自動的に小さくなり、息遣いの感じられるような音になるため、内なる独り言や独り言に適しています。

*内容* アスタリスクで囲まれた単語は、重要な情報を強調するために、低く、ゆっくりと、重く表示されます。

会話の代わりに、角括弧で囲んだ指示を記述してください。例えば、「深呼吸してください」や「1秒間待ってください」などです。モデルは指示を暗唱するのではなく、実際に動作を行います。

💡クイックヒント：

AIは空間認識能力に欠け、左右を混同することが多いため、図1に示すように、キャラクターの動き方をAIに示すための「位置参照図」を別途作成する必要があります。より簡単な方法としては、矢印を使ってキャラクターの移動軌跡を示し、最後に「矢印を削除」オプションを追加する方法があります。
ゆっくり書いてください。速く書かないでください。モデルは、速い動きよりも遅い動きを処理する方がはるかに安定しています。テンポの速い場面では、モデルに速い動きを生成させるよりも、編集速度を優先してください。
各動画ごとに参考画像をアップロードしてください。一度だけではなく、複数回アップロードしてください。モデルにはセグメント間の記憶機能がないため、参考画像がアップロードされていないセグメントではキャラクターの見た目がずれてしまいます。

IV．クリップから完成品へ：編集がビデオの最終的な品質を決定づける

編集とポストプロダクションは、全工程における最終仕上げです。それまでに生成された各映像素材はそれぞれ独立しており、異なるトーン、不規則なリズム、そして散在する音を持っています。編集の役割は、これらの断片を組み合わせて一つの完全な物語にすることです。

動画に音楽を加えることで視聴者の感情をより効果的に喚起できる。字幕を加えることでセリフがより明確になる。同じ素材でも、編集の良し悪しによって最終的な仕上がりは桁違いに変わる可能性がある。

このプロセスは、素材の配置→色調の統一→音声の追加→字幕の追加、そして最後にエクスポートという4つのステップから構成されます。

ステップ1：材料を準備する

CapCutを開き、すべてのクリップをシーン順にタイムラインにドラッグします。色調や音声は一旦無視し、順番を確認して全体のテンポをチェックしてください。必要以上に長いクリップは、この段階でカットしてください。

ステップ2：配色を統一する

異なるタイミングで生成されたクリップは、色温度や明るさにわずかな違いが生じる可能性があり、それらを並べると不自然に見えることがあります。解決策：すべてのクリップを選択し、「調整」で全体的なフィルターを追加し、シーン1にはクールなブルートーンを使用し、シーン2以降はウォームイエロートーンに切り替えて、各シーン内の色調を統一します。

ステップ3：BGMと効果音を追加する

動画生成時に、対話音声は既に処理済みです。このステップでは主に、BGMと環境音という2種類の音声を追加します。

BGMは全体の雰囲気を決定づけるものなので、セリフの音量の30%以下に抑え、ボーカルがかき消されないようにしてください。

ステップ4：字幕を追加する

CapCutの「スマート字幕」機能を使えば、セリフを自動的に認識できます。認識後、誤字脱字をチェックし、フォントと配置を統一しましょう。ナレーションやモノローグには、通常のセリフと区別するために、イタリック体や異なる色など、異なるスタイルを使用することをお勧めします。

V. ツールから表現へ：AIビデオは一体何を変えたのか？

前回の記事「GPT Image 2.0がSeedance 2.0を後押し：誰もがハリウッド大作を撮影できる」では、AI時代において「動画撮影」のハードルが下がり、将来的には誰もがハリウッド大作を撮影できるようになると考えていました。

しかし、参入障壁が低いからといって、必ずしも成功できるとは限らない。

ツールはすべて一般に公開されており、チュートリアルも至る所にあるが、ほとんどの人は同じところでつまずいてしまう。つまり、プロセス全体を完了させることができないのだ。

Biteyeの記事では、漠然としたアイデアから完成度の高い動画を作成するまでの手順を段階的に解説しています。

従来、このプロセスには完全な分業が必要だった。脚本執筆、絵コンテ作成、美術監督、撮影、編集など、それぞれが乗り越えるべき大きな壁だった。

これらの手順がなくなったわけではなく、単に単一のプロセスに統合されただけです。

これはより根本的な変化を意味する。つまり、ビデオはもはや「生産能力」の産物ではなく、「表現能力」の産物となったのだ。