保母等級教程！用Seedance 2.0+ GPT2.0做爆款短劇

作者：Changan I Biteye內容團隊

一個從來沒剪過影片的人，能做出有劇情、有台詞、有鏡頭切換的AI 短片嗎？

能，而且整個流程不超過半天。

這篇文章教你從：想一個故事→ 拆成分鏡→ 生成影片→ 剪輯成片。

不需要任何基礎，跟著做一遍，你會得到一張完整的AI 短影片。

一、從想法到故事：AI 影片不是一句提示詞生成的

很多人做AI 影片的第一步是打開即夢，對著輸入框發呆，不知道該寫什麼。打出幾個字，生成出來的東西跟想像裡差很遠，然後開始懷疑是不是工具不好用，或者是不是自己不會寫提示詞。

比如說「我想做一個Biteye 小師妹重生在幣圈當大佬」，這是一個想法，不是一個故事。

想法是一個方向，它告訴你大概要做什麼。故事是一個結構，它告訴你每一個畫面該拍什麼。從想法到故事，中間有一段工作要做，這段工作就是腳本規劃。

最簡單的方式是打開任意的LLM ，把你腦子裡那個模糊的想法直接告訴它，讓它幫你把故事撐起來。你不需要自己想清楚所有細節，你只需要提供一個方向，剩下的可以和它一起推導。

故事線確定之後，不要直接分割鏡，先按照敘事節奏把它切成幾個大的段落，每個段落都明確出一件核心的事是什麼。這一步是為了控制整體節奏，防止某一段太拖或太倉促。

即夢單一影片最長15 秒，實際操作中12 秒以下是最穩定的，畫面出問題的機率最低。 1min 秒的成片，以每個片段平均10 秒計算，大概需要5 個片段。

我們把的故事切成五個段落：

段落一：開場，核心任務是交代場景和角色。
段落二：穿越，核心任務是交代時間線。
段落三：展現角色從困惑到清醒的轉變。
段落四：計算財富，把情緒推向高潮。
段落五：完成反轉，與開場形成閉環。

段落確定之後，把每個段落進一步拆成具體的鏡頭描述。每個鏡頭寫四個要素：畫面主體、位置、正在做什麼、拍攝角度。不要在分鏡裡寫運動，只描述靜止的瞬間。

將段落一的腳本複製到AI 聊天框中，輸入“幫我根據場景一的腳本，生成分鏡描述”，得到的效果如下👇

二、從故事到畫面：先鎖定角色、場景和分鏡

這一章是整個流程裡最核心的一章，你在這裡產生的圖片質量，直接決定最終影片的品質上限。

先做三個視圖，鎖定你的主角

在產生任何分鏡圖之前，第一件事是先把主角的三視圖做出來。

三視圖就是同一個角色的正面、側面、背面三張圖，目的是把這個人的外形固定下來，後面不管生成什麼場景，都參考這三張圖來保持角色一致。

跳過這一步直接生成分鏡圖的話，你會發現每次生成出來的角色都長得不一樣，髮型變了，臉型變了，這條影片就完全做不下去了。

開啟ChatGPT/Seedream，在對話框裡輸入：

「幫我生成一張Biteye 小師妹的三視圖」

AI會產生一張圖，裡面有三個角度的同一個人物，如果生成出來的人和你想要的差距大，可以上傳參考圖。

三視圖滿意之後，把這張圖下載下來，後面每次生成影片都要把它上傳回去作為參考。

再做場景參考圖，鎖定你的背景

角色確定之後，同樣的邏輯，把你的場景也先單獨生成一張參考圖，對話框輸入“幫我生成一張辦公室的圖片”

在正式開始生成分鏡圖之前，需要先理解一個基礎概念：鏡頭是影片最小的表達單位。

鏡頭也是會說話的，不同的鏡頭景別，傳遞的訊息是不一樣的，常見的景別有以下幾種：

全景：交代訊息的，觀眾透過全景知道這個場景在哪裡、有哪些角色。
中景：推進劇情的，能看清楚動作和表情，是敘事裡用得最多的景別。
特寫：製造情緒的，畫面只拍臉、手、或某個關鍵道具，放大細節，給觀眾強烈的情緒衝擊。

理解單一鏡頭之後，還需要再往上走一層：一支影片不是一個鏡頭，而是多個鏡頭依照節奏組合在一起的結果。

在實際製作中，我們通常會用「四宮格」和「九宮格」來組織一段影片的鏡頭結構——也就是在一段影片裡，安排4 個或9 個鏡頭完成一次完整表達。

四宮格和九宮格的選擇，本質上是對節奏的控制：

節奏慢的段落：例如開場交代環境、結尾情緒收口，用四宮格就夠，四個鏡頭有足夠的空間讓每個畫面呼吸。
節奏快的段落：例如打鬥高潮，鏡頭需要密集切換來製造緊張感，這時候用九宮格，九個鏡頭壓在一段影片裡，剪出來的感覺完全不一樣。

了解鏡頭和節奏之後，就可以開始進入實際製作：把抽象的故事，變成具體的畫面。

人物三視圖和場景參考圖都準備好之後，接下來要做的，就是把前面寫好的分鏡描述，一張一張變成可視化的畫面。原因很簡單，AI 更擅長處理「確定的單幀」，而不是「連續變化的過程」，也能大幅降低抽卡率。

具體做法是：

每次產生一個鏡頭，先把角色三視圖和對應的場景參考圖上傳到ChatGPT 對話裡，然後輸入剛剛分鏡圖的生成提示字。

「幫我根據故事梗圖+分鏡描述（附上前面與AI 生成的分鏡詞）生成一張四宮格分鏡圖，附上場景圖+人物圖」

模型會根據你提供的分鏡訊息，把這段鏡頭拆成四個畫面，並且確保人物和場景的一致性，效果如下：

💡小Tips，文生圖有幾個高頻坑，事先知道能省很多次數：

想生成人物拿手機打遊戲的鏡頭，生成的手機螢幕會自動轉向觀眾。 AI 的邏輯是讓「內容可讀」，打遊戲成為圖片的污染源。正確做法是：「雙手橫向持手機，螢幕朝向人物臉部，手機背面朝向鏡頭」。
職業名詞會讓AI 聯想出整套場景：寫「護士」，AI 會聯想到醫院、寫「廚師」，AI會聯想出廚房。正確做法是：只描述你真正想要的服飾，不提職業名稱。
文生圖只能產生靜止畫面，「正在轉頭」沒有對應的視覺狀態。正確做法是：只描述這一幀存在的東西。

三、從畫面到影片：提示詞要寫動作，不要重寫畫面

分鏡圖都準備好了，現在我們要把它們變成會動的影片。

🌟註冊即夢

開啟瀏覽器搜尋「即夢AI」，進入官網。點擊右上角登錄，用抖音帳號或手機號碼註冊都可以，國內可以直接存取。

新用戶可免費生成一段15 s 的視頻，如果需要開頭會員，Biteye小師妹也對比了全網多平台Seedance 2.0 的價格，詳情請看：《全網最低成本訂閱Seedance 2.0 攻略來啦！》。

🌟影片提示詞怎麼寫？

這是這一步驟最關鍵的地方，也是新手最容易寫錯的地方。

先把參考圖都丟進去，也就是夢支援同時上傳多張參考圖，直接把圖片拖到聊天框裡就可以。你在上一章準備好的所有素材，角色三視圖、場景參考圖、四宮格或九宮格分鏡圖，一次全部拖進去，即夢會綜合這些圖片的資訊來產生影片。

這裡很多新手會犯一個錯誤，就是把畫面裡有什麼重新描述一次。即夢已經能看到你上傳的圖了，不需要你再告訴它畫面裡有什麼。

提示詞要寫的是：畫面裡什麼東西在動，怎麼動，鏡頭自己有沒有在運動，以及每一段時間發生什麼。

按照下面這個模板來寫，每一行對應影片裡的一個時間段：

「幫我參考以上分鏡圖，產生一段影片。

[起始秒到結束秒]，[景別]，[運鏡方式]，[角色或主體]+[具體動作]，音效：[聲音描述]。」

🌟聲音描述是新手最容易忽略的部分，如果影片裡有台詞，光寫「說話聲」是不夠的，模型會隨機產生一個聲音作為參考。要確保多段影片裡角色聲音一致，有兩個方法：

1️⃣用第一段的音訊做參考

先生成第一段視頻，對生成結果滿意之後，把這段視頻的音頻單獨導出。後續每一段生成時，把這段音頻當作聲音參考上傳，也就是夢會參考這個音色來產生後續片段的人聲，確保聲音一致性。

2️⃣用Fish Audio 找參考音色

開啟Fish Audio，搜尋符合角色氣質的聲音，試聽之後下載一段作為參考音訊。生成每一段視頻時統一使用這個參考音頻，全片聲音保持一致。

🌟用標點控制AI 配音的語氣

為AI 配音模型寫台詞，不是把文字打進去就完了。同樣一句話，標點不同，發出的語氣可以完全不一樣。

核心邏輯是：標點符號控制停頓，停頓決定情緒。

…… 省略號讓聲音斷開但氣息不斷，適合思考、猶豫、話未說完的狀態。

……！組合使用，是壓抑之後的突然爆發。

（）括號內的內容音量自動降低，變成氣聲，適合內心獨白和自言自語。

*內容* 星號包圍的字會變得更低、更慢、更重，用來強調關鍵訊息。

[] 方括號裡寫指令而不是台詞，例如[深吸一口氣]、[停頓1秒]，模型會執行動作而不是念出來。

💡小Tips：

AI 沒有方位意識，常常分不清左右，需要另外做「位置關係參考圖」告訴AI 人物是怎麼運動的，如下圖一。還有簡單的方法：用箭頭來描述人物的運動軌跡，並在最後加上「把箭頭刪除」。
寫慢不寫快。模型處理緩慢動作比快速動作穩定得多。需要快節奏的片段，優先用剪輯速度來實現，而不是讓模型產生快動作。
每段影片都要上傳參考圖，不要只上傳一次。模型沒有跨段記憶，不上傳參考圖的那一段，角色外觀會偏移。

四、從片段到成片：剪輯決定影片最終質感

剪輯和後期是整個流程裡畫龍點睛的一步，前面生成的每一段素材都是獨立的，色調可能有差異，節奏可能不連貫，聲音也是分散的，剪輯的作用就是把這些碎片捏合成一個完整的故事。

影片加上音樂後，更能帶動觀眾的情緒、加上字幕，台詞更清晰了，同樣的素材，剪得好和剪得差，最終呈現可以差一個量級。

做法分四步驟：排列素材→ 統一色調→ 加上聲音→ 加字幕，最後匯出。

第一步：排列素材

打開剪映，把所有片段依場景順序拖入時間軸。先不管色調和聲音，把順序確認好，整體看一遍節奏有沒有問題，太長的片段在這一步剪掉多餘的部分。

第二步：統一色調

不同時間產生的片段，色溫和亮度可能有細微差異，放在一起會顯得割裂。處理方法：全選所有片段，在「調整」裡整體加一層濾鏡，場景一用冷藍色調，場景二之後切換暖黃，保持每個場景內部色調一致就夠了。

第三步：加背景音樂和音效

對白聲音在生成影片時已經處理好了，這一步主要補兩類聲音：背景音樂和環境音效。

背景音樂決定整體情緒基調，音量壓到對白的30% 以下，不要蓋過人聲。

第四步：加字幕

用剪映的「智慧字幕」自動辨識對白，辨識完後檢查一遍錯字，統一字體和位置。旁白或自言自語的台詞，建議和正常對白用不同樣式區分，例如斜體或不同顏色。

五、從工具到表達：AI 影片真正改變了什麼

在上一篇文章《GPT Image 2.0 加持Seedance 2.0：人人可拍好萊塢大片》我們認為在AI 時代：「拍影片」的門檻被降低了，以後人人都能排除好萊塢大片。

但門檻低，不代表你就能做出來。

工具都是公開的，教程也到處都有，但大多數人卡在同一個地方：從來沒有完整跑通過一遍。

這篇文章Biteye 已經帶你從一個模糊的想法，一步步剪成一條完整的成片。

過去，這個過程需要一整套專業分工：編劇、分鏡、美術、攝影、剪輯，每個環節都是一道門檻。

而現在，這些環節沒有消失，只是被壓縮進了一條流程裡。

這意味著一件更底層的改變：影片不再是「生產能力」的產物，而開始變成「表達能力」的產物。