保母等級教程!用Seedance 2.0+ GPT2.0做爆款短劇

本文是一份詳盡的AI短視頻製作指南,面向零基礎用戶。

核心流程

  • 故事策劃:將模糊想法轉化為有結構的故事,拆分段落和分鏡。
  • 畫面生成:先創建角色三視圖和場景參考圖,保持一致性;理解鏡頭語言(全景、中景、特寫)和節奏控制(四宮格/九宮格)。
  • 視頻生成:使用即夢(Seedance 2.0)等工具,提示詞需描述動作而非畫面內容;注意聲音一致性(參考音頻或Fish Audio)。
  • 後期剪輯:排列素材、統一色調、添加背景音樂/音效、智能字幕。

關鍵提示:避免常見陷阱(如手機屏幕朝向、職業名詞聯想等),強調分步參考圖上傳和標點符號控制配音語氣。

總結:AI視頻降低製作門檻,但成功關鍵在於完整跑通流程,將專業分工壓縮為個人表達。

總結

作者:Changan I Biteye內容團隊

一個從來沒剪過影片的人,能做出有劇情、有台詞、有鏡頭切換的AI 短片嗎?

能,而且整個流程不超過半天。

這篇文章教你從:想一個故事→ 拆成分鏡→ 生成影片→ 剪輯成片。

不需要任何基礎,跟著做一遍,你會得到一張完整的AI 短影片。

一、從想法到故事:AI 影片不是一句提示詞生成的

很多人做AI 影片的第一步是打開即夢,對著輸入框發呆,不知道該寫什麼。打出幾個字,生成出來的東西跟想像裡差很遠,然後開始懷疑是不是工具不好用,或者是不是自己不會寫提示詞。

比如說「我想做一個Biteye 小師妹重生在幣圈當大佬」,這是一個想法,不是一個故事。

想法是一個方向,它告訴你大概要做什麼。故事是一個結構,它告訴你每一個畫面該拍什麼。從想法到故事,中間有一段工作要做,這段工作就是腳本規劃。

最簡單的方式是打開任意的LLM ,把你腦子裡那個模糊的想法直接告訴它,讓它幫你把故事撐起來。你不需要自己想清楚所有細節,你只需要提供一個方向,剩下的可以和它一起推導。

故事線確定之後,不要直接分割鏡,先按照敘事節奏把它切成幾個大的段落,每個段落都明確出一件核心的事是什麼。這一步是為了控制整體節奏,防止某一段太拖或太倉促。

即夢單一影片最長15 秒,實際操作中12 秒以下是最穩定的,畫面出問題的機率最低。 1min 秒的成片,以每個片段平均10 秒計算,大概需要5 個片段。

我們把的故事切成五個段落:

  • 段落一:開場,核心任務是交代場景和角色。

  • 段落二:穿越,核心任務是交代時間線。

  • 段落三:展現角色從困惑到清醒的轉變。

  • 段落四:計算財富,把情緒推向高潮。

  • 段落五:完成反轉,與開場形成閉環。

段落確定之後,把每個段落進一步拆成具體的鏡頭描述。每個鏡頭寫四個要素:畫面主體、位置、正在做什麼、拍攝角度。不要在分鏡裡寫運動,只描述靜止的瞬間。

將段落一的腳本複製到AI 聊天框中,輸入“幫我根據場景一的腳本,生成分鏡描述”,得到的效果如下👇

二、從故事到畫面:先鎖定角色、場景和分鏡

這一章是整個流程裡最核心的一章,你在這裡產生的圖片質量,直接決定最終影片的品質上限。

先做三個視圖,鎖定你的主角

在產生任何分鏡圖之前,第一件事是先把主角的三視圖做出來。

三視圖就是同一個角色的正面、側面、背面三張圖,目的是把這個人的外形固定下來,後面不管生成什麼場景,都參考這三張圖來保持角色一致。

跳過這一步直接生成分鏡圖的話,你會發現每次生成出來的角色都長得不一樣,髮型變了,臉型變了,這條影片就完全做不下去了。

開啟ChatGPT/Seedream,在對話框裡輸入:

「幫我生成一張Biteye 小師妹的三視圖」

AI會產生一張圖,裡面有三個角度的同一個人物,如果生成出來的人和你想要的差距大,可以上傳參考圖。

三視圖滿意之後,把這張圖下載下來,後面每次生成影片都要把它上傳回去作為參考。

再做場景參考圖,鎖定你的背景

角色確定之後,同樣的邏輯,把你的場景也先單獨生成一張參考圖,對話框輸入“幫我生成一張辦公室的圖片”

在正式開始生成分鏡圖之前,需要先理解一個基礎概念:鏡頭是影片最小的表達單位。

鏡頭也是會說話的,不同的鏡頭景別,傳遞的訊息是不一樣的,常見的景別有以下幾種:

  • 全景:交代訊息的,觀眾透過全景知道這個場景在哪裡、有哪些角色。

  • 中景:推進劇情的,能看清楚動作和表情,是敘事裡用得最多的景別。

  • 特寫:製造情緒的,畫面只拍臉、手、或某個關鍵道具,放大細節,給觀眾強烈的情緒衝擊。

理解單一鏡頭之後,還需要再往上走一層:一支影片不是一個鏡頭,而是多個鏡頭依照節奏組合在一起的結果。

在實際製作中,我們通常會用「四宮格」和「九宮格」來組織一段影片的鏡頭結構——也就是在一段影片裡,安排4 個或9 個鏡頭完成一次完整表達。

四宮格和九宮格的選擇,本質上是對節奏的控制:

  • 節奏慢的段落:例如開場交代環境、結尾情緒收口,用四宮格就夠,四個鏡頭有足夠的空間讓每個畫面呼吸。

  • 節奏快的段落:例如打鬥高潮,鏡頭需要密集切換來製造緊張感,這時候用九宮格,九個鏡頭壓在一段影片裡,剪出來的感覺完全不一樣。

了解鏡頭和節奏之後,就可以開始進入實際製作:把抽象的故事,變成具體的畫面。

人物三視圖和場景參考圖都準備好之後,接下來要做的,就是把前面寫好的分鏡描述,一張一張變成可視化的畫面。原因很簡單,AI 更擅長處理「確定的單幀」,而不是「連續變化的過程」,也能大幅降低抽卡率。

具體做法是:

每次產生一個鏡頭,先把角色三視圖和對應的場景參考圖上傳到ChatGPT 對話裡,然後輸入剛剛分鏡圖的生成提示字。

「幫我根據故事梗圖+分鏡描述(附上前面與AI 生成的分鏡詞)生成一張四宮格分鏡圖,附上場景圖+人物圖」

模型會根據你提供的分鏡訊息,把這段鏡頭拆成四個畫面,並且確保人物和場景的一致性,效果如下:

💡小Tips,文生圖有幾個高頻坑,事先知道能省很多次數:

  1. 想生成人物拿手機打遊戲的鏡頭,生成的手機螢幕會自動轉向觀眾。 AI 的邏輯是讓「內容可讀」,打遊戲成為圖片的污染源。正確做法是:「雙手橫向持手機,螢幕朝向人物臉部,手機背面朝向鏡頭」。

  2. 職業名詞會讓AI 聯想出整套場景:寫「護士」,AI 會聯想到醫院、寫「廚師」,AI會聯想出廚房。正確做法是:只描述你真正想要的服飾,不提職業名稱。

  3. 文生圖只能產生靜止畫面,「正在轉頭」沒有對應的視覺狀態。正確做法是:只描述這一幀存在的東西。

三、從畫面到影片:提示詞要寫動作,不要重寫畫面

分鏡圖都準備好了,現在我們要把它們變成會動的影片。

🌟註冊即夢

開啟瀏覽器搜尋「即夢AI」,進入官網。點擊右上角登錄,用抖音帳號或手機號碼註冊都可以,國內可以直接存取。

新用戶可免費生成一段15 s 的視頻,如果需要開頭會員,Biteye小師妹也對比了全網多平台Seedance 2.0 的價格,詳情請看: 《全網最低成本訂閱Seedance 2.0 攻略來啦! 》

🌟影片提示詞怎麼寫?

這是這一步驟最關鍵的地方,也是新手最容易寫錯的地方。

先把參考圖都丟進去,也就是夢支援同時上傳多張參考圖,直接把圖片拖到聊天框裡就可以。你在上一章準備好的所有素材,角色三視圖、場景參考圖、四宮格或九宮格分鏡圖,一次全部拖進去,即夢會綜合這些圖片的資訊來產生影片。

這裡很多新手會犯一個錯誤,就是把畫面裡有什麼重新描述一次。即夢已經能看到你上傳的圖了,不需要你再告訴它畫面裡有什麼。

提示詞要寫的是:畫面裡什麼東西在動,怎麼動,鏡頭自己有沒有在運動,以及每一段時間發生什麼。

按照下面這個模板來寫,每一行對應影片裡的一個時間段:

「幫我參考以上分鏡圖,產生一段影片。

[起始秒到結束秒],[景別],[運鏡方式],[角色或主體]+[具體動作],音效:[聲音描述]。 」

🌟聲音描述是新手最容易忽略的部分,如果影片裡有台詞,光寫「說話聲」是不夠的,模型會隨機產生一個聲音作為參考。要確保多段影片裡角色聲音一致,有兩個方法:

1️⃣用第一段的音訊做參考

先生成第一段視頻,對生成結果滿意之後,把這段視頻的音頻單獨導出。後續每一段生成時,把這段音頻當作聲音參考上傳,也就是夢會參考這個音色來產生後續片段的人聲,確保聲音一致性。

2️⃣用Fish Audio 找參考音色

開啟Fish Audio,搜尋符合角色氣質的聲音,試聽之後下載一段作為參考音訊。生成每一段視頻時統一使用這個參考音頻,全片聲音保持一致。

🌟用標點控制AI 配音的語氣

為AI 配音模型寫台詞,不是把文字打進去就完了。同樣一句話,標點不同,發出的語氣可以完全不一樣。

核心邏輯是:標點符號控制停頓,停頓決定情緒。

…… 省略號讓聲音斷開但氣息不斷,適合思考、猶豫、話未說完的狀態。

……! 組合使用,是壓抑之後的突然爆發。

() 括號內的內容音量自動降低,變成氣聲,適合內心獨白和自言自語。

*內容* 星號包圍的字會變得更低、更慢、更重,用來強調關鍵訊息。

[] 方括號裡寫指令而不是台詞,例如[深吸一口氣]、[停頓1秒],模型會執行動作而不是念出來。

💡小Tips:

  1. AI 沒有方位意識,常常分不清左右,需要另外做「位置關係參考圖」告訴AI 人物是怎麼運動的,如下圖一。還有簡單的方法:用箭頭來描述人物的運動軌跡,並在最後加上「把箭頭刪除」。

  2. 寫慢不寫快。模型處理緩慢動作比快速動作穩定得多。需要快節奏的片段,優先用剪輯速度來實現,而不是讓模型產生快動作。

  3. 每段影片都要上傳參考圖,不要只上傳一次。模型沒有跨段記憶,不上傳參考圖的那一段,角色外觀會偏移。

四、從片段到成片:剪輯決定影片最終質感

剪輯和後期是整個流程裡畫龍點睛的一步,前面生成的每一段素材都是獨立的,色調可能有差異,節奏可能不連貫,聲音也是分散的,剪輯的作用就是把這些碎片捏合成一個完整的故事。

影片加上音樂後,更能帶動觀眾的情緒、加上字幕,台詞更清晰了,同樣的素材,剪得好和剪得差,最終呈現可以差一個量級。

做法分四步驟:排列素材→ 統一色調→ 加上聲音→ 加字幕,最後匯出。

第一步:排列素材

打開剪映,把所有片段依場景順序拖入時間軸。先不管色調和聲音,把順序確認好,整體看一遍節奏有沒有問題,太長的片段在這一步剪掉多餘的部分。

第二步:統一色調

不同時間產生的片段,色溫和亮度可能有細微差異,放在一起會顯得割裂。處理方法:全選所有片段,在「調整」裡整體加一層濾鏡,場景一用冷藍色調,場景二之後切換暖黃,保持每個場景內部色調一致就夠了。

第三步:加背景音樂和音效

對白聲音在生成影片時已經處理好了,這一步​​主要補兩類聲音:背景音樂和環境音效。

背景音樂決定整體情緒基調,音量壓到對白的30% 以下,不要蓋過人聲。

第四步:加字幕

用剪映的「智慧字幕」自動辨識對白,辨識完後檢查一遍錯字,統一字體和位置。旁白或自言自語的台詞,建議和正常對白用不同樣式區分,例如斜體或不同顏色。

五、從工具到表達:AI 影片真正改變了什麼

在上一篇文章《GPT Image 2.0 加持Seedance 2.0:人人可拍好萊塢大片》我們認為在AI 時代:「拍影片」的門檻被降低了,以後人人都能排除好萊塢大片。

但門檻低,不代表你就能做出來。

工具都是公開的,教程也到處都有,但大多數人卡在同一個地方:從來沒有完整跑通過一遍。

這篇文章Biteye 已經帶你從一個模糊的想法,一步步剪成一條完整的成片。

過去,這個過程需要一整套專業分工: 編劇、分鏡、美術、攝影、剪輯,每個環節都是一道門檻。

而現在,這些環節沒有消失,只是被壓縮進了一條流程裡。

這意味著一件更底層的改變:影片不再是「生產能力」的產物,而開始變成「表達能力」的產物。

分享至:

作者:Biteye

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:Biteye如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
PANews APP
数据:B2B支付约占稳定币交易量的60%,年交易额约2260亿美元
PANews 快訊