Seedance 2.0과 GPT 2.0을 사용하여 바이럴 단편 드라마를 제작하는 단계별 튜토리얼!

저자: Changan I Biteye 콘텐츠 팀

동영상 편집 경험이 전혀 없는 사람이 스토리라인, 대화, 카메라 전환 효과가 있는 AI 기반 단편 영상을 만들 수 있을까요?

네, 전체 과정은 반나절이면 끝납니다.

이 글에서는 스토리 구상 → 스토리보드 제작 → 영상 제작 → 최종 영화 편집 방법을 알려드립니다.

사전 지식은 필요하지 않습니다. 그냥 따라오시면 AI가 제작한 짧은 동영상을 완성하실 수 있습니다.

I. 아이디어에서 스토리까지: AI 비디오는 단 하나의 프롬프트에서 생성되는 것이 아닙니다

많은 사람들이 AI 영상 제작을 시작할 때, Jimo 앱을 열고 입력창을 멍하니 바라보며 무엇을 써야 할지 몰라 헤매는 경우가 많습니다. 몇 단어를 입력하고 나면, 생성된 콘텐츠는 예상과는 전혀 다르고, 그때서야 앱에 문제가 있는 건지 아니면 자신이 프롬프트 작성법을 모르는 건지 의심하기 시작합니다.

예를 들어, "나는 암호화폐 업계의 거물로 환생한 Biteye의 후배가 되고 싶다"는 아이디어일 뿐, 이야기가 아닙니다.

아이디어는 방향 제시입니다. 무엇을 하고 싶은지 대략적으로 알려줍니다. 스토리는 구조입니다. 각 프레임에서 무엇을 촬영해야 하는지 알려줍니다. 아이디어에서 스토리로 나아가기까지, 그 사이에는 시나리오 기획이라는 과정이 있습니다.

가장 간단한 방법은 아무 LLM 프로그램이나 열어보고, 막연한 아이디어를 제시한 다음, 프로그램이 이야기를 구체화하도록 돕는 것입니다. 모든 세부 사항을 스스로 생각해낼 필요는 없습니다. 방향만 제시하면 프로그램이 나머지를 추론해낼 것입니다.

줄거리가 정해지면 바로 여러 부분으로 나누지 마세요. 대신 이야기의 흐름에 맞춰 몇 개의 큰 부분으로 나누고, 각 부분의 핵심 주제를 명확하게 정의하세요. 이렇게 하면 전체적인 속도를 조절하고 특정 부분이 너무 늘어지거나 너무 빨라지는 것을 방지할 수 있습니다.

지멍에서 단일 동영상의 최대 길이는 15초이지만, 실제로는 12초 미만의 동영상이 가장 안정적이며 표시 오류가 발생할 가능성이 가장 낮습니다. 각 세그먼트의 평균 길이가 10초라고 가정할 때, 1분짜리 동영상은 약 5개의 세그먼트로 분할해야 합니다.

우리는 이야기를 다섯 부분으로 나누었습니다.

1단락: 도입부, 즉 핵심 과제는 장면과 등장인물을 설명하는 것입니다.
두 번째 단락: 시간 여행의 핵심 과제는 시간 순서를 정하는 것입니다.
3번째 단락: 등장인물이 혼란스러운 상태에서 명확한 상태로 변화하는 과정을 보여준다.
4번째 문단: 부를 계산하고, 감정을 극에 달하게 몰아붙인다.
5번째 단락: 반전을 완료하여 열린 부분과 닫힌 고리를 형성합니다.

단락 작성이 완료되면 각 단락을 구체적인 샷 설명으로 세분화하세요. 각 샷에는 주요 피사체, 위치, 상황, 촬영 각도라는 네 가지 요소가 포함되어야 합니다. 스토리보드에는 움직임을 포함하지 말고 정지된 순간만 묘사하세요.

첫 번째 단락의 스크립트를 AI 채팅창에 복사한 후 "첫 번째 장면의 스크립트를 바탕으로 스토리보드 설명을 주세요"라고 입력하세요. 결과는 아래와 같습니다 👇

II. 스토리에서 비주얼로: 먼저 등장인물, 장면, 스토리보드를 파악합니다.

이 장은 전체 과정에서 가장 중요한 부분입니다. 여기서 생성하는 이미지의 품질이 최종 비디오 품질의 상한선을 직접적으로 결정합니다.

먼저, 주요 대상을 파악하기 위해 3면도를 작성하십시오.

스토리보드를 제작하기 전에 가장 먼저 해야 할 일은 주인공의 삼면도 그림을 그리는 것입니다.

삼면도란 동일한 캐릭터의 정면, 측면, 후면 세 가지 이미지를 말합니다. 그 목적은 캐릭터의 외형을 고정하여 이후 어떤 장면이 생성되더라도 이 세 가지 이미지를 사용하여 캐릭터의 일관성을 유지하는 것입니다.

이 단계를 건너뛰고 스토리보드를 바로 생성하면 생성되는 캐릭터의 헤어스타일이나 얼굴형이 매번 다르게 보여 동영상을 제작할 수 없게 됩니다.

ChatGPT/Seedream을 열고 대화 상자에 다음을 입력하십시오.

"비테예의 여동생의 세 방향 이미지를 생성하세요."

AI는 동일 인물을 서로 다른 세 각도에서 촬영한 이미지를 생성합니다. 생성된 이미지가 예상과 크게 다를 경우, 참조 이미지를 업로드할 수 있습니다.

3면도 작성이 완료되면 다운로드하세요. 동영상을 제작할 때마다 참조용으로 해당 파일을 다시 업로드해야 합니다.

배경을 정의하기 위해 또 다른 장면 참조 이미지를 만드세요.

등장인물이 정해지면 동일한 방식으로 장면의 참조 이미지를 별도로 생성합니다. 대화 상자에 "사무실 이미지를 생성해 주세요"라고 입력하세요.

스토리보드 제작을 시작하기 전에 기본적인 개념을 이해해야 합니다. 바로 '샷'이란 영상에서 가장 작은 표현 단위라는 점입니다.

카메라는 말도 할 수 있습니다. 다양한 샷 크기는 다양한 정보를 전달합니다. 일반적인 샷 크기는 다음과 같습니다.

파노라마 뷰: 장면의 위치와 등장인물을 관객이 파악할 수 있도록 정보를 전달합니다.
미디엄 샷: 줄거리 전개를 위해 사용되며, 인물의 행동과 표정을 명확하게 보여줍니다. 내러티브에서 가장 자주 사용되는 샷 유형입니다.
클로즈업: 감정을 불러일으키기 위해 사용되는 기법으로, 카메라가 얼굴, 손 또는 주요 소품에 초점을 맞춰 세부 사항을 확대함으로써 관객에게 강렬한 감정적 효과를 줍니다.

단일 샷을 이해했다면, 이제 다음 단계로 나아가야 합니다. 비디오는 단일 샷이 아니라, 여러 샷이 리드미컬하게 연속적으로 결합된 결과물입니다.

실제 제작 과정에서는 영상의 샷 구조를 구성하기 위해 "4분할 그리드"와 "9분할 그리드"를 주로 사용합니다. 즉, 영상에 4개 또는 9개의 샷을 배열하여 하나의 완전한 표현을 완성하는 방식입니다.

4칸 격자와 9칸 격자 중 어떤 것을 선택할지는 본질적으로 리듬을 조절하는 것에 관한 것입니다.

이야기의 배경을 설정하는 오프닝 장면이나 감정의 흐름을 마무리하는 엔딩 장면처럼 속도가 느린 부분에는 4컷 구성으로도 충분합니다. 4컷 구성은 각 프레임에 충분한 여유 공간을 제공합니다.
빠른 속도로 진행되는 장면, 예를 들어 긴장감을 조성하기 위해 카메라가 빠르게 전환되어야 하는 싸움의 클라이맥스와 같은 장면에서는 9개의 샷을 하나의 영상으로 압축하는 9그리드 레이아웃을 사용하여 완전히 다른 느낌을 연출할 수 있습니다.

카메라 앵글과 속도 조절을 이해하고 나면, 추상적인 이야기를 구체적인 영상으로 구현하는 실제 제작 단계에 들어갈 수 있습니다.

캐릭터의 3면도와 장면 참고 이미지가 준비되면, 다음 단계는 이전에 작성된 스토리보드 설명을 시각적 이미지로 하나씩 변환하는 것입니다. 이유는 간단합니다. AI는 "지속적으로 변화하는 과정"보다는 "결정론적인 단일 프레임"을 처리하는 데 더 능숙하며, 이는 가챠 확률을 크게 줄일 수 있기 때문입니다.

구체적인 단계는 다음과 같습니다.

샷을 생성할 때마다 먼저 캐릭터의 3면도와 해당 장면 참조 이미지를 ChatGPT 대화 상자에 업로드한 다음 스토리보드 이미지 생성에 필요한 프롬프트 단어를 입력하십시오.

"주어진 스토리 개요와 스토리보드 설명(이전 및 AI가 생성한 스토리보드 문구 포함)을 바탕으로 장면 및 캐릭터 이미지를 추가하여 4컷 스토리보드를 제작해 주세요."

모델은 사용자가 제공하는 스토리보드 정보를 바탕으로 이 장면을 네 개의 프레임으로 나누어 캐릭터와 장면 간의 일관성을 유지합니다(아래 참조).

💡빠른 팁: 텍스트 이미지를 만들고 복제할 때 흔히 발생하는 몇 가지 문제점이 있습니다. 이러한 문제점을 미리 알아두면 많은 문제를 예방할 수 있습니다.

스마트폰으로 게임을 하는 사람의 모습을 촬영할 때, 생성된 이미지는 자동으로 화면을 보는 사람 쪽으로 향하게 됩니다. 이는 AI가 콘텐츠를 "읽기 쉽게" 보이도록 하기 위한 것으로, 결과적으로 게임 화면 자체가 이미지 왜곡의 원인이 됩니다. 올바른 촬영 방법은 스마트폰을 양손으로 가로로 잡고, 화면이 얼굴을 향하게 하고, 뒷면이 카메라를 향하도록 하는 것입니다.
직업 용어는 AI가 해당 용어와 관련된 특정 상황을 떠올리도록 유도할 수 있습니다. 예를 들어 "간호사"라고 입력하면 AI는 병원을, "요리사"라고 입력하면 주방을 떠올립니다. 따라서 올바른 방법은 직업 용어를 언급하지 않고 실제로 원하는 의류에 대해서만 설명하는 것입니다.
원본 이미지로는 정지 이미지밖에 생성할 수 없습니다. "고개를 돌리는" 동작에 해당하는 시각적 상태가 없기 때문입니다. 따라서 올바른 접근 방식은 단일 프레임에 존재하는 내용만을 기술하는 것입니다.

3. 시각 자료에서 영상으로: 안내 메시지는 시각 자료뿐 아니라 동작을 구체적으로 설명해야 합니다.

스토리보드는 모두 준비됐습니다. 이제 이것들을 움직이는 영상으로 만들어볼 차례입니다.

🌟가입하고 다시 꿈을 꾸세요

브라우저를 열고 "Jimeng AI"를 검색하여 공식 웹사이트에 접속하세요. 오른쪽 상단의 "로그인"을 클릭하세요. Douyin 계정 또는 휴대폰 번호로 가입할 수 있으며, 중국 내에서 바로 접속 가능합니다.

신규 사용자는 15초 분량의 영상을 무료로 제작할 수 있습니다. 멤버십이 필요한 경우, Biteye는 여러 온라인 플랫폼에서 Seedance 2.0의 가격을 비교했습니다. 자세한 내용은 "Seedance 2.0 최저가 구독 가이드"를 참조하세요!

🌟영상 프롬프트 작성 방법은?

이 단계에서 가장 중요한 부분이 바로 이 부분이며, 초보자들이 가장 실수를 저지르기 쉬운 부분이기도 합니다.

먼저, 참고 이미지를 모두 채팅창에 업로드하세요. Jimeng은 여러 개의 참고 이미지를 동시에 업로드할 수 있도록 지원합니다. 이미지를 채팅창으로 드래그 앤 드롭하기만 하면 됩니다. 그런 다음, 이전 장에서 준비했던 캐릭터 3면도, 장면 참고 이미지, 4컷 또는 9컷 스토리보드 등의 자료를 한 번에 드래그하여 업로드하세요. Jimeng은 이러한 이미지들의 정보를 조합하여 영상을 생성합니다.

많은 초보자들이 여기서 실수를 저지릅니다. 사진에 무엇이 있는지 다시 설명하려고 하는 것이죠. 앱은 이미 사용자가 업로드한 사진을 인식하고 있으므로, 사진에 무엇이 있는지 다시 설명할 필요가 없습니다.

프롬프트에는 장면에서 움직이는 것, 움직이는 방식, 카메라 자체가 움직이는지 여부, 그리고 각 시간 간격마다 무슨 일이 일어나고 있는지에 대한 내용이 포함되어야 합니다.

다음 템플릿을 따르되, 각 줄은 비디오의 특정 시간 구간에 해당해야 합니다.

"위의 스토리보드를 참고하여 영상을 제작해 주세요."

[시작 시간 ~ 종료 시간], [촬영 유형], [카메라 움직임], [등장인물 또는 주요 피사체] + [구체적인 동작], 음향 효과: [음향 설명].

🌟음성 설명은 초보자들이 가장 쉽게 간과하는 부분입니다. 영상에 대화가 있는 경우 단순히 "말하는 목소리"라고만 적는 것은 충분하지 않습니다. 모델이 참고용으로 무작위로 목소리를 생성하기 때문입니다. 여러 영상 클립에서 캐릭터의 목소리가 일관되게 유지되도록 하려면 다음 두 가지 방법이 있습니다.

1️⃣ 첫 번째 부분의 오디오를 참고 자료로 사용하세요.

먼저 첫 번째 비디오 세그먼트를 생성합니다. 결과에 만족하면 오디오를 별도로 내보냅니다. 이후 세그먼트마다 이 오디오를 사운드 레퍼런스로 업로드하면 시스템이 이 음색을 사용하여 후속 세그먼트의 보컬을 생성하므로 오디오 일관성이 보장됩니다.

2️⃣ Fish Audio를 사용하여 참조 사운드를 찾으세요

Fish Audio를 열고 캐릭터의 성격과 어울리는 목소리를 검색한 후, 들어보고 샘플을 다운로드하여 참조 오디오로 사용하세요. 제작하는 모든 영상 부분에서 이 참조 오디오를 일관되게 사용하여 영상 전체에 걸쳐 일관된 사운드를 유지하세요.

🌟구두점을 사용하여 AI 음성 해설의 어조를 조절하세요

AI 음성 해설 모델을 위한 대사를 작성하는 것은 단순히 텍스트를 입력하는 것만큼 간단하지 않습니다. 같은 문장이라도 구두점 사용에 따라 완전히 다른 어조로 전달될 수 있습니다.

핵심 논리는 다음과 같습니다. 문장 부호는 쉼표를 제어하고, 쉼표는 분위기를 결정합니다.

...말줄임표는 소리를 끊지만 숨은 계속 이어지기 때문에 생각하거나 망설이거나 말이 끝나지 않았을 때 적합합니다.

...! 이 두 단어를 함께 사용하면 억제 후 갑작스러운 폭발을 나타냅니다.

괄호 안의 내용 음량이 자동으로 줄어들어 숨소리가 섞인 소리로 바뀌어, 혼잣말이나 속삭이는 데 적합합니다.

*내용* 별표로 둘러싸인 단어는 아래쪽으로 갈수록 낮아지고, 속도가 느려지며, 무게감이 더해져 핵심 정보를 강조합니다.

대괄호 안에 "심호흡하세요" 또는 "1초간 멈추세요"와 같이 대화 대신 지시사항을 작성하세요. 그러면 모델이 지시사항을 말로 설명하는 대신 직접 수행할 것입니다.

💡빠른 팁:

AI는 공간 인식이 부족하고 좌우를 혼동하는 경우가 많아 그림 1과 같이 캐릭터의 이동 경로를 보여주는 별도의 "위치 참조 다이어그램"이 필요합니다. 더 간단한 방법은 화살표를 사용하여 캐릭터의 이동 궤적을 나타내고 마지막에 "화살표 제거" 옵션을 추가하는 것입니다.
빠르게 입력하지 말고 천천히 입력하세요. 모델은 빠른 동작보다 느린 동작을 처리할 때 훨씬 더 안정적입니다. 빠른 속도의 장면에서는 모델이 빠른 동작을 생성하도록 하는 대신 편집 속도를 활용하는 데 우선순위를 두세요.
각 영상마다 참조 이미지를 업로드해 주세요. 한 번만 업로드하면 안 됩니다. 모델은 세그먼트 간 메모리 기능을 지원하지 않으므로, 참조 이미지가 업로드되지 않은 세그먼트에서는 캐릭터의 외형이 실제와 다르게 보일 수 있습니다.

IV. 클립에서 완성품까지: 편집은 영상의 최종 품질을 결정합니다

편집과 후반 작업은 전체 과정의 마무리 단계입니다. 앞서 촬영된 각각의 영상은 독립적이며, 서로 다른 톤, 불규칙한 리듬, 흩어진 소리를 가지고 있습니다. 편집의 역할은 이러한 조각들을 하나로 합쳐 완전한 이야기를 만드는 것입니다.

영상에 음악을 추가하면 시청자의 감정을 더욱 효과적으로 자극할 수 있고, 자막을 추가하면 대화 내용이 더 명확해집니다. 같은 소재라도 편집을 잘하면 최종 결과물의 차이가 엄청나게 커질 수 있습니다.

이 과정은 자료 정리 → 색조 통일 → 사운드 추가 → 자막 추가, 그리고 마지막으로 내보내기의 네 단계로 구성됩니다.

1단계: 재료를 준비합니다

CapCut을 실행하고 모든 클립을 장면 순서대로 타임라인으로 드래그하세요. 색조와 음질은 일단 무시하고 순서를 확인한 후 전체적인 흐름을 살펴보세요. 이 단계에서 지나치게 긴 클립은 잘라내세요.

2단계: 색 구성표를 통일합니다

서로 다른 시간에 생성된 클립은 색온도와 밝기에 약간의 차이가 있을 수 있으며, 이로 인해 클립들을 함께 배치했을 때 부자연스럽게 보일 수 있습니다. 해결 방법: 모든 클립을 선택하고 "조정"에서 전체 필터를 적용합니다. 첫 번째 장면에는 차가운 파란색 톤을 사용하고, 두 번째 장면부터는 따뜻한 노란색 톤으로 변경하되, 각 장면 내에서는 내부 색조를 일관되게 유지합니다.

3단계: 배경 음악 및 효과음 추가

대화 오디오는 비디오 생성 시 이미 처리됩니다. 이 단계에서는 주로 배경 음악과 주변 효과음 두 가지 유형의 오디오가 추가됩니다.

배경 음악은 전체적인 분위기를 조성하는 데 중요한 역할을 합니다. 대화 소리가 묻히지 않도록 배경 음악 볼륨은 대화 볼륨의 30% 이하로 유지하세요.

4단계: 자막 추가

CapCut의 "스마트 자막" 기능을 사용하여 대화를 자동으로 인식하세요. 인식 후에는 오타를 확인하고 글꼴과 위치를 표준화하세요. 내레이션이나 독백의 경우, 일반 대화와 구분하기 위해 이탤릭체나 다른 색상과 같은 스타일을 사용하는 것이 좋습니다.

V. 도구에서 표현으로: AI 비디오는 무엇을 진정으로 변화시켰는가?

이전 기사 "GPT Image 2.0이 Seedance 2.0을 강화하다: 누구나 할리우드 블록버스터 영화를 촬영할 수 있다" 에서 우리는 AI 시대에 "영상 촬영"의 진입 장벽이 낮아져 미래에는 누구나 할리우드 블록버스터 영화를 촬영할 수 있을 것이라고 예상했습니다.

하지만 진입 장벽이 낮다고 해서 누구나 할 수 있다는 뜻은 아닙니다.

필요한 도구들은 모두 공개적으로 이용 가능하고, 튜토리얼도 어디에나 있지만, 대부분의 사람들은 똑같은 문제에 부딪힙니다. 즉, 전체 과정을 완료하지 못하는 것입니다.

Biteye의 이 글은 막연한 아이디어에서 완벽한 영상 제작까지 단계별로 안내해 줍니다.

과거에는 이러한 과정에 시나리오 작성, 스토리보드 작성, 미술 감독, 촬영, 편집 등 각 분야가 완전히 분업되어 있었고, 각 단계마다 넘어야 할 난관이 있었습니다.

이러한 단계들이 사라진 것은 아니고, 단지 하나의 과정으로 통합되었을 뿐입니다.

이는 더욱 근본적인 변화를 의미합니다. 즉, 비디오는 더 이상 "생산 능력"의 산물이 아니라 "표현 능력"의 산물이 되었다는 것입니다.