저자:하오티엔
AI 현지화의 '침몰' 외에도 최근 AI 트랙에서 가장 큰 변화는 멀티모달 비디오 생성 기술의 획기적인 발전입니다. 원래 순수 텍스트를 지원하여 비디오를 생성하던 것에서 텍스트+이미지+오디오의 전체 링크 통합 생성 기술로 전환된 것입니다.
여러분이 경험할 수 있는 몇 가지 기술적 혁신 사례는 다음과 같습니다.
1) ByteDance는 EX-4D 프레임워크를 오픈소스로 공개했습니다. 단안 영상을 몇 초 만에 무료 시청 4D 콘텐츠로 변환할 수 있으며, 사용자 승인율은 70.7%에 달합니다. 즉, 일반 영상을 AI가 어떤 각도에서든 자동으로 시청 효과를 생성할 수 있는데, 이는 이전에는 전문 3D 모델링 팀이 수행해야 했던 작업입니다.
2) 바이두의 "휘샹(Huixiang)" 플랫폼: 사진 한 장으로 10초짜리 영상을 만들며 "영화 수준" 화질이라고 주장합니다. 하지만 이는 마케팅 포장에 과장된 것이 아니며, 실제 효과를 보려면 8월에 Pro 버전이 업데이트될 때까지 기다려야 합니다.
3) Google DeepMind Veo: 4K 비디오와 주변 소리의 동기식 생성을 구현할 수 있습니다. 핵심적인 기술적 특징은 "동기화" 기능의 구현입니다. 이전에는 비디오와 오디오 시스템이 서로 연결되어 있었습니다. 진정한 의미적 일치를 달성하려면 상당한 어려움을 극복해야 합니다. 예를 들어, 복잡한 장면에서는 화면 속 걷는 동작과 발소리의 오디오와 비디오 동기화를 구현해야 합니다.
4) Douyin ContentV: 80억 개의 파라미터, 1080p 영상 생성에 2.3초, 5초당 3.67위안의 비용이 발생합니다. 솔직히 말해서, 비용 관리는 괜찮지만, 복잡한 장면을 처리할 때 현세대 화질은 여전히 만족스럽지 않습니다.
이러한 사례가 비디오 품질, 제작 비용, 적용 시나리오 등의 측면에서 획기적인 발전을 이루었다는 점에서 왜 그토록 가치 있고 중요한 것일까요?
1. 기술 혁신 측면에서 멀티모달 비디오 생성의 복잡성은 기하급수적으로 증가합니다. 단일 프레임 이미지는 약 10^6개의 픽셀을 생성합니다. 비디오는 시간적 연속성(최소 100프레임)과 오디오 동기화(초당 10^4개의 샘플)를 보장해야 하며, 3D 공간적 일관성도 고려해야 합니다.
요약하자면, 기술적 복잡성은 결코 낮지 않습니다. 원래는 모든 작업을 처리하는 데 초대형 모델이 사용되었습니다. Sora는 비디오 생성 기능을 구현하기 위해 수만 개의 H100을 소진했다고 합니다. 이제는 모듈식 분해 + 대규모 모델 분업 및 협업을 통해 이를 달성할 수 있습니다. 예를 들어, ByteDance의 EX-4D는 실제로 복잡한 작업을 깊이 추정 모듈, 원근 변환 모듈, 타이밍 보간 모듈, 렌더링 최적화 모듈 등으로 세분화합니다. 각 모듈은 한 가지 작업에 특화되어 있으며, 이후 조정 메커니즘을 통해 서로 협력합니다.
2. 비용 절감: 이를 위한 최적화는 실제로 추론 아키텍처 자체에 있으며, 여기에는 낮은 해상도에서 골격을 먼저 생성한 다음 고해상도에서 이미지 콘텐츠를 향상시키는 계층적 생성 전략, 유사한 장면을 재사용하는 캐시 재사용 메커니즘, 특정 콘텐츠의 복잡성에 따라 모델 깊이를 실제로 조정하는 동적 리소스 할당이 포함됩니다.
이러한 최적화를 거친 후, Douyin ContentV는 5초당 3.67위안의 성과를 달성했습니다.
3. 적용 효과 측면에서 기존 영상 제작은 장비, 장소, 배우, 후반 작업 등 많은 자산이 소요되는 작업이며, 30초 광고 제작에는 수십만 위안의 비용이 소요되는 것이 일반적입니다. 이제 AI는 이 과정을 신속하고 단 몇 분의 대기 시간으로 압축하여 기존 촬영으로는 구현하기 어려웠던 시점과 특수 효과를 구현할 수 있습니다.
이를 통해 영상 제작에 대한 원래의 기술적, 재정적 장벽이 창의성과 미학으로 바뀌어 전체 창작자 경제가 재편될 가능성이 있습니다.
질문은, web2AI 기술 수요 측면에서 일어난 이러한 모든 변화가 web3AI와 어떤 관련이 있는가입니다.
1. 첫째, 컴퓨팅 파워 요구 사항의 구조가 변화했습니다. 과거에는 AI가 컴퓨팅 파워 규모를 두고 경쟁했으며, 더 많은 동종 GPU 클러스터를 보유한 쪽이 승리했습니다. 그러나 멀티모달 비디오 생성은 다양한 컴퓨팅 파워 조합을 필요로 하며, 이는 분산 유휴 컴퓨팅 파워뿐 아니라 다양한 분산 미세 조정 모델, 알고리즘 및 추론 플랫폼에 대한 수요를 발생시킬 수 있습니다.
2. 둘째, 데이터 주석에 대한 수요 또한 증가할 것입니다. 전문가 수준의 비디오를 생성하려면 정확한 장면 묘사, 참조 이미지, 오디오 스타일, 카메라 동작 궤적, 조명 조건 등이 필요하며, 이는 전문적인 데이터 주석에 대한 새로운 요구 사항이 될 것입니다. Web3의 인센티브 방식을 활용하여 사진작가, 사운드 엔지니어, 3D 아티스트 등이 전문적인 데이터 요소를 제공하도록 유도할 수 있으며, 전문적인 수직 데이터 주석을 통해 AI 비디오 생성 능력을 향상시킬 수 있습니다.
3. 마지막으로, AI가 중앙 집중식 대규모 자원 할당에서 모듈식 협업으로 점차 전환될 때, 그 자체로 분산형 플랫폼에 대한 새로운 수요가 발생한다는 점을 언급할 가치가 있습니다. 그 시점에 컴퓨팅 파워, 데이터, 모델, 인센티브 등이 결합되어 자체 강화 플라이휠을 형성하게 되고, 이는 web3AI와 web2AI 시나리오의 통합을 촉진할 것입니다.
