헤드라(Hedra) 창립자 마이클 링겔바흐와의 인터뷰: 생성적 비디오는 어떻게 밈의 힘을 활용해 다음에 올 대단한 것을 창조할 수 있을까?

이 기사에서는 AI 기술이 바이러스성 밈 콘텐츠에서 기업 수준의 애플리케이션으로 도약한 과정에 초점을 맞춰, 생성적 오디오 및 비디오 기술의 혁신적인 잠재력을 보여줍니다.

원제: AI 캐릭터와 가상 인플루언서가 비디오의 새로운 지평을 여는 이유 (Hedra의 Michael Lingelbach)

진행자: Justine Moore, Matt Bornstein, a16z

게스트: 마이클 링겔바흐

Janna와 ChainCatcher가 편집 및 편집

편집자 주

스탠퍼드 대학교 컴퓨터공학 박사 과정생이자 무대 배우 출신인 헤드라(Hedra)의 설립자 겸 CEO 마이클 링겔바흐는 기술과 공연에 대한 열정을 결합하여 업계 최고의 생성적 오디오 및 비디오 모델 개발을 이끌고 있습니다. 헤드라는 전신 대화 기반 비디오 생성을 전문으로 합니다. 헤드라의 기술은 가상 인플루언서부터 교육 콘텐츠에 이르기까지 다양한 애플리케이션을 지원하여 콘텐츠 제작의 진입 장벽을 크게 낮춥니다. a16z 팟캐스트에서 발췌한 이 글은 AI 기술이 바이럴 밈에서 엔터프라이즈급 애플리케이션으로 어떻게 전환되었는지에 초점을 맞춰 생성적 오디오 및 비디오 기술의 혁신적인 잠재력을 보여줍니다.

다음은 ChainCatcher가 편집하고 수집한 대화 내용입니다(일부 삭제됨).

요약

  • 인공지능은 소비자와 기업 환경을 완벽하게 연결합니다. 예를 들어, 이 기술은 기업용 소프트웨어를 홍보하는 아기 광고를 제작하여 기업들이 새로운 기술을 적극적으로 수용하고 있음을 보여줍니다.
  • "베이비 팟캐스트"와 같은 바이럴 밈 콘텐츠는 스타트업에 강력한 도구가 되었는데, 이는 브랜드 인지도를 빠르게 높이고 마케팅 전략의 독창성을 보여준 사례입니다.
  • 전신 표현과 대화 중심의 영상 제작 기술은 창의성의 격차를 메우고 콘텐츠 제작에 소요되는 시간과 비용을 크게 줄여줍니다.
  • 존 라와와 같은 가상의 인플루언서는 "모세 팟캐스트"를 통해 독특한 디지털 캐릭터를 만들어 콘텐츠에 뚜렷한 개성과 매력을 부여합니다.
  • "엄마 블로거"와 같은 콘텐츠 제작자는 기술을 사용하여 빠르게 영상을 제작하고, 이를 통해 브랜드 활동을 쉽게 유지하고 청중과 소통합니다.
  • 실시간 대화형 비디오 모델은 가상 캐릭터와의 양방향 대화를 가능하게 하여 교육과 엔터테인먼트에 몰입형 경험을 제공합니다.
  • 캐릭터 중심의 영상 생성 기술은 역동적인 콘텐츠 제작의 요구를 충족하기 위해 개별적인 표현과 다중 주제 제어에 중점을 둡니다.
  • 대화, 동작, 렌더링을 통합하여 고품질 콘텐츠의 요구를 충족하는 원활한 생성적 미디어 경험을 창출하는 플랫폼 전략입니다.
  • 대화형 아바타 모델을 사용하면 비디오의 감정과 요소를 동적으로 조정할 수 있어 콘텐츠 제작의 새로운 혁신을 예고합니다.

1. 밈에서 엔터프라이즈 애플리케이션으로의 AI 통합

저스틴: 소비자와 기업 환경에서 AI 애플리케이션이 흥미로운 교차점을 이루고 있는 것을 보고 있습니다. 며칠 전, 포브스에서 헤드라(Hedra)가 제작한 광고를 봤는데, 말하는 아기가 등장해서 기업용 소프트웨어를 홍보하는 광고였습니다. 이는 기업들이 AI 기술을 매우 열정적으로 받아들이는 새로운 시대가 도래했음을 보여주는 사례이기도 합니다.

마이클: 스타트업으로서 저희의 역할은 일반 소비자의 사용 신호에서 영감을 얻어 비즈니스 사용자가 신뢰할 수 있는 차세대 콘텐츠 제작 도구로 발전시키는 것입니다. 지난 몇 달 동안 Hedra가 제작한 바이럴 콘텐츠 중 일부는 초기 애니메이션 스타일 캐릭터부터 "베이비 팟캐스트", 그리고 이번 주의 핫 트렌드(정확한 명칭은 모르겠습니다)까지 폭넓은 관심을 받았습니다. 밈(Meme)은 광범위한 잠재고객에게 도달하여 사용자의 마음을 빠르게 사로잡는 매우 효과적인 마케팅 전략입니다. 이 전략은 스타트업 사이에서 점점 더 보편화되고 있습니다. 예를 들어, a16z가 투자한 또 다른 회사인 Cluey는 트위터 바이럴 확산을 통해 상당한 브랜드 인지도를 얻었습니다. 밈의 핵심은 기술이 사람들에게 빠른 창의력을 발휘할 수 있는 매개체를 제공한다는 점이며, 짧은 비디오 콘텐츠가 문화적 의식을 지배해 왔습니다. Hedra의 생성 비디오 기술을 통해 사용자는 어떤 아이디어든 단 몇 초 만에 콘텐츠로 전환할 수 있습니다.

2. 크리에이터와 인플루언서들이 Hedra를 선택하는 이유

저스틴: 사람들이 헤드라를 이용해 밈을 만드는 이유와 사용 방법을 설명해 주세요. 그리고 이것이 타겟 시장과 어떤 관련이 있나요?

마이클: 헤드라는 전신 대화 기반 생성 비디오 모델을 대규모로 구축한 최초의 기업입니다. 수백만 개의 콘텐츠 제작을 지원해 왔으며, 헤드라의 빠른 성장은 콘텐츠 제작 기술 스택의 중요한 공백을 메운 데서 비롯됩니다. 이전에는 생성 팟캐스트, 애니메이션 캐릭터 대화 장면, 노래 영상을 제작하는 것이 어렵고, 비용이 많이 들고, 유연성이 부족하고, 시간이 많이 걸렸습니다. 헤드라의 모델은 빠르고 저렴하며, 가상 인플루언서의 성장을 촉진했습니다.

저스틴: CNBC에서 최근 Hedra를 활용한 가상 인플루언서에 대한 기사를 게재했습니다. 인플루언서들이 Hedra를 어떻게 활용하고 있는지 구체적인 사례를 들어주시겠어요?

마이클: 예를 들어, 유명 배우 존 라와("더 리그"에서 타코 역)는 헤드라를 사용하여 "모세 팟캐스트"부터 "베이비 팟캐스트"까지, 이제 각 캐릭터가 고유한 정체성을 가진 콘텐츠를 제작했습니다. 또 다른 예로, 뉴럴 비즈(Neural Viz)는 헤드라를 사용하여 캐릭터 정체성을 중심으로 "메타버스"를 구축했습니다. 생성적 퍼포먼스는 모델에 개성, 일관성, 그리고 통제력을 불어넣어야 한다는 점에서 단순한 미디어 모델과는 다르며, 이는 특히 비디오 퍼포먼스에 중요합니다. 그 결과, 실제 사람이 아니더라도 이러한 가상 캐릭터들의 고유한 개성이 빛을 발하는 것을 볼 수 있습니다.

3. 가상 인플루언서와 디지털 아바타

Matt: 인스타그램 릴스에서 Hedra 영상을 많이 봤는데, Neural Viz 시리즈의 외계인처럼 완전히 새로운 캐릭터가 등장하는 영상도 있었고요. 과거에는 할리우드에서만 가능했던 일이죠. 실제 사람들이 이 도구를 활용하여 디지털 존재감을 확장하는 영상도 있었습니다. 많은 인플루언서와 콘텐츠 크리에이터들은 매번 의상을 차려입고, 조명을 조절하고, 메이크업을 하는 번거로움을 겪고 싶어 하지 않습니다. Hedra는 맘 블로거 같은 사람들이 준비에 많은 시간을 들이지 않고도 메시지를 전달하는 영상을 빠르게 제작할 수 있도록 해줍니다. 예를 들어, Hedra를 사용하면 카메라를 향해 직접 말하는 듯한 콘텐츠를 제작할 수 있습니다.

마이클: 정말 중요한 지적입니다. 콘텐츠 크리에이터에게 개인 브랜드를 유지하는 것은 중요하지만, 24시간 내내 온라인 상태를 유지하는 것은 매우 어렵습니다. 크리에이터가 일주일 동안 업데이트를 중단하면 팔로워를 잃을 위험이 있습니다. 헤드라의 자동화 기술은 크리에이터의 진입 장벽을 크게 낮춰줍니다. 사용자는 딥 리서치와 같은 도구를 사용하여 스크립트를 생성한 후, 헤드라를 사용하여 오디오 및 비디오 콘텐츠를 제작하고 자동으로 채널에 게시할 수 있습니다. 실제 인물과 완전히 가상의 인물 모두에 대해 자기주권적 디지털 신원을 기반으로 하는 워크플로가 점점 더 많이 나타나고 있습니다.

4. 인터랙티브 비디오의 잠재력과 과제

저스틴: 지금 릴스에서 인기 있는 역사 영상들이 많아요. 예전에는 역사책을 읽으며 역사를 배웠는데, 좀 지루했어요. 등장인물을 통해 역사를 설명하고, 영상 장면을 생성해서 보여주면 훨씬 더 몰입도 높은 경험이 될 거예요.

마이클: 교육 분야를 직접 타겟으로 삼지는 않지만, 많은 교육 기업들이 저희 API를 기반으로 애플리케이션을 개발했습니다. 비디오 상호작용은 텍스트 상호작용보다 참여율이 훨씬 높습니다. 최근 저희는 저지연 오디오 및 비디오 경험을 구현한 최초의 제품인 실시간 인터랙티브 비디오 모델을 출시했습니다. 언어 학습부터 개인 개발 애플리케이션까지, 기술 비용이 충분히 낮아지면 사용자가 대규모 언어 모델(LLM)과 상호작용하는 방식을 완전히 바꿀 것입니다. 제가 개인적으로 가장 좋아하는 프로젝트는 "좋아하는 책이나 영화 속 등장인물과 대화하기"입니다. 예를 들어, "살인자가 있다는 것을 알면서도 왜 그 어두운 방에 들어갔을까?"라고 질문할 수 있습니다. 이러한 인터랙티브 경험은 사용자가 질문을 하고 콘텐츠를 다시 볼 수 있기 때문에 기존 오디오북보다 더욱 풍부하고 생생한 경험을 제공합니다.

Justine: 비디오 모델의 검색 공간은 엄청납니다. 단일 이미지 프레임을 생성하는 것도 복잡한데, 120개 프레임의 연속 비디오를 생성하는 것은 훨씬 더 어렵습니다. Hedra는 다른 비디오 모델과는 차별화되는 독특하고 흥미로운 문제에 집중합니다. 이 문제의 정의와 영감을 설명해 주세요.

Michael: 좋은 질문입니다. Claude는 프로그래밍 모델의 벤치마크가 되고, Open AI는 범용 어시스턴트를 제공하며, Gemini는 비용 효율성과 속도 덕분에 엔터프라이즈 시나리오를 지원하는 등 기본 모델 계층에서 전문화가 진행되고 있습니다. Hedra도 비디오 모델 분야에서 비슷한 위치를 차지하고 있습니다. 저희 기본 모델은 특히 차세대 모델이 뛰어난 성능을 자랑하며, 콘텐츠 제작에 탁월한 유연성을 제공합니다. 하지만 저희는 콘텐츠에 생명력을 불어넣고, 사용자가 콘텐츠와 상호작용하며 일관된 개성과 매력을 경험하도록 유도하는 데 더욱 집중하고 있습니다. 핵심은 비디오 속 캐릭터의 지능과 렌더링 경험을 통합하는 것입니다. 제 비전은 사용자가 비디오 속 캐릭터와 양방향으로 소통할 수 있도록 하는 것이며, 캐릭터는 고유하고 프로그래밍 가능한 개성을 가지고 있습니다. 이를 위해서는 핵심 모델을 최적화하는 것뿐만 아니라 미래의 사용자 상호작용 경험을 재고하는 수직적 통합이 필요합니다.

(V) “캐릭터 중심” 영상 모델 및 피사체 제어

마이클: 저는 연극계 출신입니다. 전문 배우는 아니지만, 캐릭터 연기에 대한 열정을 가지고 있습니다. 광고, 온라인 강좌, 또는 Hedra가 제공하는 익명 채널 등 비디오는 우리 일상의 상호작용의 핵심입니다. 연결감은 매우 중요합니다. 저희는 진입 장벽을 낮추고 제작 과정을 가속화하여 일반 사용자들이 콘텐츠를 쉽게 제작할 수 있도록 돕고 있습니다. 미래에는 모델 지능과 렌더링의 경계가 모호해지고, 사용자들은 자신의 의도를 이해하는 시스템과 대화하게 될 것입니다. 저희는 캐릭터를 단순한 비디오가 아닌 제어의 핵심 단위로 생각합니다. 이를 위해서는 사용자 피드백을 수집하고, 캐릭터의 사실감과 표현력을 최적화하며, 여러 에이전트에 대한 제어 레버를 제공해야 합니다.

Matt: 저는 다양한 영상에 등장할 캐릭터를 만드는 데 많은 시간을 투자하는데, Hedra의 가장 큰 강점은 바로 통합 캐릭터 제작 도구에 있습니다. 캐릭터 이미지를 직접 만들거나 업로드하고, 나중에 사용하기 위해 저장할 수 있으며, 심지어 맥락을 변환하거나 음성을 복제할 수도 있습니다. 제 YouTube 영상과 튜토리얼의 많은 부분에서는 제 목소리를 Hedra에서 복제한 음성이 첫 대사로 등장합니다. 이러한 통합적인 경험은 특히 단편화된 제너레이티브 미디어 시장에서 매우 유용합니다.

(6) 통합 생성 미디어 플랫폼 구축

저스틴: 블랙 포레스트 랩스(Black Forest Labs)와 같은 많은 기업들이 기술적 혁신을 이루었지만, 소비자와 기업에 경험을 제공하기 위해서는 여전히 헤드라(Hedra)와 같은 파트너가 필요합니다. 단일 기술에 국한되지 않고 통합 플랫폼을 구축하기로 결정한 이유는 무엇인가요?

마이클: 집중력과 사용자 니즈가 중요합니다. 헤드라를 설립했을 당시, 대화를 미디어에 통합하는 것이 매우 어렵다는 것을 깨달았습니다. 과거에는 짧은 영상을 제작하기 위해 립싱크를 겹쳐야 했는데, 이는 통일성이 부족했습니다. 저희는 호흡이나 제스처와 같은 신호를 대화와 통합하여 더욱 자연스러운 영상 모델을 만드는 기술적 영감을 얻었습니다. 시장 관점에서 볼 때, 사용자들의 앱 구매 의향은 앱마다 차이가 있었습니다. 일부 인기 앱은 구매 의향이 낮을 수 있지만, 콘텐츠 제작자와 같은 특정 계층은 고품질 경험에 대한 수요가 높습니다. 헤드라든가 11랩스 같은 파트너사든, 저희는 사용자에게 최고의 경험을 제공하기 위해 최고의 기술을 통합하기로 결정했습니다.

맷: 미래에는 AI 캐릭터가 단일 모델로부터 생성된 텍스트, 대본, 음성, 비전을 갖게 될까요?

마이클: 업계가 멀티모달 입출력 패러다임으로 이동하고 있다고 생각합니다. 단일 모델의 과제는 제어입니다. 사용자는 음성, 음높이, 리듬과 같은 세부 사항을 정밀하게 조정해야 합니다. 분리된 입력은 더 많은 제어를 제공하지만, 미래에는 사용자가 안내 신호를 사용하여 각 모달리티의 적합성을 조정할 수 있는 옴니모달 모델로 전환될 수 있습니다.

7. 인터랙티브 비디오의 미래

저스틴: 헤드라의 긴 영상 제작 능력에 감탄했습니다. 몇 분 분량의 오디오를 업로드하고 캐릭터 대사 영상을 만들 수 있는데, 이미지와 음성을 각각 따로 조정할 수 있어서 리소스 낭비 없이 한꺼번에 제작할 수 있습니다. 이렇게 뛰어난 제어 능력 덕분에 인터랙티브 영상의 미래가 더욱 기대됩니다.

마이클: 방금 출시한 인터랙티브 아바타 모델이 정말 기대됩니다. 앞으로는 사용자들이 마치 유동적인 캔버스처럼 비디오 요소를 자유롭게 구성할 수 있게 될 것입니다. 예를 들어, 비디오를 일시 정지하고 특정 대사에서 캐릭터에게 더 슬퍼하도록 요청할 수 있습니다. 이러한 양방향 소통은 차세대 경험을 만들어낼 것이며, 곧 출시될 예정입니다.

Matt: 진정한 AI 배우가 가능할까요? 사용자는 생성된 캐릭터와 실시간으로 상호작용하고 지시를 내릴 수 있습니다.

마이클: 물론 가능합니다. 하지만 현재 제약은 비디오 모델이 아니라, 대규모 언어 모델의 성격적 사실성입니다. 기존 AI 동료(예: 캐릭터 AI)는 여전히 모델링의 흔적을 뚜렷하게 가지고 있습니다. 진정한 상호작용이 가능한 디지털 캐릭터를 구현하려면 설정 가능한 성격에 대한 추가 연구가 필요합니다.

(8) 헤드라의 오디오 생성 및 AI 네이티브 애플리케이션

저스틴: 헤드라의 영상은 놀랍지만 오디오는 때때로 밋밋합니다. 11랩스의 최신 모델은 오디오 품질이 개선되었지만 콘텐츠의 매력도는 여전히 개선이 필요합니다.

마이클: 오디오 생성은 아직 미개척 분야입니다. 현재 생성 음성은 주로 내레이션이나 더빙에 사용되지만, 시끄러운 카페와 같은 상황에서 자연스러운 대화를 생성하는 것은 여전히 어려운 과제입니다. 비디오 제작의 자연스러움을 높이기 위해서는 주변 소리와 여러 턴에 걸친 대화를 제어할 수 있는 오디오 모델이 필요합니다. 비디오 AI는 아직 초기 단계에 있습니다. 초기 CGI 효과가 사실적으로 보였던 것처럼, 이제는 만화처럼 보입니다. 1세대 모델들은 한때 저를 놀라게 했지만, 지금은 조잡해 보입니다. 제어 가능성이 높고 비용 효율적인 실시간 모델을 구현하는 것은 아직 진행 중인 작업입니다.

맷: 사용자들은 실제 사람, 시뮬레이션된 사람, 아니면 만화 캐릭터와 상호작용하는 것을 선호할까요?

마이클: 털북숭이 공과 고양이 캐릭터를 많이 만들었습니다. 헤드라의 통합 모델은 돌멩이부터 로봇까지 다양한 캐릭터를 처리할 수 있어 사용자들이 자유롭게 실험하고 전례 없는 콘텐츠를 제작할 수 있도록 합니다. 기술적 한계에 얽매이지 않기 위해 기존의 비디오와 립싱크 대신 통합 모델을 구축했습니다. 사용자는 "말하는 돌멩이"나 "로봇-인간 팟캐스트"를 시도해 볼 수 있으며, 이 모델은 대화와 캐릭터를 자동으로 처리합니다. 이러한 유연성은 혁신적인 소비자 시나리오를 만들어냈습니다.

저스틴: AI의 크로스오버 응용 분야는 정말 흥미롭습니다. "베이비 팟캐스트"처럼 소비자가 직접 제작한 콘텐츠는 기업용 애플리케이션에 영감을 주고 있습니다. 포브스에 실린 기업용 소프트웨어를 홍보하는 헤드라(Hedra) 제작 아기 광고를 보고 정말 놀랐습니다. 이는 기업들이 AI를 얼마나 빠르게 받아들이고 있는지를 보여주는 사례이며, 소비자의 신호를 기업용 솔루션으로 전환해야 한다는 것을 보여줍니다.

마이클: 엔터프라이즈는 저희의 가장 빠르게 성장하는 분야입니다. 생성적 AI는 콘텐츠 제작 시간을 몇 주에서 실시간으로 단축하고 있습니다. 예를 들어, 자동화된 뉴스 앵커는 정보 전달 방식을 변화시키고 있습니다. 과거에는 높은 비용 때문에 지역 뉴스를 접하기 어려웠지만, 이제는 한 사람이 뉴스 채널을 운영할 수 있습니다. 이러한 "중간 규모 개인화"는 지역 레스토랑이나 테마파크를 위한 타겟팅 광고와 같이 특정 인구 통계에 맞춰 제공되며, 지나치게 개인화된 구글 모델보다 더 효과적입니다.

9. 창업자의 길: 도전, 열정, 그리고 협력적 혁신

저스틴: 창업자로서 어떤 경험을 하셨나요? 어떤 어려움과 보람을 겪으셨나요?

마이클: 샌프란시스코에서 창업자의 삶은 종종 획기적인 기술을 개발하는 낭만적인 여정으로 미화되곤 합니다. 플로리다의 작은 마을 출신이라 이런 길을 걷게 될 줄은 상상도 못 했습니다. 하지만 창업자가 된다는 건 99% 힘든 일입니다. 끊임없이 밀어붙여야 하고, 눈에 보이지 않는 개발부터 쏟아지는 지원 이메일에 직면하는 것까지 문제는 끊이지 않습니다. 육체적으로는 힘들지만, 내면의 만족감은 그 무엇과도 비교할 수 없습니다. 저는 제 사용자들과 팀원들을 사랑하고 다른 일을 하는 건 상상도 할 수 없습니다. 마치 눈 덮인 산을 오르는 것처럼, 손발이 아프지만 정상에 오르면 다시 돌아오고 싶어지는 "2차적 재미"와 같습니다. 저는 매일 아침 7시 30분에 출근해서 오후 10시에 퇴근하는데, 새벽 2시까지도 기능에 대해 논의할 때가 있습니다. 일과 삶의 경계를 허물어야 하지만, 열정이 저를 계속 나아가게 합니다.

맷: 왜 아직도 직접 코딩하시나요? 아이디어를 표현하기 위해서인가요, 아니면 팀원들과 소통하기 위해서인가요?

마이클: 둘 다요. 프로토타입 제작은 아이디어를 빠르게 검증하고 기대치를 명확하게 전달하는 데 도움이 됩니다. 리더로서 명확한 소통은 필수적입니다. 시스템의 확장성을 확보하기 위해 디자이너들과 예외적인 상황(edge case)에 대해 논의합니다. 코딩은 팀과 소통하고, 팀원들의 어려움을 이해하고, 제품 방향을 빠르게 탐색할 수 있게 해줍니다.

공유하기:

작성자: 链捕手 ChainCatcher

이 글은 PANews 입주 칼럼니스트의 관점으로, PANews의 입장을 대표하지 않으며 법적 책임을 지지 않습니다.

글 및 관점은 투자 조언을 구성하지 않습니다

이미지 출처: 链捕手 ChainCatcher 침해가 있는 경우 저자에게 삭제를 요청하세요.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
2분 전
17분 전
44분 전
1시간 전
2시간 전
2시간 전

인기 기사

업계 뉴스
시장 핫스팟
엄선된 읽을거리

엄선 특집

App内阅读