對話Hedra創辦人Michael Lingelbach：生成式影片如何借力Meme催生下一個風口？

原文標題：Why AI Characters & Virtual Influencers Are the Next Frontier in Video ft Hedra's Michael Lingelbach

主持人：Justine Moore，Matt Bornstein，a16z

來賓：Michael Lingelbach

整理&編譯：Janna，ChainCatcher

編按

Michael Lingelbach是Hedra的創辦人兼首席執行官，他曾是史丹佛大學電腦科學博士生，也曾是一名舞台劇演員，結合科技與表演熱情，帶領Hedra開發出業界領先的生成式影音模型。 Hedra是一家專注於全身體現、對話驅動視訊生成的公司，其技術支援從虛擬影響者到教育內容的廣泛應用，顯著降低了內容創作門檻。本文編譯自a16z播客，聚焦AI技術如何從病毒式Meme內容跨越到企業級應用，展現生成式音視頻技術的革新潛力。

以下為對話內容，由ChainCatcher編譯整理（有刪減）。

TL&DR

人工智慧正無縫銜接消費與企業場景，例如此技術生成嬰兒廣告推廣企業軟體，凸顯企業擁抱新科技的熱情。
病毒式迷因內容成為新創企業利器，如「嬰兒播客」迅速提升品牌知名度，展現市場策略的巧妙。
全身表情與對話驅動的影片產生技術填補創作空白，大幅降低內容製作的時間與成本。
虛擬影響者如John Lawa透過「摩西播客」塑造獨特數位角色，賦予內容鮮明個性與吸引力。
內容創作者如「媽媽部落客」借助技術快速產出視頻，輕鬆維持品牌活躍度與觀眾連結。
即時互動視訊模型開啟與虛擬角色的雙向對話，為教育和娛樂帶來沉浸式體驗。
以角色為核心的影片生成技術著重個性表達與多主體控制，滿足動態內容創作需求。
整合對話、動作與渲染的平台策略，打造流暢的生成式媒體體驗，迎合高品質內容需求。
互動式頭像模型支援動態調整視訊情緒與元素，預示內容創作的下一波革新。

（一）從Meme到企業應用的AI融合

Justine：我們看到AI在消費場景與企業場景之間的交叉應用非常有趣。幾天前，我在《富比士》上看到一則由Hedra生成的廣告文本，內容竟然是一個會說話的嬰兒在推廣企業軟體。但這也說明我們正處於一個新時代，企業正快速擁抱AI技術，展現出極大的熱情。

Michael：作為新創公司，我們的職責是從消費者用戶的使用訊號中汲取靈感，將其轉化為企業用戶可以依賴的下一代內容生產工具。過去幾個月，Hedra生成的一些病毒式內容引發了廣泛關注，從早期的動漫風格角色到“嬰兒播客”，再到本週的熱門趨勢——我其實也不確定是什麼。 Meme是一種非常有效的市場策略，透過觸達大量受眾迅速佔領使用者心智。這種策略在新創公司中越來越普遍。例如，a16z投資的另一家公司Cluey就透過Twitter的病毒式傳播獲得了顯著的品牌認知。 Meme的本質是科技賦予人們快速發揮創意的載體，短影片內容已主導文化意識。 Hedra的生成式視訊技術讓用戶在幾秒鐘內將任何創意轉化為內容。

（二）創作者與影響者為何選擇Hedra

Justine：請解釋為什麼人們用Hedra製作Meme，以及他們如何使用它，這與你目標市場的連結是什麼？

Michael：Hedra是首家大規模部署全身表達式、對話驅動的生成視訊模型的公司。我們支援用戶創作了數百萬的內容，之所以能迅速流行，是因為我們填補了內容創作技術堆疊中的關鍵空白。此前，製作生成式播客、動畫角色對話場景或歌唱影片非常困難，要么成本高昂，要么缺乏靈活性，要么耗時過長。我們的模型快速且成本低廉，因此催生了虛擬影響者的崛起。

Justine：近期，CNBC發表了一篇關於Hedra驅動的虛擬影響者的文章。能否舉幾個具體例子，說明影響者如何使用Hedra？

Michael：例如，著名演員John Lawa（《The League》中Taco的扮演者）利用Hedra創作了從「摩西播客」到「嬰兒播客」的系列內容，這些角色如今擁有獨特的身份。另一個例子是Neural Viz，他們基於Hedra打造了一個以角色身分為核心的「元宇宙」。生成式表演與單純的媒體模型不同，它需要在模型中註入個性、一致性和控制力，這對視訊表現尤其重要。因此，我們看到這些虛擬角色的獨特個性開始流行，儘管它們並非真實人物。

（三）虛擬影響者與數位化身

Matt：我在Instagram Reels上看到很多Hedra視頻，既有像Neural Viz系列中的外星人這樣全新創作的角色——過去只有好萊塢大製作才能實現，也有真實人物利用這些工具擴展自己的數字存在。許多影響者或內容創作者不想每次都精心打扮、調整燈光或化妝。 Hedra讓像「媽媽部落客」這樣的人群能快速產生影片傳達訊息，而無需花費大量時間準備。例如，他們可以直接用Hedra產生與相機對談的內容。

Michael：這是一個很重要的觀察。維護個人品牌對內容創作者來說至關重要，但保持全天候在線非常困難。如果創作者暫停更新一周，可能會流失粉絲。 Hedra的自動化技術大幅降低了創作門檻。使用者結合像Deep Research這樣的工具產生腳本，再透過Hedra產生音影內容，並自動發佈到他們的頻道。我們看到越來越多圍繞自主數位身分的工作流程，不僅服務於真實人物，也包括完全虛構的角色。

（四）互動式視訊的潛力與挑戰

Justine：現在很多歷史影片在Reels上流行。過去，我們透過閱讀歷史書來獲取知識，但這有些枯燥。如果能透過角色講述歷史並展示生成式影片場景，體驗會更加引人入勝。

Michael：雖然我們不是直接針對教育領域，但許多教育公司是基於我們的API開發應用。視訊互動的參與度遠高於文字。我們近期推出了即時互動視訊模型，這是首款實現低延遲音視訊體驗的產品。從語言學習到個人提升應用，當技術成本夠低時，將徹底改變使用者與大語言模式（LLM）的互動方式。我個人最喜歡的項目是「與你最喜歡的書或電影角色聊天」。例如，你可以問：「為什麼明知有兇手你還走進那個黑暗房間？」這種互動式體驗比傳統有聲書更豐富，因為使用者可以提出問題、回溯內容，體驗更加生動。

Justine：影片模型的搜尋空間非常大。單幀影像生成已經很複雜，但產生120幀的連續影片更具挑戰性。 Hedra聚焦於一個獨特且有意義的問題，與其他視訊模型有所不同。請描述一下這個問題的定義以及你的靈感來源。

Michael：這是一個很好的問題。我們看到基礎模型層出現了專業化分工，就像Claude成為程式設計模型的標桿，Open AI提供通用助手，Gemini因成本效益和速度服務於企業場景。 Hedra在視訊模型領域也有類似定位。我們的基礎模型效能很高，尤其是下一代模型，提供了內容創作的極大靈活性。但我們更關注如何讓內容“活起來”，讓用戶願意與之互動，感受到一致的個性和吸引力。核心在於如何將影片中角色的智慧與渲染體驗結合。我的願景是使用者能與影片中的角色雙向溝通，角色擁有可編程的獨特個性。這需要垂直整合，不僅優化核心模型，還要重新思考使用者互動的未來體驗。

（五）「以角色為中心」的視訊模型與主體控制

Michael：我來自戲劇背景，雖然不是專業演員，但對角色表演充滿熱情。影片是我們日常互動的核心，無論是廣告、線上課程或Hedra驅動的無面頻道，連結感至關重要。我們透過降低創作門檻、加快速度，讓一般用戶也能輕鬆產生內容。未來，模型的智慧與渲染界線將逐漸模糊，使用者將與理解其意圖的系統對話。我們將角色視為控制的核心單元，而不僅僅是影片。這需要收集使用者回饋，優化角色真實感和表現力，同時提供針對多主體的控制槓桿。

Matt：我花了很多時間為不同影片創建角色，Hedra的強大之處在於整合的角色創作工具。你可以創建或上傳角色形象，保存以供後續使用，甚至轉換語境或複製聲音。我的YouTube影片和教學的許多開場白都使用了Hedra克隆的我的聲音。這種一體化體驗在碎片化的生成式媒體市場中特別珍貴。

（六）打造一體化生成式媒體平台

Justine：許多公司如Black Forest Labs在技術上取得突破，但仍需像Hedra這樣的夥伴將體驗傳遞給消費者和企業用戶。你如何決定打造一個一體化平台，而不限於某一技術？

Michael：這關乎專注與使用者需求。當我創立Hedra時，發現將對話融入媒體非常困難。過去，用戶製作短片需要疊加唇同步，缺乏整體感。我們的技術靈感是將呼吸、手勢等訊號與對話統一，打造更自然的視訊模型。從市場角度來看，我們觀察到用戶對不同應用的付費意願差異。一些熱門應用程式可能付費意願低，但某些細分領域（如內容創作者）對高品質體驗有強烈需求。我們選擇整合最佳技術，無論是Hedra的或是夥伴如11 Labs的，確保使用者獲得最佳體驗。

Matt：未來，AI角色會由單一模型產生文字、腳本、語音和視覺嗎？

Michael：我認為業界正邁向多模態輸入輸出範式。單一模型的挑戰在於控制力。使用者需要精確調整語音、音調或節奏等細節。解耦輸入能提供更多控制，但未來可能趨向全模態模型，使用者可透過引導訊號調整各模態的貼合度。

（七）互動式視訊的未來

Justine：Hedra的長影片產生能力讓我印象深刻。你可以上傳幾分鐘音頻，生成角色對話視頻，分別調整形象和聲音，避免一次性生成浪費資源。這種控制力讓我對互動式影片的未來充滿期待。

Michael：我們剛推出的互動式頭像模型讓我興奮。未來，使用者能像在流體畫布上一樣塑造影片元素，例如暫停影片並要求角色在某段話中更悲傷。這種雙向溝通將帶來下一代體驗，很快就會實現。

Matt：真正的AI演員可能嗎？使用者即時與創建的角色互動，並給予指令。

Michael：絕對可能。但目前限制不在視訊模型，而在大語言模型的個性真實感上。現有的AI伴侶（如Character AI）仍帶有明顯的模型痕跡。要實現真正互動式數位角色，還需在可配置個性上投入更多研究。

（八）Hedra的音訊生成與AI原生應用

Justine：Hedra的影片令人驚嘆，但音訊有時稍遜。 11 Labs的最新模型提升了音訊質量，但內容吸引力仍需改進。

Michael：音訊生成是一個未充分探索的領域。目前生成式語音多用於旁白或配音，但像在吵雜咖啡館中生成自然對話的場景仍具挑戰性。我們需要能控制環境音、多輪對話的音訊模型，以提升影片創作的自然。視訊AI仍處於早期階段。就像早期CGI特效看似逼真，如今看來卻像卡通。我們的第一代模型曾讓我驚嘆，但現在看來已顯粗糙。實現超可控、成本效益高、即時效能強的模型仍需努力。

Matt：使用者會喜歡與真實人類、擬真人類還是卡通角色互動？

Michael：我們生成了很多毛茸茸的小球和貓咪角色。 Hedra的統一模式能處理各種角色，無論是石頭或機器人，讓使用者自由實驗，創造前所未有的內容。我們打造統一模型，而非傳統影片加唇同步，是為了避免使用者受限於科技。用戶可以嘗試“會說話的石頭”或“機器人與人的播客”，模型能自動處理對話和個性。這種靈活性激發了革命性的消費場景。

Justine：AI的交叉應用令人興奮。消費者創造像「嬰兒播客」這樣的內容，啟發企業應用。我在《富比士》看到Hedra生成的嬰兒廣告推廣企業軟體，令人驚訝。這說明企業正快速擁抱AI，我們需要將消費者訊號轉化為企業級解決方案。

Michael：企業是我們成長最快的領域。生成式AI讓內容創作從數週縮短到即時。例如，自動新聞主播正改變訊息傳播方式。過去，地方新聞因成本高昂而消失，但現在一人即可經營新聞頻道。這種「中等規模個人化」滿足了特定人群的需求，如當地美食或主題樂園的精準廣告，比過度個人化的Google模型更有效。

（九）創辦人之路：挑戰、熱情與協同創新

Justine：身為創辦人，你的經驗如何？有哪些挑戰和收穫？

Michael：在舊金山，創辦人生活常被美化，像是建構劃時代科技的浪漫旅程。我來自佛羅裡達小鎮，從未想過會走這條路。但做創辦人99%的時間都很艱難。你必須不斷推動，問題從不減少——從隱形開發到面對大量支援郵件。身體上很疲憊，但內在滿足感無與倫比。我愛我的用戶和團隊，無法想像做其他事。這是一種「第二類樂趣」——像是攀登雪山，手腳受傷，但到達山頂後仍想再來。我每天早7:30進辦公室，晚10點離開，有時凌晨2點還在討論功能。這需要放棄工作與生活的界限，但熱愛讓我堅持。

Matt：你為何仍親自編程？是表達創意還是與團隊溝通？

Michael：兩者都有。原型幫助我快速驗證想法並明確傳達期望。身為領導者，清晰溝通至關重要。我會與設計師討論邊界情況，確保系統可擴展。程式設計讓我保持與團隊的連接，了解他們的挑戰，同時快速探索產品方向。