原文標題:Why AI Characters & Virtual Influencers Are the Next Frontier in Video ft Hedra's Michael Lingelbach
主持人:Justine Moore,Matt Bornstein,a16z
來賓:Michael Lingelbach
整理&編譯:Janna,ChainCatcher
編按
Michael Lingelbach是Hedra的創辦人兼首席執行官,他曾是史丹佛大學電腦科學博士生,也曾是一名舞台劇演員,結合科技與表演熱情,帶領Hedra開發出業界領先的生成式影音模型。 Hedra是一家專注於全身體現、對話驅動視訊生成的公司,其技術支援從虛擬影響者到教育內容的廣泛應用,顯著降低了內容創作門檻。本文編譯自a16z播客,聚焦AI技術如何從病毒式Meme內容跨越到企業級應用,展現生成式音視頻技術的革新潛力。
以下為對話內容,由ChainCatcher編譯整理(有刪減)。
TL&DR
- 人工智慧正無縫銜接消費與企業場景,例如此技術生成嬰兒廣告推廣企業軟體,凸顯企業擁抱新科技的熱情。
- 病毒式迷因內容成為新創企業利器,如「嬰兒播客」迅速提升品牌知名度,展現市場策略的巧妙。
- 全身表情與對話驅動的影片產生技術填補創作空白,大幅降低內容製作的時間與成本。
- 虛擬影響者如John Lawa透過「摩西播客」塑造獨特數位角色,賦予內容鮮明個性與吸引力。
- 內容創作者如「媽媽部落客」借助技術快速產出視頻,輕鬆維持品牌活躍度與觀眾連結。
- 即時互動視訊模型開啟與虛擬角色的雙向對話,為教育和娛樂帶來沉浸式體驗。
- 以角色為核心的影片生成技術著重個性表達與多主體控制,滿足動態內容創作需求。
- 整合對話、動作與渲染的平台策略,打造流暢的生成式媒體體驗,迎合高品質內容需求。
- 互動式頭像模型支援動態調整視訊情緒與元素,預示內容創作的下一波革新。
(一)從Meme到企業應用的AI融合
Justine:我們看到AI在消費場景與企業場景之間的交叉應用非常有趣。幾天前,我在《富比士》上看到一則由Hedra生成的廣告文本,內容竟然是一個會說話的嬰兒在推廣企業軟體。但這也說明我們正處於一個新時代,企業正快速擁抱AI技術,展現出極大的熱情。
Michael:作為新創公司,我們的職責是從消費者用戶的使用訊號中汲取靈感,將其轉化為企業用戶可以依賴的下一代內容生產工具。過去幾個月,Hedra生成的一些病毒式內容引發了廣泛關注,從早期的動漫風格角色到“嬰兒播客”,再到本週的熱門趨勢——我其實也不確定是什麼。 Meme是一種非常有效的市場策略,透過觸達大量受眾迅速佔領使用者心智。這種策略在新創公司中越來越普遍。例如,a16z投資的另一家公司Cluey就透過Twitter的病毒式傳播獲得了顯著的品牌認知。 Meme的本質是科技賦予人們快速發揮創意的載體,短影片內容已主導文化意識。 Hedra的生成式視訊技術讓用戶在幾秒鐘內將任何創意轉化為內容。
(二)創作者與影響者為何選擇Hedra
Justine:請解釋為什麼人們用Hedra製作Meme,以及他們如何使用它,這與你目標市場的連結是什麼?
Michael:Hedra是首家大規模部署全身表達式、對話驅動的生成視訊模型的公司。我們支援用戶創作了數百萬的內容,之所以能迅速流行,是因為我們填補了內容創作技術堆疊中的關鍵空白。此前,製作生成式播客、動畫角色對話場景或歌唱影片非常困難,要么成本高昂,要么缺乏靈活性,要么耗時過長。我們的模型快速且成本低廉,因此催生了虛擬影響者的崛起。
Justine:近期,CNBC發表了一篇關於Hedra驅動的虛擬影響者的文章。能否舉幾個具體例子,說明影響者如何使用Hedra?
Michael:例如,著名演員John Lawa(《The League》中Taco的扮演者)利用Hedra創作了從「摩西播客」到「嬰兒播客」的系列內容,這些角色如今擁有獨特的身份。另一個例子是Neural Viz,他們基於Hedra打造了一個以角色身分為核心的「元宇宙」。生成式表演與單純的媒體模型不同,它需要在模型中註入個性、一致性和控制力,這對視訊表現尤其重要。因此,我們看到這些虛擬角色的獨特個性開始流行,儘管它們並非真實人物。
(三)虛擬影響者與數位化身
Matt:我在Instagram Reels上看到很多Hedra視頻,既有像Neural Viz系列中的外星人這樣全新創作的角色——過去只有好萊塢大製作才能實現,也有真實人物利用這些工具擴展自己的數字存在。許多影響者或內容創作者不想每次都精心打扮、調整燈光或化妝。 Hedra讓像「媽媽部落客」這樣的人群能快速產生影片傳達訊息,而無需花費大量時間準備。例如,他們可以直接用Hedra產生與相機對談的內容。
Michael:這是一個很重要的觀察。維護個人品牌對內容創作者來說至關重要,但保持全天候在線非常困難。如果創作者暫停更新一周,可能會流失粉絲。 Hedra的自動化技術大幅降低了創作門檻。使用者結合像Deep Research這樣的工具產生腳本,再透過Hedra產生音影內容,並自動發佈到他們的頻道。我們看到越來越多圍繞自主數位身分的工作流程,不僅服務於真實人物,也包括完全虛構的角色。
(四)互動式視訊的潛力與挑戰
Justine:現在很多歷史影片在Reels上流行。過去,我們透過閱讀歷史書來獲取知識,但這有些枯燥。如果能透過角色講述歷史並展示生成式影片場景,體驗會更加引人入勝。
Michael:雖然我們不是直接針對教育領域,但許多教育公司是基於我們的API開發應用。視訊互動的參與度遠高於文字。我們近期推出了即時互動視訊模型,這是首款實現低延遲音視訊體驗的產品。從語言學習到個人提升應用,當技術成本夠低時,將徹底改變使用者與大語言模式(LLM)的互動方式。我個人最喜歡的項目是「與你最喜歡的書或電影角色聊天」。例如,你可以問:「為什麼明知有兇手你還走進那個黑暗房間?」這種互動式體驗比傳統有聲書更豐富,因為使用者可以提出問題、回溯內容,體驗更加生動。
Justine:影片模型的搜尋空間非常大。單幀影像生成已經很複雜,但產生120幀的連續影片更具挑戰性。 Hedra聚焦於一個獨特且有意義的問題,與其他視訊模型有所不同。請描述一下這個問題的定義以及你的靈感來源。
Michael:這是一個很好的問題。我們看到基礎模型層出現了專業化分工,就像Claude成為程式設計模型的標桿,Open AI提供通用助手,Gemini因成本效益和速度服務於企業場景。 Hedra在視訊模型領域也有類似定位。我們的基礎模型效能很高,尤其是下一代模型,提供了內容創作的極大靈活性。但我們更關注如何讓內容“活起來”,讓用戶願意與之互動,感受到一致的個性和吸引力。核心在於如何將影片中角色的智慧與渲染體驗結合。我的願景是使用者能與影片中的角色雙向溝通,角色擁有可編程的獨特個性。這需要垂直整合,不僅優化核心模型,還要重新思考使用者互動的未來體驗。
(五)「以角色為中心」的視訊模型與主體控制
Michael:我來自戲劇背景,雖然不是專業演員,但對角色表演充滿熱情。影片是我們日常互動的核心,無論是廣告、線上課程或Hedra驅動的無面頻道,連結感至關重要。我們透過降低創作門檻、加快速度,讓一般用戶也能輕鬆產生內容。未來,模型的智慧與渲染界線將逐漸模糊,使用者將與理解其意圖的系統對話。我們將角色視為控制的核心單元,而不僅僅是影片。這需要收集使用者回饋,優化角色真實感和表現力,同時提供針對多主體的控制槓桿。
Matt:我花了很多時間為不同影片創建角色,Hedra的強大之處在於整合的角色創作工具。你可以創建或上傳角色形象,保存以供後續使用,甚至轉換語境或複製聲音。我的YouTube影片和教學的許多開場白都使用了Hedra克隆的我的聲音。這種一體化體驗在碎片化的生成式媒體市場中特別珍貴。
(六)打造一體化生成式媒體平台
Justine:許多公司如Black Forest Labs在技術上取得突破,但仍需像Hedra這樣的夥伴將體驗傳遞給消費者和企業用戶。你如何決定打造一個一體化平台,而不限於某一技術?
Michael:這關乎專注與使用者需求。當我創立Hedra時,發現將對話融入媒體非常困難。過去,用戶製作短片需要疊加唇同步,缺乏整體感。我們的技術靈感是將呼吸、手勢等訊號與對話統一,打造更自然的視訊模型。從市場角度來看,我們觀察到用戶對不同應用的付費意願差異。一些熱門應用程式可能付費意願低,但某些細分領域(如內容創作者)對高品質體驗有強烈需求。我們選擇整合最佳技術,無論是Hedra的或是夥伴如11 Labs的,確保使用者獲得最佳體驗。
Matt:未來,AI角色會由單一模型產生文字、腳本、語音和視覺嗎?
Michael:我認為業界正邁向多模態輸入輸出範式。單一模型的挑戰在於控制力。使用者需要精確調整語音、音調或節奏等細節。解耦輸入能提供更多控制,但未來可能趨向全模態模型,使用者可透過引導訊號調整各模態的貼合度。
(七)互動式視訊的未來
Justine:Hedra的長影片產生能力讓我印象深刻。你可以上傳幾分鐘音頻,生成角色對話視頻,分別調整形象和聲音,避免一次性生成浪費資源。這種控制力讓我對互動式影片的未來充滿期待。
Michael:我們剛推出的互動式頭像模型讓我興奮。未來,使用者能像在流體畫布上一樣塑造影片元素,例如暫停影片並要求角色在某段話中更悲傷。這種雙向溝通將帶來下一代體驗,很快就會實現。
Matt:真正的AI演員可能嗎?使用者即時與創建的角色互動,並給予指令。
Michael:絕對可能。但目前限制不在視訊模型,而在大語言模型的個性真實感上。現有的AI伴侶(如Character AI)仍帶有明顯的模型痕跡。要實現真正互動式數位角色,還需在可配置個性上投入更多研究。
(八)Hedra的音訊生成與AI原生應用
Justine:Hedra的影片令人驚嘆,但音訊有時稍遜。 11 Labs的最新模型提升了音訊質量,但內容吸引力仍需改進。
Michael:音訊生成是一個未充分探索的領域。目前生成式語音多用於旁白或配音,但像在吵雜咖啡館中生成自然對話的場景仍具挑戰性。我們需要能控制環境音、多輪對話的音訊模型,以提升影片創作的自然。視訊AI仍處於早期階段。就像早期CGI特效看似逼真,如今看來卻像卡通。我們的第一代模型曾讓我驚嘆,但現在看來已顯粗糙。實現超可控、成本效益高、即時效能強的模型仍需努力。
Matt:使用者會喜歡與真實人類、擬真人類還是卡通角色互動?
Michael:我們生成了很多毛茸茸的小球和貓咪角色。 Hedra的統一模式能處理各種角色,無論是石頭或機器人,讓使用者自由實驗,創造前所未有的內容。我們打造統一模型,而非傳統影片加唇同步,是為了避免使用者受限於科技。用戶可以嘗試“會說話的石頭”或“機器人與人的播客”,模型能自動處理對話和個性。這種靈活性激發了革命性的消費場景。
Justine:AI的交叉應用令人興奮。消費者創造像「嬰兒播客」這樣的內容,啟發企業應用。我在《富比士》看到Hedra生成的嬰兒廣告推廣企業軟體,令人驚訝。這說明企業正快速擁抱AI,我們需要將消費者訊號轉化為企業級解決方案。
Michael:企業是我們成長最快的領域。生成式AI讓內容創作從數週縮短到即時。例如,自動新聞主播正改變訊息傳播方式。過去,地方新聞因成本高昂而消失,但現在一人即可經營新聞頻道。這種「中等規模個人化」滿足了特定人群的需求,如當地美食或主題樂園的精準廣告,比過度個人化的Google模型更有效。
(九)創辦人之路:挑戰、熱情與協同創新
Justine:身為創辦人,你的經驗如何?有哪些挑戰和收穫?
Michael:在舊金山,創辦人生活常被美化,像是建構劃時代科技的浪漫旅程。我來自佛羅裡達小鎮,從未想過會走這條路。但做創辦人99%的時間都很艱難。你必須不斷推動,問題從不減少——從隱形開發到面對大量支援郵件。身體上很疲憊,但內在滿足感無與倫比。我愛我的用戶和團隊,無法想像做其他事。這是一種「第二類樂趣」——像是攀登雪山,手腳受傷,但到達山頂後仍想再來。我每天早7:30進辦公室,晚10點離開,有時凌晨2點還在討論功能。這需要放棄工作與生活的界限,但熱愛讓我堅持。
Matt:你為何仍親自編程?是表達創意還是與團隊溝通?
Michael:兩者都有。原型幫助我快速驗證想法並明確傳達期望。身為領導者,清晰溝通至關重要。我會與設計師討論邊界情況,確保系統可擴展。程式設計讓我保持與團隊的連接,了解他們的挑戰,同時快速探索產品方向。
