遊戲中的生成人工智能（Generative AI）革命，都有哪些應用市場

原文作者：James Gwertzman 和Jack Soslow，由DeFi 之道翻譯編輯。

要了解生成式AI 將如何徹底改變遊戲，只需看看@emmanuel_2 m 最近發布的這篇Twitter 帖子。在這篇文章中，他探討了使用Stable Diffusion + Dreambooth（流行的2 D 生成AI 模型）為假設的遊戲生成藥水圖像。

這項工作的變革性不僅在於它節省了時間和金錢，同時還提供了質量——從而打破了經典的“成本、質量或速度同時只能擁有兩個”的三角關係。藝術家們現在可以在幾個小時內創作出高質量的圖像，而手工生成這些圖像需要數週時間。真正具有變革性的是：

現在，任何可以學習一些簡單工具的人都可以獲得這種創造力。

這些工具可以以高度迭代的方式創建無數的變體。

一旦經過訓練，這個過程就是實時的——結果幾乎是即時可用的。

自實時3D 以來，還沒有出現過對遊戲具有如此革命性意義的技術。花任何時間與遊戲創作者交談，興奮和驚奇的感覺是顯而易見的。那麼這項技術將走向何方？它將如何改變遊戲？不過，首先，讓我們回顧一下什麼是生成人工智能（Generative AI）？

圖片來源：由無界版圖AI工俱生成

什麼是生成人工智能

生成AI 是機器學習的一種，計算機可以根據用戶的提示生成原創的新內容。今天，文本和圖像是這項技術最成熟的應用，但幾乎每個創意領域都在開展工作，從動畫到音效，再到音樂，甚至創建具有完全充實個性的虛擬角色。

當然，人工智能在遊戲中的應用並不是什麼新鮮事。即使是早期的遊戲，如Atari 的Pong，也有計算機控制的對手來挑戰玩家。然而，這些虛擬敵人並沒有像我們今天所知道的那樣運行人工智能。它們只是遊戲設計師編寫的腳本程序。他們模擬了一個人工智能對手，但他們無法學習，他們只能和建造他們的程序員一樣好。

由於更快的微處理器和雲計算，現在的不同之處在於可用的計算能力。有了這種能力，就可以構建大型神經網絡來識別高度複雜領域中的模式和表徵。

這篇博文分為兩部分：

第一部分包含我們對遊戲生成AI 領域的觀察和預測。
第二部分是我們為這個領域製作的市場地圖，概述了各個細分市場並確定了每個細分市場中的關鍵公司。

第一部分——觀察和預測

假設

首先，讓我們探討一下這篇博文其餘部分的一些假設：

1. 通用人工智能的研究量將繼續增長，創造出更有效的技術

考慮一下arXiv 檔案中每月發表的關於機器學習或人工智能的學術論文數量圖表：

如您所見，論文數量呈指數級增長，絲毫沒有放緩的跡象。這僅包括已發表的論文——許多研究甚至從未發表過，直接用於開源模型或產品研發。結果是興趣和創新的爆炸式增長。

2. 在所有娛樂中，遊戲將受生成人工智能的影響最大

就涉及的資產類型（2 D 藝術、3 D 藝術、音效、音樂、對話等）的數量而言，遊戲是最複雜的娛樂形式。遊戲也是最具互動性的，非常強調實時體驗。這為新遊戲開發者創造了一個陡峭的進入壁壘，同時也為製作一款現代的、排行榜首的遊戲付出了高昂的成本。它還為生成AI 的顛覆創造了巨大的機會。

想想像Red Dead Redemption 2 這樣的遊戲，它是有史以來最昂貴的遊戲之一，製作成本接近5 億美元。原因很容易理解——它擁有市場上所有遊戲中最美麗、最真實的虛擬世界之一。它還花費了將近8 年的時間打造，擁有超過1,000 個不可玩的角色（每個角色都有自己的個性、藝術作品和配音演員），一個近30 平方英里的世界，超過100 個任務分為6 個章節，以及由100 多位音樂家創作的近60 小時的音樂。這個遊戲的一切都很大。

現在將Red Dead Redemption 2 與Microsoft Flight Simulator 進行比較，後者不僅大，而且非常龐大。 Microsoft Flight Simulator 使玩家能夠在整個地球上飛行，包括1.97 億平方英里的地球。微軟是如何打造如此龐大的遊戲的？通過讓人工智能來做。微軟與blackshark.ai 合作，訓練人工智能從2 D 衛星圖像生成逼真的3 D 世界。

這是一個遊戲的例子，如果不使用AI，實際上是不可能構建的，而且，從這些模型可以隨著時間的推移不斷改進這一事實中獲益。例如，他們可以增強“高速公路三葉草立交橋”模型，重新運行整個構建過程，突然間整個星球上的所有高速公路立交橋都得到了改進。

3. 遊戲製作中涉及的每一項資產都會有一個生成AI 模型

到目前為止，像Stable Diffusion 或MidJourney 這樣的2 D 圖像生成器已經抓住了生成AI 的大部分流行興奮，因為它們可以生成具有引人注目的特性的圖像。但是，已經存在適用於遊戲中幾乎所有資產的生成式AI 模型，從3 D 模型到角色動畫，再到對話和音樂。這篇博文的後半部分包括一張市場地圖，突出顯示了一些專注於每種類型內容的公司。

4. 內容價格將大幅下降，在某些情況下實際上會降為零。

在與正在嘗試將生成AI 集成到他們的生產流程中的遊戲開發人員交談時，最令人興奮的是時間和成本的大幅減少。一位開發人員告訴我們，他們為單個圖像生成概念藝術的時間從開始到完成已從3 週減少到一個小時。我們相信在整個生產流程中也可能實現類似的節省。

需要明確的是，藝術家沒有被取代的危險。這確實意味著藝術家不再需要自己完成所有工作：他們現在可以設定最初的創意方向，然後將大部分耗時和技術執行交給人工智能。在這方面，他們就像手繪動畫早期的賽璐珞畫家，技藝高超的“墨水工”畫出動畫的輪廓，然後成本較低的“畫家”大軍會完成耗時的繪畫工作。動畫cels，填充線條。它是遊戲創建的“自動完成”。

5. 我們還處於這場革命的初級階段，很多實踐還需要完善

儘管最近很興奮，但我們仍處於起跑線上。在我們弄清楚如何將這項新技術用於遊戲的過程中，還有大量的工作要做，並且將為迅速進入這一新領域的公司創造巨大的機會。

預測

鑑於這些假設，以下是對遊戲行業如何轉變的一些預測：

1. 學習如何有效地使用生成人工智能將成為一種有市場價值的技能

我們已經看到一些實驗者比其他人更有效地使用生成人工智能。要充分利用這項新技術，需要使用各種工具和技術，並了解如何在它們之間靈活運用。我們預測這將成為一種適銷對路的技能，將藝術家的創意視野與程序員的技術技能相結合。

克里斯・安德森(Chris Anderson) 有句名言：“每一次豐富都會造成新的稀缺。”隨著內容變得豐富，我們相信最短缺的是知道如何使用AI 工具最有效地協作和工作的藝術家。

例如，將生成AI 用於製作藝術品面臨著特殊的挑戰，包括：

連貫性。對於任何生產資產，您都需要能夠在以後對資產進行更改或編輯。使用AI 工具，這意味著需要能夠使用相同的提示重現資產，這樣您就可以進行更改。這可能很棘手，因為相同的提示可能會產生截然不同的結果。
風格。給定遊戲中的所有藝術都具有一致的風格很重要——這意味著您的工具需要根據您給定的風格進行培訓或以其他方式綁定。

2. 降低壁壘將帶來更多的冒險精神和創造性探索

我們可能很快就會進入遊戲開發的新“黃金時代”，在這個時代，較低的進入門檻會導致更多創新和創意遊戲的爆發。不僅因為較低的製作成本導致較低的風險，還因為這些工具釋放了為更廣泛的受眾創建高質量內容的能力。這導致下一個預測……

3. 人工智能輔助的“微遊戲工作室”興起

有了生成AI 工具和服務，我們將開始看到由只有1 或2 名員工的“微型工作室”製作出更多可行的商業遊戲。小型獨立遊戲工作室的想法並不新鮮——熱門遊戲Among Us 是由Innersloth 工作室創建的，當時只有5 名員工——但這些小型工作室可以創建的遊戲的規模和規模將會增長。這將導致……

4. 每年發行的遊戲數量增加

Unity 和Roblox 的成功表明，提供強大的創意工具可以打造更多遊戲。生成AI 將進一步降低門檻，創造更多的遊戲。該行業已經面臨發現挑戰——僅去年一年就有超過10,000 款遊戲被添加到Steam——這將給發現帶來更大的壓力。然而，我們也會看到……

5. 生成AI 之前不可能創建的新遊戲類型

我們將看到新的遊戲類型的發明，如果沒有生成AI，這些遊戲類型根本不可能實現。我們已經談到了微軟的飛行模擬器，但將會有全新的類型被發明出來，這些類型依賴於實時生成的新內容。

考慮一下Spellbrush 的Arrowmancer。這是一款角色扮演遊戲，以AI 創建的角色為特色，提供幾乎無限的新遊戲玩法。

我們還知道另一家遊戲開發商正在使用AI 讓玩家創建自己的遊戲內頭像。以前他們有一組手繪的頭像圖像，玩家可以混合搭配這些圖像來創建他們的頭像——現在他們完全拋棄了這一點，只是簡單地根據玩家的描述生成頭像圖像。讓玩家通過AI 生成內容比讓玩家從頭開始上傳自己的內容更安全，因為可以訓練AI 避免創建令人反感的內容，同時仍然給玩家更大的主人翁感。

6. 價值將歸於行業特定的人工智能工具，而不僅僅是基礎模型

圍繞Stable Diffusion 和Midjourney 等基礎模型的興奮和熱議正在產生令人瞠目結舌的估值，但新研究的持續湧入確保了隨著新技術的改進，新模型將會出現和消失。考慮3 種流行的生成AI 模型的網站搜索流量：Dall-E、Midjourney 和Stable Diffusion。每個新模型都會成為人們關注的焦點。

另一種方法可能是構建行業一致的工具套件，專注於特定行業的生成AI 需求，深入了解特定受眾，並充分集成到現有的生產管道（例如Unity 或Unreal 遊戲）。

一個很好的例子是Runway，它通過視頻編輯、綠屏移除、修復和運動跟踪等人工智能輔助工具來滿足視頻創作者的需求。像這樣的工具可以建立特定的受眾並從中獲利，隨著時間的推移添加新的模型。我們還沒有看到像Runway 這樣的遊戲套件出現，但我們知道這是一個積極發展的空間。

7. 法律挑戰要來了

所有這些生成AI 模型的共同點是它們是使用海量內容數據集進行訓練的，這些數據集通常是通過抓取互聯網本身創建的。例如，Stable Diffusion 接受了超過50 億個圖像/標題對的訓練，這些圖像/標題對是從網絡上抓取的。

目前這些模型聲稱在“合理使用”版權原則下運作，但這一論點尚未在法庭上得到明確檢驗。很明顯，法律挑戰即將到來，這可能會改變生成人工智能的格局。

大型工作室可能會通過建立基於他們擁有明確權利和所有權的內部內容的專有模型來尋求競爭優勢。例如，微軟在這方面的地位尤其有利，目前擁有23 個第一方工作室，在收購Activision 後還有另外7 個。

8. 編程不會像藝術內容那樣受到嚴重破壞——至少現在還沒有

軟件工程是遊戲開發的另一項主要成本，但正如我們a16 z Enterprise 團隊的同事在他們最近的博客文章中分享的那樣，藝術並沒有死，它只是變成了機器生成的，使用AI 模型生成代碼需要更多測試和驗證，因此與生成創意資產相比，生產力的提高較小。像Copilot 這樣的編碼工具可能會為工程師提供適度的性能改進，但不會產生同樣的影響……至少在短期內不會。

建議

基於這些預測，我們提出以下建議：

1. 現在開始探索生成式AI

需要一段時間才能弄清楚如何充分利用即將到來的生成AI 革命的力量。現在開始的公司以後會有優勢。我們知道有幾家工作室正在進行內部實驗項目，以探索這些技術如何影響製作。

2. 尋找市場地圖機會

我們市場地圖的某些部分已經非常擁擠，例如動畫或語音與對話，但其他領域則非常開放。我們鼓勵對這一領域感興趣的企業家將精力集中在尚未探索的領域，例如“遊戲跑道”。

第二部分——市場地圖

市場現狀

我們已經創建了一個市場地圖來捕獲我們在每個類別中發現的公司列表，我們在這些類別中看到生成AI 影響遊戲。這篇博文逐一介紹了這些類別，對其進行了更詳細的解釋，並重點介紹了每個類別中最令人興奮的公司。

2D 圖像

根據文本提示生成2D 圖像已經是生成人工智能應用最廣泛的領域之一。 Midjourney、Stable Diffusion 和Dall-E 2 等工具可以從文本生成高質量的2D 圖像，並且已經在遊戲生命週期的多個階段進入遊戲製作。

概念藝術

生成AI 工具擅長“構思”或幫助非藝術家（如游戲設計師）快速探索概念和想法以生成概念圖，這是製作過程的關鍵部分。例如，一個工作室（保持匿名）正在使用其中的幾個工具來從根本上加快他們的概念藝術過程，只需要一天就可以創建一個圖像，而以前需要長達3 週的時間。

首先，他們的遊戲設計師使用Midjourney 探索不同的想法並生成他們覺得鼓舞人心的圖像。
這些被移交給專業的概念藝術家，他們將它們組裝在一起並在結果上繪畫以創建一個單一的連貫圖像——然後將其輸入到Stable Diffusion 中以創建一系列變化。
他們討論這些變化，選擇一個，手動繪製一些編輯——然後重複這個過程，直到他們對結果滿意為止。
在那個階段，最後一次將此圖像傳回Stable Diffusion 以“升級”它以創建最終的藝術作品。

2D 製作藝術

一些工作室已經在嘗試使用相同的工具來製作遊戲中的藝術品。例如，這裡有一篇來自Albert Bozesan 的精彩教程，介紹如何使用Stable Diffusion 創建遊戲中的2 D 資產。

3D 藝術品

3D 資產是所有現代遊戲以及即將到來的元宇宙的基石。虛擬世界或遊戲關卡本質上只是3D 資產的集合，經過放置和修改以填充環境。然而，創建3D 資產比創建2D 圖像更複雜，並且涉及多個步驟，包括創建3D 模型和添加紋理和效果。對於動畫角色，它還涉及創建內部“骨架”，然後在該骨架之上創建動畫。

我們看到幾家不同的初創公司在這個3D 資產創建過程的每個階段都在努力，包括模型創建、角色動畫和關卡構建。然而，這還不是一個已解決的問題——還沒有任何解決方案準備好完全集成到生產中。

3D 資產

試圖解決3 D 模型創建問題的初創公司包括Kaedim、Mirage 和Hypothetic。更大的公司也在關注這個問題，包括Nvidia 的Get3 D 和Autodesk 的ClipForge。 Kaedim 和Get3 d 專注於圖像到3 D（image-to-3 D）；ClipForge 和Mirage 專注於文本到3 D（text-to-3 D），而Hypothetic 對文本到3 D（text-to-3 D）搜索以及圖像到3 D（image-to-3 D）都感興趣。

3D 紋理

3D 模型的逼真度取決於應用於網格的紋理或材料。決定將哪種長滿苔蘚、風化的石頭紋理應用於中世紀城堡模型可以完全改變場景的外觀和感覺。紋理包含關於光如何對材料做出反應的元數據（即粗糙度、光澤度等）。允許藝術家根據文本或圖像提示輕鬆生成紋理對於提高創作過程中的迭代速度非常有價值。幾個團隊正在尋求這個機會，包括BariumAI、Ponzu 和ArmorLab。

動畫

創建出色的動畫是遊戲創建過程中最耗時、最昂貴且最需要技巧的部分之一。降低成本並創建更逼真的動畫的一種方法是使用動作捕捉，您可以讓演員或舞者穿上動作捕捉服，並記錄他們在配備特殊儀器的動作捕捉舞台上的移動。

我們現在看到了可以直接從視頻中捕捉動畫的生成AI 模型。這樣效率更高，既因為它消除了對昂貴的動作捕捉裝備的需求，也因為這意味著您可以從現有視頻中捕捉動畫。這些模型的另一個令人興奮的方面是，它們還可以用於對現有動畫應用過濾器，例如讓它們看起來喝醉了、老了或開心了。進入這一領域的公司包括Kinetix、DeepMotion、RADiCAL、Move Ai 和Plask。

關卡設計和世界建設

遊戲創作中最耗時的一個方面是構建遊戲世界，生成AI 應該非常適合這項任務。 Minecraft、No Man's Sky 和Diablo 等遊戲已經以使用程序技術生成關卡而聞名，其中關卡是隨機創建的，每次都不同，但遵循關卡設計師制定的規則。新的Unreal 5 遊戲引擎的一大賣點是其用於開放世界設計的程序工具集，例如植被放置。

我們已經看到該領域的一些舉措，例如Promethean、MLXAR 或Meta 的Builder Bot，並且認為生成技術在很大程度上取代程序技術只是時間問題。該領域的學術研究已經有一段時間了，包括Minecraft 的生成技術或Doom 的關卡設計。

期待用於關卡設計的生成式AI 工具的另一個令人信服的理由是能夠創建不同風格的關卡和世界。你可以想像在1920 年的紐約拍板時代要求工俱生成一個世界，對比反烏托邦的銀翼殺手式未來，對比托爾金式的幻想世界。

以下概念是由Midjourney 使用“一個遊戲級別……風格”這個提示生成的。

音頻

聲音和音樂是遊戲體驗的重要組成部分。我們開始看到公司使用Generative AI 來生成音頻，以補充圖形方面已經發生的工作。

聲音特效

音效是AI 極具吸引力的開放領域。已有學術論文探索使用AI 在電影中生成“foley”（例如腳步聲）的想法，但遊戲中的商業產品還很少。

我們認為這只是時間問題，因為遊戲的交互性使其成為生成AI 的明顯應用，既可以在製作過程中創建靜態音效（“激光槍聲，星球大戰風格”），又在運行時創建實時交互式音效。

考慮為玩家角色生成腳步聲這樣簡單的事情。大多數遊戲通過包含少量預先錄製的腳步聲來解決這個問題：在草地上行走、在礫石上行走、在草地上奔跑、在礫石上奔跑等。生成和管理這些聲音很乏味，並且在運行時聽起來重複且不真實。

更好的方法是實時生成擬音效果的AI 模型，它可以動態生成適當的音效，每次都略有不同，對遊戲中的參數（如地面、角色體重、步態、鞋類等

音樂

音樂一直是遊戲的挑戰。這很重要，因為它可以像在電影或電視中一樣幫助設定情感基調，但由於遊戲可以持續數百甚至數千小時，它很快就會變得重複或煩人。此外，由於遊戲的互動性，音樂可能很難在任何給定時間精確匹配屏幕上發生的事情。

二十多年來，自適應音樂一直是遊戲音頻領域的一個話題，一直追溯到微軟用於創建互動音樂的“DirectMusic”系統。 DirectMusic 從未被廣泛採用，主要是因為以這種格式進行創作很困難。只有少數遊戲，如Monolith 的No One Lives Forever，創造了真正的互動配樂。

現在我們看到許多公司正在嘗試創建AI 生成的音樂，例如Soundful、Musico、Harmonai、Infinite Album 和Aiva。雖然今天的一些工具，如Open AI 的Jukebox，計算密集度很高，不能實時運行，但大多數都可以在初始模型構建後實時運行。

語音和對話

有大量公司試圖為遊戲中的角色創造逼真的聲音。考慮到嘗試通過語音合成為計算機提供聲音的悠久歷史，這並不奇怪。這些公司包括Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai 等等。

使用生成AI 進行語音有多種優勢，這在一定程度上解釋了為什麼這個領域如此擁擠。

即時生成對話。通常遊戲中的語音是由配音演員預先錄製的，但這些僅限於預先錄製的錄音語音。通過生成AI 對話，角色可以說任何話——這意味著他們可以對玩家的行為做出充分的反應。結合用於NPC 的更智能的AI 模型（不在本博客的範圍內，但現在是一個同樣令人興奮的創新領域），對玩家完全反應的遊戲的承諾即將到來。

角色扮演。許多玩家想扮演與他們在現實世界中的身份幾乎沒有相似之處的奇幻角色。然而，一旦玩家用自己的聲音說話，這種幻想就會破滅。使用與玩家頭像相匹配的生成聲音可以保持這種錯覺。
控制。生成語音時，您可以控制聲音的細微差別，如音色、音調變化、情感共鳴、音素長度、重音等。
本土化。允許將對話翻譯成任何語言並以相同的聲音說出來。像Deepdub 這樣的公司專門專注於這個利基市場。

NPC 或玩家角色

許多初創公司正在考慮使用生成式AI 來創建可以與之互動的可信角色，部分原因是這是一個在遊戲之外具有如此廣泛適用性的市場，例如虛擬助理或接待員。

創造可信角色的努力可以追溯到AI 研究的開端。事實上，經典的人工智能“圖靈測試”的定義是，人類應該無法區分與人工智能和人類的聊天對話。

目前，有數百家公司在構建通用聊天機器人，其中許多由類似GPT-3 的語言模型提供支持。少數人專門嘗試構建以娛樂為目的的聊天機器人，例如試圖構建虛擬朋友的Replika 和Anima。正如電影《她》中探討的那樣，與虛擬女友約會的概念可能比您想像的更接近。

我們現在看到了這些聊天機器人平台的下一次迭代，例如Charisma.ai、Convai.com 或Inworld.ai，旨在為完全渲染的3 D 角色提供動力、情感和代理，並提供工具讓創作者提供這些人物目標。如果他們要融入遊戲或在推進情節中有一個敘事位置，而不是純粹的門面裝飾，這一點很重要。

多合一平台

Runwayml.com 是最成功的生成AI 工具之一，因為它在一個軟件包中匯集了廣泛的創作者工具套件。目前還沒有這樣的視頻遊戲平台，我們認為這是一個被忽視的機會。我們很樂意投資具有以下特點的解決方案：

涵蓋整個生產過程的全套人工智能生成工具。（代碼、資產生成、紋理、音頻、描述等）
與Unreal 和Unity 等流行遊戲引擎緊密集成。
旨在適應典型的遊戲製作流程。

結論

對於遊戲創作者來說，這是一個不可思議的時刻！部分歸功於這篇博文中描述的工具，生成構建遊戲所需的內容從未如此簡單——即使您的遊戲與整個地球一樣大！

甚至有一天可以想像一款完全個性化的遊戲，完全根據玩家的需求為玩家打造。這在科幻小說中已經存在很長時間了——比如《安德的遊戲》中的“AI 智力遊戲”，或者《星際迷航》中的全息甲板。但是隨著這篇博文中描述的工具發展得如此之快，不難想像這一現實指日可待。

中文推特：https://twitter.com/8BTC_OFFICIAL

英文推特：https://twitter.com/btcinchina

Discord社區：https://discord.gg/defidao

電報頻道：https://t.me/Mute_8btc

電報社區：https://t.me/news_8btc