作者| 凌梓郡


編輯 | 靖宇


追溯ChatGPT 引發的AI 軍備競賽,可以回到去年7 月,圖像生成模型Stability Diffusion 開源(下文稱SD)。這個在Open AI 的繪畫模型DALL- E2 之後發布的模型,因其源代碼開源,且對公眾開放使用,在當時吸引了最多關注和討論。 (使用DALL-E2 需要申請,通過率很低)


模型背後的公司Stability AI 創始人Emad Mostaque,一位在英國長大的印度裔,當時可能沒有意識到,自己按下了AI「重啟」的加速鍵。


SD 的大熱,影響了Open AI 隨後的決策:管理層決定推遲一直在研究的GPT-4,快速上線普通用戶可用,界面友好的ChatGPT。


這帶來了之後所有人都熟知的故事——ChatGPT 創下了2 個月訪問用戶破億的紀錄,開啟了微軟和谷歌之間的巨頭間之戰,標誌了AI 大模型時代的來臨。


前不久,馬斯克批評Open AI 背離了開源、非盈利的初衷,這也是Open AI 一直以來的爭議。關於如何管理和運作大模型,也是Stability AI 與Open AI 的關鍵區別之一。


Emad Mostaque 認為,大模型需要更多監督,而非在大公司內部運作,社區系統的開放性也至關重要。


他今年39 歲,此前主要的職業生涯是一位對沖基金分析師,也是一位自閉症孩子父親。他會一些AI 技術,但是認為自己更常做的事是「機制設計」,將不同的模式的圖景融合在一起。他不喜歡巨頭控制流量算法的遊戲規則——這背後是對人們的操縱,甚至找紀錄片《社交困境》(The Social Dilemma)裡的所有前員工們聊過天。


Emad Mostaque|來源:Stability AI


「作為一家企業,我們只是社區的一員」,公司的CTO 在之前的IF 2023 的分享中表示。 Stability AI 也將堅持模型開源,讓世界各地的人都能夠觸及最新的技術。


在支持開源社區上,Stability AI 前不久和Hugging Face 等幾個初創公司一起資助了研究社區Eleuther AI。在2022 年,Stability AI 曾為該組織捐贈過雲計算資源。捐贈的資源來自另一家科技巨頭亞馬遜。


Stability AI 與其簽訂協議,獲得了超過4000 個英偉達A100。在此之前,計算資源基本上來自創始人自套腰包購買的32 個GPU。


而據路透社報導,Stability AI 可能正在以40 億美元的估值尋求下一輪估值。上一輪融資後,公司以10 億美元估值成為新晉獨角獸。


從已存在的收費模式來看,Stability AI 與Open AI 基本類似,通過API 收費,或者向個人用戶收費提供增值服務。 此外,Stability AI 將聚焦於創意產業,為內容生產公司定制專屬模型。 公司已經和印度的投資機構Eros Investments(愛神投資)成立了合資企業,後者擁有1.2 萬部的電影資料庫。


在巨頭佈局大模型的時代,Stability AI 的探索路徑無疑值得關注。這篇文章是他去年11 月和10 月兩次播客採訪的整合編譯,分別來自Weight&Biases 和Hard Fork。在創立Stability AI 之前,他有AI 製藥、科技公益等不同領域的經驗,這無疑影響到他對技術該如何被創造、如何被使用的思考。



0 1
在新冠項目中
接觸到大模型



我在牛津大學開始了數學和計算機科學的職業生涯。在Gap Year 期間,我是一個企業開發人員。之後做了多年的對沖基金管理,我曾是AI 和視頻遊戲的大型投資方。後來兒子被診斷出患有自閉症時,我休息了一下,用AI 做藥物發現。分析神經遞質的生物分子通路,回顧文獻,重新使用藥物以幫助改善一些症狀;我同時向一些對沖基金和其他政府提供關於AI 和技術、地緣政治的建議等。


我大約是在12 年前開始這段經歷的。幾年前,我是CAIAC 的首席設計師之一,這個名為「集體和增強智能應對新冠肺炎」(Collective and Augmented Intelligence Against COVID-19)的項目於2020 年7 月在斯坦福大學啟動,旨在獲取世界上的冠狀病毒疾病知識,利用AI 對其進行壓縮,使其變得有用。那是我第一次真正接觸到這些新模型。


我當時就想,「天啊,這太重要了。它們正變得足夠好、足夠快,而且很快就變得足夠便宜,可以抵達任何地方。」還有,「所有這些如此強大的技術都將被大公司所控制,而他們相信自己的優勢就是如此,這合理嗎?」不是,讓我們向前走。


我有一些AI 和其他方面的經驗,不過大多數時候,我所做的是看到大的圖景和模式,把它們放在一起,有點像機制設計。



0 2
Stability AI 的成立



三年前,我們就有了Stability AI 的想法。我和聯合創始人做的第一件事是參加了Global XPRIZE for Learning(注:用科技手段幫助貧窮兒童學會讀寫、計算的公益項目),有1500 萬美元的獎金,獎勵第一款可以在沒有互聯網條件下教讀寫和計算的應用程序。


我們把平板電腦部署到難民營,「如果我們用AI 讓它更好、更強大,會發生什麼?」我們還沒有使用AI,但我們剛剛完成了隨機對照試驗,在13 個月的教育中,每天教難民營中的難民一小時讀寫和計算。


在兩年前,我們恰逢其時地建立了Stability AI,來開展聯合國支持的AI 領域2019 冠狀病毒疾病工作,結果陷入了許多官僚主義和其它問題。


最初,我們幫助支持Eleuther 和LAION 等社區。我的想法是,這就像是Web3 道瓊斯指數。比如「讓我們獎勵所有的社區成員,讓他們團結起來」。但是大約一個月之後,我們意識到商業開源軟件的規模和服務才是解決問題的方法。


當我在資助整個開源藝術空間的時候,我認為至少在明年能接近現在看到的質量。我認為這是(由於)知識壓縮的速度,使用的容易度,以及能夠連接到一些人的設備。這讓我很吃驚,我以為至少還要再過幾年我們才能到達那裡。


Stable Diffusion 是第一個足夠好,足夠快,足夠便宜,任何人都可以運行的模型。這就像一個2G 的文件,有來自10 萬G 的數據。我覺得就是這個瘋狂的東西讓它大規模爆炸,這是主要的催化劑。


Stability 基本建立在這樣一種信念之上,我們擁有的這些新模型——這些基於Transformer 的模型、以及類似的模型——對於釋放人類在我們所見過的某些最強大的技術中的潛力至關重要,將它們開源、以便人們可以在其基礎上進行開發和使用,相信這不僅是一個偉大的商業模式,而且對於縮小數字鴻溝和盡可能推廣這些技術至關重要。


Stability AI的官方使命是建立基礎來激活人類的潛力,座右銘是「讓人們更快樂」。 我們基本上催化了開源AI 模型的構建,然後我們採用這些模型,為客戶擴展和定制它們。



0 3
Stability AI 可以開源大模型,
而Big Tech 不能



我們有100 名員工,社區有10 萬人。這就是我們力量的來源,我們來自世界各地。我們還給他們收入分成,這很奇怪。我們給他們好處,因為我們嘗試把他們當作藝術家。


我和紀錄片《社交困境》(《The Social Dilemma》)裡的所有人聊過天。從大型科技公司的角度來看,大型科技公司之所以建造圓形監獄,是因為他們無能為力,他們別無選擇。我們現在給了它一個選擇。我們現在在和大型科技公司合作,給他們一個出口,讓他們成為這件事的一部分。我們有點像瑞士,每個人都可以作為中立方參與進來。


尤其是工程師,想讓事情變得自由和開放,但同時有監管,有信任和安全的部分。我們得到了關於這個問題的指導和意見,來找一個中庸之道,因為它不能是極端純粹的自由主義,而另一個極端是沒有人擁有任何東西。


The Social Dilemma 海報


我認為擁有的這些因素會幫助我們做到這一點。通過風險投資,我們按照自己的條件籌集資金,所以有完全的獨立性。而不像OpenAI,他們從微軟那裡籌集了10 億美元,而微軟擁有技術的獨家許可。不一致的激勵是很難對抗的。我們希望社區、我們的團隊和我們的位置能夠幫助我們平衡這一點,對我們來說,處於這個位置是一件好事,沒有其他人真正佔據這個位置。


同樣,我們正在與監管機構積極談判。公眾的角色是社區和延伸。所以我們釋放了Stability Diffusion,然後就有點瘋狂了。 1000 個項目如雨後春筍般出現。


社區就會說,stability AI 為什麼不介入並協調,並有一個官方代言人? 我們說,好吧。所以我們進去了,把Reddit 變成了官方的Reddit。他們說,你怎麼敢?(真是)公司霸主。


我們只是想讓事情變得更有條理。然後我們不得不把它還回去。總是有這種推推搡搡的關係。我認為社區優先,但不能是直接民主。我們會犯錯誤,我們會做正確的事情,我們會受到越來越多的審查,因為我們所做的事情實際上是至關重要的。


大型科技公司處於不令人羨慕的位置,因為他們不能發布它來做公關。它就像來自神的普羅米修斯之火——這是下一代的交流,這是瘋狂的——它可以用來燒毀東西。它可以用來激活人性之光。但是我們尋找如何處理的唯一辦法就是一起努力。這就是為什麼我想要與大型科技公司合作,想要與小型科技公司合作,想要與監管機構合作,想要與每個人合作,試圖找出正確的方法。



0 4
計算資源是公共利益



現在我們有很多控制權,因為我們是最快的計算機供應商。我們正在局部努力的就是讓研究者能夠使用自己的計算機,同時刺激一些國家集群更加開放。不再需要6 到12 個月來獲得A100 或H100 訪問權限。


我認為,它應該更加多樣化一點。各方都在桌上,而不是集中。這是我們有意採取的行動,目的是從倫理和道德角度,逐步實現越來越多的分佈式終端。從商業的角度來看,這對我們也有用。


如果我們被認為掌控了一切,我們就不知道那裡會發生什麼。協調整個社區需要付出很大的努力,但可能不會是積極的。假設如我們預期的那樣,一億、十億人參與進來,協調所有部分需要很多工作。相反,它應該是一個獨立的實體,所有的聲音可以從那裡被聽見。


我們也有自己的角色。我們從計算機的主要提供者,變成了計算機的提供者。希望全世界所有計算機都能被提供出來,更高效地做這件事。因為這是一項公共利益(public good)。這對我們有好處,因為它節省了我們的成本,開源模型的創建不需要我們付出任何代價。


對我們來說,成為第一層基礎設施層是有意義的,然後開始運作,建立一個業務模型來擴展它。



0 5
基於基礎模型,
社區可以分叉



(團隊分歧)發生在Stable Diffusion 釋放之後。人們說,「這可以用於不安全的工作,我們不覺得舒服,在Stability 內部支持它。」


作為一個團隊,我們進行了討論,決定不再通過Stability AI 發布任何工作起來不安全的模型。有些人對此很不滿意。大多數人都能接受,但這更容易,因為這是一個團隊的決定。


在社區的基礎上,這屬於治理結構。我們正在研究EleutherAI,我們想把它轉化成一個獨立的社區,因為它有很多不同的實體和很多不同的觀點。這是一個剛剛開始的治理結構。但是我們需要讓它具有適應性,因為我們不確定這些東西會去哪裡。


目前,Stability AI 對GPU 訪問、以及類似的資源有很大的控制。今後不應該出現這種情況,因為任何一個實體ーー無論是我們、 OpenAI、 DeepMind 還是其他實體ーー都不應該控制這項技術,因為這是共同利益。


我們想成為獨立非盈利組織的貢獻者,而不是控制這項技術,然後在支持和促進開源方面發揮作用。我認為最終會發生的是,如果人們真的不同意,他們就分叉。我們在各個社區都看到過。這就是開源的魅力所在。


你可以分叉模型。我認為關鍵是基準模型。這是個很大的前期計算,然後微調和運行需要相對較少的計算。這與Google 或Facebook 當前的模式正好相反,將其轉化為數據庫結構的計算相對較少,大部分計算都是在推理時完成的。這是整個範式的顛覆,但這不是社區分叉。


社區分叉是關於工作安全或不安全的分歧,如數據集、「爬蟲或許可」或類似的東西。我想圍繞著一些關鍵問題,會有不同的社區。


Stability AI 官網



0 6
防止巨頭使用
大模型操縱人們



大型模才是問題所在。我們應該對此有更多的監督,以防某些AI 組合的事物正確、卻危險。


想像一下,蘋果、亞馬遜、谷歌將情感文本到語言(emotional text-to-speech)整合到他們的模型中。 Siri 突然有了一個非常誘人的聲音,並且悄悄告訴你應該買東西。你可能會買更多。這會受到監管嗎?現在還沒有,也不會及時。


將這些模型公之於眾會讓人們思考,「實際上,這可能是應該受到監管的東西。」如果有些東西是被規範的,那也沒關係,因為這是一個民主的過程。


那些利用這種技術來操縱我們的公司ーー準確講,就是廣告模式ーー我認為這是不合適的。人們明白這項技術,意味著人們將更加挑剔的策劃輸出,然後它將是檢測技術的混合產物。這是一個複雜的辯論,基本上不能在舊金山做出決定。這很重要,因為世界上不可避免地存在著技術。


如果你真的戳人,說「不想讓印度人使用這項技術」,他們會說,「我們當然想!」「什麼時候?」「當安全的時候」「誰決定的?」「我們做的」「所以他們不夠聰明,不能做出決定?」「不,他們需要接受教育。」然後情況變得很糟糕,對吧?同樣,我認為這是可以理解的,因為它既可怕又冷酷的。



0 7
Stability AI 的商業模式:
提供定制模型



這些模型ーー以及它們運行所依賴的數據,幾乎可以做任何事情。如果你將不同的玩家聚合起來,以實現質量,並且開源版本,價值在哪裡呢?如果模型可以做任何事情,那麼它的價值就不可能存在於模型中,價值肯定在別處。規模化可以讓我做到這一點,我們有API,以及DreamStudio.AI,這是我們自己的執行版本。 (注:DreamStudio 是一個讓所有人直接使用SD 模型的用戶界面,前500 張圖像生成免費,後續可以充值


(追問:所以每次有人通過你的API 創建一個圖像,你就能從中抽成?)是的,或者通過Dream Studio,我們有不錯的分成。第二部分是服務,很少有人能建立這些模型,但是世界上每個內容提供商都想擁有他們自己的模型版本。你想要一個Hello Kitty 的模型,或者你想要一個寶萊塢的模型。


基本上其價值在於將Hello Kitty 作為一項業務進入市場,並將其資產轉化為互動資產。它可以用於元宇宙,可以用於新體驗,也可以用於任何地方。然後開發工具,使他們能夠訪問自己的模型,讓其他人能夠訪問自己的模型,並向世界各地輸送這些工具。作為一個企業,我們的主要工作基本上是滿足大公司的需求,然後通過我們開發的軟件幫助其他人。比如DreamStudio Lite 只是一個非常基本的軟件。 DreamStudio Pro 是一個功能齊全的動畫套件,具有故事板、微調功能,以及創建自己的模型等功能。


DreamStudio AI 充值界面


我們會和大型內容庫(合作)。我們稱之為多元宇宙,因為我們認為每個人都應該有自己的模型。所以我們在那裡嵌入團隊,為他們創建模型,並分享好處。你有服務合同,所有這些合同都圍繞著它,因為它們現在是一個專業化的事情。


我認為這就是可持續發展的優勢所在:內容和經驗的混合,以及內容。舉個例子:我們和印度寶萊塢的Eros(注:印度電影公司)做了筆交易,也就是印度的Netflix,每天有2 億活躍用戶。


你可以擁有豐富的生成式的未來,每個人都可以個性化和語境化這些東西。整個媒體空間都將是生成輔助的。我不認為它能取代,它增強了。從商業的角度來看,媒體是目前為止最有利可圖的,它可以為很多其他的東西提供資金。


我認為這是一個合理的模式,迪斯尼和派拉蒙最終不得不改變他們的全部檔案。就像VHS 到DVD 的提升一樣,因為你知道做這些模型有多難。我們只是想,「什麼可以是最有利於社區和吸引資產?」這就是媒體對我們的意義。


0 8
通過社區,去中心化決策



如果你是任何一個社區的活躍成員:從用於音樂的Harmony AI,到用於語言模型的Eleuther,再到用於圖像的LAION,你有很大機率用這種方式得到計算資源。可以是一個A100 到五百個A100,取決於你的東西有多好,尤其如果你把社區的成員作為你的團隊。這是最主要的方法。


我們正在建立一個撥款門戶網站,正在與某些大學合作,也在理清應該怎樣做,可能類似「Google Colab」(注:Google Research 提供的一項云服務,讓任何人都可以通過瀏覽器編寫和執行任意Python 代碼),允許人們從第一天開始解鎖事情。


這也符合我們項目的下一階段。我們資助了一些博士,他們是社區的活躍成員。我們計劃2023 年資助100 位,還將為實驗室和項目提供專用的計算支持。有一個獨立的董事會負責做出決定,因為我們的業務和更廣泛的業務之間總是存在矛盾。


我們為什麼要資助OpenBioML,(注:一個機器學習和生物學交叉的開放、合作研究實驗室)因為它很有用。目前沒有業務邏輯。我們希望保持支持整個生態系統的組合,這樣我們在其中有一個很好的位置,然後關註一些商業方面的東西,目前是生成性媒體。


我們正在做的基本是,假設你創建了沒有廣告激勵的Facebook 和Twitter,你也在加速使用工具來平衡這一點?


我們信任社區,信任這種去中心化,而不是集中化的協調,即這些決定是分開做出的。這些算法都被鎖起來了,無法詢問。它們是不可理解的。它並不完美,你可以質疑數據集,可以質疑模型,你可以質疑Stable Diffusion 的代碼以及其他事情。再次強調,我們相信這是一種公共利益和公共權利(public good and public right)。我們看到它一直在從偏見、信任和安全方面得到改善。在大公司裡,動機不是公共利益。


我們想開放討論。所以我們剛剛宣布了一個20 萬美元的獎金,獎勵最好的開源Deepfake 檢測器。我們花了10 倍於我們在圖像生成模型上的算力,在圖像識別模型上,它將被用來識別不良的,非法的和其他內容。所以這就是我們採取的方法,信任人們,信任社區,而不是讓一個集中的、未經選舉的實體控制世界上最強大的技術。


我相信這是表達自由的終極工具之一。我相信言論應該是自由的。我認為這就是力量所在。力量在於多樣性。



0 9
技術的未來:
讓人更好地表達和交流



對我們來說,最簡單的溝通方式就是用語言交談。接下來就是互相寫郵件或聊天。要寫出一篇真正優秀的作品是非常困難的。最困難的事情是作為一個物種進行視覺交流。這就是為什麼藝術家是偉大的。我們都使用過幻燈片,也被困在那裡。有了語言模型、視覺模型、語言生成模型和代碼模型的組合,你就不再需要PowerPoint 了。你每次都可以說話同時製作漂亮的幻燈片。


人類現在終於可以通過文本和語言模型進行交流了ーー你已經看到Copy.ai、 Sudowwrite 和Jasper 等軟件是如何讓這種交流變得更容易的ーー現在還可以通過視覺進行交流。下一步就是3D。這是人類交流方式的一個巨大變化。


之前的網絡迭代都是關於AI 被用來定位廣告。現在是關於別的東西,正在從消費轉向創造。我的注意力一直集中在這個領域,作為主要驅動力。


就影響力和全球性事物而言,在人類水平上, 結構化和非結構化數據化之間動態切換的能力,是一件非常重要的事。 因為當它與檢索增強、以及其他檢查事實準確性的東西相結合時,能夠理解原則,意味著你可以寫報告,做法律事務,你可以擺脫官僚制度。


這是第一項能夠實現這麼多東西的技術,它是如此通用,以至於不確定它的價值在哪裡。但是,我確實看到了任何人能夠更好地表達自己和交流的價值。


Stability AI 發布的3D 生成軟件Blender|來源:公司官網



10
開放有危險,
但好處大於壞處



我們擁有許多工具,比如攝影和其他。如果你用Photoshop 創建了一個受版權保護的實體,然後賣掉它,那是你的錯。這些工具本身什麼也做不了。你輸入一個2G 的文件,然後它創建一個輸出。所以我們必須回溯到回最初的人類本性。


它現在所做的是打開了訪問,就像印刷機打開了訪問一樣。現在任何人都有視覺創造力。就像我為七歲的女兒做的第一個版本,因為她說:爸爸,我想創作,這很有趣。這是繪畫,看看你在做的所有東西。她創作了一件很棒的作品,叫做「快樂的年夜」,以3500 美元的價格出售,作為印度COVID 救濟的NFT,她把所有的錢都捐了出去。我心想,天哪,這可是件大事。我說,你為什麼不多做點呢? 她又做了八件。她說,爸爸,一個人的獨特價值只會隨著行業的發展而上升。所以她打算支付自己的大學學費。


不管怎樣,這項技術正在興起。我們看到了這一點,於是說,好吧,我們有責任盡最大努力指導這件事,後讓其他人進入這個房間。我認為,分開進行,你永遠不知道會是什麼樣子。但是當有人打破時,他們可能會從不太好的角度打破它。我對此非常害怕。因為這項技術正被用於非常邪惡的方面。


然而我認為,好處遠遠超過壞處,因為沒有什麼比創造更重要的了。我們現在處於一個消費社會。如果你看看藝術療法(art therapy)的作用,看看周圍的事物,伴隨著創造、以及人們使用這項技術而產生的快樂,我們為什麼要把它與世界隔絕?誰是自認決定這一點?我認為這是錯誤的。這是對手段的封鎖。


任何形式邪惡的可能性,意味著我們不能擁有任何東西。最好的是當我們一起變得更強大時,作為一個社群來打擊邪惡,推動善良。



參考鏈接:


1.https://wandb.ai/wandb_fc/gradient-dissent/reports/Emad-Mostaque-Stable-Diffusion-Stability-AI-and-What-s-Next--VmlldzoyOTQ0ODk3


2.https://www.nytimes.com/2022/10/21/podcasts/generative-ai-is-here-who-should-control-it.html


*頭圖來源:Stability AI



巴比特園區開放合作啦!





中文推特: https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina
Discord社區:https://discord.gg/defidao
電報頻道:https://t.me/Mute_8btc
電報社區:https://t.me/news_8btc