資料即資產:DataFi 正在開啟新藍海

探討DataFi的機會與發展,以及目前熱門DataFi專案的參與方式。

作者:Biteye核心貢獻者@anci_hu49074

“我們正處於全球競相構建最佳基礎模型的時代。計算能力和模型架構雖然重要,但真正的護城河是訓練數據”

——Sandeep Chinchali,Story首席AI官

從Scale AI談起,聊聊AI Data賽道的潛力

要說本月AI圈最大的八卦,莫過於Meta展現鈔能力,祖克柏四處招募人才,組建了一支以華人科研人才為主的豪華 Meta AI 團隊。領隊正是年僅 28 歲、創建了 Scale AI 的Alexander Wang 。他一手創建了Scale AI,目前估值290億美金, 服務對象既包括美國軍方,也覆蓋OpenAI、Anthropic、Meta等等的多家有競爭關係的AI巨頭,都要依靠Scale AI提供的數據服務,而Scale AI的核心業務便是提供大量準確的標註數據(labeled data)。

為什麼Scale AI可以從一眾獨角獸中脫穎而出?

原因就在於它早早就發現了數據在AI產業中的重要性。

算力、模型、數據是AI模型的三大支柱。如果把大模型比成一個人的話,那麼模型是身體、算力是食物,而數據,就是知識/資訊。

在LLM拔地而起發展至今的歲月裡,業界的發展重點也經歷了從模型到算力的轉移,如今大多數模型都已確立了transformer作為模型框架,偶爾創新MoE或MoRe等;各大巨頭或者是自建Super Clusters完成算力長城,或者是和AWS等雄厚的雲服務簽訂長期協議;

資料即資產:DataFi 正在開啟新藍海

與Palantir 等二級市場聲名顯赫的傳統To B 大數據公司不同,Scale AI公司如其名,致力於為AI模型打造堅實的數據基礎,其業務不止於對現有數據等挖掘,還將眼光投向更長遠的數據生成業務,並試圖通過不同領域的人工專家組成AI trainer團隊,為AI模型的訓練提供更加優質的訓練數據。

如果你對這個業務不以為然,那麼我們不妨先看看模型是如何訓練的。

模型的訓練分為兩個部分-預訓練和微調。

預訓練的部分,有點像人類的嬰兒逐漸學會說話的過程,我們通常需要的是餵給AI模型大量從網上爬蟲獲取的文本、代碼等信息,模型通過自我學習這些內容,學會說人話(學術上叫做自然語言),具備基礎的溝通能力。

微調的部分,就類似去學校讀書,通常有明確的對錯、答案和方向。學校會根據各自的定位,把學生培養成不同的人才。而我們也會透過一些事先處理好的、有針對的資料集,把模型訓練得具備我們期待的能力。

資料即資產:DataFi 正在開啟新藍海

至此,聰明的你可能已經明了,我們需要的數據也分成兩個部分。

  • 一部分資料不需要經過太多處理,夠多就好,通常來自例如Reddit、Twitter、Github等大型UGC平台的爬蟲資料、公開文獻資料庫、企業私有資料庫等。
  • 另一部分,就像專業的課本,需要精細的設計和篩選,確保能夠培養模型特定的優良品質,這就需要我們進行一些必要的資料清洗、篩選、打標籤、人工回饋等工作。

這兩部分資料集,就構成了AI Data賽道的主體。不要小看這些看似沒什麼科技含量的資料集,目前主流觀點認為,隨著Scaling laws中算力優勢的逐漸失效,資料將成為不同大模型廠商維持競爭優勢的最重要支柱。

隨著模型能力的進一步提升,各種更精細、更專業的訓練資料將成為模型能力的關鍵影響變數。如果我們更進一步把模型的訓練比喻為武林高手的養成,那麼優質的資料集,就是最上乘的武功秘籍(要想把這個比喻補充完整,也可以說算力是靈丹妙藥、模型是本身資質)。

縱向來看,AI Data也是一個具備滾雪球能力的長期主義賽道,隨著前期工作的積累,數據資產也將具備複利能力,越老越吃香。

Web3 DataFi:天選AI Data沃土

相較於Scale AI在菲律賓、委內瑞拉等地組成的數十萬人的遠端人工標記團隊,Web3在進行AI 資料領域上有天然的優勢,DataFi的新名詞也隨之誕生。

在理想情況下,Web3 DataFi的優點如下:

1. 智慧合約保障的資料主權、安全與隱私

在現存公開數據即將開發用盡的階段,如何進一步挖掘未公開數據、甚至是隱私數據,是獲取拓展數據來源的重要方向。這就面臨一個重要的信任選擇的問題——你是選擇中心化大公司的一紙合約買斷制,出賣自己手上的數據;還是選擇區塊鏈上的方式,繼續把數據IP握在手中的同時,還能夠透過智能合約清晰明了的明白:自己的數據被何人何時何事使用。

同時,對於敏感訊息,還有可以通zk、TEE等方式,保證你的隱私資料只有守口如瓶的機器經手,而不會被洩露。

2. 天然的地理套利優勢:自由的分散式架構,吸引最適合的勞動力

或許是時候挑戰一下傳統的勞動生產關係了。與其像Scale AI這樣全世界尋找低價勞動力,不如發揮區塊鏈的分散式特點,並透過由智能合約保障的公開、透明的激勵措施,讓分散在全世界的勞動力都能夠參與到數據貢獻中去。

對於資料打標、模型評估等人力密集工作,相較於中心化的建立資料工廠的方式,使用Web3 DataFi的方式還有利於參與者的多樣性,這對避免資料的偏見也有長遠意義。

3. 區塊鏈明確的激勵與結算優勢

如何避免「江南皮革廠」式的悲劇?自然是用智能合約明碼標價的激勵制度,取代人性的黑暗。

在不可避免的去全球化背景下,如何繼續實現低成本的地理套利?滿世界開公司顯然已經更難了,那不如繞過舊世界的藩籬,擁抱鏈上結算的方式吧。

4. 有利於建構更有效率、開放的「一條龍」資料市場

「中間商賺差價」是供需雙方永遠的痛,與其讓一個中心化的數據公司充當中間商,不如在鏈上創建平台,透過像淘寶一樣公開的市場,讓數據的供需雙方能夠更加透明、高效的對接。

隨著鏈上AI生態的發展,鏈上的數據需求將更加旺盛、細分和多樣化,只有去中心化的市場能夠高效的消化這種需求,並轉化成生態的繁榮。

對散戶而言,DataFi也是最有利於一般散戶參與的去中心化AI計畫。

雖然AI工具的出現一定程度降低了學習門檻,去中心化AI的初衷也是打破當下巨頭壟斷AI生意的格局;但不得不承認,當前的許多項目對於毫無技術背景的散戶而言,可參與性並不強——參與去中心化算力網絡挖礦往往伴隨著昂貴的前期硬件投入,模型市場的技術門檻總能輕易讓普通參與者而又總能投入。

相比之下,是普通用戶可以在AI革命中抓住的為數不多的機會——Web3讓你不需要簽下一份數據血工廠的合同,只需要滑鼠一點登錄下錢包,就可以通過完成各種簡單的任務參與其中,包括:提供數據、根據人腦的直覺和本能對模型進行打標、評估等簡單工作、或者進一步利用AI工具進行一些簡單的創作、參與數據等。對於擼毛黨老司機們,難度值基本上為零。

Web3 DataFi的潛力項目

錢流向了哪裡,方向就在哪裡。除了Web2世界Scale AI獲Meta投資143億美金、Palantir一年內股票狂飆5倍+以外,Web3融資中,DataFi賽道的表現也十分優秀。這裡我們對這些項目做一個簡單的介紹。

資料即資產:DataFi 正在開啟新藍海

Sahara AI, @SaharaLabsAI,融資4900萬美金

Sahara AI的最終目標是打造一個去中心化AI的超級基礎設施和交易市場,試水的第一個板塊就是AI Data,其DSP (Data Services Platform,數據服務平台)公測版將於7月22日上線,用戶可以透過貢獻數據、參與數據打標等任務獲得代幣獎勵。

連結:app.saharaai.com

Yupp, @yupp_ai ,融資3300萬美金

Yupp是一個AI模型的回饋平台,主要收集使用者對模型輸出內容的回饋。目前的主要任務是使用者可以對比不同模型對同一個prompt的輸出,然後選出個人認為更好的那一個。完成任務可以取得Yupp積分,Yupp積分可以進一步兌換成USDC等法幣穩定幣。

連結: https://yupp.ai/

Vana, @vana,融資2300萬美金

Vana的重點在於將用戶的個人資料(如社群媒體活動、瀏覽記錄等)轉化為可貨幣化的數位資產。使用者可以授權將個人資料上傳到DataDAOs中對應的資料流動性池(DLP)中,這些資料將會被匯集起來,用於參與AI模型訓練等任務,使用者也將獲得相應的代幣獎勵。

連結: https://www.vana.org/collectives

Chainbase, @ChainbaseHQ,融資1650萬美金

Chainbase 的業務聚焦在鏈上數據,目前已涵蓋200多條區塊鏈,將鏈上活動化為結構化、可驗證且可貨幣化的數據資產,供dApp開發使用。 Chainbase的業務主要透過多鏈索引等方式取得,並透過其Manuscript 系統和Theia AI 模型對資料加工,一般使用者目前可參與度不高。

Sapien, @JoinSapien,融資1550萬美金

Sapien的目標是將人類知識大規模轉化為高品質的AI 訓練數據,任何人都可以在平台上進行數據標註工作,並透過同伴驗證的方式,保證數據的品質。同時鼓勵用戶建立長期信譽、或透過質押的方式做出承諾,賺取更多獎勵。

連結: https://earn.sapien.io/#hiw

Prisma X, @PrismaXai , 融資1100萬美金

Prisma X想做機器人的開放協調層,其中實體資料收集是關鍵。這個計畫目前處於早期階段,根據近期剛發布的白皮書推測,參與方式可能有投資機器人收集數據、遠端操作機器人數據等方式。目前開放以白皮書為基礎的quiz活動,可以參與賺積分。

連結: https://app.prismax.ai/whitepaper

Masa,@getmasafi,融資890萬美金

Masa是Bittensor生態的頭部子網路計畫之一,目前營運有42號資料子網路和59號Agent子網路。數據子網路致力於提供即時存取數據,目前主要是礦工透過TEE硬體爬取X/Twitter上的即時數據,對一般用戶來說,參與難度和成本都比較大。

Irys, @irys_xyz,融資870萬美金

Irys專注於可程式資料儲存和運算,旨在為AI、去中心化應用程式(dApps)和其他資料密集型應用程式提供高效、低成本的解決方案。數據貢獻方面目前看一般用戶可以參與的不多,但目前測試網階段有多重活動可以參與。

連結: https://bitomokx.irys.xyz/

ORO, @getoro_xyz,融資600萬美金

ORO想做的是賦能一般人參與AI貢獻。支援的方式有:1. 連結自己的個人帳號貢獻個人數據,包括社交帳號、健康數據、電商金融等帳號;2.完成數據任務。目前測試網已上線,可參與。

連結: app.getoro.xyz

Gata, @Gata_xyz, 融資400萬美金

定位為去中心化資料層,Gata目前推出了三個產品key參與:1. Data Agent:一系列只要使用者開啟網頁就可以自動執行處理資料的AI Agent;2. AII-in-one Chat:類似與Yupp的模型評估賺取獎勵的機制;3. GPT-to-Earn:瀏覽器插件,收集使用者在ChatGPT 上的對話資料。

連結: https://app.gata.xyz/dataAgent

https://chromewebstore.google.com/detail/hhibbomloleicghkgmldapmghagagfao?utm_source=item-share-cb

怎麼看當下的這些項目?

目前看這些項目壁壘普遍不高,但要承認的是,一旦積累了用戶和生態粘性,平台優勢會迅速累積,因此早期的應在激勵措施、用戶體驗上著重發力,只有吸引到足夠的用戶才能做成數據這一單大生意。

不過,作為人力密集的項目,這些資料平台在吸引人工的同時,也要考慮如何管理人工、保障資料產出的品質。畢竟Web3許多項目的通病——平台上大部分用戶都只是無情的擼毛黨——他們為了獲得短期的利益往往犧牲質量,如果放任他們成為平台主力用戶,勢必會劣幣驅逐良幣,最終使數據質量得不到保障,也無法吸引來買家。目前我們看到Sahara、 Sapien等項目都已在數據品質上有所強調,努力與平台上的人工建立長期健康的合作關係。

另外,透明度不夠,是當下鏈上項目的另一個問題。誠然,區塊鏈的不可能三角,讓許多專案在啟動階段只能走一條「中心化帶動去中心化」的道路。但如今越來越多的鏈上項目給人的感觀,更像「披著Web3皮的Web2舊項目」——公開的可鏈上追踪的數據寥寥無幾,甚至路線圖上也很難看出公開、透明的長期決心。這對於Web3 DataFi的長期健康發展無疑是有毒的,我們也期待更多專案常懷初心,加快開放、透明的腳步。

最後,DataFi的mass adoption路徑也要分為兩個部分看:一部分是吸引到足夠多toC參與者加入到這個網絡,形成數據採集/生成工程的生力軍、AI經濟的消費者,組成生態閉環;另一部分則是得到目前主流to B大公司的認可,畢竟短期看財大氣粗的他們才是大單的主要來源。這方面我們也看到Sahara AI、Vana等都取得了不錯的進展。

結尾

宿命論一點說,DataFi是用人類智能長期哺育機器智能,同時以智能合約為契約,保障人類智能的勞動有所收益,並最終享受機器智能的反哺。

如果你在為AI時代的不確定性焦慮,如果你在幣圈的沉浮中依然懷有區塊鏈理想,那麼跟隨一眾資本大佬的腳步,加入DataFi不失為一個順勢而為的好選擇。

分享至:

作者:Biteye

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:Biteye如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
21分鐘前
1小時前
1小時前
2小時前
2小時前
3小時前

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读