作者: 0xJeff , 加密KOL
編譯:Felix, PANews
當今人人都在兜售東西,無論是食物、住所、百科全書、電子產品、應用程序,還是最近的AI。
過去兜售的是滿足馬斯洛需求層次中較低層級的實用物品,如今兜售的是夢想和希望,並將其包裝在光鮮亮麗的外衣裡,尤其是在加密AI 領域。
加密AI 產品和基礎設施往往難以理解,導致團隊在溝通中使用過多專業術語,無法吸引使用者。
此外,啟動真正的AI 實驗室(非簡單的封裝)需要大量資金來資助人才、貢獻者、運算資源和其他必要資源。
先進的企業級AI 實驗室每年的成本高達數百萬美元。如果正在研究、訓練和優化前沿AI 模型,成本可能高達數億美元。 H100 型號的GPU 價格在2.5 萬至4 萬美元之間,而較新的Blackwell B200 和GB200 型號的GPU 價格在3 萬至7 萬美元之間。訓練一個前沿模型可能需要數千個這樣的GPU。
去中心化AI(DeAI)的優點:小型模型+ 強化學習
選擇去中心化的系統,即在全球範圍內協調運算資源來訓練單一模型,理論上能大幅降低GPU 的成本(節省30% 至90%),因為你可以利用全球閒置的GPU 網路。但實際上,協調這些GPU 並確保它們都能高品質地工作非常困難。因此,目前沒有去中心化AI 實驗室能夠攻克去中心化訓練的難題。
不過未來還是有希望的,因為有少數實驗室在去中心化的強化學習方面取得了令人鼓舞的成果。正是這種自我博弈、自我學習的過程,能讓一個小型模型變得極為聰明。
並非所有情況都需要大型語言模型(LLM)。訓練特定領域的模型,並使用強化學習(RL)來完善和提升它們的技能,是提供企業級AI 解決方案最經濟有效的方式,因為歸根結底,客戶想要的是結果(合規、安全、成本效益高且能提高生產力)。
早在2019 年,OpenAI Five 就在《Dota 2》中擊敗了當時的世界冠軍OG 戰隊。這並非僥倖,而是徹底的碾壓,連續兩場擊敗了OG 戰隊。
你可能會好奇它是如何做到的?
《Dota 2》是一款極其複雜的多人線上戰鬥競技場遊戲,5 名玩家相互對抗,完成各種目標並摧毀對方基地。
為了讓AI 能與頂尖選手對抗,它遵循了以下步驟:
- 從零開始自我對戰:學習基礎知識,進行數百萬次的自我對戰。如果獲勝,就表示操作的是利好的;如果失敗,就表示操作的不好(即大規模的試錯)。
- 設定獎勵系統(積分),激勵那些可能帶來勝利的期望值(EV)為正的行為(如摧毀防禦塔、擊殺英雄),而對期望值為負的行為扣分。
- 訓練方法採用名為「PPO」的強化學習演算法,AI 在比賽中嘗試某些操作,PPO 將結果視為回饋。如果結果好,就多做;如果結果差,就少做。這種方式逐漸將AI 引向正確的方向。
- 數百個GPU 運行近一年來訓練AI,AI 不斷學習並適應遊戲版本更新和變動。
- 一段時間後,它開始自行探索複雜的策略(犧牲一條兵線、在恰當的時機採取保守或激進的打法、把握大規模進攻的時機等),並且開始與人類玩家對抗並獲勝。
儘管OpenAI Five 已經退役,但它啟示了小型模型在特定領域任務中也能極為有效(OpenAI Five 的參數量僅為58MB)。
像OpenAI 這樣的大型AI 實驗室之所以能夠做到這一點,是因為擁有資金和資源來訓練強化學習模式。如果一家企業想要擁有自己的OpenAI Five,用於詐欺偵測、工廠機器人、自動駕駛汽車或金融市場交易,需要大量資金才能做到。
去中心化的強化學習解決了這個問題,這就是為什麼像Nous Research、Pluralis、gensyn、Prime Intellect 和Gradient 這樣的去中心化AI 實驗室正在建立全球GPU 網絡,共同訓練強化學習模型,為企業級特定領域AI 提供基礎設施。
一些實驗室正在研究進一步降低成本的方法,例如使用RTX 5090/4090 而不是H100 來訓練強化學習模型。還有一些則專注於使用強化學習來提升大型基礎模型的智慧水準。
無論研究重點在哪,都將成為去中心化AI 最有前景的發展方向之一。如果去中心化的強化學習解決方案能在商業上大規模應用,企業客戶將會向AI 投入大量資金,也將看到更多去中心化AI 團隊實現8 到9 位數的年收入。
透過協調層為DeAI 提供資金並實現規模擴展
但是,在達到每年8 至9 位數的收入之前,他們需要持續研究、實施並過渡到具有商業可行性的密集學習解決方案,這需要大量資金。
透過像Bittensor 這樣的協調層來籌集資金是最佳途徑之一。每天都有數百萬美元的TAO 激勵金髮放給子網(新創公司和AI 實驗室),同時貢獻者( AI 人才)為他們感興趣的子網貢獻,以獲取部分激勵金。
Bittensor 讓貢獻者能夠參與AI 的開發,也讓投資者能夠投資於為DeAI 技術做出貢獻的AI 實驗室。
目前在Bittensor 生態系統中,有幾個關鍵的DeAI 細分領域脫穎而出,包括量子運算、去中心化訓練、AI 代理和預測系統(強化學習目前還不是其中之一,但有3 個以上的子網路正在積極關注去中心化強化學習)。
目前去中心化強化學習進度如何?
強化學習已被證明可以大規模應用,但尚未實現工業化。好消息是,企業對能夠從真實回饋中學習的AI 代理的需求正在迅速增長。例如能夠從現實環境、銷售和客戶服務電話中學習的代理,能夠適應市場變化的交易模型等。這些自我學習系統能夠為企業創造或節省數百萬美元。
隱私技術也在興起。可信任執行環境(TEE)、TEE 內的加密嵌入以及差分隱私等技術在反饋循環中的應用有助於加密和保護私人信息,使醫療保健、金融、法律等敏感行業在擁有強大的特定領域自我學習AI 代理的同時保持合規。
接下來會怎樣?
強化學習是持續讓AI 更聰明的不二之選。強化學習將AI 從生成系統轉變為積極主動、智慧的AI 代理。
隱私與強化學習結合將推動企業真正採用,為客戶提供合規的解決方案。
強化學習使「代理經濟」成為可能,代理人購買運算資源、相互協商、提供服務。
由於成本效益,去中心化強化學習將成為擴展強化學習訓練的預設方式。
聯邦式強化學習(Federated RL)將會出現,使多方能夠在不共享本地敏感資料的情況下協同學習,將隱私保護與自我學習相結合,極大地提升智能水平,同時符合合規要求。
