作者:JAE
前不久,專注於金融市場人工智慧研究的實驗室nof1 在推上宣布啟動了一項具有劃時代意義的實驗——Alpha Arena 大模型交易測試,這條推文也在圈內外獲得超1,400萬次圍觀。
實驗在Perp DEX龍頭Hyperliquid 上進行,首次將六個主流的大語言模型(LLM),置於一個真實的競爭性交易環境中。每個模型均被分配10,000 美元的真實資金自主交易Perp。截至目前,DeepSeek 以約11% 的回報率穩居第一。
LLM 首次在加密市場“實彈演習”,DeepSeek暫居首位
Alpha Arena的里程碑意義在於其超越了傳統金融AI 模式的限制。過往的金融AI研究大多受限於歷史回測環境,其交易行為無法對市場價格產生實質影響,且模型僅在靜態資料上訓練。相較之下,Alpha Arena 創造了一個動態的零和競爭環境,LLM必須持續適應不斷變化的市場價格與流動性做出即時決策。此典範轉移令Alpha Arena 被視為AI 在加密市場的「第一次實彈演習」。
為了確保測試的公平性,nof1 為所有模型都輸入了“相同的提示與數據”,這意味著模型的表現將主要由其內在的推理架構、從分析轉化為交易指令的工具調用效率,及對風險的自主管控能力等決定。
截至目前,DeepSeek 以超11% 的回報率穩居榜首,Claude 以約10% 的回報率緊隨其後,Grok 排名則降至第3,回報率下滑至約2%,其它模型均處於虧損狀態。
10月20日,DeepSeek 與Grok 一度以約40% 的收益率領跑榜單前二,但所有模型因大盤回落都經歷了一次集體回撤,回報率也隨之大幅縮水,表明LLM 可能還不具備判斷行情狀態的能力。
其中,Claude同時錄得最大盈虧,交易策略最為激進;Gemini 執行了最多的交易(64 筆),支付了迄今為止最高的交易費用600.42美元,高頻交易的同時,未兼顧成本控制問題;GPT-5 總虧損高達4,051美元,帳戶淨值曲線一路下滑,一路排名墊底。
圖:Alpha Arena 初期戰績對比(10月21日)
從圖中數據可知,傳統的LLM 基準測試能力與交易實戰的淨收益之間存在明顯脫節。在Finance Reasoning (金融推理) 或AIME (數學) 等基準測試中,GPT-5 與Grok-4 通常都處於領先地位,證明其具備處理複雜金融公式和高階數學的能力。
然而,金融市場不僅是靜態的數學推理,更是一個涉及即時數據、市場情緒分析、流動性變化的動態系統。在Alpha Arena 的實盤競賽中,DeepSeek V3.1 的表現卻更為優異。這表明,LLM 創造收益的關鍵並不在於靜態的知識儲備或複雜推理分數,而是將分析結果轉化為交易指令的執行能力。 DeepSeek V3.1 以較低的交易量與勝率實現了較高的回報,揭示其可能只需通過少數幾筆交易,即可更精準地捕獲到關鍵的價格發現機會,同時有效管理手續費。
反例就是高頻交易和費用不敏感對LLM 收益模型的影響。以Gemini 2.5 Pro 為例,根據其交易記錄,Gemini 在交易活動上的收益實際高於虧損,但可能由於缺乏對手續費的精確估算與優化能力,導致其淨收益被全部侵蝕,從而陷入淨虧損。
AI交易將普及,策略同質化或引發系統性風險
CZ針對此事在X平台上發文稱,預計「AI+交易」或將更為普遍,並帶來更多的交易量。
AI 的大規模部署也將重塑加密市場的流動性和價格發現機制。演算法交易是現代金融市場的核心驅動力。 AI 驅動的演算法能夠以高達0.01 秒的速度執行交易,遠超人類的反應速度(0.1 至0.3 秒),將顯著提升了市場效率。統計數據顯示,2023 年全球加密貨幣的演算法交易量已達94 兆美元,其中超過70% 的交易量由機器人完成。
隨著AI 變得更加成熟,其將擁有更強大的自動化交易功能。 AI 不僅能加速市場效率,還能透過為更廣泛的資產與交易平台提供流動性來減少滑點,進而提高市場的整體穩定性與韌性。
然而,AI 在加密市場中的自主高速運行,或也將放大系統性金融風險。歷史上已有先例可循:2010 年的道瓊工業平均指數「閃電崩盤」(Flash Crash)證明,當大量演算法交易系統具有類似的設定並互相觸發時,將引發連鎖反映,進而導致市場崩潰。
在AI+Crypto 情境下,這種風險可能會被放大,原因就在於策略同質化。目前,已有市場觀察者指出Grok-4與DeepSeek的帳戶淨值曲線極為相似。 Alpha Arena 的零和環境特性會對所有參賽的LLM 構成高壓的適應性測試。在零和博弈中,任何短暫領先的LLM 策略都可能會被其它競對檢測並學習。
未來,如果大量AI Agent 集中在少數幾個頂尖LLM(如DeepSeek V3.1, Grok-4)上開發,並共享了相似的訓練數據與策略邏輯,其就將形成監管者所稱的“橫向問題“(Horizontal Issue)。在加密市場24/7 高槓桿運作的特性下,這類策略趨同可能導致Agent 間的相互檢測與競爭,一旦出現市場波動或意外輸入,所有Agent 或將同時觸發賣出指令,造成比2010 年更嚴重的「連鎖拋售」(Selling Spirals)。
另一方面,CZ也在推文中表達了疑惑,道出了大量觀察者心中的問題。大家以往都認為,只有當擁有卓越的獨家策略時,交易才能發揮出最佳效果。而現在六大LLM 的策略都可被公開參考,那麼DeepSeek的策略是否還將行之有效?獲利能力能持續多久?跟Gemini、GPT-5反向操作是否將取得比DeepSeek更高的收益? Grok-4是否在學習DeepSeek?極端或單邊行情下,哪個模型會表現最好? ……這些,依然是需要時間才能回答的問題。
雖然還有大量問題等待解答,但nof1 的Alpha Arena 仍是一次極具創新性的實驗,其將LLM 帶入了真實的加密市場。這次「實彈演習」也生動展現了AI 擁有重塑加密市場的巨大潛力,而Alpha Arena 只是一個開始。
