著者: JAE
金融市場における人工知能研究に特化した研究所「nof1」は先日、画期的な実験「Alpha Arena大規模モデル取引テスト」の開始をTwitterで発表しました。このツイートは、コミュニティ内外で1,400万回以上閲覧されました。
主要Perp分散型取引所(DEX)であるHyperliquid上で実施されたこの実験では、6つの主流の大規模言語モデル(LLM)を初めて実際の競争的な取引環境に投入しました。各モデルには、Perpを独立して取引するために1万ドルの実資金が割り当てられました。現在までに、DeepSeekは約11%のリターンでトップの座を維持しています。
LLM が暗号通貨市場で初の実弾演習を実施、現在 DeepSeek が首位。
Alpha Arenaの画期的な意義は、従来の金融AIモデルの限界を超越したことにあります。これまでの金融AI研究は、主に過去のバックテスト環境に限定されており、取引行動が市場価格に実質的な影響を与えることはできず、モデルは静的なデータのみで学習されていました。これとは対照的に、Alpha Arenaは動的なゼロサム競争環境を作り出し、LLM(法定通貨)は変化する市場価格と流動性に継続的に適応し、リアルタイムの意思決定を行うことを強いられます。このパラダイムシフトにより、Alpha Arenaは暗号資産市場におけるAIの「初の実弾演習」とみなされています。
テストの公平性を確保するため、nof1はすべてのモデルに同じプロンプトとデータを入力しました。つまり、モデルのパフォーマンスは、主にその固有の推論アーキテクチャ、分析結果を取引指示に変換するツールの効率性、そしてリスクを独立して管理する能力によって決まります。
現時点では、DeepSeekが11%を超える収益率でトップに立ち、Claudeが約10%で続いています。Grokは約2%の収益率で3位に後退しました。その他のモデルはすべて損失を出しています。
10月20日には、DeepSeekとGrokが約40%のリターン率で一時トップに立った。しかし、市場の下落により全てのモデルが一斉に反落し、リターン率も大幅に低下した。これは、LLMが市場の状況を判断できる能力をまだ備えていない可能性を示唆している。
その中で、クロードは最も大きな損益を記録し、最も積極的な取引戦略を採用していました。一方、ジェミニは最も多くの取引(64件)を執行し、これまでで最も高い取引手数料(600.42ドル)を支払っていました。高頻度取引(HFT)を行う一方で、コスト管理を怠ったため、GPT-5は総損失が4,051ドルに上り、口座残高曲線は引き続き下落し、最下位となりました。
図:アルファアリーナの初期結果比較(10月21日)
図のデータは、従来のLLMベンチマークのパフォーマンスと実際の取引における純利益の間に明確な乖離があることを示しています。金融推論やAIME(数学)などのベンチマークでは、GPT-5とGrok-4が通常リードしており、複雑な金融式や高度な数学を扱う能力を示しています。
しかし、金融市場は単なる静的な数学的推論ではなく、リアルタイムデータ、市場センチメント分析、流動性変動を伴う動的なシステムです。Alpha Arenaライブトレーディングコンペティションでは、DeepSeek V3.1が優れたパフォーマンスを発揮しました。これは、LLMの利益を生み出す鍵は、静的な知識や複雑な推論スコアではなく、分析結果を実際の取引指示に変換する能力にあることを示しています。DeepSeek V3.1は、取引量と勝率が低いにもかかわらず高いリターンを達成しました。これは、取引手数料を効果的に管理しながら、わずか数回の取引で重要な価格発見機会をより正確に捉えることができる可能性を示唆しています。
反例として、高頻度取引と手数料非感応性がLLMの利益モデルに与える影響が挙げられます。例えば、Gemini 2.5 Proの取引記録によると、Geminiの取引活動による利益は実際には損失を上回っていました。しかし、正確な手数料推定と最適化機能が不足していたためか、純利益は完全に減少し、結果として純損失となりました。
AI取引は普及するだろうが、戦略の均一化はシステムリスクを引き起こす可能性がある
この件に関してCZはXプラットフォームに投稿し、「AI+取引」がより一般的になり、取引量が増加する可能性があると予想していると述べた。
AIの大規模導入は、暗号資産市場の流動性と価格発見メカニズムを再構築する可能性もあります。アルゴリズム取引は現代の金融市場の中核的な原動力です。AI駆動型アルゴリズムは最大0.01秒という速さで取引を実行でき、人間の反応速度である0.1~0.3秒をはるかに上回り、市場の効率性を大幅に向上させます。統計によると、暗号資産における世界のアルゴリズム取引量は2023年に94兆ドルに達し、そのうち70%以上がロボットによって行われています。
AIが成熟するにつれて、より強力な自動取引機能が実現されるでしょう。AIは市場の効率性を加速させるだけでなく、より幅広い資産と取引プラットフォームに流動性を提供することでスリッページを低減し、市場全体の安定性と回復力を向上させます。
しかし、暗号資産市場におけるAIの自律的かつ高速な運用は、金融システム全体のリスクを増幅させる可能性もある。歴史的な前例がある。2010年のダウ工業株30種平均の「フラッシュクラッシュ」は、類似した設定を持つ多数のアルゴリズム取引システムが互いにトリガーを掛け合うと、連鎖反応を引き起こし、市場暴落につながる可能性があることを示した。
AI + 暗号通貨シナリオでは、戦略の均質性により、このリスクが増幅される可能性があります。市場関係者は、Grok-4とDeepSeekのアカウント・エクイティ・カーブが驚くほど類似していることを指摘しています。Alpha Arenaのゼロサム環境は、参加するすべてのLLMにプレッシャーのかかる適応力テストを課すことになります。ゼロサムゲームでは、一時的にリードしたLLM戦略は、他の競合企業に検知され、学習される可能性があります。
将来、DeepSeek V3.1やGrok-4といった少数の主要LLM上で多数のAIエージェントが開発され、類似の学習データと戦略ロジックを共有するようになると、規制当局が「水平的問題」と呼ぶ問題が生じる可能性があります。暗号資産市場は24時間365日稼働し、高いレバレッジがかかっているため、こうした戦略の収束はエージェント間の相互検知や競争につながる可能性があります。市場のボラティリティや予期せぬインプットが発生した場合、すべてのエージェントが同時に売り注文を発動し、2010年よりもさらに深刻な「売りスパイラル」を引き起こす可能性があります。
一方、CZ氏もツイートで疑念を表明し、多くのオブザーバーが抱く疑問を代弁しました。かつては、トレーディングは優れた独自の戦略を保有している場合にのみ最適な結果をもたらすと広く信じられていました。6つの主要LLMの戦略が公開された今、DeepSeekの戦略は依然として有効でしょうか?その収益性はどのくらい続くのでしょうか?GeminiやGPT-5とは逆方向の取引は、DeepSeekよりも高いリターンをもたらすのでしょうか?Grok-4はDeepSeekから学習しているのでしょうか?極端な市場環境や一方的な市場環境において、どのモデルが最も優れたパフォーマンスを発揮するのでしょうか?これらの疑問は、今後時間をかけて解明されていくでしょう。
まだ多くの疑問が残されていますが、nof1のAlpha Arenaは、LLMを実際の暗号資産市場に導入する非常に革新的な実験です。この「実弾演習」は、AIが暗号資産市場を変革する大きな可能性を如実に示しており、Alpha Arenaはその始まりに過ぎません。
