作者:Frank,PANews
如果給你10000美元,你會選擇相信哪個人工智慧來替你操盤?
在此之前,PANews曾針對nof1.ai的AI交易比賽進行過一次複盤(相關閱讀:六大AI「交易員」 十日對決:一場關於趨勢、紀律與貪婪的公開課)。然而,在nof1.ai的比賽時效是針對某一段行情,各個AI大模型的最終交易能力在特定的交易週期下似乎並非能夠完全展現。此外,人們對於AI模型在不同條件下的實際預測能力也亟需一個答案。加上近日各AI公司又發布了最新的大模型,模型的能力排名也在重新排位的階段。
為了揭開這個謎底,PANews策劃了一場「AI 交易員爭霸賽」。了解在不同的情境下,AI大模型對於行情的判斷能力與交易規劃能力。例如更擅長哪一同時間框架的行情分析,以及在有指標作為輔助條件下,AI的預測成功率是否會提升。
我們將時間軸拉長到2017年至今,從幣安BTC 歷史資料中,隨機抽取了100個真實的行情切片,建構了「4小時裸K」、「15分鐘短線」、「4小時全指標」三大煉獄級測試場景。六位參賽者為當今中美的算力巔峰:Gemini-3-pro、Doubao-1.6-vision、DeepSeek V3.2、Grok 4.1、GPT-5.1、Qwen3-max。
本次測試採集了幣安BTC現貨交易對自2017年8月至今的15分鐘K線數據以及2021年至今的4小時K線數據,每個週期隨機產生50張時間段為100根K線的圖片,其中4小時週期分為兩種,一線是只有K線和交易量的圖片,另一種是EMAMAC、RSMA、KVSI、B標準線、K標準線和交易量的圖片。 15分鐘K線圖均為裸K圖(含交易量)。並同步給AI當前K線圖對應的具體價格資料值或指標資料值。所有的AI輸出結果在此可以查看。
4小時帶指標的示意圖
4小時純K線的示意圖
在測試的過程中,每個大模型所獲得的資料資訊及指令都是完全相同的。從另一個角度來說,這也相當考驗這些大模型的多模態能力(DeepSeek因只有文字大模型,最終接收的都是資料訊息,未傳送圖片)。
Gemini 3 :被「指標」封印的裸K 之王
Gemini 3是目前最火熱的AI大模型,從11月18日發布後的媒體評論和測試來看,可謂是當前綜合能力最強的AI多模態大模型。然而,在本次交易預測的測試當中,Gemini 3的結果並不算是最佳,只能算是中規中距。在三個場景當中(4小時裸K、4小時帶指標、15分鐘裸K),Gemini 3表現最好的是4小時裸K場景,勝率達到了39.58%、其次是15分鐘裸K場景下34.04%,在帶指標的情況下(相同時間段)4小時週期的準確率反而降至了31%的。
從這一點來看,Gemini 3似乎更擅長純K線形態狀態,疊加指標後反而容易受到干擾。在具體的操作過程中,沒有指標的情況下,Gemini 3似乎更敢於開倉,純K線的情況下,95%的行情都會選擇入場,而添加了指標之後這一比例則下降至71%。值得一提的是,Gemini 3還是4小時純K線情況下唯一獲利的模型。
在15分鐘的場景下,Gemini 3的整體獲利情況最佳,總部位獲利15.34%,有指標的情境下反而虧損了21.18%。不過,這種獲利也是一種短期幸運,結合每次的盈虧比數據來看,Gemini 3的獲利期望(勝率*盈虧比)都低於1,也就代表長期來看都是虧錢的狀態。
DeepSeek V3.2:穩如老狗的“超短線刷單機器”
DeepSeek則是六個模型當中勝率綜合表現最好的模型,相對來說也是最穩定的。在三個場景當中(4小時裸K、4小時帶指標、15分鐘裸K)下,勝率分別為40%、41.38%、42.86%。從這點來看DeepSeek的預測能力在不同週期、有無指標的情況下都相對穩定。
只不過,DeepSeek最終的獲利情況都不佳,源自於其盈虧比太低,平均值只有1.25。這種見好就收的盈虧比也反映出DeepSeek在交易過程中缺乏讓利潤奔跑的能力。因此,綜合導致其獲利期望值幾乎都在0.5左右,長期來看同樣缺乏獲利可能。此外,DeepSeek在開倉決心方面也相對保守,整體的開倉比例只有58%。
Doubao (豆包):本次比賽的“全能MVP”
在這場測試比賽當中,Doubao1.6-vision的綜合結果是最好的。在4小時帶指標的場景中,Doubao1.6-vision的勝率達到了測試當中最高的數據,達到50%,最終收益達到22.2%。同時在15分鐘的短週期當中,整體也獲得了8.2%的收益水準。它是唯一在兩個不同維度(短線和4小時指標)都能穩定獲利的模型。
並且,Doubao1.6-vision的這種結果並不是相對保守的風格下實現的,而是在平均開倉比例92%以上達成的。也就是說,Doubao1.6-vision在絕大多數的情境中選擇了開倉。不過,相對來看,Doubao1.6-vision的能力也很依賴指標訊號,有無指標的情況下,總獲利相差38%。另外,從盈虧比的數據來看,Doubao1.6-vision在正收益的兩個週期內的平虧比都較高,這也是它整體表現優異的原因。
Grok 4.1:來自xAI 的“激進賭徒”
Grok 4.1的整體風格是膽大但季度依賴指標,同時願意追逐更大的利潤。在三種場景中,只有帶指標的4小時週內,Grok 4.1獲得了34.69%的勝率,剩下兩個場景下的勝率極低。 4小時純K線的情況下,勝率只有14.58%,15分鐘週期內為26.53%。但它開倉的平均比例卻高達98%,幾乎在所有K線情境下都願意開倉。從這個角度來看,Grok 4.1的風格更像是管不住手的賭徒。
不過,Grok 4.1的損益比往往都比較高,平均值達到了2,是所有模型中最高的。但綜合來說,如果你將資金交給Grok 4.1,並不是一個明智的選擇。
GPT 5.1:極致謹慎的「死空頭」悲觀派
GPT 5.1的開單風格和Grok 4.1則是完全相反。 GPT 5.1在謹慎程度這方面可謂是極致,在大多數的案例當中,他都選擇了觀望。最後150次的測試當中,只開單了52次,平均的開倉比只有0.34%。
不過,即便是這樣的小心謹慎,也沒能為GPT 5.1帶來更好的勝率表現。它在最好的場景下也只獲得了35%的勝率。且比起4小時和15分鐘後期,GPT 5.1顯然不太擅長長週期的開倉,即便加上了技術指標,4小時的勝率也只有27%。而在15分鐘週期下,憑藉較高的盈虧比(2.02),才算是獲得了正向收益回饋,最終結果為9.9%。
此外,GPT 5.1還有一個特點是明顯的悲觀主義,十分熱衷於做空。超過70%的訂單都是空單。
Qwen 3:惜字如金的“風險厭惡者”
Qwen 3顯然是最謹慎的一個大模型,他在所有的測試當中一共只開倉了44次,開倉比例只有29%。不過,與GPT一樣,這種極致的小心也沒能帶來更高的勝率。他的勝率平均也只有34%,表現最好的場景是4小時帶指標的情境。
此外,Qwen 3的盈虧比也較高。達到1.96。看起來它屬於風險厭惡型的選手,更擅長減少開單次數,但讓利潤跑。而在4小時帶指標的場景下,Qwen 3的獲利期望值也是最接近獲利的,達到了0.95是所有模型中最高的。
資料匯總情況
總結:
綜合來看,我們可能從這些AI的模擬交易過程中獲得了以下幾點啟發。
第一,對絕大多數模型來說,帶有指標都比純K線圖更有把握。在有指標的情況下,這六個模型的平均勝率達到了38%,而沒有指標的情況下勝率只有30%。
第二,AI可能更擅長短期交易,而非長線交易。 15分鐘的純K線情境下,六個大模型的平均勝率達34%,高於4小時週期的30%。六個模型中有三個獲利(Gemini, GPT, Doubao),且平均盈虧比普遍較好。
第三,將倉位完全交給AI並不可取。在本次測試過程中,所有AI模型的獲利期望都低於1,這也一位置長期按照這樣的勝率和盈虧比來看,他們的最終結果都是虧損。只是虧得快慢的差異(不過,這裡由於並未對AI模型進行專案調教,所使用的指標也只是較簡單的常用指標)。因此,如果你想要讓AI來代替自己進行交易,那可能需要更複雜的調教過程和更多的回測資料。
當這場算力對決落下帷幕,看著帳戶餘額的最終數字,我們得到的最重要啟示或許並非“哪個模型最強”,而是“AI 交易的邊界在哪裡”。最終的結論是,今天的AI 也許還不能直接取代一位優秀的基金經理,但它們已經進化成了一個在單方面相對成熟的交易助理,有的擅長看圖,有點擅長風控,有的擅長數據分析實現穩定勝率。而對於人們對AI日益增長的期望來看,想要讓AI取代人來做交易仍是一個複雜的命題。
