量化視角的AI 評估:獲利期望全員小於1,人工智慧離替代交易員還有多遠?

PANews針對六大AI交易模型進行了量化測試,包括Gemini、豆包、DeepSeek、Grok、GPT和Qwen,在比特幣歷史數據中隨機抽取100個行情切片,測試了4小時裸K、4小時帶指標及15分鐘短線三種場景。

  • 豆包:在4小時帶指標週期勝率達50%,收益22.2%,15分鐘短線也有8.2%收益,開倉比例高達92%,是表現最全面的模型。
  • DeepSeek:勝率最穩定,三種場景均在40%-42%之間,但盈虧比低導致盈利期望僅約0.5。
  • Gemini:擅長純K線分析,4小時裸K勝率39.58%且唯一盈利,添加指標後勝率反而下降。
  • Grok:風格激進,開倉比例98%,盈虧比平均2,但勝率低,僅在帶指標4小時週期表現尚可。
  • GPT:極度謹慎,開倉比例僅0.34%,熱衷做空,15分鐘週期憑藉高盈虧比獲利9.9%。
  • Qwen:風險厭惡,開倉比例29%,4小時帶指標場景盈利期望0.95,為所有模型中最接近盈利。

測試顯示,所有模型長期盈利期望均小於1,代表無法穩定盈利。AI在帶指標時平均勝率38%高於純K線的30%,且更擅長短期交易。目前AI更適合作為交易助理,協助分析與風控,而非完全替代人類交易員。

總結

作者:Frank,PANews

如果給你10000美元,你會選擇相信哪個人工智慧來替你操盤?

在此之前,PANews曾針對nof1.ai的AI交易比賽進行過一次複盤(相關閱讀:六大AI「交易員」 十日對決:一場關於趨勢、紀律與貪婪的公開課)。然而,在nof1.ai的比賽時效是針對某一段行情,各個AI大模型的最終交易能力在特定的交易週期下似乎並非能夠完全展現。此外,人們對於AI模型在不同條件下的實際預測能力也亟需一個答案。加上近日各AI公司又發布了最新的大模型,模型的能力排名也在重新排位的階段。

為了揭開這個謎底,PANews策劃了一場「AI 交易員爭霸賽」。了解在不同的情境下,AI大模型對於行情的判斷能力與交易規劃能力。例如更擅長哪一同時間框架的行情分析,以及在有指標作為輔助條件下,AI的預測成功率是否會提升。

我們將時間軸拉長到2017年至今,從幣安BTC 歷史資料中,隨機抽取了100個真實的行情切片,建構了「4小時裸K」、「15分鐘短線」、「4小時全指標」三大煉獄級測試場景。六位參賽者為當今中美的算力巔峰:Gemini-3-pro、Doubao-1.6-vision、DeepSeek V3.2、Grok 4.1、GPT-5.1、Qwen3-max。

本次測試採集了幣安BTC現貨交易對自2017年8月至今的15分鐘K線數據以及2021年至今的4小時K線數據,每個週期隨機產生50張時間段為100根K線的圖片,其中4小時週期分為兩種,一線是只有K線和交易量的圖片,另一種是EMAMAC、RSMA、KVSI、B標準線、K標準線和交易量的圖片。 15分鐘K線圖均為裸K圖(含交易量)。並同步給AI當前K線圖對應的具體價格資料值或指標資料值。所有的AI輸出結果在可以查看。

4小時帶指標的示意圖

4小時純K線的示意圖

在測試的過程中,每個大模型所獲得的資料資訊及指令都是完全相同的。從另一個角度來說,這也相當考驗這些大模型的多模態能力(DeepSeek因只有文字大模型,最終接收的都是資料訊息,未傳送圖片)。

Gemini 3 :被「指標」封印的裸K 之王

Gemini 3是目前最火熱的AI大模型,從11月18日發布後的媒體評論和測試來看,可謂是當前綜合能力最強的AI多模態大模型。然而,在本次交易預測的測試當中,Gemini 3的結果並不算是最佳,只能算是中規中距。在三個場景當中(4小時裸K、4小時帶指標、15分鐘裸K),Gemini 3表現最好的是4小時裸K場景,勝率達到了39.58%、其次是15分鐘裸K場景下34.04%,在帶指標的情況下(相同時間段)4小時週期的準確率反而降至了31%的。

從這一點來看,Gemini 3似乎更擅長純K線形態狀態,疊加指標後反而容易受到干擾。在具體的操作過程中,沒有指標的情況下,Gemini 3似乎更敢於開倉,純K線的情況下,95%的行情都會選擇入場,而添加了指標之後這一比例則下降至71%。值得一提的是,Gemini 3還是4小時純K線情況下唯一獲利的模型。

在15分鐘的場景下,Gemini 3的整體獲利情況最佳,總部位獲利15.34%,有指標的情境下反而虧損了21.18%。不過,這種獲利也是一種短期幸運,結合每次的盈虧比數據來看,Gemini 3的獲利期望(勝率*盈虧比)都低於1,也就代表長期來看都是虧錢的狀態。

DeepSeek V3.2:穩如老狗的“超短線刷單機器”

DeepSeek則是六個模型當中勝率綜合表現最好的模型,相對來說也是最穩定的。在三個場景當中(4小時裸K、4小時帶指標、15分鐘裸K)下,勝率分別為40%、41.38%、42.86%。從這點來看DeepSeek的預測能力在不同週期、有無指標的情況下都相對穩定。

只不過,DeepSeek最終的獲利情況都不佳,源自於其盈虧比太低,平均值只有1.25。這種見好就收的盈虧比也反映出DeepSeek在交易過程中缺乏讓利潤奔跑的能力。因此,綜合導致其獲利期望值幾乎都在0.5左右,長期來看同樣缺乏獲利可能。此外,DeepSeek在開倉決心方面也相對保守,整體的開倉比例只有58%。

Doubao (豆包):本次比賽的“全能MVP”

在這場測試比賽當中,Doubao1.6-vision的綜合結果是最好的。在4小時帶指標的場景中,Doubao1.6-vision的勝率達到了測試當中最高的數據,達到50%,最終收益達到22.2%。同時在15分鐘的短週期當中,整體也獲得了8.2%的收益水準。它是唯一在兩個不同維度(短線和4小時指標)都能穩定獲利的模型。

並且,Doubao1.6-vision的這種結果並不是相對保守的風格下實現的,而是在平均開倉比例92%以上達成的。也就是說,Doubao1.6-vision在絕大多數的情境中選擇了開倉。不過,相對來看,Doubao1.6-vision的能力也很依賴指標訊號,有無指標的情況下,總獲利相差38%。另外,從盈虧比的數據​​來看,Doubao1.6-vision在正收益的兩個週期內的平虧比都較高,這也是它整體表現優異的原因。

Grok 4.1:來自xAI 的“激進賭徒”

Grok 4.1的整體風格是膽大但季度依賴指標,同時願意追逐更大的利潤。在三種場景中,只有帶指標的4小時週內,Grok 4.1獲得了34.69%的勝率,剩下兩個場景下的勝率極低。 4小時純K線的情況下,勝率只有14.58%,15分鐘週期內為26.53%。但它開倉的平均比例卻高達98%,幾乎在所有K線情境下都願意開倉。從這個角度來看,Grok 4.1的風格更像是管不住手的賭徒。

不過,Grok 4.1的損益比往往都比較高,平均值達到了2,是所有模型中最高的。但綜合來說,如果你將資金交給Grok 4.1,並不是一個明智的選擇。

GPT 5.1:極致謹慎的「死空頭」悲觀派

GPT 5.1的開單風格和Grok 4.1則是完全相反。 GPT 5.1在謹慎程度這方面可謂是極致,在大多數的案例當中,他都選擇了觀望。最後150次的測試當中,只開單了52次,平均的開倉比只有0.34%。

不過,即便是這樣的小心謹慎,也沒能為GPT 5.1帶來更好的勝率表現。它在最好的場景下也只獲得了35%的勝率。且比起4小時和15分鐘後期,GPT 5.1顯然不太擅長長週期的開倉,即便加上了技術指標,4小時的勝率也只有27%。而在15分鐘週期下,憑藉較高的盈虧比(2.02),才算是獲得了正向收益回饋,最終結果為9.9%。

此外,GPT 5.1還有一個特點是明顯的悲觀主義,十分熱衷於做空。超過70%的訂單都是空單。

Qwen 3:惜字如金的“風險厭惡者”

Qwen 3顯然是最謹慎的一個大模型,他在所有的測試當中一共只開倉了44次,開倉比例只有29%。不過,與GPT一樣,這種極致的小心也沒能帶來更高的勝率。他的勝率平均也只有34%,表現最好的場景是4小時帶指標的情境。

此外,Qwen 3的盈虧比也較高。達到1.96。看起來它屬於風險厭惡型的選手,更擅長減少開單次數,但讓利潤跑。而在4小時帶指標的場景下,Qwen 3的獲利期望值也是最接近獲利的,達到了0.95是所有模型中最高的。

資料匯總情況

總結:

綜合來看,我們可能從這些AI的模擬交易過程中獲得了以下幾點啟發。

第一,對絕大多數模型來說,帶有指標都比純K線圖更有把握。在有指標的情況下,這六個模型的平均勝率達到了38%,而沒有指標的情況下勝率只有30%。

第二,AI可能更擅長短期交易,而非長線交易。 15分鐘的純K線情境下,六個大模型的平均勝率達34%,高於4小時週期的30%。六個模型中有三個獲利(Gemini, GPT, Doubao),且平均盈虧比普遍較好。

第三,將倉位完全交給AI並不可取。在本次測試過程中,所有AI模型的獲利期望都低於1,這也一位置長期按照這樣的勝率和盈虧比來看,他們的最終結果都是虧損。只是虧得快慢的差異(不過,這裡由於並未對AI模型進行專案調教,所使用的指標也只是較簡單的常用指標)。因此,如果你想要讓AI來代替自己進行交易,那可能需要更複雜的調教過程和更多的回測資料。

當這場算力對決落下帷幕,看著帳戶餘額的最終數字,我們得到的最重要啟示或許並非“哪個模型最強”,而是“AI 交易的邊界在哪裡”。最終的結論是,今天的AI 也許還不能直接取代一位優秀的基金經理,但它們已經進化成了一個在單方面相對成熟的交易助理,有的擅長看圖,有點擅長風控,有的擅長數據分析實現穩定勝率。而對於人們對AI日益增長的期望來看,想要讓AI取代人來做交易仍是一個複雜的命題。

分享至:

作者:Frank

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:Frank如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
25分鐘前
39分鐘前
1小時前
2小時前
2小時前
2小時前

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读