量化視角的AI 評估：獲利期望全員小於1，人工智慧離替代交易員還有多遠？

PANews針對六大AI交易模型進行了量化測試，包括Gemini、豆包、DeepSeek、Grok、GPT和Qwen，在比特幣歷史數據中隨機抽取100個行情切片，測試了4小時裸K、4小時帶指標及15分鐘短線三種場景。

豆包：在4小時帶指標週期勝率達50%，收益22.2%，15分鐘短線也有8.2%收益，開倉比例高達92%，是表現最全面的模型。
DeepSeek：勝率最穩定，三種場景均在40%-42%之間，但盈虧比低導致盈利期望僅約0.5。
Gemini：擅長純K線分析，4小時裸K勝率39.58%且唯一盈利，添加指標後勝率反而下降。
Grok：風格激進，開倉比例98%，盈虧比平均2，但勝率低，僅在帶指標4小時週期表現尚可。
GPT：極度謹慎，開倉比例僅0.34%，熱衷做空，15分鐘週期憑藉高盈虧比獲利9.9%。
Qwen：風險厭惡，開倉比例29%，4小時帶指標場景盈利期望0.95，為所有模型中最接近盈利。

測試顯示，所有模型長期盈利期望均小於1，代表無法穩定盈利。AI在帶指標時平均勝率38%高於純K線的30%，且更擅長短期交易。目前AI更適合作為交易助理，協助分析與風控，而非完全替代人類交易員。

作者：Frank，PANews

如果給你10000美元，你會選擇相信哪個人工智慧來替你操盤？

在此之前，PANews曾針對nof1.ai的AI交易比賽進行過一次複盤（相關閱讀：六大AI「交易員」十日對決：一場關於趨勢、紀律與貪婪的公開課）。然而，在nof1.ai的比賽時效是針對某一段行情，各個AI大模型的最終交易能力在特定的交易週期下似乎並非能夠完全展現。此外，人們對於AI模型在不同條件下的實際預測能力也亟需一個答案。加上近日各AI公司又發布了最新的大模型，模型的能力排名也在重新排位的階段。

為了揭開這個謎底，PANews策劃了一場「AI 交易員爭霸賽」。了解在不同的情境下，AI大模型對於行情的判斷能力與交易規劃能力。例如更擅長哪一同時間框架的行情分析，以及在有指標作為輔助條件下，AI的預測成功率是否會提升。

我們將時間軸拉長到2017年至今，從幣安BTC 歷史資料中，隨機抽取了100個真實的行情切片，建構了「4小時裸K」、「15分鐘短線」、「4小時全指標」三大煉獄級測試場景。六位參賽者為當今中美的算力巔峰：Gemini-3-pro、Doubao-1.6-vision、DeepSeek V3.2、Grok 4.1、GPT-5.1、Qwen3-max。

本次測試採集了幣安BTC現貨交易對自2017年8月至今的15分鐘K線數據以及2021年至今的4小時K線數據，每個週期隨機產生50張時間段為100根K線的圖片，其中4小時週期分為兩種，一線是只有K線和交易量的圖片，另一種是EMAMAC、RSMA、KVSI、B標準線、K標準線和交易量的圖片。 15分鐘K線圖均為裸K圖（含交易量）。並同步給AI當前K線圖對應的具體價格資料值或指標資料值。所有的AI輸出結果在此可以查看。

4小時帶指標的示意圖

4小時純K線的示意圖

在測試的過程中，每個大模型所獲得的資料資訊及指令都是完全相同的。從另一個角度來說，這也相當考驗這些大模型的多模態能力（DeepSeek因只有文字大模型，最終接收的都是資料訊息，未傳送圖片）。

Gemini 3 ：被「指標」封印的裸K 之王

Gemini 3是目前最火熱的AI大模型，從11月18日發布後的媒體評論和測試來看，可謂是當前綜合能力最強的AI多模態大模型。然而，在本次交易預測的測試當中，Gemini 3的結果並不算是最佳，只能算是中規中距。在三個場景當中（4小時裸K、4小時帶指標、15分鐘裸K），Gemini 3表現最好的是4小時裸K場景，勝率達到了39.58%、其次是15分鐘裸K場景下34.04%，在帶指標的情況下（相同時間段）4小時週期的準確率反而降至了31%的。

從這一點來看，Gemini 3似乎更擅長純K線形態狀態，疊加指標後反而容易受到干擾。在具體的操作過程中，沒有指標的情況下，Gemini 3似乎更敢於開倉，純K線的情況下，95%的行情都會選擇入場，而添加了指標之後這一比例則下降至71%。值得一提的是，Gemini 3還是4小時純K線情況下唯一獲利的模型。

在15分鐘的場景下，Gemini 3的整體獲利情況最佳，總部位獲利15.34%，有指標的情境下反而虧損了21.18%。不過，這種獲利也是一種短期幸運，結合每次的盈虧比數據來看，Gemini 3的獲利期望（勝率*盈虧比）都低於1，也就代表長期來看都是虧錢的狀態。

DeepSeek V3.2：穩如老狗的“超短線刷單機器”

DeepSeek則是六個模型當中勝率綜合表現最好的模型，相對來說也是最穩定的。在三個場景當中（4小時裸K、4小時帶指標、15分鐘裸K）下，勝率分別為40%、41.38%、42.86%。從這點來看DeepSeek的預測能力在不同週期、有無指標的情況下都相對穩定。

只不過，DeepSeek最終的獲利情況都不佳，源自於其盈虧比太低，平均值只有1.25。這種見好就收的盈虧比也反映出DeepSeek在交易過程中缺乏讓利潤奔跑的能力。因此，綜合導致其獲利期望值幾乎都在0.5左右，長期來看同樣缺乏獲利可能。此外，DeepSeek在開倉決心方面也相對保守，整體的開倉比例只有58%。

Doubao (豆包)：本次比賽的“全能MVP”

在這場測試比賽當中，Doubao1.6-vision的綜合結果是最好的。在4小時帶指標的場景中，Doubao1.6-vision的勝率達到了測試當中最高的數據，達到50%，最終收益達到22.2%。同時在15分鐘的短週期當中，整體也獲得了8.2%的收益水準。它是唯一在兩個不同維度（短線和4小時指標）都能穩定獲利的模型。

並且，Doubao1.6-vision的這種結果並不是相對保守的風格下實現的，而是在平均開倉比例92%以上達成的。也就是說，Doubao1.6-vision在絕大多數的情境中選擇了開倉。不過，相對來看，Doubao1.6-vision的能力也很依賴指標訊號，有無指標的情況下，總獲利相差38%。另外，從盈虧比的數據來看，Doubao1.6-vision在正收益的兩個週期內的平虧比都較高，這也是它整體表現優異的原因。

Grok 4.1：來自xAI 的“激進賭徒”

Grok 4.1的整體風格是膽大但季度依賴指標，同時願意追逐更大的利潤。在三種場景中，只有帶指標的4小時週內，Grok 4.1獲得了34.69%的勝率，剩下兩個場景下的勝率極低。 4小時純K線的情況下，勝率只有14.58%，15分鐘週期內為26.53%。但它開倉的平均比例卻高達98%，幾乎在所有K線情境下都願意開倉。從這個角度來看，Grok 4.1的風格更像是管不住手的賭徒。

不過，Grok 4.1的損益比往往都比較高，平均值達到了2，是所有模型中最高的。但綜合來說，如果你將資金交給Grok 4.1，並不是一個明智的選擇。

GPT 5.1：極致謹慎的「死空頭」悲觀派

GPT 5.1的開單風格和Grok 4.1則是完全相反。 GPT 5.1在謹慎程度這方面可謂是極致，在大多數的案例當中，他都選擇了觀望。最後150次的測試當中，只開單了52次，平均的開倉比只有0.34%。

不過，即便是這樣的小心謹慎，也沒能為GPT 5.1帶來更好的勝率表現。它在最好的場景下也只獲得了35%的勝率。且比起4小時和15分鐘後期，GPT 5.1顯然不太擅長長週期的開倉，即便加上了技術指標，4小時的勝率也只有27%。而在15分鐘週期下，憑藉較高的盈虧比（2.02），才算是獲得了正向收益回饋，最終結果為9.9%。

此外，GPT 5.1還有一個特點是明顯的悲觀主義，十分熱衷於做空。超過70%的訂單都是空單。

Qwen 3：惜字如金的“風險厭惡者”

Qwen 3顯然是最謹慎的一個大模型，他在所有的測試當中一共只開倉了44次，開倉比例只有29%。不過，與GPT一樣，這種極致的小心也沒能帶來更高的勝率。他的勝率平均也只有34%，表現最好的場景是4小時帶指標的情境。

此外，Qwen 3的盈虧比也較高。達到1.96。看起來它屬於風險厭惡型的選手，更擅長減少開單次數，但讓利潤跑。而在4小時帶指標的場景下，Qwen 3的獲利期望值也是最接近獲利的，達到了0.95是所有模型中最高的。

資料匯總情況

總結：

綜合來看，我們可能從這些AI的模擬交易過程中獲得了以下幾點啟發。

第一，對絕大多數模型來說，帶有指標都比純K線圖更有把握。在有指標的情況下，這六個模型的平均勝率達到了38%，而沒有指標的情況下勝率只有30%。

第二，AI可能更擅長短期交易，而非長線交易。 15分鐘的純K線情境下，六個大模型的平均勝率達34%，高於4小時週期的30%。六個模型中有三個獲利(Gemini, GPT, Doubao)，且平均盈虧比普遍較好。

第三，將倉位完全交給AI並不可取。在本次測試過程中，所有AI模型的獲利期望都低於1，這也一位置長期按照這樣的勝率和盈虧比來看，他們的最終結果都是虧損。只是虧得快慢的差異（不過，這裡由於並未對AI模型進行專案調教，所使用的指標也只是較簡單的常用指標）。因此，如果你想要讓AI來代替自己進行交易，那可能需要更複雜的調教過程和更多的回測資料。

當這場算力對決落下帷幕，看著帳戶餘額的最終數字，我們得到的最重要啟示或許並非“哪個模型最強”，而是“AI 交易的邊界在哪裡”。最終的結論是，今天的AI 也許還不能直接取代一位優秀的基金經理，但它們已經進化成了一個在單方面相對成熟的交易助理，有的擅長看圖，有點擅長風控，有的擅長數據分析實現穩定勝率。而對於人們對AI日益增長的期望來看，想要讓AI取代人來做交易仍是一個複雜的命題。