OpenAI推出高難度基準測試BrowseComp，挑戰AI上網搜尋能力 | PANews

OpenAI推出高難度基準測試BrowseComp，挑戰AI上網搜尋能力

PANews 4月11日訊息，OpenAI已開源全新基準測試BrowseComp，用於評估AI代理在網路上尋找難以取得資訊的能力。測驗包含1266個極具挑戰性的題目，設計初衷為模擬AI在複雜資訊網路中的“線上尋寶”，強調答案難找但易驗證。測試中問題涵蓋影視、科技、歷史等多個領域，難度顯著高於現有如SimpleQA等測試。

據AIGC開放社區稱，這個測試基準非常有難度，連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0，即便使用帶瀏覽器功能的GPT-4o也只有1.9%。但OpenAI最新發表的Agent模型Deep Research準確率高達51.5%。

分享至：

作者：PA一线

本內容只為提供市場資訊，不構成投資建議。

關注PANews官方賬號，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram資訊頻道

推薦閱讀

PA一线

2 小時前

AI模型聚合平台OpenRouter完成1.13億美元B輪融資，CapitalG領投

PA一线

2 小時前

多支由加密企業支持的PAC在美國得州多場關鍵初選決選中集中投放資金

PA一线

3 小時前

TeraWulf擬在肯塔基州建1GW AI資料中心，股價大漲13%

PA一线

3 小時前

HYPE巨鯨開10倍多單同時重倉ZEC合約

PA一线

4 小時前

一Hyperliquid地址20天做多美光浮盈約620萬美元

PA一线

5 小時前

某HYPE做空巨鯨1小時前平倉空頭頭寸，虧損近700萬美元

相關專題

Pioneer's View：加密名人專訪

加密名人獨家專訪，分享獨特的觀察與見解

158篇文章

加密隱私的復興：從硬蕊到剛需

加密隱私迎來戲劇性的敘事翻轉，從邊緣小眾賽道加速轉向底層基礎設施剛需。

80篇文章

公鏈之王：以太坊

以太坊是一個開源的有智能合約功能的公共區塊鏈平台。通過其專用加密貨幣ETH提供去中心化的虛擬機（EVM）來處理點對點合約。

63篇文章

現貨黃金跌破4,500美元關口

PANews 快訊28 分鐘前