OpenAI推出高難度基準測試BrowseComp,挑戰AI上網搜尋能力

PANews 4月11日訊息,OpenAI已開源全新基準測試BrowseComp,用於評估AI代理在網路上尋找難以取得資訊的能力。測驗包含1266個極具挑戰性的題目,設計初衷為模擬AI在複雜資訊網路中的“線上尋寶”,強調答案難找但易驗證。測試中問題涵蓋影視、科技、歷史等多個領域,難度顯著高於現有如SimpleQA等測試。

據AIGC開放社區稱,這個測試基準非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。但OpenAI最新發表的Agent模型Deep Research準確率高達51.5%。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
1小時前
2小時前
12小時前
13小時前
13小時前
15小時前

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读