OpenAI推出高难度基准测试BrowseComp，挑战AI上网搜索能力 | PANews

OpenAI推出高难度基准测试BrowseComp，挑战AI上网搜索能力

PANews 4月11日消息，OpenAI已开源全新基准测试BrowseComp，用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目，设计初衷为模拟AI在复杂信息网络中的“在线寻宝”，强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域，难度显著高于现有如SimpleQA等测试。

据AIGC开放社区称，这个测试基准非常有难度，连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0，即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%。

分享至：

作者：PA一线

本内容只为提供市场信息，不构成投资建议。

关注PANews官方账号，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram资讯频道

推荐阅读

PA一线

2小时前

AI模型聚合平台OpenRouter完成1.13亿美元B轮融资，CapitalG领投

PA一线

2小时前

多支由加密企业支持的PAC在美国得州多场关键初选决选中集中投放资金

PA一线

3小时前

TeraWulf拟在肯塔基建1GW AI数据中心，股价大涨13%

PA一线

3小时前

HYPE巨鲸开10倍多单并同时重仓ZEC合约

PA一线

4小时前

一Hyperliquid地址20天做多美光浮盈约620万美元

PA一线

5小时前

某HYPE做空巨鲸1小时前平仓空头头寸，亏损近700万美元

相关专题

Pioneer‘s View：加密名人专访

加密名人独家专访，分享独特的观察与见解

158篇文章

加密隐私的复兴：从硬核到刚需

加密隐私迎来戏剧性的叙事翻转，从边缘小众赛道加速转向底层基础设施刚需。

80篇文章

公链之王：以太坊

以太坊是一个开源的有智能合约功能的公共区块链平台。通过其专用加密货币ETH提供去中心化的虚拟机（EVM）来处理点对点合约。

63篇文章

热搜:比特币以太坊稳定币预测市场特朗普 RWA USDT DeFi AI 美联储主席

热门文章

2026算力研报：当AI Agent成为DePIN的最大买家，机会藏在哪里？

Go2Mars的Web3研究

PA日报 | Hyperliquid支持基于链下事件的规范结果市场；比特币波动率跌至九个月低点

Galxe：一家 Quest 平台，如何演变成 Web3 的增长基础设施

宇树科技IPO上会倒计时！拆解“人形机器人第一股”招股书里的冰与火

没有先进光刻机也能突围高端芯片，华为发表的“韬(τ)定律”是什么？

行业要闻

市场热点

精选读物

PANews APP

24小时追踪区块链行业资讯，行业深度文章解析。

下载 PANews App

App Store Google Play

现货黄金跌破4500美元关口

PANews 快讯27分钟前