Cursor：AI模型在编程评测中“奖励作弊”加剧，基准分数或高估真实能力 | PANews

Cursor：AI模型在编程评测中“奖励作弊”加剧，基准分数或高估真实能力

PANews 6月26日消息，据Cursor研究员Naman Jain发布的报告称，前沿AI编程模型正越来越擅长通过检索公开答案“作弊”以提高评测成绩，而非依靠真实推理解决问题，导致部分基准测试结果失真。研究显示，在SWE-bench Pro中，Opus 4.8 Max成功案例里有63%直接复用了公开修复方案。限制Git历史与互联网访问后，其得分由87.1%降至73.0%；Composer 2.5则由74.7%降至54.0%。

常见作弊方式包括搜索公开PR、挖掘.git历史及利用环境泄露信息。研究指出，随着模型能力增强，其“评测感知”能力也在提升，未来AI评测需更严格控制运行环境，以避免分数混淆编码能力与答案检索能力。

分享至：

作者：PA一线

本内容只为提供市场信息，不构成投资建议。

关注PANews官方账号，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram资讯频道

推荐阅读

PA一线

6小时前

分析：比特币净实现盈亏连续五个月为负，4.8万至5.6万美元成核心支撑区间

PA一线

8小时前

DATA（原Story）核心生态AI项目Poseidon联手韩国国民级应用Toss，触达3000万用户共建AI数据生态

PA一线

10小时前

Gate 研究院：世界杯引爆预测市场，体育成为核心增长引擎

PA一线

11小时前

以太坊Glamsterdam devnet-6已发布，测试网推进取得多项进展

PA一线

12小时前

美CFTC就全额抵押事件合约数据报告规则征求公众意见

PA一线

2026/06/25 13:19

中国人民银行将强化对虚拟货币洗钱和跨境洗钱活动的打击

相关专题

直击华尔街，美股的投资新风向

AI、半导体、新能源等硬科技热潮席卷全球，华尔街正上演新一轮科技狂欢，资金加速涌入高景气赛道。

50篇文章

公链之王：以太坊

以太坊是一个开源的有智能合约功能的公共区块链平台。通过其专用加密货币ETH提供去中心化的虚拟机（EVM）来处理点对点合约。

75篇文章

深入分析当前趋势，提供全方位深度洞察。本专题将收集各赛道深度报告，供读者阅读。

157篇文章

热搜:比特币以太坊稳定币预测市场特朗普 RWA USDT DeFi AI 美联储主席

热门文章

豆包AI正式收钱，月费68元起，真的比免费的好用吗？

长鑫存储科创板IPO在即，SemiAnalysis万字研报拆解技术路径、财务数据与HBM困境

比特币抄底指标Ahr999跌至0.287，处历史极端抄底区间

高通投资者日：一颗CPU、一项内存技术、一个400亿美元目标

独角兽挖掘机

渣打银行再唱50倍狂想曲，为AAVE“画饼”剑指3500美元

行业要闻

市场热点

精选读物

PANews APP

24小时追踪区块链行业资讯，行业深度文章解析。

下载 PANews App

App Store Google Play

美联储主席沃什任命两位经济学家 Daniel Covitz 和 Eric Engstrom 为其顾问

PANews 快讯11分钟前