Cursor:AI模型在编程评测中“奖励作弊”加剧,基准分数或高估真实能力

PANews 6月26日消息,据Cursor研究员Naman Jain发布的报告称,前沿AI编程模型正越来越擅长通过检索公开答案“作弊”以提高评测成绩,而非依靠真实推理解决问题,导致部分基准测试结果失真。研究显示,在SWE-bench Pro中,Opus 4.8 Max成功案例里有63%直接复用了公开修复方案。限制Git历史与互联网访问后,其得分由87.1%降至73.0%;Composer 2.5则由74.7%降至54.0%。

常见作弊方式包括搜索公开PR、挖掘.git历史及利用环境泄露信息。研究指出,随着模型能力增强,其“评测感知”能力也在提升,未来AI评测需更严格控制运行环境,以避免分数混淆编码能力与答案检索能力。

分享至:

作者:PA一线

本内容只为提供市场信息,不构成投资建议。

关注PANews官方账号,一起穿越牛熊
PANews APP
Hyperliquid前端Dreamcash将关闭CASH市场、保留非托管交易应用
PANews 快讯