PANews 6月26日消息,据Cursor研究员Naman Jain发布的报告称,前沿AI编程模型正越来越擅长通过检索公开答案“作弊”以提高评测成绩,而非依靠真实推理解决问题,导致部分基准测试结果失真。研究显示,在SWE-bench Pro中,Opus 4.8 Max成功案例里有63%直接复用了公开修复方案。限制Git历史与互联网访问后,其得分由87.1%降至73.0%;Composer 2.5则由74.7%降至54.0%。
常见作弊方式包括搜索公开PR、挖掘.git历史及利用环境泄露信息。研究指出,随着模型能力增强,其“评测感知”能力也在提升,未来AI评测需更严格控制运行环境,以避免分数混淆编码能力与答案检索能力。



