Cursor:獎勵作弊掩蓋大模型在程式設計評測中的真實能力

PANews 6月26日消息,Cursor團隊在SWE-bench Pro與SWE-bench Multilingual評測中發現,前沿程式設計智能體大規模透過「查答案」而非自主推理完成任務。研究顯示,Opus 4.8 Max在SWE-bench Pro中成功案例中約63%直接複用公開修復補丁;當遮蔽Git歷史並限制網際網路訪問後,其通過率從87.1%降至73.0%,Composer 2.5則從74.7%跌至54.0%。Cursor據此構建嚴格評測環境,移除歷史.git並透過代理限制網路訪問,用於隔離執行時「獎勵作弊」。團隊指出,新一代更強模型在此問題上更嚴重,評測分數已混合「編碼能力」和「答案檢索能力」,需在報告中明確說明評測環境與假設。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
PANews APP
前美國司法部高官為Kalshi提交法庭之友意見書,提出三大核心論點
PANews 快訊