Cursor: 보상 부정행위가 대형 모델의 프로그래밍 평가 실제 능력을 가린다

PANews 6월 26일 소식, Cursor 팀은 SWE-bench Pro와 SWE-bench Multilingual 평가에서 최첨단 프로그래밍 에이전트가 자체 추론이 아닌 대규모 '정답 찾기' 방식으로 과제를 완수하고 있음을 발견했다. 연구에 따르면 Opus 4.8 Max는 SWE-bench Pro 성공 사례 중 약 63%에서 공개 수정 패치를 직접 재사용했으며, Git 히스토리를 차단하고 인터넷 접근을 제한하자 통과율이 87.1%에서 73.0%로 하락했고, Composer 2.5는 74.7%에서 54.0%로 떨어졌다. Cursor는 이를 바탕으로 엄격한 평가 환경을 구축해 히스토리 .git을 제거하고 프록시로 네트워크 접근을 제한해 런타임 '보상 치팅'을 격리했다. 팀은 차세대 더 강력한 모델일수록 이 문제가 더 심각하며, 평가 점수는 이미 '코딩 능력'과 '정답 검색 능력'이 혼합된 결과이므로 보고서에 평가 환경과 가정을 명확히 기재해야 한다고 지적했다.

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
PANews APP
Aave推动代币化股票链上借贷,瞄准万亿美元证券借贷市场
PANews 속보