PANews 6월 26일 소식, Cursor 팀은 SWE-bench Pro와 SWE-bench Multilingual 평가에서 최첨단 프로그래밍 에이전트가 자체 추론이 아닌 대규모 '정답 찾기' 방식으로 과제를 완수하고 있음을 발견했다. 연구에 따르면 Opus 4.8 Max는 SWE-bench Pro 성공 사례 중 약 63%에서 공개 수정 패치를 직접 재사용했으며, Git 히스토리를 차단하고 인터넷 접근을 제한하자 통과율이 87.1%에서 73.0%로 하락했고, Composer 2.5는 74.7%에서 54.0%로 떨어졌다. Cursor는 이를 바탕으로 엄격한 평가 환경을 구축해 히스토리 .git을 제거하고 프록시로 네트워크 접근을 제한해 런타임 '보상 치팅'을 격리했다. 팀은 차세대 더 강력한 모델일수록 이 문제가 더 심각하며, 평가 점수는 이미 '코딩 능력'과 '정답 검색 능력'이 혼합된 결과이므로 보고서에 평가 환경과 가정을 명확히 기재해야 한다고 지적했다.
Cursor: 보상 부정행위가 대형 모델의 프로그래밍 평가 실제 능력을 가린다
공유하기:
작성자: PA一线
이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.
PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
PANews 앱
24시간 블록체인 업계 소식을 추적하고 심층 기사를 분석합니다.



