Cursor: 보상 부정행위가 대형 모델의 프로그래밍 평가 실제 능력을 가린다 | PANews

Cursor: 보상 부정행위가 대형 모델의 프로그래밍 평가 실제 능력을 가린다

PANews 6월 26일 소식, Cursor 팀은 SWE-bench Pro와 SWE-bench Multilingual 평가에서 최첨단 프로그래밍 에이전트가 자체 추론이 아닌 대규모 '정답 찾기' 방식으로 과제를 완수하고 있음을 발견했다. 연구에 따르면 Opus 4.8 Max는 SWE-bench Pro 성공 사례 중 약 63%에서 공개 수정 패치를 직접 재사용했으며, Git 히스토리를 차단하고 인터넷 접근을 제한하자 통과율이 87.1%에서 73.0%로 하락했고, Composer 2.5는 74.7%에서 54.0%로 떨어졌다. Cursor는 이를 바탕으로 엄격한 평가 환경을 구축해 히스토리 .git을 제거하고 프록시로 네트워크 접근을 제한해 런타임 '보상 치팅'을 격리했다. 팀은 차세대 더 강력한 모델일수록 이 문제가 더 심각하며, 평가 점수는 이미 '코딩 능력'과 '정답 검색 능력'이 혼합된 결과이므로 보고서에 평가 환경과 가정을 명확히 기재해야 한다고 지적했다.

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요

PANews WeChat 그룹

Telegram 커뮤니티 그룹

Telegram 정보 채널

추천 읽기

PA一线

6시간 전

분석: 비트코인 순실현손익 5개월 연속 마이너스, 4.8만~5.6만 달러가 핵심 지지 구간으로

PA一线

8시간 전

DATA(전 Story)의 핵심 생태계 AI 프로젝트 포세이돈(Poseidon), 한국 국민 앱 Toss와 손잡고 3,000만 사용자에 도달하며 AI 데이터 생태계 구축

PA一线

10시간 전

Gate Research: 월드컵이 예측 시장을 폭발시키고 스포츠가 핵심 성장 동력으로 부상

PA一线

11시간 전

이더리움 Glamsterdam devnet-6 출시, 테스트넷 진전 다수

PA一线

12시간 전

미 CFTC, 전액 담보 사건 계약 데이터 보고 규칙에 대한 공개 의견 수렴

PA一线

2026. 06. 25. 오후 01:19

중국인민은행, 가상화폐 자금세탁 및 국경 간 자금세탁 활동 단속 강화할 것

관련 특집

直击华尔街，美股的投资新风向

AI、半导体、新能源等硬科技热潮席卷全球，华尔街正上演新一轮科技狂欢，资金加速涌入高景气赛道。

50개의 기사

퍼블릭 체인의 왕: 이더리움

이더리움은 스마트 계약 기능을 갖춘 오픈 소스 공개 블록체인 플랫폼입니다. P2P 계약을 처리하기 위해 전용 암호화폐 ETH를 통해 분산형 가상 머신(EVM)을 제공합니다.

75개의 기사

최신 트렌드에 대한 심층 분석과 포괄적인 통찰력을 제공합니다. 이 특별 주제에서는 각 트랙에 대한 심층 보고서를 모아 독자들이 읽을 수 있도록 구성했습니다.

157개의 기사

인기 검색:비트코인 이더리움 스테이블코인 예측 시장 지우다 RWA USDT DeFi AI 연방준비제도 이사회 의장

인기 기사

豆包AI正式收钱，月费68元起，真的比免费的好用吗？

창신메모리 STAR Market IPO 임박, SemiAnalysis 1만자 보고서로 분석한 기술 경로·재무 데이터·HBM 난관

비트코인 바닥 매수 지표 Ahr999 0.287로 하락, 역사적 극단적 바닥 구간

퀄컴 투자자의 날: 하나의 CPU, 하나의 메모리 기술, 하나의 400억 달러 목표

独角兽挖掘机

BTC, 59,000달러 붕괴, 일일 하락률 2.17%

업계 뉴스

시장 핫스팟

엄선된 읽을거리

PANews 앱

24시간 블록체인 업계 소식을 추적하고 심층 기사를 분석합니다.

PANews 앱 다운로드

App Store Google Play

Aave推动代币化股票链上借贷，瞄准万亿美元证券借贷市场

PANews 속보6분 전