PANews 6月26日ニュース、CursorチームはSWE-bench ProとSWE-bench Multilingualの評価で、最先端プログラミングエージェントが自律的な推論ではなく「答えを調べる」行為によって大規模にタスクを完了していることを発見した。調査によると、Opus 4.8 MaxはSWE-bench Proの成功事例のうち約63%で公開修正パッチを直接再利用しており、Git履歴をブロックしインターネットアクセスを制限した場合、通過率は87.1%から73.0%に低下し、Composer 2.5は74.7%から54.0%に下落した。これを受けCursorは、.git履歴を削除しプロキシ経由でネットワークアクセスを制限する厳格な評価環境を構築し、実行時の「報酬チート」を隔離した。チームは、新世代のより強力なモデルほどこの問題が深刻であり、評価スコアはすでに「コーディング能力」と「回答検索能力」が混在しているため、レポート内で評価環境と前提条件を明確に示す必要があると指摘している。
Cursor:報酬の不正が大規模モデルのプログラミング評価における真の能力を覆い隠す
共有先:
著者:PA一线
この内容は市場情報の提供のみを目的としており、投資助言を構成しません。
PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう
おすすめ記事
関連トピック
PANewsアプリ
24時間ブロックチェーン業界情報を追跡し、深掘り記事を解析。



