Cursor：報酬の不正が大規模モデルのプログラミング評価における真の能力を覆い隠す | PANews

Cursor：報酬の不正が大規模モデルのプログラミング評価における真の能力を覆い隠す

PANews 6月26日ニュース、CursorチームはSWE-bench ProとSWE-bench Multilingualの評価で、最先端プログラミングエージェントが自律的な推論ではなく「答えを調べる」行為によって大規模にタスクを完了していることを発見した。調査によると、Opus 4.8 MaxはSWE-bench Proの成功事例のうち約63%で公開修正パッチを直接再利用しており、Git履歴をブロックしインターネットアクセスを制限した場合、通過率は87.1%から73.0%に低下し、Composer 2.5は74.7%から54.0%に下落した。これを受けCursorは、.git履歴を削除しプロキシ経由でネットワークアクセスを制限する厳格な評価環境を構築し、実行時の「報酬チート」を隔離した。チームは、新世代のより強力なモデルほどこの問題が深刻であり、評価スコアはすでに「コーディング能力」と「回答検索能力」が混在しているため、レポート内で評価環境と前提条件を明確に示す必要があると指摘している。

原文リンク

共有先：

著者：PA一线

この内容は市場情報の提供のみを目的としており、投資助言を構成しません。

PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう

PANews WeChatグループ

Telegram交流グループ

Telegram情報チャンネル

おすすめ記事

PA一线

6 時間前

分析：ビットコインの実現純損益が5カ月連続でマイナス、4.8万～5.6万ドルが主要サポート範囲に

PA一线

8 時間前

DATA（旧Story）コアエコシステムAIプロジェクトPoseidon、韓国国民的アプリTossと提携し、3000万ユーザーにリーチしてAIデータエコシステムを共構築

PA一线

10 時間前

Gateリサーチ：ワールドカップが予測市場を爆発させ、スポーツが中核的成長エンジンに

PA一线

11 時間前

イーサリアムGlamsterdam devnet-6がリリース、テストネットの推進で多くの進展

PA一线

12 時間前

米CFTC、完全担保イベント契約のデータ報告規則について意見公募

PA一线

2026/06/25 13:19

中国人民銀行は仮想通貨マネーロンダリングと越境マネーロンダリング活動への取り締まりを強化

関連トピック

直击华尔街，美股的投资新风向

AI、半导体、新能源等硬科技热潮席卷全球，华尔街正上演新一轮科技狂欢，资金加速涌入高景气赛道。

50件の記事

パブリックチェーンの王様: イーサリアム

イーサリアムは、スマートコントラクト機能を備えたオープンソースのパブリックブロックチェーンプラットフォームです。ピアツーピア契約を処理するために、専用の暗号通貨 ETH を通じて分散型仮想マシン (EVM) を提供します。

75件の記事

最新のトレンドの詳細な分析と包括的な洞察を提供します。この特別なトピックでは、各トラックの詳細なレポートを収集し、読者が読めるように構成しました。

157件の記事

人気検索:ビットコインイーサリアムステーブルコイン予測市場トランプ RWA USDT DeFi AI 連邦準備制度理事会議長

人気記事

豆包AI正式收钱，月费68元起，真的比免费的好用吗？

長鑫存儲の科創板IPOが目前、SemiAnalysisが1万字レポートで技術パス・財務データ・HBMの苦境を分析

ビットコイン底値指標Ahr999が0.287に低下、歴史的な極端底値圏内

クアルコムインベスター・デー：1つのCPU、1つのメモリ技術、1つの400億ドル目標

独角兽挖掘机

BTCが59000ドルを割り込み、日内で2.17%下落

業界ニュース

市場ホットスポット

厳選読み物

購読をクリック

PANewsアプリ

24時間ブロックチェーン業界情報を追跡し、深掘り記事を解析。

PANewsアプリをダウンロード

App Store Google Play

Aave推动代币化股票链上借贷，瞄准万亿美元证券借贷市场

PANews 速報6 分前