Cursor：獎勵作弊掩蓋大模型在程式設計評測中的真實能力 | PANews

Cursor：獎勵作弊掩蓋大模型在程式設計評測中的真實能力

PANews 6月26日消息，Cursor團隊在SWE-bench Pro與SWE-bench Multilingual評測中發現，前沿程式設計智能體大規模透過「查答案」而非自主推理完成任務。研究顯示，Opus 4.8 Max在SWE-bench Pro中成功案例中約63%直接複用公開修復補丁；當遮蔽Git歷史並限制網際網路訪問後，其通過率從87.1%降至73.0%，Composer 2.5則從74.7%跌至54.0%。Cursor據此構建嚴格評測環境，移除歷史.git並透過代理限制網路訪問，用於隔離執行時「獎勵作弊」。團隊指出，新一代更強模型在此問題上更嚴重，評測分數已混合「編碼能力」和「答案檢索能力」，需在報告中明確說明評測環境與假設。

分享至：

作者：PA一线

本內容只為提供市場資訊，不構成投資建議。

關注PANews官方賬號，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram資訊頻道

推薦閱讀

PA一线

5 小時前

分析：比特幣淨實現盈虧連續五個月為負，4.8萬至5.6萬美元成核心支撐區間

PA一线

8 小時前

DATA（原Story）核心生態AI項目Poseidon聯手韓國國民級應用Toss，觸達3000萬用戶共建AI數據生態

PA一线

10 小時前

Gate 研究院：世界盃引爆預測市場，體育成為核心增長引擎

PA一线

11 小時前

以太坊Glamsterdam devnet-6已發布，測試網推進取得多項進展

PA一线

12 小時前

美CFTC就全額抵押事件合約數據報告規則徵求公眾意見

PA一线

2026/06/25 下午01:19

中國人民銀行將強化對虛擬貨幣洗錢和跨境洗錢活動的打擊

相關專題

直击华尔街，美股的投资新风向

AI、半导体、新能源等硬科技热潮席卷全球，华尔街正上演新一轮科技狂欢，资金加速涌入高景气赛道。

50篇文章

公鏈之王：以太坊

以太坊是一個開源的有智能合約功能的公共區塊鏈平台。通過其專用加密貨幣ETH提供去中心化的虛擬機（EVM）來處理點對點合約。

75篇文章

深入分析當前趨勢，提供全方位深度洞察。本專題將收集各賽道深度報告，供讀者閱讀。

157篇文章

熱搜:比特幣以太坊穩定幣預測市場川普 RWA USDT DeFi AI 聯準會主席

熱門文章

豆包AI正式收钱，月费68元起，真的比免费的好用吗？

長鑫存儲科創板IPO在即，SemiAnalysis萬字研報拆解技術路徑、財務數據與HBM困境

比特幣抄底指標Ahr999跌至0.287，處歷史極端抄底區間

高通投資者日：一顆CPU、一項記憶體技術、一個400億美元目標

独角兽挖掘机

渣打銀行再唱50倍狂想曲，為AAVE「畫餅」劍指3500美元

行業要聞

市場熱點

精選讀物

PANews APP

24小時追蹤區塊鏈行業資訊，行業深度文章解析。

下載 PANews App

App Store Google Play

前美國司法部高官為Kalshi提交法庭之友意見書，提出三大核心論點

PANews 快訊8 分鐘前