OpenAI推出名為MLE-bench的新基準，用於評估AI代理開發機器學習解決方案的能力 | PANews

OpenAI推出名為MLE-bench的新基準，用於評估AI代理開發機器學習解決方案的能力

PANews 10月12日消息，根據The Decoder報道，OpenAI推出了名為MLE-bench的新基準，旨在評估AI代理在機器學習解決方案開發中的表現。該基準涵蓋75項Kaggle競賽，重點在於評估目前機器學習開發的挑戰性任務，並將AI結果與人類表現進行比較。在初步測試中，o1-preview模型與AIDE框架結合表現最佳，在16.9%的競賽中獲得銅牌，超過了Anthropic的Claude 3.5 Sonnet。透過增加嘗試次數，o1-preview的成功率翻倍至34.1%。 OpenAI認為，MLE-bench有助於評估核心ML工程技能，儘管它並未涵蓋所有AI研究領域。

分享至：

作者：PA一线

本內容只為提供市場資訊，不構成投資建議。

關注PANews官方賬號，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram資訊頻道

推薦閱讀

PA一线

4 小時前

以軍稱已對伊朗中西部地區實施約400輪空襲

PA一线

4 小時前

過去24小時全網合約爆倉1.39億美元，主爆多單

PA一线

5 小時前

Aster：API V3已上線，V1的延遲將逐步增加

PA一线

5 小時前

Michael Saylor闡述數位信貸簡單理論

PA一线

6 小時前

川普：許多國家將與美國一同派遣軍艦，保證霍爾木茲海峽通航

PA一线

6 小時前

某LINK巨鯨休眠一年後疑再次拋售20萬枚LINK，若賣出將獲利173萬美元

熱搜:比特幣以太坊穩定幣預測市場川普幣安 OKX USDT DeFi AI 聯準會主席

熱門文章

川普：許多國家將與美國一同派遣軍艦，保證霍爾木茲海峽通航

FATF發布《穩定幣與非託管錢包專案報告》：風險威脅與因應策略解讀

一週精選丨告別「龍蝦」狂歡，回歸加密本源，Hyperliquid是本週最熱項目

甲骨文2026年財報解析：AI算力時代，一家資料庫公司的策略轉型

PA日報｜Backpack將於3月23日進行TGE；加密會計平台Cryptio完成4,500萬美元B輪融資

行業要聞

市場熱點

精選讀物

PANews APP

24小時追蹤區塊鏈行業資訊，行業深度文章解析。

下載 PANews App

App Store Google Play