OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力 | PANews

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

PANews 10月12日消息，据The Decoder报道，OpenAI推出了名为MLE-bench的新基准，旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛，重点评估当前机器学习开发的挑战性任务，并将AI结果与人类表现进行比较。初步测试中，o1-preview模型与AIDE框架结合表现最佳，在16.9%的竞赛中获得铜牌，超过了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数，o1-preview的成功率翻倍至34.1%。OpenAI认为，MLE-bench有助于评估核心ML工程技能，尽管它并未涵盖所有AI研究领域。

分享至：

作者：PA一线

本内容只为提供市场信息，不构成投资建议。

关注PANews官方账号，一起穿越牛熊

PANews微信群

Telegram交流群

Telegram资讯频道

推荐阅读

PA一线

4小时前

以军称已对伊朗中西部地区实施约400轮空袭

PA一线

4小时前

过去24小时全网合约爆仓1.39亿美元，主爆多单

PA一线

5小时前

Aster：API V3已上线，V1的延迟将逐步增加

PA一线

5小时前

Michael Saylor阐述数字信贷简单理论

PA一线

6小时前

特朗普：许多国家将与美国一同派遣军舰，保证霍尔木兹海峡通航

PA一线

6小时前

某LINK巨鲸休眠一年后疑再次抛售20万枚LINK，若卖出将获利173万美元

热搜:比特币以太坊稳定币预测市场特朗普币安 OKX USDT DeFi AI 美联储主席

热门文章

特朗普：许多国家将与美国一同派遣军舰，保证霍尔木兹海峡通航

FATF发布《稳定币与非托管钱包专项报告》：风险威胁与应对策略解读

一周精选丨告别“龙虾”狂欢，回归加密本源，Hyperliquid是本周最热项目

甲骨文2026年财报解析：AI算力时代，一家数据库公司的战略转型

PA日报｜Backpack将于3月23日进行TGE；加密会计平台Cryptio完成4500万美元B轮融资

行业要闻

市场热点

精选读物

PANews APP

24小时追踪区块链行业资讯，行业深度文章解析。

下载 PANews App

App Store Google Play