OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力 | PANews

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

現在の言語の翻訳がありません。原文を表示しています。

PANews 10月12日消息，据The Decoder报道，OpenAI推出了名为MLE-bench的新基准，旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛，重点评估当前机器学习开发的挑战性任务，并将AI结果与人类表现进行比较。初步测试中，o1-preview模型与AIDE框架结合表现最佳，在16.9%的竞赛中获得铜牌，超过了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数，o1-preview的成功率翻倍至34.1%。OpenAI认为，MLE-bench有助于评估核心ML工程技能，尽管它并未涵盖所有AI研究领域。

原文リンク

共有先：

著者：PA一线

この内容は市場情報の提供のみを目的としており、投資助言を構成しません。

PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう

PANews WeChatグループ

Telegram交流グループ

Telegram情報チャンネル

おすすめ記事

PA一线

7 時間前

イスラエル軍は、イラン中部および西部に対して約400回の空爆を実施したと主張している。

PA一线

7 時間前

過去24時間で、ネットワーク全体で合計1億3900万ドル相当の契約清算が発生し、そのほとんどはロングポジションに関するものでした。

PA一线

8 時間前

Aster：API V3が稼働を開始しました。V1のレイテンシは徐々に増加します。

PA一线

8 時間前

マイケル・セイラーがデジタルクレジットのシンプルな理論を解説

PA一线

9 時間前

トランプ氏：多くの国が米国に加わり、ホルムズ海峡の航行を確保するため軍艦を派遣するだろう。

PA一线

9 時間前

LINKトークンの大口保有者が、1年間の休眠期間を経て、再び20万個のLINKトークンを売却した疑いがあり、もし売却されれば173万ドルの利益が得られるとみられている。

人気検索:ビットコインイーサリアムステーブルコイン予測市場トランプバイナンス OKX USDT DeFi AI 連邦準備制度理事会議長

人気記事

トランプ氏：多くの国が米国に加わり、ホルムズ海峡の航行を確保するため軍艦を派遣するだろう。

週間ハイライト｜「ロブスター」ブームに別れを告げ、仮想通貨の本質に立ち返ろう：Hyperliquidが今週最も注目のプロジェクト

1.26万亿美元之后：为何Circle和Stripe抢着给AI代理发“工资”？

FATF、ステーブルコインと非管理型ウォレットに関する特別報告書を発表：リスク、脅威、対策の分析

ビットコイン現物ETFには昨日、1億8000万ドルの純流入があり、5日連続の純流入となった。

業界ニュース

市場ホットスポット

厳選読み物

購読をクリック

PANewsアプリ

24時間ブロックチェーン業界情報を追跡し、深掘り記事を解析。

PANewsアプリをダウンロード

App Store Google Play