OpenAI推出名為MLE-bench的新基準,用於評估AI代理開發機器學習解決方案的能力

PANews 10月12日消息,根據The Decoder報道,OpenAI推出了名為MLE-bench的新基準,旨在評估AI代理在機器學習解決方案開發中的表現。該基準涵蓋75項Kaggle競賽,重點在於評估目前機器學習開發的挑戰性任務,並將AI結果與人類表現進行比較。在初步測試中,o1-preview模型與AIDE框架結合表現最佳,在16.9%的競賽中獲得銅牌,超過了Anthropic的Claude 3.5 Sonnet。透過增加嘗試次數,o1-preview的成功率翻倍至34.1%。 OpenAI認為,MLE-bench有助於評估核心ML工程技能,儘管它並未涵蓋所有AI研究領域。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
2024-10-12 09:04
2024-10-12 08:38
2024-10-12 08:00
2024-10-12 07:34
2024-10-12 06:34
2024-10-12 06:29

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读