PANews 10月12日消息,据The Decoder报道,OpenAI推出了名为MLE-bench的新基准,旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛,重点评估当前机器学习开发的挑战性任务,并将AI结果与人类表现进行比较。初步测试中,o1-preview模型与AIDE框架结合表现最佳,在16.9%的竞赛中获得铜牌,超过了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数,o1-preview的成功率翻倍至34.1%。OpenAI认为,MLE-bench有助于评估核心ML工程技能,尽管它并未涵盖所有AI研究领域。
OpenAI推出名为MLE-bench的新基准,用于评估AI代理开发机器学习解决方案的能力
현재 언어 번역이 없어 원문을 표시합니다.
공유하기:
작성자: PA一线
이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.
PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
PANews 앱
24시간 블록체인 업계 소식을 추적하고 심층 기사를 분석합니다.

