OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力 | PANews

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

현재 언어 번역이 없어 원문을 표시합니다.

PANews 10月12日消息，据The Decoder报道，OpenAI推出了名为MLE-bench的新基准，旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛，重点评估当前机器学习开发的挑战性任务，并将AI结果与人类表现进行比较。初步测试中，o1-preview模型与AIDE框架结合表现最佳，在16.9%的竞赛中获得铜牌，超过了Anthropic的Claude 3.5 Sonnet。通过增加尝试次数，o1-preview的成功率翻倍至34.1%。OpenAI认为，MLE-bench有助于评估核心ML工程技能，尽管它并未涵盖所有AI研究领域。

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요

PANews WeChat 그룹

Telegram 커뮤니티 그룹

Telegram 정보 채널

추천 읽기

PA一线

4시간 전

이스라엘군은 이란 중부와 서부에 대해 약 400회의 공습을 감행했다고 주장합니다.

PA一线

4시간 전

지난 24시간 동안 전체 네트워크에서 총 1억 3,900만 달러 규모의 계약 청산이 발생했으며, 주로 롱 포지션과 관련된 거래였습니다.

PA一线

5시간 전

Aster: API V3이 출시되었습니다. V1의 지연 시간은 점차 증가할 것입니다.

PA一线

5시간 전

마이클 세일러가 디지털 신용에 대한 간단한 이론을 설명합니다.

PA一线

6시간 전

트럼프: 많은 국가들이 미국과 함께 호르무즈 해협의 항행 안전을 확보하기 위해 군함을 파견할 것입니다.

PA一线

6시간 전

1년간 잠잠했던 LINK 고래 투자자가 20만 개의 LINK 토큰을 다시 매도할 것으로 추정되며, 매도 시 173만 달러의 수익을 올릴 것으로 예상됩니다.

인기 검색:비트코인 이더리움 스테이블코인 예측 시장 지우다 바이낸스 OKX USDT DeFi AI 연방준비제도 이사회 의장

인기 기사

트럼프: 많은 국가들이 미국과 함께 호르무즈 해협의 항행 안전을 확보하기 위해 군함을 파견할 것입니다.

FATF, 스테이블코인 및 비수탁형 지갑 관련 특별 보고서 발표: 위험, 위협 및 대응책 분석

주간 하이라이트 | "랍스터" 열풍에 작별을 고하고 암호화폐의 본질로 돌아가세요: 이번 주 가장 핫한 프로젝트는 Hyperliquid입니다

오라클 2026 재무 보고서 분석: AI 컴퓨팅 시대에 데이터베이스 기업의 전략적 변화

PA 데일리 뉴스 | Backpack, 3월 23일 TGE 개최 예정; 암호화폐 회계 플랫폼 Cryptio, 4,500만 달러 규모 시리즈 B 투자 유치 완료.

업계 뉴스

시장 핫스팟

엄선된 읽을거리

PANews 앱

24시간 블록체인 업계 소식을 추적하고 심층 기사를 분석합니다.

PANews 앱 다운로드

App Store Google Play