OpenAI는 AI의 인터넷 검색 능력에 도전하는 고난이도 벤치마크인 BrowseComp를 출시했습니다.

PANews는 4월 11일에 OpenAI가 새로운 벤치마크 테스트인 BrowseComp를 오픈 소스로 공개하여 AI 에이전트가 인터넷에서 얻기 어려운 정보를 찾는 능력을 평가했다고 보도했습니다. 이 시험은 1,266개의 매우 어려운 문제로 구성되어 있으며, 복잡한 정보 네트워크에서 AI의 "온라인 보물찾기"를 시뮬레이션하도록 설계되었으며, 답을 찾기는 어렵지만 검증하기는 쉽다는 점을 강조합니다. 이 시험의 문제는 영화와 텔레비전, 기술, 역사 등 여러 분야를 포괄하며, SimpleQA 등 기존 시험보다 훨씬 어렵습니다.

AIGC 오픈 커뮤니티에 따르면, 이 테스트 벤치마크는 매우 어렵다고 합니다. OpenAI 자체의 GPT-4o와 GPT-4.5도 정확도가 각각 0.6%와 0.9%에 불과해 거의 0에 가깝습니다. GPT-4o를 브라우저 기능과 함께 사용해도 정확도는 1.9%에 불과합니다. 하지만 OpenAI의 최신 에이전트 모델인 Deep Research의 정확도는 51.5%입니다.

공유하기:

작성자: PA一线

이 내용은 시장 정보 제공만을 목적으로 하며, 투자 조언을 구성하지 않습니다.

PANews 공식 계정을 팔로우하고 함께 상승장과 하락장을 헤쳐나가세요
추천 읽기
1시간 전
2시간 전
12시간 전
13시간 전
13시간 전
15시간 전

인기 기사

업계 뉴스
시장 핫스팟
엄선된 읽을거리

엄선 특집

App内阅读