PANews는 4월 11일에 OpenAI가 새로운 벤치마크 테스트인 BrowseComp를 오픈 소스로 공개하여 AI 에이전트가 인터넷에서 얻기 어려운 정보를 찾는 능력을 평가했다고 보도했습니다. 이 시험은 1,266개의 매우 어려운 문제로 구성되어 있으며, 복잡한 정보 네트워크에서 AI의 "온라인 보물찾기"를 시뮬레이션하도록 설계되었으며, 답을 찾기는 어렵지만 검증하기는 쉽다는 점을 강조합니다. 이 시험의 문제는 영화와 텔레비전, 기술, 역사 등 여러 분야를 포괄하며, SimpleQA 등 기존 시험보다 훨씬 어렵습니다.
AIGC 오픈 커뮤니티에 따르면, 이 테스트 벤치마크는 매우 어렵다고 합니다. OpenAI 자체의 GPT-4o와 GPT-4.5도 정확도가 각각 0.6%와 0.9%에 불과해 거의 0에 가깝습니다. GPT-4o를 브라우저 기능과 함께 사용해도 정확도는 1.9%에 불과합니다. 하지만 OpenAI의 최신 에이전트 모델인 Deep Research의 정확도는 51.5%입니다.
