PANewsは4月11日、OpenAIがインターネット上で入手困難な情報を見つけるAIエージェントの能力を評価するための新しいベンチマークテスト「BrowseComp」をオープンソース化したと報じた。このテストには極めて難しい問題が1,266問含まれており、複雑な情報ネットワークにおけるAIの「オンライン宝探し」をシミュレートするように設計されており、答えを見つけるのは難しいが検証は簡単であることを強調している。テストの問題は、映画やテレビ、テクノロジー、歴史など複数の分野をカバーしており、SimpleQA などの既存のテストよりも大幅に難易度が高くなっています。
AIGC オープン コミュニティによると、このテスト ベンチマークは非常に困難です。 OpenAI独自のGPT-4oとGPT-4.5ですら正解率はわずか0.6%と0.9%と、ほぼ0です。ブラウザ機能付きのGPT-4oを使っても、正解率はわずか1.9%です。しかし、OpenAI の最新のエージェント モデルである Deep Research の精度は 51.5% です。
