OpenAIは、AIのインターネット検索能力に挑戦する高難易度ベンチマーク「BrowseComp」を発表した。

PANewsは4月11日、OpenAIがインターネット上で入手困難な情報を見つけるAIエージェントの能力を評価するための新しいベンチマークテスト「BrowseComp」をオープンソース化したと報じた。このテストには極めて難しい問題が1,266問含まれており、複雑な情報ネットワークにおけるAIの「オンライン宝探し」をシミュレートするように設計されており、答えを見つけるのは難しいが検証は簡単であることを強調している。テストの問題は、映画やテレビ、テクノロジー、歴史など複数の分野をカバーしており、SimpleQA などの既存のテストよりも大幅に難易度が高くなっています。

AIGC オープン コミュニティによると、このテスト ベンチマークは非常に困難です。 OpenAI独自のGPT-4oとGPT-4.5ですら正解率はわずか0.6%と0.9%と、ほぼ0です。ブラウザ機能付きのGPT-4oを使っても、正解率はわずか1.9%です。しかし、OpenAI の最新のエージェント モデルである Deep Research の精度は 51.5% です。

共有先:

著者:PA一线

この内容は市場情報の提供のみを目的としており、投資助言を構成しません。

PANews公式アカウントをフォローして、一緒に強気相場と弱気相場を乗り越えましょう
おすすめ記事
1時間前
2時間前
12時間前
13時間前
13時間前
15時間前

人気記事

業界ニュース
市場ホットスポット
厳選読み物

厳選特集

App内阅读