1時間あたり数千万件のエラー：調査により、GoogleのAI検索における「正確性の錯覚」が明らかになった。

ニューヨーク・タイムズとAIスタートアップOumiのテストによると、GoogleのAI Overviewsの精度は約91％だが、Googleの年間5兆回の検索を考慮すると、毎時間5700万以上の誤答が生成される。
正しい回答の半数以上が結論を支持しない引用リンクを持ち、FacebookやRedditなどの低品質な情報源を引用している。
システムは操作されやすく、BBC記者のテストでは虚偽情報が24時間以内にAIに事実として採用された。
Googleはテスト方法に欠陥があると反論し、ベンチマークテストと評価モデルを疑問視しているが、その弁護は論理的矛盾を含む。

著者：クロード、ディープタイドテックフロー

詳細分析：ニューヨーク・タイムズがAIスタートアップのOumiと共同で実施した最近のテストによると、Google検索のAI概要機能の精度は約91%であることが明らかになりました。しかし、Googleが年間5兆件の検索を処理していることを考えると、これは1時間あたり数千万件の誤った回答が発生していることを意味します。さらに問題なのは、回答が正しかった場合でも、引用されたリンクの半分以上がその結論を裏付けていないことです。

Googleは前例のない規模でユーザーに誤った情報を流しているが、ほとんどの人はそれに全く気づいていない。

ニューヨーク・タイムズ紙によると、AIスタートアップ企業のOumiは、OpenAIが開発した業界標準テストであるSimpleQAを用いて、GoogleのAI概要機能の精度を評価するよう依頼された。このテストは4,326件の検索クエリを対象とし、昨年10月（Gemini 2を使用）と今年2月（Gemini 3にアップグレード後）の2回実施された。その結果、Gemini 2の精度は約85%だったのに対し、Gemini 3では91%に向上したことが示された。

91%という数字は一見良さそうに聞こえるが、Googleの規模を考えると話は別だ。Googleは年間約5兆件の検索クエリを処理しており、AI Overviewsのエラー率が9%だとすると、1時間に5700万件以上、1分に約100万件もの不正確な回答が生成されることになる。

答えは正しいが、出典が間違っている。

正確さよりもさらに懸念されるのは、引用元が「確証」されているかどうかという問題である。

大見氏のデータによると、Gemini 2時代には、正解の37%に「根拠のない引用」という問題があった。これは、AIが提示した要約に添付されたリンクが、その情報を裏付けていなかったことを意味する。Gemini 3にアップグレード後、この割合は実際に増加し、56%に跳ね上がった。つまり、モデルは正解を出すようになったものの、「課題提出」の能力は徐々に低下しているということだ。

OumiのCEO、マノス・ククミディス氏の質問はまさに核心を突いている。「たとえ答えが正しかったとしても、それが正しいとどうやってわかるのか？どうやって検証するのか？」

AIの概要説明において、質の低い情報源に大きく依存していることが、この問題をさらに悪化させている。Oumiの調査によると、FacebookとRedditはそれぞれ2番目と4番目に多く引用された情報源だった。Facebookは、正確な回答の5%に対し、不正確な回答の7%で引用されていた。

BBCの記者が、偽の記事を使って24時間以内にBBCのウェブサイトを「汚染」することに成功した。

AI概要のもう一つの深刻な欠点は、操作に対して極めて脆弱であることだ。

BBCの記者が意図的に捏造した記事をテストしたところ、24時間以内にGoogleのAIによる要約機能が、その虚偽の情報を事実としてユーザーに提示した。

これは、システムの仕組みを理解している人であれば誰でも、偽のコンテンツを投稿してトラフィックを増やすことで、AI検索結果を「汚染」できる可能性があることを意味します。Googleの広報担当者であるネッド・アドリアンス氏は、検索AI機能はスパム対策に使用されているものと同じランキングおよびセキュリティメカニズムに基づいて構築されていると述べ、「テストで使用された例のほとんどは、人々が実際に検索することのない非現実的なクエリだった」と回答しました。

Googleはこれに対し、「テスト自体に欠陥があった」と反論した。

GoogleはOumiの研究に関していくつかの懸念を表明している。Googleの広報担当者は、この研究には「重大な欠陥がある」と述べ、その理由として、SimpleQAベンチマーク自体に不正確な情報が含まれていること、Oumiが独自のAIモデルであるHallOumiを使用して別のAIのパフォーマンスを評価しているため、追加のエラーが発生する可能性があること、テストコンテンツがユーザーの実際の検索行動を反映していないことなどを挙げている。

Googleの社内テストでは、Gemini 3がGoogle検索フレームワークとは独立して動作した場合、最大28%もの誤った出力を生成することが判明した。しかし、Googleは、検索ランキングシステムを活用して精度を向上させるAI Overviewsが、Gemini 3自体よりも優れた性能を発揮すると強調した。

しかし、PCMagのレビューが指摘しているように、論理的な矛盾が存在する。もし「当社のAIが不正確だと指摘しているレポート自体も、潜在的に不正確なAIを使用している」という弁明をするならば、おそらくユーザーの製品の精度に対する信頼を高めることにはつながらないだろう。