每小時數千萬個錯誤，調查揭露Google AI搜尋的“準確率幻覺”

作者：克洛德，深潮TechFlow

深潮導讀： 《紐約時報》聯合AI 新創公司Oumi 的最新測試顯示，Google 搜尋的AI 摘要功能（AI Overviews）準確率約為91%，但以Google 年處理5 兆次搜尋的體積換算，這意味著每小時產生數千萬條錯誤答案。更棘手的是，即便答案正確，超過一半的引用連結也無法支撐其結論。

Google 正在以前所未有的規模向用戶傳遞錯誤訊息，而大多數人毫不知情。

根據《紐約時報》報道，AI 新創公司Oumi 受其委託，使用OpenAI 開發的行業標準測試SimpleQA 對Google 的AI Overviews 功能進行了準確性評估。測試涵蓋4326 次搜尋查詢，分別在去年10 月（Gemini 2 駕駛）和今年2 月（升級至Gemini 3 後）各進行一輪。結果顯示，Gemini 2 的準確率約為85%，Gemini 3 提升至91%。

91%聽起來不錯，但放到Google 的體積上就是另一回事。 Google 每年處理約5 兆次搜尋查詢，以9%的錯誤率計算，AI Overviews 每小時產生超過5700 萬條不準確的答案，每分鐘接近100 萬條。

答案對了，來源卻是錯的

比準確率更令人不安的是引用來源的「脫錨」問題。

Oumi 的數據顯示，Gemini 2 時代，37%的正確回答存在「無根據引用」問題，即AI 摘要所附連結並不支持其給出的資訊。升級到Gemini 3 後，這比例不降反升，跳增至56%。換言之，模型在給予正確答案的同時，越來越不會「交作業」。

Oumi CEO Manos Koukoumidis 的質疑直指要害：「即便答案是對的，你怎麼知道它是對的？你怎麼去驗證？」

AI Overviews 大量引用低品質來源加劇了這個問題。 Oumi 發現，Facebook 和Reddit 分別是AI Overviews 第二和第四大引用來源。在不準確的回答中，Facebook 被引用的頻率達到7%，高於準確回答中的5%。

BBC 記者一篇假文章，24 小時內「投毒」成功

AI Overviews 的另一個嚴重缺陷是極易被操縱。

一位BBC 記者以一篇刻意編造的虛假文章進行測試，不到24 小時，Google 的AI 摘要便將其中的虛假資訊作為事實呈現給用戶。

這意味著任何了解系統運作機制的人，都可能透過發布虛假內容並推高其流量來「投毒」AI 搜尋結果。 Google 發言人Ned Adriance 對此的回應是，搜尋AI 功能建立在與封鎖垃圾資訊相同的排名和安全機制上，並稱測試中的「大多數例子都是人們實際上不會搜尋的不切實際的查詢」。

Google 反駁：測試本身就有問題

Google 對Oumi 的研究提出了多項質疑。 Google 發言人稱該研究「存在嚴重漏洞」，理由包括：SimpleQA 基準測試本身包含不準確資訊；Oumi 使用自家AI 模型HallOumi 來評判另一個AI 的表現，可能引入額外誤差；測試內容不反映用戶的真實搜尋行為。

Google 內部測試也顯示，Gemini 3 在脫離Google 搜尋框架獨立運作時，產生虛假輸出的比例高達28%。但Google 強調，AI Overviews 借助搜尋排名系統來提升準確性，表現優於模型本身。

不過，正如PCMag 評論所指出的邏輯悖論：如果你的辯護理由是“指出我們AI 不準確的報告本身也用了可能不準確的AI”，這恐怕並不能增強用戶對你產品準確性的信心。