시간당 수천만 건의 오류 발생: 구글 AI 검색의 "정확도 착각"을 밝혀내는 조사 결과.

뉴욕 타임즈와 AI 스타트업 Oumi의 테스트에 따르면, Google의 AI Overviews 정확도는 약 91%이지만, Google의 연간 5조 회 검색을 고려할 때 시간당 5700만 건 이상의 오답이 생성된다.
정답의 절반 이상이 결론을 지지하지 않는 인용 링크 문제를 가지고 있으며, Facebook과 Reddit과 같은 저품질 출처를 인용한다.
시스템은 조작하기 쉬우며, BBC 기자의 테스트에서 가짜 정보가 24시간 이내에 AI에 사실로 채택되었다.
Google은 테스트 방법에 결함이 있다고 반박하며, 벤치마크 테스트와 평가 모델을 의심하지만, 이 방어는 논리적 역설을 포함한다。

저자: 클로드, 딥 타이드 테크플로우

심층 분석: 뉴욕 타임스가 AI 스타트업 오우미(Oumi)와 공동으로 실시한 최근 테스트에 따르면 구글 검색의 AI 개요 기능의 정확도는 약 91%에 달합니다. 하지만 구글이 연간 5조 건의 검색을 처리한다는 점을 고려하면, 이는 시간당 수천만 건의 오답이 발생한다는 것을 의미합니다. 더욱 심각한 문제는 정답을 제시한 경우에도, 인용된 링크의 절반 이상이 해당 결론을 뒷받침하지 못한다는 점입니다.

구글은 전례 없는 규모로 사용자들에게 허위 정보를 제공하고 있지만, 대부분의 사람들은 이를 전혀 인지하지 못하고 있습니다.

뉴욕 타임스에 따르면, AI 스타트업 오우미(Oumi)는 오픈AI가 개발한 업계 표준 테스트인 심플QA(SimpleQA)를 사용하여 구글의 AI 개요(AI Overviews) 기능의 정확도를 평가하는 작업을 의뢰받았습니다. 이 테스트는 총 4,326개의 검색어를 대상으로 작년 10월(제미니 2 버전 사용)과 올해 2월(제미니 3 버전으로 업그레이드 후) 두 차례에 걸쳐 진행되었습니다. 그 결과, 제미니 2 버전은 약 85%의 정확도를 보인 반면, 제미니 3 버전은 91%로 향상되었습니다.

91%라는 수치는 좋아 보이지만, 구글의 규모를 고려하면 이야기가 달라집니다. 구글은 매년 약 5조 건의 검색 쿼리를 처리하는데, 9%의 오류율을 감안하면 AI Overviews는 시간당 5,700만 건 이상의 부정확한 답변을 생성하며, 이는 분당 거의 100만 건에 달합니다.

답은 맞지만 출처가 잘못되었습니다.

정확성보다 더 우려스러운 것은 인용된 출처의 "고정" 문제입니다.

Oumi의 데이터에 따르면 Gemini 2 시대에는 정답의 37%가 "근거 없는 인용" 문제를 보였습니다. 즉, AI가 제시한 요약에 첨부된 링크가 제공된 정보를 뒷받침하지 못했다는 뜻입니다. Gemini 3으로 업그레이드한 후에는 이 비율이 56%로 오히려 증가했습니다. 다시 말해, 모델이 정답을 제공하기는 하지만 "과제 제출" 능력은 점점 떨어지고 있는 것입니다.

Oumi의 CEO인 마노스 쿠쿠미디스의 질문은 핵심을 정확히 짚고 있습니다. "설령 답이 맞다고 해도, 어떻게 그 답이 맞는지 알 수 있습니까? 어떻게 검증할 수 있습니까?"

AI 개요에서 저품질 출처에 지나치게 의존하는 것이 문제를 더욱 악화시킨다. Oumi의 조사에 따르면 페이스북과 레딧이 각각 두 번째와 네 번째로 많이 인용된 출처였다. 페이스북은 부정확한 답변의 7%를 차지하는 반면, 정확한 답변은 5%만 인용되었다.

BBC 기자가 가짜 기사를 이용해 24시간 만에 BBC 웹사이트를 성공적으로 "오염"시켰습니다.

AI Overviews의 또 다른 심각한 결함은 조작에 매우 취약하다는 점입니다.

BBC 기자가 의도적으로 조작된 기사를 테스트한 결과, 24시간 만에 구글의 AI 요약 기능이 해당 허위 정보를 사실인 것처럼 사용자에게 제시했습니다.

이는 시스템 작동 방식을 아는 사람이라면 누구나 가짜 콘텐츠를 게시하고 트래픽을 늘려 AI 검색 결과를 "오염"시킬 수 있다는 것을 의미합니다. 구글 대변인 네드 아드리안스는 검색 AI 기능이 스팸 차단에 사용되는 것과 동일한 순위 및 보안 메커니즘을 기반으로 구축되었으며, "테스트에 사용된 예시 대부분은 사람들이 실제로 검색하지 않을 비현실적인 검색어였다"고 밝혔습니다.

구글은 이에 대해 "테스트 자체에 결함이 있었다"고 반박했습니다.

구글은 오우미의 연구에 대해 여러 가지 우려를 제기했습니다. 구글 대변인은 해당 연구에 "심각한 결함이 있다"고 밝히며, 그 이유로는 SimpleQA 벤치마크 자체에 부정확한 정보가 포함되어 있다는 점, 오우미가 자체 AI 모델인 HallOumi를 사용하여 다른 AI의 성능을 평가함으로써 추가적인 오류를 유발할 가능성이 있다는 점, 그리고 테스트 콘텐츠가 사용자의 실제 검색 행동을 반영하지 않는다는 점 등을 들었습니다.

구글의 자체 테스트 결과, 제미니 3는 구글 검색 프레임워크와 별도로 실행될 경우 최대 28%의 오탐률을 보였습니다. 하지만 구글은 검색 순위 시스템을 활용하여 정확도를 높이는 AI Overviews 기능이 제미니 3 모델 자체보다 우수한 성능을 보인다고 강조했습니다.

하지만 PCMag의 리뷰에서 지적했듯이 논리적 역설이 존재합니다. "우리 AI가 부정확하다고 지적한 보고서 역시 잠재적으로 부정확한 AI를 사용하고 있다"는 식으로 대응한다면, 오히려 사용자들이 제품의 정확성에 대한 신뢰를 높이기는 어려울 것입니다.