报告称谷歌搜索 AI 概览准确率约 90%，易被虚假信息操纵

《纽约时报》报道称谷歌搜索的 AI 概览准确率约为 90%，但按庞大搜索量计算仍可能产生大量错误答案。AI 初创公司 Oumi 用 SimpleQA 基准评估 4326 次搜索，发现 Gemini 2 在去年 10 月准确率约 85%，到今年 2 月 Gemini 3 提升至 91%；同时与来源不符的比例从 37% 升至 56%。研究指出 AI 概览易被操纵（记者发布虚假博客后被采纳）且有时自相矛盾（如对胡克·霍根死亡的回应与页面标题不一致）。谷歌则质疑 Oumi 的测试方法和代表性。

4 月 8 日消息，《纽约时报》昨日（4 月 7 日）发布博文，报道称谷歌 AI 概览（AI Overviews）的准确率约为 90%，但基于每年超 5 万亿次的搜索量，这意味着每小时可能产生超过 5700 万条错误答案，相当于每分钟近 100 万条。

AI 初创公司 Oumi 使用 SimpleQA 基准评估谷歌搜索，在分析 4326 次搜索后，发现 Gemini 2 在 10 月的准确率为 85%，**至今年 2 月，Gemini 3 将这一数据提升至 91%。**然而，Oumi 的评估依赖 AI 工具，可能存在误差，且谷歌对同一查询有时会生成不同概览。

例如搜索IT之家，跳出的 AI 概览介绍

此外数据显示，AI 概览与来源不符的比例已从 Gemini 2 时期的 37% 升至 Gemini 3 的 56%。具体表现包括：错误概览后紧接着正确链接，或准确概览引用了错误信息。研究人员还发现 AI 概览易被操纵，有记者发布虚假博客后，谷歌次日便在概览中引用了相关内容。

用户斯蒂芬 · 潘瓦西在查询摔跤手胡克 · 霍根（Hulk Hogan）的死讯时，AI Overviews 明确回复“没有可信报告显示霍根已去世”，但页面下方展示的文章标题却写着“霍根之死谜团加深”。这种自相矛盾的现象引发了用户对 AI 生成内容可靠性的质疑。

谷歌发言人质疑 Oumi 的测试方法，认为其未能反映真实搜索行为。