报道介绍谷歌研究院于2026年3月25日发布新压缩算法TurboQuant,宣称可大幅降低大模型KV Cache内存并提升推理速度。3月27日晚,苏黎世联邦理工学院博士后、高健扬(RaBitQ算法第一作者)公开质疑论文存在严重问题,称TurboQuant在描述RaBitQ时存在误导:未承认关键方法相似性(JL变换/随机旋转)、无证据将RaBitQ理论称为“次优”、并在不公平的实验设置下对比(对RaBitQ用单核CPU、对TurboQuant用A100 GPU)。高健扬还指出RaBitQ已证明渐近最优性(FOCS'17界限),并称在投稿前已向作者提出这些问题但未被采纳,他已提交正式投诉;该论文已被ICLR2026接收并被谷歌大力推广。
3 月 28 日消息,谷歌研究院 3 月 25 日推出全新极端压缩算法 TurboQuant,有望重塑 AI 运行效率并解决大模型键值缓存(KV Cache)的内存瓶颈,据称可以使 AI 内存占用锐降至 1/6、推理狂飙 8 倍。
然而,3 月 27 日晚上 10 点,苏黎世联邦理工学院博士后、RaBitQ 算法的第一作者高健扬公开表示:“TurboQuant 论文在描述 RaBitQ 时存在严重问题,包括不正确的技术声明和误导性的理论、实验对比 —— 而这些问题在投稿前就已向作者指出,对方承认了,但选择不修正。”

IT之家注意到,他还表示,TurboQuant 在三个方面误传了 RaBitQ:
- 避免承认关键方法论上的相似性 (JL 变换)
- 在没有任何证据的情况下称我们的理论为“次优”
- 在不公平的实验设置下报告结果
高健扬指出,团队在作者提交论文之前就向其表达了担忧,但他们选择不在提交的论文中修正这些问题。该论文已被 ICLR2026 接收,并受到了谷歌的大力推广(浏览量达数千万次)。在这样的传播规模下,未经修正的言论很快就会变成所谓的“共识”。
他进一步指出未披露事项:
- RaBitQ 已经证明了渐近最优性 (FOCS'17 界限)
- TurboQuant 使用了相同的随机旋转步骤,但未说明其中的联系
- 他们的实验在 RaBitQ 上使用的是单核 CPU,而在 TurboQuant 上使用的是 A100 GPU。
最后,高健扬表示已提交正式投诉。
