体育主播暂时不用担心失业了：研究称 AI 模型分析球赛“几乎靠猜”

6月6日报道，北卡教堂山分校与美国东北大学研究者提出 SVI-bench 新基准，用约35000小时比赛画面、1500万条回合标注、10.3万条统计记录等大规模数据评估主流 AI（如 ChatGPT、谷歌 Gemini、千问）在感知、因果推理、模拟和自主分析四项能力的表现。结果显示：感知任务平均识别率约74%，因果推理约40%，复杂自主分析仅5%，模拟预测接近随机；研究尚未经过同行评审。研究者结论是，AI 在描述画面方面有一定能力，但在解释原因、预判后续动作和做出有价值分析上存在显著不足。

6 月 6 日消息，据外媒 Futurism 今天（6 日）晚间报道，北卡罗来纳大学教堂山分校和美国东北大学研究人员的一项新研究发现，主流 AI 模型在分析职业体育比赛时表现很差。这项研究目标是考察热门 AI 模型在感知、推理、模拟和自主行动能力四个方面的表现，现有测试方法很难准确评估这些能力。不过需要注意的是，其尚未经过同行评审。

为测试 AI 在这些方面究竟能做到何种程度，研究人员把职业体育比赛做成了一套新基准。新测试名为“战略视频智能”，简称 SVI-bench，数据包括 35000 小时篮球、足球和冰球比赛画面、1500 万条带标注的比赛回合、15000 小时职业分析、23000 份赛后报道，以及 10.3 万条统计记录。

AI 表现相对最好的是“看懂画面”这一步，也就是判断比赛某个时刻由哪名球员做了什么动作。但即便是最基础的感知任务，AI 也谈不上可靠。ChatGPT、谷歌 Gemini 和千问等模型的平均识别准确率大约为 74%。报道指出，放在体育解说场景里，这个水平恐怕连少年棒球赛的义务解说员都保不住位置。

到了因果推理环节，模型表现进一步下滑。研究人员要求 AI 解释一组战术或一个回合为什么会以某种方式发生，平均成功率只有约 40%。

例如，研究人员让模型判断 NBA 太阳队球员科迪 · 马丁一记三分球的异常之处。此次进球他先打到篮板顶部，随后才落入篮筐，但 ChatGPT 给出的答案是，这是“他本场比赛命中的第一个三分球”。

模拟能力同样糟糕。研究人员要求 AI 根据球员运动轨迹寻找证据，并预测球员接下来会移动到哪里。结果显示，即便表现最好的模型，在判断球员下一步动作时也接近随机猜测，一旦预测范围延长到朝球门或篮筐移动的更长路线，模型表现还会继续变差。

IT之家从报道中获悉，美国东北大学计算机科学研究人员、研究共同作者洛伦佐 · 托雷萨尼在大学新闻稿中表示，AI“无法告诉你事情为什么会发生，也无法告诉你接下来会发生什么”。

研究人员还测试了模型的自主分析能力，相当于要求 AI 像人类体育主播一样，结合赛后数据和趋势作出复杂判断。结果显示，模型在这一项上的准确率只有 5%。

托雷萨尼表示，一名优秀体育解说员做的不只是描述画面。他们会解释一套战术为什么有效，预判接下来会发生什么，还会判断哪些瞬间真正重要。但研究显示，AI 已经相当擅长描述画面，但在其他能力上全面失守。

托雷萨尼总结称：“同样的能力差距会出现在任何一类工作中。真正的价值并不在于描述眼前可见的东西，而在于理解事件为什么这样发展、预判接下来会发生什么、判断什么重要，并提出下一步应该怎么做。”