跳至主要内容
体育领域的人工智能, 广播公司与互联电视, 联盟与版权持有者, 职业俱乐部与学院

生成式人工智能在体育领域的应用:第二季度最新情况,第一部分

作者:Patrick Lucey帕特里克-卢西

我们再次推出 体育领域人工智能最新趋势 系列、 由我们的首席科学家 Patrick Lucey 撰写。在第一部分中,他探讨了通过计算机视觉和生成式人工智能的结合,从球员跟踪数据中获得的改变游戏规则的最新见解。


人工智能领域的创新步伐丝毫没有减弱的迹象--先是OpenAI 发布了 GPT-4o,然后是本周谷歌的年度 I/O 大会。从体育的角度来看,有两件事让我眼前一亮:

  1. OpenAI 的首席技术官提到,GPT-4o 的下一步可能是"观看 "现场体育比赛并 "向你解释规则",以及
  2. 谷歌人工智能搜索--特别是 "可视化搜索"--能带来什么?

这引起了我的思考--"观看和搜索像足球这样的体育比赛意味着什么? 在观看足球比赛时,是否只需突出球场上的球队,然后在维基百科上查找规则并提供摘要就足够了?这对于孩子或没有看过足球比赛的人来说可能已经足够了。

但对于世界各地的大多数球迷来说,他们真正参与到这项运动中,并希望获得更多细化的信息。这些问题包括:球员是否传出了正确的球;防守队员是否处于正确的位置;球队是否疲劳;球队在执行这一特定战术时的成功率有多高?

人工智能代理的承诺不仅仅是像新手一样观看比赛,而是像专家一样观看比赛。但是,要像专家一样理解比赛,人工智能系统需要接受特定体育语言的训练,而体育语言是基于我们每天收集的数据(包括赛事数据和跟踪数据)。

跟踪数据(即球员动作的可视化 "x's 和 o's"),尤其是与事件数据(即发生的事件以及与谁发生的事件)相结合时,能让人工智能系统像专家一样 "观看 "体育比赛并详细分析比赛,从而为教练和球迷提供有价值的具体见解。它还能让我们对实时体育赛事进行可视化搜索,开辟进一步的分析和预测应用。

在下一篇文章中,我们将深入探讨如何做到这一点,但首先有必要了解这一关键输入--大规模玩家跟踪数据--实际上是如何收集的。在本文中,我们将深入探讨这一主题。

在详细介绍之前,让我们先来了解一下计算机视觉跟踪数据的过去、现在和未来,以及如何应用它来帮助团队和运动员达到最高的表现水平。

利用计算机视觉(CV)追踪球员(和球)--初步简史

一个鲜为人知的事实是,将计算机视觉(CV)系统集成到体育运动中是最早成功的商业部署之一。 任何领域中最早成功的商业部署之一。这足以证明,体育迷和教练对比赛的了解程度有多高!

CV 追踪技术在体育运动中的应用可追溯到 1996 年,最初是在国家冰球联盟的比赛中使用红外线追踪系统实时追踪冰球,也就是所谓的 "荧光球"(大约在同一时间,棒球转播中也出现了虚拟广告)。1997 年,美式橄榄球比赛中的 "黄色 "第一线和第十线随即推出,随后在 2000 年悉尼奥运会上,游泳和短跑等奥林匹克运动项目也推出了"世界纪录线"2000 年,Hawk-Eye 公司首次开发出球跟踪技术,并在 2001 年的板球比赛转播中使用。

英格兰足球超级联赛使用的第一个球员追踪系统可追溯到 1998 年。该系统利用多摄像头从各个角度捕捉比赛视频,然后依靠人工标注球员的位置。

十年后,用于跟踪球员的全自动摄像 CV 系统开始部署。不久之后,又出现了为低级体育比赛自动生成转播的系统。你可能会在网上欣赏到的许多体育赛事集锦剪辑也在十多年前就已经实现了自动化,但这些方法往往不使用球员追踪数据--它们大多混合使用了人工收集的赛事数据、音频(即嘈杂的人群噪音)以及基于 CV 的场景检测变化(例如,放大球员,然后是人群,然后是教练,然后再次特写球员,然后返回主摄像机视图)。

GPS 和 RFID 等可穿戴设备也出现在 2000 年代初。许多球迷可能会认为这些是实况足球中追踪数据的主要来源。事实上,CV 因其不显眼和可扩展性,仍然是在精英足球比赛中收集球员跟踪数据的首选方法。

计算机视觉(CV)系统如何工作?

首先,让我们来定义计算机视觉(CV)及其在人工智能中的地位。

CV 是一门使计算机能够理解数字图像和/或视频的科学。因此,当我们提到 CV 系统时,基本上就是在讨论人工智能系统。

要使用 CV 系统收集精英体育赛事(如足球比赛)的跟踪数据,传统上首先要使用高清视频捕捉系统。

该系统由战略性地安装在场馆周围的摄像机组成,主要作为 "眼睛 "捕捉场上的动作。

这些高清摄像机可以从单一视角安装(以尽量减少硬件占用空间并便于安装/拆卸),也可以分布在球场周围的不同位置。

一旦我们安装好视频捕捉系统,这些 "眼睛 "就会将视觉数据传输到计算机,然后将原始视觉信息转换成计算机可以理解的格式。这种格式可以是二维的 "点",也可以是三维的 "骨架"。

这种转变所涉及的步骤包括

  • 球员和球的检测:这包括识别每幅图像中球员和球的位置。对于球员检测,根据所需的测量粒度和输入图像的像素密度,可以通过检测图像中球员周围的边界框或检测每个球员的骨架或轮廓来实现。对于球的检测,通常使用边界框。
  • 球队和球员身份: 在检测阶段之后,下一步是识别每个球员所属的球队(通常基于其球衣的颜色)和球员的身份(通常通过识别球员的球衣号码来确定)。当球员被遮挡(即不可见)一段时间后,这项任务通常被称为 "重新识别"。
  • 摄像机校准: 这一步骤包括检测球场上的线和角,然后将球员和球的位置映射到真实世界的坐标上。
  • 跟踪:最后,将检测结果与比赛过程中的单一身份相关联。这可以在图像平面(即我们看到的像素)和球场平面(即球场的俯视图)上完成。体育运动中通常采用 "检测跟踪 "的方法,但经常会出现漏检或误检的情况,因此需要使用跟踪器。由于场上有许多球员,我们称之为 "多目标跟踪"。

深度学习方法通常用于上述每个步骤。例如,卷积神经网络(CNN)通常用于检测球员/球,同时也是球队和球员识别的输入表征。分割模型通常与用于校准的线/角检测器结合使用。 要训练这些模型,需要大量原始图像的训练示例,这些示例包括相关的边界框(或骨架)、球队标识和球员标识,以及边/角位置。在某些情况下,还需要通过光学字符识别(OCR)自动理解记分牌。所有这些步骤的示例如下。

稍后,我们将介绍这些深度学习方法与 GenAI 方法的使用趋势之间的关系,但从高层次来看,您可以将这一过程视为创建体育的视觉语言(即 "X "和 "O")--这本身就适合下游语言建模。

为什么 CV 系统使用 "点 "或 "骷髅 "来检测和跟踪玩家?

将 CV 系统概念化为传感或测量工具很有帮助。测量所需的精度--无论是毫米还是厘米--决定了所需的跟踪输出类型。可分为以下几类

  1. 精细测量(毫米精度):这包括裁判任务(例如,足球比赛中的半自动越位检测棒球比赛中的投手分析篮球比赛中的裁判)和转播图形(例如,细分逼真的运动员头像生成增强型转播)。
  2. 粗粒度测量(精确到厘米):这涉及球员在比赛中的体能测量(例如,他们跑了多远、做了多少次高强度冲刺)以及战术测量(例如,球队采用哪种阵型、球员传球的成功率有多高、在篮球比赛中球队是否使用了挑球过人)。

对于半自动越位检测和逼真化身等细粒度测量,骨骼跟踪是必要的,因为它能为这些使用案例提供详细的 3D 信息。

另一方面,边界框检测足以进行粗粒度测量,从而估算出玩家的 "质量中心",形成二维 "点"。下面的示例显示了质量中心跟踪(上图)和身体姿态跟踪(下图)之间的区别,该示例摘自我们撰写的相关论文

如何将原始视觉信息分为有用数据和无用数据?

从历史上看,当我们考虑跟踪数据时,一直是利用代表球员在球场上移动的二维点。人们通常认为这种跟踪数据是 "大 "数据。然而,事实恰恰相反--跟踪系统是一种压缩工具,它只从原始视频像素中提取基本信息,如球员和球的位置和运动,而舍弃无关的细节,如草地、人群和广告。

这种压缩比可高达 1,000,000:1。因此,体育追踪数据可以比作终极视频压缩算法或体育专用编解码器,可用于各种下游应用。

根据这些测量结果,跟踪数据还可用于许多其他方面,如果能将跟踪数据与事件数据相结合,不仅能显示玩家的位置,还能显示他们在做什么,那么这些数据的实用性就会成倍增加。这包括交互式搜索、模拟、策略分析和混合现实应用。虽然未来的文章将深入探讨这些应用,但我们在此关注的重点是底层计算机视觉技术。

既然计算机视觉跟踪技术已经存在了这么久,为什么还没有被广泛应用呢?

一些顶级体育联盟采用场内计算机视觉跟踪硬件和系统,利用安装在场馆周围的多个专业固定摄像机,如Stats Perform的SportVU

这些系统通常提供粗粒度的位置和移动数据输出。即使这些输出也只能提供部分情况,还需要与上文和下文提到的 "赛事数据 "合并。此外,访问权限仅限于拥有场地的球队,或在特定联赛的球队之间共享,用于战术分析。很少会在联赛之外共享数据。有时也会在电视分析中看到所得出的见解。

硬件成本、合并跟踪数据和事件数据的复杂过程,以及从摄像机跟踪数据中提取可行见解所需的分析师资源,都意味着固定 CV 摄像机系统在大联盟之外的应用非常有限。

这也意味着,尽管大球队/联赛可能已经能够访问自己联赛中的跟踪数据,但他们仍然有实质性的盲点。他们无法从其他联赛和比赛中获取此类数据。这就给他们从这些联赛中招募球员、准备在杯赛中与其他联赛的球队交手、或与其他联赛的新球员或教练交手造成了巨大的限制。

单场比赛的跟踪数据访问也限制了球队分析师开发和训练模型的数据量,而这些模型可以对比赛风格和模式进行具体预测,并模拟不同的战术。这意味着这些预测和模拟的规模和价值有限。

对于需要毫米级精度的 "裁判 "而言,场馆内需要更多的硬件,如高分辨率摄像机。这不仅增加了大量成本,还带来了运营方面的挑战,因为进入场馆和可靠的重型互联网连接是必不可少的,但并非所有场馆都具备这些条件。

即使在场馆中安装了大量硬件,有时也需要采取额外措施。例如,在 2022 年国际足联世界杯期间,半自动越位检测技术通过在球中加入RFID 芯片,补充了基于计算机视觉的球员追踪数据。同样,在板球等运动中,无人机拍摄的画面补充了现有系统的不足,以捕捉场上位置,而美国国家橄榄球联盟(NFL)和国家曲棍球联盟(NHL)则规定球员必须佩戴可穿戴的 RFID 芯片,进一步扩大了硬件覆盖范围。

好消息是,对于健身跟踪和战术洞察等粗粒度测量而言,大量的硬件基础设施现已不再是先决条件。利用生成式人工智能和深度数据,无需额外硬件即可实现包含跟踪和事件数据的可扩展解决方案,从而实现向后兼容性、巨大的覆盖范围和成本效益。它使用广泛可用的远程视频。

超越硬件系统,利用远程视频进行粗粒度洞察

作为人类,我们可以通过远程视频(即在场外观看的视频)了解比赛中发生的情况,因此将 CV 系统扩展到同样的功能似乎也是合乎逻辑的。

其潜力是巨大的,尤其是对于由多个精英比赛组成的全球体育运动而言。我们可以为成千上万的全球职业男子和女子足球队,以及 350 多所一级篮球联赛学校和无数的国际篮球联赛采集跟踪数据。

这甚至意味着我们还可以回到过去,从没有安装 CV 摄像机的场馆收集历史镜头。

在过去 8 年多的时间里,Stats Perform 的专业人工智能团队率先开发了远程跟踪技术,正如我们率先通过 SportVU在场内收集球员和球的跟踪数据一样。

我们的远程跟踪之旅实际上始于篮球领域,我们的专利AutoStats系统于 2019 年推出。从篮球远程视频中捕捉跟踪数据的主要挑战是校准移动摄像机,以及重新识别在视野内和视野外的球员。

AutoStats 的篮球数据现在已被奥兰多魔术队和战术队等球队用于选秀前景分析,并在媒体和电视(如 2023 年国际篮联篮球世界杯)上以新的角度讲述故事。

除了 AutoStats 之外,我们还通过我们的 Opta Vision产品。Opta Vision 的目标与此类似:从每场足球比赛中生成 "完整的跟踪数据",可与现场跟踪数据相媲美。然后将其与赛事数据相结合,使其对分析师更有价值。


第二部分中,Patrick 将详细介绍如何应用生成式人工智能来 "推断 "比赛中所有足球运动员在摄像机镜头之外的场上位置,从而为分析人员提供从第一声哨响到全场比赛结束的每个球员的完整、不间断的跟踪数据。