
在我们最新的体育AI 趋势专题第二部分中,首席科学家 Patrick Lucey 简要介绍了 Opta Vision如何利用计算机vision 和生成式AI相结合的方法,解决了过去 25 年来阻碍足球分析的关键难题。
在足球比赛中,从视频中捕捉球员位置和移动数据的主要挑战在于远程视频无法提供统一的比赛视角。
要通过远程视频追踪比赛,只需使用一个摄像机角度。这就是主摄像机/比赛摄像机视角--通常位于中场线,角度较高。之所以只使用这个角度,是因为它包含了校准摄像机所需的信息,如边线、中圈、18 码区等。其他视角不包含此类信息,因此几乎不可能进行摄像机校准。
不过,即使使用高角度的游戏摄像机视角,22 名球员中平均也只有 11 名球员通常在视线内。而且经常会有特写和回放,而在这些时段以前是无法捕捉到球员跟踪数据的。
重放/特写镜头的使用时间因游戏而异;有些游戏的特写镜头很少,而有些游戏的特写镜头则很多,多达 20%。
显然,如果不能捕捉到 20% 的比赛事件和 50% 的球员界外球跑动,那么对足球这样的团队比赛进行有意义的分析就会受到很大的限制。
请看这两个例子。第一个例子(上图)描述的是 22 名球员中有 11 名不在视线范围内,第二个例子(下图)显示的是由于特写镜头的原因,所有球员都不在视线范围内。
这两个例子取自同一段比赛。首先是一段时间的比赛镜头,两队各有一半球员缺席。然后是约 8 秒钟的特写镜头,缺少 20 名球员。特写镜头包括三次传球,然后是一次从球场右侧传出的直塞球。
如果使用标准的远程跟踪技术,在特写镜头中无法捕捉到跟踪数据,我们将无法捕捉到大部分球员的位置和移动,更重要的是,我们可能无法捕捉到这 3 次传球--最重要的是导致进攻的最后一次传球。
关键传球非常罕见,也非常重要。因此,遗漏关键传球、导致关键传球的传球以及其他球员的影响和决定,会给分析留下很大的空白。
通过获取完整的跟踪数据来填补这一空白,从而能够进行完整的分析。但怎么做呢?
进入生成式AI Opta Vision
人类专家非常善于根据他们过去的所见所闻,以及不同球队、球员和教练在不同情况下的打法,来估计他们在体育运动中看不到的情况。问题是,我们怎样才能让计算机学会这一点,并 "归因 "缺失的细节?
正如本系列前几篇文章所介绍的,在文本上训练的生成式AI 模型可以纠正错误的句子或填补缺失的单词。在图像上训练的模型可以使用填充和扩展(内绘和外绘)来完成图像。根据文本、图像和视频训练的多模态模型,如 OpenAI 的文本到视频技术 "Sora",可以仅根据文本描述生成完整的视频。
在足球比赛中,我们创建的语言既能利用我们的事件数据(即球上发生了什么以及谁参与了比赛),也能利用我们的跟踪数据(球员的位置和动作)。与 Sora 学习文本和视频之间的映射类似,Stats Perform 也学习了 事件和跟踪数据之间的映射,这使我们能够解决这个问题。
通过在出球事件发生前后获得远程跟踪数据,然后获得出球事件/动作发生的信息以及通过哪些球员发生的信息,我们的模型(在大量Opta 专有数据的基础上训练而成)就有足够的背景来准确估计(或 "推断")这些球员的位置。请看下面我们的结果--在我看来,这就是魔法!
在这项工作中,我们受到了最近在自动驾驶汽车领域开展的类似工作的启发--使用地图作为 "文本等价物",然后利用计算机vision 将世界上的物体映射到这个 "地图空间 "中。
由于我们处理的是视觉数据,因此扩散模型是图像或轨迹生成等视觉任务的首选,因为它们擅长捕捉精细细节并产生高质量输出。而对于文本和基于文本的任务(如 ChatGPT 和 Gemini)等顺序数据,变压器神经网络则更为合适。虽然扩散是一种不同于变换器的方法,但它仍然属于生成式AI 范畴,因为它可以生成新的、逼真的图像(或者在本例中,生成失踪球员的逼真轨迹)。
如前所述,结果相当 "神奇"。但更重要的是,这解决了足球运动中的一个关键问题,因为现在可以根据其他球员的位置和移动情况来分析所有传球--我们称之为 "全面分析"。
因此,我们可以通过远程视频进行与现场视频相同类型的分析,这是一个巨大的模式转变,可以让我们从更多球员、球队和联赛中获得洞察力。
它还能让我们从过去的游戏中创建完整的数据。随着我们在这一领域的进展,您将听到我们在这方面的更多信息。不过,我们最近在麻省理工学院斯隆体育分析会议上展示了这一成果,Stats Perform AI 团队的 Harry Hughes 在会上做了精彩的演示,详情请参见此处,以及演示视频的链接。
为什么 CV 系统不能在特写镜头中跟踪?
正如您在左下角的示例中看到的,我们可以清楚地看到球员(即白色球衣),因此通过 CV 系统检测这些球员非常容易。
然而,由于这是在地面上,因此几乎不可能估算出这些球员在 "像素空间"(即图像)中与其他球员和球场的位置关系。而在 "跟踪空间"(即自上而下的球场视图)中,位置和运动检测的推理要容易得多。
AI 领域的领军人物 Yann LeCun 最近提到,用 "像素空间 "来模拟世界是低效的,也是不可能解决的。我们同意这一观点,而这正是解决从远程视频中生成完整跟踪数据这一难题的关键所在。我们生成跟踪数据的方法本质上是将 "跟踪数据空间 "视为像素空间的 1,000,000:1 压缩。
在跟踪数据空间内进行操作的好处在于,它也 "将我们与现实世界联系在一起",因为它将可能性限制在球场尺寸(足球场平均 105x68m)范围内,而事件的额外背景对其限制更大。
为什么仅限于播放器跟踪数据?CV 系统能否直接从视频中检测 "事件数据"?
首先,让我们来定义一下什么是 "事件数据"。以足球为例,事件数据指的是球员在比赛中执行的动作和官员做出的决定。它们包括任意球、射门、角球、罚球、触球、传球、运球、射门、进球、自摆乌龙、扑救、头球、拦截、犯规、判罚、黄牌、红牌等。
位置和移动数据与事件数据相结合,提供了完整的比赛视图。没有这两方面的数据,就无法分析和预测球员在特定情况下的决定和能力。
关于 "事件",需要注意的关键点有
- 许多事件实际上是多模态的--既有视觉的,也有听觉的(如裁判的哨声),因为它们都依赖于人工裁判的判定。只有当人类裁判判定犯规、点球、越位、黄牌、红牌、角球、进球等事件时,这些事件才是犯规、点球、越位、黄牌、红牌、角球、进球。即使是门将将射门碰出横梁,也只有在裁判判罚角球的情况下才能算作扑救。
- 有些事件有持续时间。如果玩家成功获得通行证,则通行证有起始地点和终止地点。
- 由于 VAR 或助理裁判的干预,有些事件会在事后发生变化。
- 许多事件都是在多人近距离参与的情况下发生的,需要进行严密的评估,以便根据规定的定义进行准确一致的检测和分类。
如果考虑到球队和媒体需要实时、持续、准确地收集赛事数据才能发挥作用,那么在全球数百场男女精英足球比赛中,我们就会发现,无论是在遇到不同观点的情况下,还是在解释裁判判罚(或判罚变化)时,都需要有专业人员参与其中。此外,即使有 10-12 个摄像头和球中的芯片,也需要人工干预,2022 年国际足联男子世界杯使用的半自动越位检测系统就是一个例子。
因此,可以认为体育数据的输入源是多模态的,既包括人工采集的输入,也包括计算机vision的输入。输入数据的互补性以及这一过程中的冗余性,确保了无论比赛过程中发生了什么、输入的视频或裁判的决策如何,都能捕捉到完整而准确的数据。
GPT-4o 或 Gemini 不能进行体育图像/视频处理吗?为什么不能用来创建球员跟踪数据?
除了使用商业应用程序接口处理图像和视频数据的高成本和延迟外,使用现成的模型只能捕捉到清晰可见的部分球员,从而导致缺乏关键的 "最后一英里 "细节,包括由于体育运动的各种细微差别和许多边缘情况而造成的比赛中的重大差距。
原因如下
- 训练数据:GPT-4o 和 Gemini 等模型的训练数据是基于图像和标题配对的公开数据,而不是包含相关跟踪和事件数据的特定领域详细运动数据序列,以及
- 语言:GPT-4o 和 Gemini 等模型正在学习图像/视频与文本之间的相关性。如前所述,我们希望学习跟踪数据和事件数据之间的相关性,这相当于我们的图像/视频和文本。
另一种理解方式是,体育数据(跟踪和事件)是其自身的 "语言",而 GPT-4o 和 Gemini 已针对自然语言(图像和标题)进行了优化--因此,Stats Perform的基础模型与未经过详细体育数据训练的模型实际上说的是不同的语言。
虽然理论上可以在图像/视频和事件数据配对之间学习一个模型--但由于视频和跟踪数据的压缩率(即 1,000,000:1),这并不现实,跟踪数据使数据与运动的实际情况相吻合,而且跟踪数据本身对于可视化、交互和可解释性来说就是一个非常有用的输出(正如我们将在下一篇文章中展示的那样)。
让AI 代理观看现场体育比赛并解释规则与分析比赛一样吗?
这是一个很好的问题,它真正触及了理解语言(或像新手或专家一样理解一个主题)的核心差异。 目前基于自然语言的多模态 LLM 可以识别视频,并将其识别为一场足球比赛(也许还能识别一些球队和球员--可能还能从屏幕上的比分 "错误 "中识别出比分和比赛时间)。在此基础上,它可以解释足球规则,也许还能解释相关俱乐部的一些历史,这些都是它可以从维基百科(即可以在互联网上公开找到的高级文本信息)上快速搜索到的。
然而,识别正在进行的运动和检测比赛中发生的细节是两码事。GenAI 的下一个浪潮并不仅仅是识别正在进行的运动,这也是新手可以做到的,而是要像 "专家 "一样观看比赛。要做到这一点,你需要掌握专家的语言。就足球而言,就是要了解一支球队采用的是哪种阵型,或在特定情况下后卫 "本应 "在哪里,球员 "本应 "传出什么球,以及导致反击的传球失误代价有多大。此外,将其与 "实时 "元素联系起来也至关重要,而目前的现成 LLM 无法做到这一点,因为它们有一个知识截止点。因此,既要有赛事和跟踪数据,又要有 "实时和最新 "的体育数据库是极其重要的,也是像专家一样 "观看 "比赛所绝对需要的。
在下一篇文章中,我们将讨论如何使用赛事和跟踪数据作为体育的原始语言,然后将其转化为我们可以像专家一样 "观看 "比赛的方式。从本质上讲,赛事和跟踪数据就是文字(包括文本和视觉)--但仍然是非结构化的,因为我们需要将其组成句子、段落和章节,直至整本书(或书库)。
体育数据是结构化的还是非结构化的?
就不同事件(如传球或射门)而言,数据是结构化的。它可以在数据库中存储和检索。我们也可以将跟踪数据存储为每帧动作的一行。
我们面临的挑战是,像足球这样的运动是一场连续的比赛,要模拟出 22 名球员移动和事件发生的完整画面,我们需要将它们按顺序而不是独立地拼凑在一起。 这就好比单独存储一本书中的每个单词或句子,虽然可以确保存储,但会丢失上下文。
与每个事件相关的跟踪和事件数据可以看作是一本书中的一个句子(游戏就是一本书)。我们收集到的跟踪和事件数据的另一种思路是将它们视为原子,我们需要将它们整合成一个连贯的结构。
然而,原子(即事件和玩家)的数量比宇宙中原子的数量包含更多的排列组合!
生成式AI 模型使我们能够从这些原始的非结构化原子中学习正确的结构。
基本上,我们在AI 领域所做的一切都与表征有关,或者说是为计算机学习获取正确的输入结构。
要同时生成跟踪数据和事件,我们需要考虑所有玩家的位置、速度和加速度,以及之前的事件。这些都是随时间变化的。如上所述,这比宇宙中的原子还要多--因此,我们的原始数据模型能让我们学习到正确的结构(也就是所谓的嵌入)。
在下一篇文章中,我们将深入探讨如何以多种不同的方式利用跟踪数据,特别是如何像专家一样观看比赛,以及如何以可视化和互动的方式进行搜索。
您在上一篇文章中简要谈到了机器人足球,这是否与此有关?
这篇文章的开头我们谈到了计算机vision 在体育运动中的应用历史,但却没有提到计算机vision 在体育运动中的应用最早活跃于 20 世纪 90 年代的一个领域,那就是机器人足球(RoboSoccer)。在 "钱球革命 "将目光投向现实世界的体育运动之前,这是最活跃的研究领域之一。
机器人足球 "或 "机器人杯 "的目标是,到 2050 年,让一支完全自主的仿人机器人球队在真实赛场上击败世界上最好的人类足球队。要达到这个水平,我们需要两样东西:
- 根据波士顿动力公司(Boston Dynamics)最近发布的机器人,创造一个可以开始像人类一样移动的机器人已经越来越近了。
- 让这些机器人像人类球员一样 "感知 "世界。但要做到这一点,我们需要生成足够多的例子,让这些机器人了解足球的运动和结构。
我相信,我们在Opta Vision 所做的工作将帮助我们 "完整 "地分析每一场比赛,并开始提供训练机器人像人类专家一样阅读比赛所需的完整数据量。
然而,体育运动的魅力在于它是由人类进行的--它是不可预测的、流动的,它为人们提供了一种现场的、独特的和共享的体验。虽然这是一个有趣的追求目标(就像教电脑下国际象棋、危险游戏或围棋一样,但要难得多),但我认为,像机器人杯这样的挑战将展示人类是多么了不起,以及要在认知和体能上达到最高水平所需的准备、练习和指导水平。
在今后的文章中,我们将重点介绍如何利用计算机vision 跟踪数据来了解足球、篮球和网球等运动。 我们还将重点介绍生成式AI 在预测中发挥的作用。