跳至主要内容
2018 年世界杯期间,俄罗斯与沙特阿拉伯的比赛中,卢日尼基体育场的球迷欢呼雀跃
联合会和权利持有人、职业俱乐部和学院

体育报道的未来:第二部分

Stats Perform首席科学家 Patrick Lucey 谈论体育领域的 ChatGPT、深度学习和AI 技术。

作者:Patrick Lucey帕特里克-卢西

如需了解第一部分,请点击此处查看我们的报道。

ChatGPT 背后的语言模型和转换器能在体育运动中做些什么?

除了聊天机器人,语言模型和生成式人工智能在体育领域还有用武之地吗?

答案是肯定的,在我们看来,这是体育分析领域的下一次革命,能让球队和球迷比以往任何时候都更深入地了解比赛,尤其是足球比赛。

首先,我们必须指定运动语言。对于文字,也就是 ChatGPT 所需的输入,语言为 已经存在。正如我们所见,ChatGPT 语言模型利用的是原始文本数据,这些数据有其固有的结构(字母、单词、句子、段落)。转换器架构通过利用句子、段落和整个故事叙述中的上下文来预测缺失的单词,从而学习统计数据和相关性。

体育数据具有不同的固有语言结构。例如,足球比赛是 11 对 11(或大多数情况下是 10 名场上球员对 10 名场上球员)。每个球员都有自己的角色,在比赛过程中,角色会发生变化。

在一支球队的比赛中,球员信息的表示极为重要。 我们可以说,每个球员都是一个字母(我们不使用姓名或球衣号码,而是使用他们在比赛中的位置和统计数据,以及他们近期和长期的比赛统计数据),每个场上事件都可以描述为一个单词,而这些字母必须正确排序,我们才能理解这个单词。

每场比赛可以是一个句子,每次控球可以看作一个段落。 比赛可以是一章,赛季可以是一本书。除了要创建正确的结构(或语法)外,体育数据的输入既是时空性的(即球员位置的 x 和 o),也是基于事件的(即事件类型和控球结果)--这需要大量的预处理。因此,我们可以把体育数据看作一部电影,而不是一本书--输入是多模态的,而不是单一的输入源。

既然已经定义了足球的输入语言,我们就可以开始学习 "足球语言模型",它能让我们生成以前做不到的输出结果。现在,考虑到AI 聊天机器人在 "幻觉 "事实方面存在的固有问题,我们可以使用 "智能提示工程 "来回答以前无法回答的问题,而不是针对任何问题生成输出结果。 有关智能提示工程的更多信息,请参阅本系列的第一篇文章。

我们将在下文中列举大量实际例子。

Opta Vision

Opta Vision 是一种AI数据源,利用计算机vision 数据和我们的人类事件数据。然后通过我们的图形神经网络进行处理,对每一个事件进行预测,从而描述球队和球员个人的决策和执行能力。

例如,利用我们的底层阵型表示法(或语言),我们可以检测到一支球队正在使用哪种阵型(如 4-4-2、3-4-3、4-3-3 等),以及在控球和不控球的情况下阵型是如何变化的。

我们还能在每一帧画面中指定球员的角色,这样我们就能看到球员重叠时的情况,或者比赛中是否有战术变化。

使用相同的底层表示法,我们还可以预测球员传球的可能性、传球在接下来 10 秒内创造得分机会的可能性,或者评估传球是否是正确的选择。

利用我们的足球语言模型,我们可以同时预测所有可能的选项;换句话说,我们可以预测句子,而不是分别预测每个字母。我们使用所有球员的位置、动态和事件作为输入序列,然后将其映射到与传球难度、可用性等相对应的输出序列。

以前,我们对每个球员的选项进行独立分析,但现在使用我们的大型足球语言建模方法,我们可以同时分析所有球员。这对于了解每个球员在每个事件中的决策能力显然很有价值,但我们也可以使用类似的方法来预测每个球员在比赛结束时的统计数据。

基于变压器的球员表现预测 

想象一下,你是一名足球教练,你想知道哪名球员在比赛中对结果的改变影响最大。以前对球员表现的预测是独立于其他球员和对手的。利用我们的转换器方法和庞大的足球数据数据库,我们创建了一个模型,可以同时预测所有球员和球队的表现。

再次使用机器翻译类比,我们的想法是将比赛开始时(或比赛期间)的球员和球队信息输入序列映射为输入序列。然后,我们使用转换器网络将其映射到最可能的输出序列,在本例中就是最终的比赛统计数据。使用转换器网络的强大之处在于,它可以快速归纳出未见过的情况。在足球比赛中,这种情况司空见惯,因为球队在常规赛中既有主场比赛,也有客场比赛,阵容(以及主教练)和近期状态往往不同。

这是一项新的创新,我们将在 2023 年展示这项技术的威力。 为了训练这个模型,我们利用了Opta 独一无二的深度数据库,其中仅事件数据就超过 1.5TB (这还不包括我们庞大的跟踪数据档案)。

幽灵

我们还可以利用类似的技术来增强我们的重影能力(即模拟球员在比赛中应该出现的位置,这是我们之前在 足球篮球).

以前的方法是利用有监督的策略网络,以确定性的方式预测球队的行为,但随着语言建模技术的进步,可以产生更多创造性的输出(有些可能是以前从未见过的)。但值得注意的是,有时教练/分析师更希望获得确定性预测(即确实发生了什么),而不是预测比赛可能采取的不同方式。

数据收集

使用语言建模的另一个好处是,它可以在我们的体育数据收集过程中作为一种辅助工具(类似于前面提到的编码助手),在我们vision计算机vision球员和球跟踪系统中使用,或者突出可能错误的数据点,供我们的人工操作或诚信团队进行评估。

结论

ChatGPT 是一款雄心勃勃、执行得非常出色的工具。虽然它在体育或新闻报道领域的直接应用可能不如其他领域多,但其基本的生成式AI 方法已经在Stats Perform 中使用,使用我们自己的专有体育语言作为输入。它们已经为团队表现领域的许多应用提供了动力,并必将在未来增强体育内容和分析的许多方面。

帕特里克-卢西(Patrick Lucey)博士是体育数据巨头Stats Perform 公司的首席科学家,领导着AI 团队,目标是最大化公司体育数据宝库的价值。帕特里克在AI 领域学习和工作了 20 年,曾在迪斯尼研究院和卡内基梅隆大学机器人研究所担任研究职位,并在 IBM T.J. 沃森研究中心攻读博士学位。帕特里克来自澳大利亚,在南昆士兰大学获得工程学学士学位,在昆士兰科技大学获得博士学位。他已撰写了 100 多篇同行评审论文,并与他人合作撰写了麻省理工学院斯隆最佳研究论文奖(MIT Sloan Best Research Paper Track)的论文,在 2016 年获得最佳论文奖,在 2017 年和 2018 年获得亚军。