Kuba Michalczyk 在 2019 OptaPro AnalyticsForum(2019 OptaPro 分析Forum)上展示了一份海报,该海报应用聚类技术对 2017/18 赛季英超联赛各支球队的边路进攻进行了可视化展示。
在这篇特约博客中,他概述了其演讲背后的方法,并总结了主要发现。
点击此处查看库巴的海报。
导言
多年前,足球分析先驱查尔斯-里普(Charles Reep)得出结论:短时间内的比赛更容易取得成功。这种错误的解释与许多球队(包括英格兰的几支球队)采用的类似方法不谋而合。
然而,近年来这一趋势似乎发生了逆转,越来越多的球队开始寻求从后场发起进攻。这就要求后卫和守门员拥有更好的传球技能,并积极参与建队的初始阶段。然而,这也带来了额外的风险,因为在防守区域丢掉的每一粒球都会让球队变得脆弱。
通过识别对手从后场发起进攻的基本模式,教练员可以获得快速参考,了解对手喜欢的传球位置和比赛风格。这些发现可以为战术分析提供支持,这样球队就可以制定策略,在初始阶段阻止对手的进攻,或者仅仅通过球队的定位,迫使对手以未经训练或效率低下的方式踢球。
因此,在我的 OptaProForum 项目中,我使用了 2017/18 赛季英超联赛的赛事数据,准备了一个框架,让我能够发现每支球队如何从后场建队的潜在模式。这是一个两阶段的分析,两部分都采用了聚类分析。
聚类分析是一种数据挖掘方法,它在无监督的情况下对观测数据进行分类,即没有任何预先已知的标签。聚类后形成的组应包含彼此相似的观测值,而来自不同组的观测值不应相似。
第 1 部分 - 启动通行证的分组
在本分析的第一部分,这些观测数据都是初始传球,即符合以下条件的传球:
- 将球推进到更高的位置(与球门线的夹角小于 15 度的传球不计算在内);
- 在防守三区有一个起点;
- 是由守门员或后卫做出的;
- 不是头顶传球,也不是门将扑球。
必须强调的是,这一定义有几个局限性。首先,防守型中场球员的传球未被考虑在内,因为他们通常会在进攻阶段为中后卫提供支援。这是因为数据样本中没有详细的位置信息。
一种可能的解决方案是尝试估算与球员有关的事件的平均位置,但这种方法可能会受到平均值缺点的影响--由于球员有时会在比赛中改变位置,其得出的平均位置可能会产生误导。因此,在本分析中,所有中场球员的传球都被排除在外。不过,在分析某支球队时,分析人员可以决定哪些球员可能担任控球中场,并将他们纳入输入数据集。
另一个局限是,本分析基于整个赛季的数据,因此没有考虑到可能影响球队比赛风格的主教练或球员变动。不过,有了整个赛季的数据,就可以对每支球队进行一致的分析,并确保样本量的可比性。
由于所选择的算法(稍后将讨论)允许我们指定将传球归入一个群组所需的最少相似传球数,因此可以减少这一参数,从而可以对更少的比赛进行分析。这样就可以根据较近的比赛或考虑到任何变化的比赛来分析对手。
根据这一定义,得到了一个传球空间坐标数据集,平均每队包含 1 527 次传球,这就是第一阶段的输入数据。
在将数据输入聚类算法之前,值得披露一下它们是如何分散的。在这方面,主成分分析(PCA)通常会有所帮助。PCA 是一种降维技术,因此,它允许我们用二维空间中的一个点来表示一个通道,尽可能多地保留其原始坐标(起始 x、y 坐标和终止 x、y 坐标)的可变性。
下面是 PCA 输出的一个示例,展示了曼联队的启动传球。
图 1:曼联启动传球的 PCA 输出。 颜色越浅 ,该区域的传球次数越多。
从输出结果中,我们可以观察到七个密集区域--外部有六个较小的圆形区域,中间有一个大区域,所有区域都由数量不等的桥点连接。这些桥点使得数据难以分离,因此也难以聚类,特别是使用基于优化的聚类方法,如广为人知的 k-means 算法。
不过,我对聚类的直觉与 k-means 假设不同。因为我想检测重复模式,所以我的目标是捕捉密集区域,可能会忽略桥点和其他任何形式的噪音。因此,我采用了 DBSCAN(基于密度的空间聚类算法)。在这里,噪音可以解释为非正常建队环境下的传球,例如,在压力下传球、失位传球等。根据球队的不同,53%-80% 的传球被归类为噪音,只留下重要的比赛模式。
另一个必须做出的重要选择是差异度量的形式。由于我的主要目标是确定比赛方向,而传球的前进方向则是次要考虑因素,因此我决定加大 y 坐标的权重。选择这些权重的原因是,我更关心的是传球方向与球场宽度而不是球场长度的关系。
图 2 显示了每支英超球队的传球中值。中位传球是一个群组中与所有其他传球最相似的群组代表。 我们可以看到,一些球队避免向中场中路传球,而更喜欢大范围(如伯恩茅斯)或长距离(西布朗)分球,而曼城则大量使用中场短传,这也许并不奇怪。另一个很好的例子是莱斯特城队,他们将球斜传向中场线,这种传球方式在其他球队中都没有出现过。
我们还可以发现哈德斯菲尔德城与利物浦之间的相似之处,尽管泰瑞尔人并不玩短传中,而是表现出长传球集群的特点。
图 2 也可用于分析不同位置的建队参与情况。例如,水晶宫队的左后卫可能比右后卫更多地参与他们的补位。不过,这样的结论应该用分组同质性来验证。
现在,我们将目光转向阿森纳。观察图 2,我们很容易得出这样的结论:阿森纳在右路发起进攻的次数明显多于左路。
下图展示了阿森纳聚类的完整结构,聚类中值以深蓝色标出。实际差异并不明显,因为左边有两个同质簇,而右边只形成了一个簇,结构更加异质。因此,该图有助于我们在确定阿森纳首选集结方向的同时,考虑到集群内部的差异。
第 2 部分--模态后续行动
在分析的第二部分,我想回答这个问题:当最频繁的集结开始于某一特定的启动程序集群时,它们是如何形成的?
为此,我选取了从某一特定群组开始的所有游戏序列,并使用亲和力传播法(affinity propagation)结合适合时间序列数据的相似性测量方法--动态时间扭曲法(DTW)对其进行聚类。这种方法可以识别出形状相似的路径。
在计算两个序列之间的距离之前,DTW 会尝试对齐一个序列,使其尽可能与参照序列相似,因此只要整体路径相似,序列内速度和通过次数的任何差异都会被忽略。
然而,一个序列可能包含几个起始传球(如第 1 部分所定义)。因此,为了防止一个序列的某些部分被视为两次,如果球再次进入防守三区,序列就会被分成两个子序列。因此,相当一部分子序列只是两次传球,即球从一名后卫处传出后又立即传回,信息量不够大。不过,如果球被踢得很长,两次传球的子序列可能仍然有意义。
因此,所有未越过半场线的子序列都被删除。由于我主要关注的是球队如何从后场组织进攻,而不是如何进攻,因此如果球进入了最后三分线,则会对子序列进行剪切。这样做是为了避免使用与此不相关的信息匹配子序列。
最后,删除了所有由不成功的起始传球组成的子序列,因为这些子序列已在第一阶段进行了分类。
图 4:第二阶段的输出示例-- 第 1 组启动传球后的 前 三种模式 建立。虚线表示带球。实线表示传球。颜色表示顺序,从深蓝到浅蓝。宽度以 序列内 最大 水平差异( 米 ) 来衡量 。绝对宽度以 距离序列内中心垂直线的 最大距离( 米) 来 衡量 。直接性以到对方球门线的距离净差除以 球 在序列中移动的总 距离 来 衡量 。
图 4 显示了阿森纳队在第 1 组中最常见的三次起脚传球。虽然由于样本量较小,这些结果可能需要慎重考虑,但所展示的群组有时可能会给我们一些启示,例如,哪些启动传球往往会激活侧翼的直接进攻,或通过中路进行较长时间的推进。
结论
我在Forum 上收到的总体反馈非常积极。俱乐部分析师们尤其赞赏我们能够找出球队之间的差异,发现潜在的薄弱点。不从联赛角度看问题,而是从球队层面分析数据,使发现这些关注点成为可能。
有一点可以进一步开发,那就是可以对聚类质量进行正式评估的统计测量方法。我花了不少时间研究不同的聚类验证技术,但从足球的角度来看,这些技术似乎都不合适。
因此,我们对所有聚类进行了目视验证,并选择了 DBSCAN 参数,以便聚类在相邻值之间保持稳定。聚类验证统计不仅可以减少人为偏差,还有助于实现过程自动化。
应用程序
如果您对某个团队的成绩感兴趣,请查看随附的ShinyApp。
此外,请随时在Twitter 上与我公开或通过直接信息交流您的想法或见解。