连续第二年,Kuba Michalczyk 的提案入围2020 年 OptaProForum。
库巴的 "Forum 项目应用了比利时职业联赛提供的 2018/19 赛季跟踪数据,以识别和评估突破防线的传球,然后根据传球是否增加了进球概率,或在另一端增加了失球风险,为其赋值。
在这篇特约博客中,他概述了其项目背后的方法,并总结了主要发现。
导言
突破传球在足球分析师、教练和专家中被广泛讨论。作为破坏对方阵型的传球,它们通常能让球队从一个进攻阶段过渡到另一个进攻阶段。
因此,一名球员传出一脚漂亮的突破传球的能力备受重视。虽然一些现有的统计数据,如包装或渐进式传球,有时可以作为一种替代,但我应用了Stats Perform 跟踪数据,这些数据来自 2018/19 比利时职业联赛,目的是创建一种新方法来直接衡量这些传球的价值。
定义断线传球
这项研究的出发点是建立一种检测队形线的可靠方法,同时考虑到每个球员都可以通过移动从一个队形线切换到另一个队形线。
将球员按线聚类的自然方法是在球场 x 坐标(边线坐标)上应用聚类算法。在测试了几种聚类算法后,我最终决定使用一种最简单的算法--詹克斯自然断裂优化法,即由外场球员组成三个聚类(门将组成第四个聚类)。该算法是一种高效且易于理解的技术,可减少与聚类平均值的偏差量。
为防止行间立即切换,X 坐标在两秒钟的时间窗口内取平均值。此外,持续时间少于一秒的分组将被移除,并重新分配到前一行。
在分析足球的其他领域时,采用固定的集群数量可能不是最佳方法,但我认为在寻找突破传球时,这种方法是可以接受的,因为在大多数情况下,防守球队通常都是这样布置的。此外,允许可变的集群数量很可能会导致集群由一名球员组成,而这名球员并没有真正形成一条线,但却不能被忽视,因为他们的位置可能对防守布置至关重要。

图 1.使用一维聚类检测编队线的示例
在本分析中,破线传球的定义是,传球不仅要在几何意义上与至少一条对立线相交,而且还要
- 将球推进至少 10 米;
- 起点距离交叉点至少五米;
- 终点距离队列中坐得最深的球员至少两米。
该定义消除了这一点:
- 从几何意义上来说,打破这些线,但不太可能导致过渡到下一个攻击阶段;
- 由于靠近穿透线,因此非常容易完成。
该定义还意味着,传球的接球方不受任何对方球员施加的压力的影响,因为对方球员也是突破线路的一部分。
分析中考虑了所有公开比赛的传球,但由于 Z 坐标(球的高度)不属于数据样本的一部分,因此分析结果没有考虑传球是否越顶或沿地面进行。
在我们进入模型本身之前,最后一个要考虑的问题是定义拦截传球所面临的挑战。由于拦截的终点坐标指向球场上发生拦截的地点,因此我们不能依靠终点坐标来判断传球是否意在突破线路。
不过,鉴于我们掌握了传球角度和传球长度下限的信息,我们可以尝试推断传球的预期最终目的地。为此,我们采用专门适用于处理下限数据的Weibull Survival模型来估算从拦截点开始的传球预期额外长度。这样,即使传球被拦截,但其预计目的地将其归类为突破线路,我们仍可将其标记为不成功的突破线路传球。
建立为通行证赋值的模型
该项目的最初目标是,通过比较具有相似空间特征的通行证,尝试量化不同断线通行证与非断线通行证的价值。
理想的情况是,采用一个预期占有价值(EPV)模型,利用现有的大量跟踪数据。遗憾的是,建立一个可靠的、基于跟踪数据的 EPV 模型非常复杂,与最终目标的收益相比,所需的时间不成比例。
而在另一端,非射门预期进球模型将数值分摊到球场较深区域的事件上,对于这项任务来说可能过于僵化。因此,我采用了与VAEP 框架类似的预期控球值模型,通过从跟踪数据中提取的以下特征来增强事件数据:
- 最大 "视角",是指从持球球员前方的第一条反对线开始,球与任何两名相邻球员所形成的最大角度;
图 2:"视角 "示例,显示控球球员在防守线内可从两名对方球员之间传球的区域。球员一、球和球员二之间的角度(标记为 alpha)是此场景中的最大角度。球员三、球和球员四之间的角度为负值,因此在计算下文第 3 点中定义的 "防线完整性 "时将被忽略。
- 持球队员前方第一条对抗线上相邻队员之间的最大距离;
- 线条完整性 "的定义是正视角的倒数之和;
- 直线紧凑度 "的定义是直线上相邻棋手之间距离的倒数之和;
- 动作开始和结束时的 "螺距控制 "值是根据本节介绍的模型定义的。 白皮书,由 Luke Bornn 和 Javier Fernandez 在斯隆 2018 年会议上撰写.
图 3:"螺距控制 "模型的输出示例
特征一和特征二都试图捕捉最靠近控球球员的线路设置中可能存在的漏洞。视角 "背后的前提是,当两名球员与球之间的角度较大时,更容易在两名球员之间传球,这可能是因为他们之间的距离较远,也可能是因为控球球员更靠近对方防线。
不过,队列中相邻球员之间的距离也很重要,因为这是许多教练用来向球员传达布置的语言。因此,特征三和特征四旨在捕捉第一组球员的整体布阵,同时应用第一点和第二点中概述的两个概念。
当我们使用反向角度和距离的总和来保持这两种测量方法的直观尺度时,低值表示定位不良,而高值则表明设置稳固。
值得一提的是,"直线完整性 "并不包含负视角。回到图 2 中的显示,这种负视角是在球员三、球和球员四之间产生的,而球员四实际上是隐藏在线路的其他部分后面。在这种情况下,一个潜在的传球只能从另一侧穿过这两名球员,从而提前打破了二号和三号球员之间的防线。因此,虽然不能完全忽视四号球员的位置,但其关键性不如一号、二号和三号球员的位置。因此,我选择不将负角度纳入计算。
所有五个特征均按照VAEP 框架进行处理,简而言之,就是将控球链中当前和前两个事件的特征输入XGBoost模型,以预测球队在接下来十次行动中进球或失球的概率。
突破传球会增加进球概率吗?
下面的小提琴图显示了在传球后的 10 个事件中,根据传球是否越线,预测进球和失球的概率。
小提琴图上的区域越宽,表示分配给定概率的方案比例越高。概率中位数用圆点标出,第 25 个百分点和第 75 个百分点之间的范围用条形标出。

为了保留实用的 y 轴范围,去掉了 1%的最高概率值。
虽然这种方法缺乏统计学上的严谨性,但它表明,突破底线传球提高了进球概率,中值几乎是非突破底线传球的两倍。
同样值得注意的是,一次不成功的突破传球似乎也不会增加多少失球概率,如下图所示。

为了保留实用的 y 轴范围,去掉了 1%的最高概率值。
谁是完成突破传球最有效的球员?
在招聘方面,定义突破传球的好处之一是,它可以帮助识别那些擅长用传球突破对手防线的候选球员。
下面的散点图绘制了所有在 2018/19 年度职业联赛中至少 10 场比赛中担任中后卫的球员,以及他们每 90 分钟尝试的突破线路传球次数和成功率。
右上象限的选手在这两个方面的得分都高于平均水平。

只有在中卫位置上至少上场 900 分钟的球员才被包括在内。
与寻求渐进式传球的中后卫一样,拥有将球过渡到下一个进攻阶段的能力对于深位球员来说也至关重要。以下是持球型中场球员的输出情况。
去年夏天从根克转会到亚特兰大的鲁斯兰-马利诺夫斯基是上赛季的主力球员之一。

只有在防守型中场出场至少 900 分钟的球员才被包括在内。
您能利用事件数据识别断线传球吗?
视频分析师需要花费大量时间手动搜索断行,而自动检测断行的能力可为他们带来可观的工作流程效益。
顺便提一下,鉴于缺乏国内比赛之外的跟踪数据,作为本研究的一部分,我还希望建立一个模型,仅根据赛事数据得出的特征来预测传球是否越线。
该模型的准确率为 84%,AUC 得分为 93%,这意味着在 100 个实例中,该模型可以预测 84 个传球是否破线。
不过,由于只有 8% 的通行证是破线通行证,因此分配标签的临界点至关重要。我最终确定了一个召回率为 89%、精确率为 32% 的模型,这意味着该模型可以正确识别 89% 的突破传球,但代价是许多传球被归类为突破传球,但实际上并没有突破。这是意料之中的,因为在没有跟踪数据的情况下,模型无法看到防守球员在球场上的位置。
可能出现误报的一种情况是,当一支球队在低位防守时,控球的球队将球从本方防守三区传给对方半场的一名中场球员,但该球员仍位于对方第一道防线前。
虽然这并不完美,但从工作流程的角度来看,它仍然可以减少视频审核的次数,加快流程,而且好消息是,根据分析师的喜好,还可以调整截止时间,为我们提供更严格的分类。
坏消息是,如果你想在不进行人工干预的情况下对断行进行近乎完美的分类,你仍然需要使用跟踪数据。
我要感谢卡伦-辛格(Karun Singh),他阅读了本文的初稿并提供了宝贵的反馈意见。此外,我还要感谢里卡多-塔瓦雷斯(Ricardo Tavares)以及 Socceraction 软件包的作者,他们的代码被扩展用于准备球场可视化和数据预处理。分析中使用的数据由比利时职业联赛提供,由Stats Perform 采集。

