长传突破有多大影响力？

数据科学家库巴·米哈尔奇克（Kuba Michalczyk）Stats Perform撰写的一篇客座博客中，介绍了其研究项目的成果。该项目通过运用跑动追踪数据，旨在验证“穿透防线传球”是否能提高进球概率。

Stats Perform

~ 阅读时间 9 分钟

库巴·米哈尔奇克的提案连续第二年入围2020年OptaPro论坛的展示名单。

Kuba的“论坛”项目利用比利时职业联赛提供的2018/19赛季追踪数据，识别并评估了那些能够撕开防线的传球，随后根据这些传球是否提高了进球概率，或者在另一端，是否增加了丢球的风险，为其赋予相应的数值。

在这篇客座博客中，他概述了该项目背后的研究方法，并总结了主要研究结果。

引言

穿透式传球是足球分析师、教练和专家们热议的话题。这类传球能够撕裂对手阵型的防线，通常能帮助球队从一个进攻阶段顺利过渡到另一个进攻阶段。

因此，球员送出精妙的撕裂防线传球的能力备受重视。虽然一些现有的统计数据（如“穿透传球”或“推进传球”）有时可以作为替代指标，但我采用了来自2018/19赛季比利时职业联赛Stats Perform 数据，旨在建立一种直接衡量此类传球价值的新方法。

定义换行符

本研究的出发点是建立一种可靠的阵型线检测方法，同时考虑到每位球员可能会因移动而在不同的阵型线之间切换。

将球员按线路分组的自然方法是，对球场上的x坐标（即边线坐标）应用聚类算法。在测试了几种聚类算法后，我最终选定了一种最简单的算法——詹克斯自然断点优化法（Jenks natural breaks optimisation），该算法将场上球员分为三个簇（守门员则构成第四个簇）。这种算法是一种高效且易于理解的技术，能够有效降低与簇均值的偏差幅度。

为避免行与行之间立即切换，对x坐标进行了两秒时间窗口内的平均处理。此外，持续时间不足一秒的聚类被移除，并重新归入上一行。

虽然采用固定数量的聚类可能并非分析足球其他领域的最佳方法，但在寻找突破防线的传球时，我认为这种做法是可以接受的，因为大多数情况下，防守方通常就是这样布阵的。此外，如果允许聚类数量可变，可能会导致某些聚类仅包含一名球员——虽然这名球员并未真正形成防线，但其站位对防守阵型至关重要，因此无法被忽略。

图1. 采用一维聚类进行层位线检测的示例

就本分析而言，所谓“突破防线传球”是指一种传球，它不仅在几何意义上至少穿越了对方的一条防线，而且还：

– 将球向前推进至少10米；

– 起始点距离交点至少五米；

– 其终点必须位于该队坐姿最深球员身后的至少两米处。

该定义排除了以下情况：

– 从战术角度而言，虽然能够突破防线，但不太可能由此过渡到下一阶段的进攻；

– 由于其位置紧邻所穿透的线路，因此非常容易完成。

该定义还意味着，接球者不受任何曾处于防线空档处的对方球员施加的压力的影响。

分析中考虑了所有长传，但由于数据样本中未包含Z坐标（球的高低），因此分析结果并未区分传球是高空传球还是贴地传球。

在进入模型本身之前，还有最后一个需要考虑的问题，即如何界定“被拦截的传球”。由于拦截点的终点坐标指向的是场上发生拦截的位置，因此我们无法仅凭这些坐标来判断该传球是否本意是突破防线。

然而，鉴于我们掌握了传球角度和传球距离的下限，我们可以尝试推断传球的预期最终落点。为此，我们应用威布尔生存模型——这是一种特别适用于处理具有下限数据的技术——来估算从拦截点起传球应有的剩余距离。这样，即使某次传球被拦截，但其预判落点被归类为越线，我们仍可将其标记为一次未成功的越线传球。

建立一个用于评估传球价值的模型

该项目的最初目标是，通过比较具有相似空间特征的传球，尝试量化不同分球传球相对于非分球传球的价值。

理想情况下，本应采用一种利用现有海量追踪数据的预期控球价值（EPV）模型。遗憾的是，构建一个基于追踪数据的可靠EPV模型十分复杂，且所需耗费的时间与最终目标带来的收益相比，显然不成比例。

另一方面，一种不考虑射门的预期进球模型——该模型仅对球场后场区域的事件进行评分——对于这项任务而言可能过于僵化。因此，我最终选择了类似于VAEP框架的预期控球价值模型，该模型通过从跑动追踪数据中提取以下特征来增强事件数据：

最大“视角”，即持球球员前方第一条防守线与球以及任意两名相邻防守球员所形成的最大夹角；
图2：一个“视角”示例，展示了持球球员可在防守线内的两名对手之间传球的区域。球员一、球与球员二之间的夹角（标记为α）是该情境下的最大夹角。球员三、球与球员四之间的夹角为负值，因此在计算下文第3点中定义的“防线完整性”时不予考虑。
持球球员前方第一道防守线中，相邻球员之间的最大距离；
“线完整性”定义为正视角倒数的总和；
“队形紧凑度”定义为队列中相邻球员之间距离的倒数之和；
动作开始和结束时的“音高控制”值，是根据本文介绍的模型定义的该白皮书由卢克·博恩（Luke Bornn）和哈维尔·费尔南德斯（Javier Fernandez）在2018年斯隆会议上撰写.
图3：“音高控制”模型的输出示例

特征一和特征二都试图捕捉持球球员身前防线阵型中可能存在的任何漏洞。“视角”这一概念的理论基础在于：当两名球员与球之间形成的夹角越大时，两人之间传球就越容易——无论是因为两人间距较远，还是因为持球球员距离对方防线更近。

然而，同一排相邻球员之间的距离至关重要，因为这是许多教练用来向球员传达站位要求的常用术语。因此，第三和第四个要点旨在整体呈现第一排球员的站位，同时运用第一和第二点中概述的两个概念。

当我们将反向角度与距离的和应用其中，以保持这两项指标的直观比例时，低数值表明定位不佳，而高数值则说明设置稳固。

需要特别指出的是，“防线完整性”并未考虑负视角的情况。回到图2所示的场景，这种负视角形成于第三名球员、球以及第四名球员之间——第四名球员实际上被防线其他成员挡在身后。在这种情况下，潜在的传球只能从另一侧穿过这两名球员，从而在第二名和第三名球员之间提前打破防线。因此，尽管不能完全忽略第四名球员的位置，但其重要性远不及第一、二、三名球员。基于此，我决定在计算中不纳入负视角。

这五项特征均按照VAEP框架进行了处理，简而言之，即把控球链中当前事件及前两个事件的特征输入到XGBoost模型中，以预测该球队在接下来的十次进攻中进球或失球的概率。

断线传球能提高进球概率吗？

下图中的小提琴图展示了在传球后随后的十次事件中，根据传球是否为穿透性传球，预测进球和失球的概率。

小提琴图中面积越大，表示被分配给该概率的情景比例越高。点表示概率的中位数，条形则表示第25百分位数与第75百分位数之间的范围。

为了保持y轴范围的实用性，已剔除概率最高的1%的数值。

尽管这种方法在统计学上不够严谨，但它表明，穿透防线的传球能提高进球概率，其中位数几乎是非穿透防线传球的两倍。

值得注意的是，如下文所示，一次未能成功的穿透性传球似乎也不会显著增加失球的概率。

为了保持y轴范围的实用性，已剔除概率最高的1%的数值。

哪些球员在完成撕裂防线的传球方面最为高效？

在招募球员的背景下，界定“穿透防线传球”的一个好处在于，它有助于识别那些擅长通过传球突破对手防线的潜力新星。

下图的散点图展示了所有在2018/19赛季职业联赛中至少出战10场且司职中后卫的球员，并标出了他们每90分钟尝试的穿透性传球次数及其成功率。

位于右上象限的球员在这两个类别中的得分均高于平均水平。

仅纳入了在中后卫位置上出场时间至少达到900分钟的球员。

与力求打出向前传球的中后卫一样，对于后腰球员而言，具备将球推进至下一进攻阶段的能力至关重要。下图展示了被归类为防守型中场的球员的相关数据。

上赛季表现最为抢眼的球员之一是鲁斯兰·马利诺夫斯基，他于去年夏天从亨克转会至亚特兰大。

仅纳入在防守型中场位置出场时间至少达到900分钟的球员。

你能利用事件数据识别断线传球吗？

能够自动检测越位情况，将为视频分析师带来显著的工作流程优势，因为他们通常需要花费大量时间手动查找这些情况。

顺便提一下，鉴于国内赛事以外的追踪数据难以获取，作为本研究的一部分，我还尝试构建了一个模型，仅基于事件数据衍生的特征来预测一次传球是否属于“突破防线”的传球。

该模型的准确率为84%，AUC值为93%，这意味着在100个案例中，该模型有84次能够准确判断传球是否越线。

然而，鉴于所有传球中只有8%属于突破防线传球，因此标签分配的阈值至关重要。我最终选定了一个召回率为89%、精确率为32%的模型，这意味着该模型能正确识别出89%的突破性传球，但代价是将许多实际上并未突破防线的传球误判为突破性传球。考虑到在没有追踪数据的情况下，模型无法看到防守球员在球场上的位置，这种情况也在意料之中。

可能出现这些误判的情况是：当一支球队在低位防守时，持球方将球从本方防守三区传出，送至对方半场的一名中场球员脚下，但该球员的位置仍处于对方第一道防线之前。

虽然这并非完美无缺，但从工作流程的角度来看，它仍能减少视频中需要审查的镜头数量，从而加快处理速度。好消息是，根据分析师的偏好，可以调整阈值，从而实现更严格的分类。

坏消息是，如果你希望在不进行人工干预的情况下，对突破传球实现近乎完美的分类，你仍然需要使用跟踪数据。

我要感谢卡伦·辛格（Karun Singh），他阅读了本文的初稿并提供了宝贵的反馈意见。此外，还要感谢里卡多·塔瓦雷斯（Ricardo Tavares），以及Socceraction软件包的作者们——本文分别借助他们扩展的代码来生成球场可视化图并预处理数据。分析中所用的数据由比利时职业联赛提供，并Stats Perform采集。