跳至主要内容

跨境计数

由Stats Perform

本文是 Ben Torvaney 2018 OptaPro 分析Forum的书面版本,该论坛旨在为联赛和年龄对球员产出的影响提供一个统一的模型。点击此处阅读本的初次提交。

在这个项目中,本的分析师导师是亚特兰大联队的技术招聘和分析主管露西-拉什顿(Lucy Rushton)。

欲了解有关在 2019 OptaPro AnalyticsForum 上提交演讲提案的更多信息,请单击此处

在 2018 年的 OptaPro 论坛上,我介绍了一个简单、可扩展的模型,用于估算联赛和年龄对球员在各种指标上的产出的影响。在此过程中,我们还估算了球员的个人表现。虽然这里只适用于联赛和年龄,但该模型可以很容易地扩展到球员产出的其他因素,如位置和对手。

每个人都希望降低转会风险。这种风险的部分原因在于从一个比赛环境向另一个比赛环境转移技能的不确定性。我们永远无法确定 X 队的球员在 Y 队会有多好的表现。但是,如果我们能设法消除其中的一些影响呢?也就是说,如果我们能把它们放到同一个量表上呢?

让我们从进球开始。毕竟,这是唯一重要的数据。球员在不同联赛之间转会,因此我们可以看看每个球员的进球率在他们从一个联赛转到另一个联赛时的变化情况。通过大量的比较,我们可以了解每个联赛对进球数的影响。

这些结果大致符合直觉和公认的智慧;不过,它们具有量化的优势。我发现,在选定的欧洲顶级联赛中,英超联赛是最难进球的联赛,而且在过去几年中,英超联赛变得越来越难进球。据估计,英超球员的进球率约为意甲或西甲的 80%。换句话说,如果一名球员在英超联赛中每 90 分钟进球 0.5 个(每隔一场比赛进一个球),那么我们预计他们在意甲联赛中每 90 分钟进球接近 0.6 个。同样,我发现进球高峰出现在 23 岁至 29 岁左右,进球率估计比 20 岁左右或 30 岁左右的同等球员高出 10-15% 左右。

这种模式是什么样的?

涉及给定时间内事件数量的变量通常使用泊松分布建模。这很有用,我们也可以把进球数看作近似泊松分布。简单地说,泊松分布告诉我们,在给定速率参数(该时间段内事件的平均数量)的情况下,我们在设定时间段内看到 X 个事件的可能性有多大。

我们可以利用这一点建立一个模型,以实现将球员技能与外部影响分开的最初目标。我们只需将每名球员的进球率(每 90 分钟出场时间的进球数)建模为这些不同因素的乘积:

 比率 = 球员技能 * 年龄效应 * 联盟效应

然后,我们根据数据对这些参数进行估算。在本例中,我们根据 2006/07 年至 2017/18 年(含)欧洲顶级联赛的一组进球数和每位球员的出场时间进行估算。

为了使问题更加具体,让我们举个例子。如果我们要进行预测,只需取这些参数的乘积即可。因此,要估算皮埃尔-埃梅里克-奥巴梅扬在 2018/19 赛季的进球数,我们只需将 "球员技能估算值"(0.53)、联赛估算值(0.84)和 29 岁时的年龄效应估算值(1.08)相乘即可。这样,每 90 分钟比赛的进球率估计约为 0.48 个。

年龄

波段显示每个年龄段 95% 的可信区间,暗线为中位数。区间越宽,模型越不确定。

每个年龄参数都是独立估算的。模型中没有任何东西会强制形成未倒置的 U 形;您所看到的漂亮、简洁的曲线完全来自数据。虽然很容易想到一些例外情况,但数据是明确的:进球的高峰年龄大约在 23 至 29 岁之间。

此外,在 20 岁左右也会出现一个很小但很重要的峰值。我对造成这一现象的原因有一些想法。平均而言,替补球员的得分率高于首发球员。这有几个原因,最有可能的是与疲惫的对手比赛的优势,以及比分效应(输球球队的得分率高于平局球队)和战术效应。我怀疑这可能是高峰期的原因,因为年轻球员经常作为替补上场,更有可能担任进攻角色。不过,这也可能是数据收集的噪音或其他怪异现象,或者是战术因素。

该图显示了不同联赛对进球数的相对影响随时间的变化。数值越小,表示球员在该联赛中的进球数相对其他联赛越少。

这些数据表明,随着时间的推移,英超联赛越来越难进球,而法甲和葡甲联赛则越来越容易进球。

值得注意的是,这并不一定意味着这些联赛比英超联赛差。一个联赛的进球难度既是联赛质量的产物,也是比赛风格的产物。也就是说,每场比赛的平均进球数。

例如,在此期间,德甲联赛平均每场比赛进球数超过 3 个,但仍处于排行榜的中游位置。这是因为它是一个拥有大量高水平球员和球队的联赛。与此同时,葡萄牙顶级联赛的平均进球数约为每场 2 球。然而,由于联赛实力相对较强,葡萄牙球员的场均进球数仍然高于其他联赛。

球员

这份最佳球员名单似乎与直觉大致吻合,前两名球员的排名都是正确的(而且顺序也是正确的)。有趣的是,如果按照中位数而不是下限排序(如图所示),加布里埃尔-热苏斯排在第四位(约 0.8)。然而,由于他的年龄和较少的比赛场次(至少在欧洲),他的真实进球能力的不确定性要比哈里-凯恩等人高得多。

我们还可以看到,在这份名单中,有很多球员在职业生涯后期还在继续得分。关于这一点,我将在讨论其他统计数据时再做详细论述。

其他统计数据?

当然,足球的魅力远不止于进球。足球统计也不仅仅只有进球数。我们可以将比较不同年龄段和不同赛事进球率的逻辑应用到其他指标上。我选择了射门、关键传球(射门前的传球,有时被称为射门助攻)、最后三秒传球和完成接球。

这些数据来自与进球数据略有不同的数据集。OptaPro 提供了 2013/14 年至 2016/17 年(含)英超联赛、西甲联赛、埃甲联赛和英冠联赛的 F9 数据(汇总统计数据)。

同样,这似乎也符合我们的直觉。我们熟悉看到球员在职业生涯末期进入更深的位置。与此同时,接发球在很大程度上是年轻球员的游戏。

有趣的是,未遂外卖率的下降速度并没有完成外卖率的下降速度快。换句话说,随着年龄的增长,接球完成率也在增加。这可能证明,随着球员年龄的增长,他们的选择性越来越强,决策能力也有所提高。

与进球数一样,上述影响也是联赛人才水平和联赛风格的综合结果。射门指标与联赛质量的关系似乎比最后三秒传球和带球更密切。

与纯进球模型相比,这里有更多令人惊讶的名字。不过,我认为这可以用年龄曲线和更有限的时间数据来解释。例如,模型只在韦斯-胡拉汉职业生涯相对较晚的阶段 "看到 "了他。因为相对于其他年龄相仿的球员,他的数据非常高,所以模型假定他在巅峰时期是世界级的。

扩展模型

该模型的核心是乘法公式,只需添加额外的估算因素,就能简单地扩展模型。其中一个特别有用的方面是考虑比赛中的影响。例如,比赛时间和比分。我们知道,球队往往在比赛末段和输球时得分率较高。考虑到这一点有助于提高年龄和球员个人估计的准确性。

另一个需要改进的方面是个性化年龄曲线。换句话说,把在职业生涯中比普通球员表现得更早或更晚的能力视为与进球(或射门、传球等)不同的技能。这可能会减轻我们之前看到的顶级球员名单中存在的一些年龄偏差。

查看本演讲的幻灯片

在 Twitter 上关注 Ben (@Torvaney)