

主要收获
- OptaPro 数据科学团队开发了一些方法,用于描述球员和球队在一局比赛中得分率和控制射门概率的变化情况。
- 在世界杯的开局击球手中,英格兰队的乔尼-巴斯托(Jonny Bairstow)和杰森-罗伊(Jason Roy)都在几局比赛后迅速提高了得分率,只有克里斯-盖尔(Chris Gayle)的得分率超过了他们。
- 在最后 10 局中,英格兰队的乔斯-巴特勒(Jos Buttler)比本届世界杯上的任何人都更早加速,在整个 41-50 局中,他的得分率稳步而持续地上升。
现在是 2019 年 2 月20日,西印度群岛队和英格兰队在巴巴多斯布里奇敦举行了首场单日国际赛(ODI)。英格兰队刚刚轻松地完成了 361 分的艰巨目标。计分卡上显示,乔-鲁特(Joe Root)96 球破百,克里斯-盖尔(Chris Gayle)100 球破百。
他们的最终得分是:乔-鲁特(Joe Root)102 分(97 球)。克里斯-盖尔(Chris Gayle)135 分(129 球)。
对于观察记分卡的普通板球迷来说,用来描述鲁特和盖尔的局数的动词可能看起来有点奇怪。要在记分卡上衡量一局比赛的速度,我们通常使用局打击率(每 100 球得分)。在这种情况下,两人的最终打击率都是 105。那么,为什么看过比赛的人会倾向于用不同的方式来描述他们的局数呢?让我们看看下面的100分局数进展,就知道原因何在了。
在这里,我们可以更好地了解他们的比赛是如何发展的。典型的方式是,鲁特是英格兰队的粘合剂,并以稳定的每球得分率达到 100 分。然而,盖尔走了一条不同的道路。他的第一个 50 分用了 76 球,第二个 50 分只用了 24 球。虽然这对盖尔来说是一个相当极端的例子,但他在开始时速度缓慢,然后换挡加速,这种情况并不罕见,其他球员很少能做到这一点。不过,在当天比赛结束时,记分卡上每位球员的击球率都非常相似。
了解局的进展情况
要想更好地了解某位击球手的表现,我们必须考虑在一局比赛中不断变化的衡量标准。OptaPro 的数据科学团队已经开发出根据球员在一局比赛中的指标变化来比较和评估球员表现的方法。
在 50 回合制板球比赛中,可以比较球员通常如何通过跑动率以及控制击球比例等措施来构建自己的局。我们可以利用这一点来比较球员和球队在构建局时所采取的方法。此外,我们还可以将其进一步扩展,不仅观察球员如何构建自己的局,还可以通过评估比赛某些时段的明星球员来观察。例如,在一局比赛的最后 10 局中,谁是最危险的球员?
如何量化局数进展
在本博客中,我们将集中讨论两个指标,用来模拟击球手在整局比赛中的表现变化:
- 每次交付的预测跑数: 我们考虑的是每次运送的跑动次数,而不是击球率。这是为了区分罢工率(通常考虑的是总的局得分率)和每次交付的预测跑数(纯粹是对局中特定交付的得分率的预测)。
- 预测控制击球概率:这个介于 0 和 1 之间的指标是预测击球手控制击球的概率。我们将受控击球定义为击球结果是击球手所期望的结果的击球,包括时机恰到好处的高抛击球和判断正确的外围离球。
我们的目标是为这些指标提供局中不同时段的近似值。
为了预测我们的指标,我们考虑在每次送球中设置一个移动窗口,考虑击球手在该窗口中面对的 ODI 板球比赛中的所有送球。例如,对于一局比赛中的第20次击球,我们可能会考虑两个窗口,从而查看击球手职业生涯中在一局比赛的第18次和第22次击球之间的所有击球。然后,我们利用这些数据对一局比赛的特定部分进行广义相加模型拟合,通过样条曲线实现平滑预测(更多详情请见文章末尾)。
英格兰队的开场组合
举个例子,让我们考虑一下自 2015 年世界杯以来,在此期间前 15 局中至少跑出 400 分的所有开局选手。我们考虑前 15 局,以确定开局击球手如何利用第一轮强攻(第 1-10 局),在这一轮强攻中,只允许两名外野手在内圈之外,然后过渡到第二轮强攻(第 11-15 局),在这一轮强攻中,允许四名球员在圈外。
以下是我们对英格兰世界杯开局组合乔尼-巴斯托(Jonny Bairstow)和杰森-罗伊(Jason Roy)(黄色)以及西印度群岛强力击球手克里斯-盖尔(Chris Gayle)(蓝色)每次击球的预测得分。所有其他线条(红色)为其余 ODI 开场球员。
该图显示了英格兰队的开局对阵双方在前 15 局的打法非常相似。他们往往从一开始的略快逐渐加速,直到第一轮强攻结束,边界上的外野手最多增加到四人时,才以略高于每球 1 分的速度持平。克里斯-盖尔(Chris Gayle)采用的方法略有不同。与英格兰队的开球手相比,他最初的两场比赛略显沉闷,但与其他所有开球手相比,他每场比赛的跑动都有显著增加。虽然这三位开球手都没有最快的开球速度,但到了第八局,他们的每球得分都稳居前三名。
现在,让我们来看看在同一击球手和同一局中的控制击球概率。在这里我们可以看到,与杰森-罗伊(Jason Roy)相比,乔尼-巴斯托(Jonny Bairstow)的控制击球率一直较高。这种控制加上高打击率,说明了为什么巴尔斯托在这个位置上(平均每局击球 50.41 次)比杰森-罗伊(平均每局击球 40.54 次)更成功。相比之下,克里斯-盖尔(Chris Gayle)在前 10 局更容易受到影响。不过,一旦进入 15 局,他的控球率就会超过平均水平,再加上他最高的跑动率,这就说明了为什么如果不及早摆脱他,他就能发挥巨大的破坏力。
乔斯-巴特勒
乔斯-巴特勒是本届世界杯最具破坏力的球员之一。只要看一眼他自 2015 年世界杯以来的数据,就不需要专家也能推断出这一点。他在一局比赛的最后 10 局中的打击率约为 175 次,本届世界杯上很少有人能与之相比。
让我们对这些数字进行更深入的挖掘。这些最后 10 场比赛的数据是否纯粹来自于持续的侵略性?还是巴特勒的转换能力无人能及?在这里,我们展示了自 2015 年世界杯以来,在最后 10 局中每局至少跑出 400 分的球员的预测得分率。
在最后 10 局的任何时候,都没有人接近巴特勒的每球得分预测。有趣的是,巴特勒的曲线相当线性。他的加速在第41局就已经开始,而且非常稳定,不像其他许多球员要等到第 44/45 局才开始加速。
结论
本博客中的示例强调了如何利用逐球数据来开发模型,以识别各种击球手原型,从克里斯-盖尔(Chris Gayle)等勇于冒险的开局手,到乔斯-巴特勒(Jos Buttler)等稳定的晚局攻击手。通过对球员表现进行更精细的分析,我们可以提取有关球员表现的更详细信息。例如,我们展示了乔斯-巴特勒(Jos Buttler)的持续侵略性而非晚局冲刺如何造就了他无与伦比的最后 10 局打击率。
这些方法可用于理解和可视化各种形式板球比赛中击球手的表现,而这仅仅是利用Opta 数据进行球员表现分析的开始。更多的机会包括使用我们详细的赛事数据,如击球类型和保龄球趋势,来补充跑动率和控制击球信息。
在下一篇博客中,我们将进一步介绍这些方法,展示如何通过对相似的跑动率和控制率进展进行聚类分析,根据他们的局数构成对相似球员进行分组,从而识别球员类型。这样,我们的方法就能用于识别相似球员,从而用于球队组成和球员考察。
*更多型号详情:
正如文章中所讨论的,我们利用移动窗口方法来构建数据,并对其进行模型拟合。
让我们以 ODI 最后 10 局为例。在本文的数据中,我们使用了一个大小为 2 的窗口,位于我们感兴趣的送球两侧,其中我们感兴趣的是 241-300 球。因此,对于第 241-300 球之间的每次击球,我们取每局比赛中 5 次击球的平均得分(最多 2 次击球+相关击球)。在许多情况下,一个窗口中的击球次数为 0,因此在该局比赛中没有该次击球的数据。这些数据点是在击球手参加的每一局比赛中收集的。
有了这些数据点之后,我们就可以在整个局数段内拟合一个广义相加模型(GAM)。这需要一个平滑函数来表示我们在各次交付中的所有跑动值,我们使用惩罚性基础样条来控制曲线的平滑度,以防止过度拟合。我们还可以构建置信区间,因为我们只是对局内的 5 个交付窗口取平均值,而不是跨局取平均值。为了防止预测边缘不稳定这一常见问题,我们在数据收集中加入了 5 次以上的缓冲区(如有可能)。例如,对于 41-50 局,我们将模型拟合到 36-50 局,但在预测分析中忽略 36-40 局。我们还忽略了最后窗口(本例中为 40.0-40.2 段和 49.4-49.6 段)中的预测结果,以减少边缘效应的影响,因为我们无法在相关区段之外纳入额外的预测结果。