主要收获
- 我们展示了如何利用对局数进展的聚类分析,将具有相似击球类型的球员分组,例如低风险球员,他们在局末跑动率的提高超过了平均节奏。
-英格兰队的中场(3-5 号位) 与澳大利亚相比,       跑动率和控制率预测更高.
- 在 ODI 最后 10 局比赛中,我们的算法将英格兰队的乔斯-巴特勒(Jos Buttler)单独归为得分率无比高的一组,同时也将澳大利亚队的格伦-麦克斯韦尔(Glenn Maxwell)归为下一组最危险的球员。
在世界杯冠军澳大利亚队准备迎战东道主英格兰队之际,我们采用了 OptaPro 的两项新的高级指标,以突出双方在击球方法上的差异。
在上一篇博客中,我们介绍了基于跑动率和控制率预测的球员发球局进展建模。这些方法提供了一种精细可视化比赛数据的方法,使我们能够提取有关球员表现的更详细信息。利用这些方法的下一步是使用我们的模型输出来识别类似的球员原型,这可用于了解球队的组成。
将相似的击球手类型分组
简单回顾一下,我们在上一篇博客中定义的指标是
每次交付的预测跑数:我们考虑的是每次运送的跑动数,而不是打击率。这是为了区分三振出局率(通常考虑的是总的局得分率)和每次交付的预测得分率(纯粹是对局中面对的特定交付的得分率的预测)。
预测控制击球概率:这是击球手控制击球的概率。我们将受控击球定义为击球结果符合击球手预期结果的击球,包括时机恰到好处的高抛球和判断正确的外围离球。
利用这些指标,我们可以根据球员成绩的相似性将他们分到不同的组别。例如,我们可以将每次跑动次数进展相似或控制率进展相似的球员分组。我们还可以将这些指标结合起来,将跑动和控制率发展相似的球员分组。例如,我们可以使用这一工具来识别那些在晚局跑动率的增加超过平均节奏的低风险球员。
为此,我们使用了聚类算法。其基本思想是,我们根据曲线在相关时间段内的距离对它们进行分组。通常情况下,相互距离较近的曲线很可能会被归入同一组。有关该算法的更多详情,请参阅本博客末尾。
比较英格兰和澳大利亚的机房
在本届世界杯上,英格兰队与其他许多球队的主要区别之一是他们在整个击球阵容中始终保持攻击性,尤其是在他们的 "引擎室"(3-5 号位)。
为了探索英格兰队和澳大利亚队的主力机房球员是如何构建他们的局数的,我们将他们的每次击球得分和控制击球概率与 2019 年世界杯其他所有球队的相同位置的击球手进行了建模。
为了识别击球手的原型,我们使用聚类算法同时根据球员的控球率和跑动率对他们进行分组。我们可以观察到每个组的独特特征,这里我们随意选择了组的数量(六个),还可以增加组的数量,以获得更多描述性聚类。
下图代表六组机房球员,显示了他们的预测跑动率和控制率,澳大利亚和英格兰的球员分别以金色和蓝色标出。白色虚线代表所有球员的平均表现。
本分析中的每个组别都有其独特的特征。第五组和第六组是在跑动累积方面最为谨慎的两个组别,但控制率分别相对较低和较高。需要注意的是,澳大利亚队和英格兰队的球员都没有出现在这个组别中,这说明两队的机房始终保持着积极主动的态度。
第三组和第四组的情况有些相似,但第三组的跑垒率一直较高,这与第四组的初始控制率较低有关,不过在面对 50 次交付时,第三组的控制率有所提高,与第四组的控制率相当。最后,第一组和第二组是大热门。
有趣的是,英格兰队和澳大利亚队的机房运作方式有异曲同工之妙。鲁特和摩根分别与史密斯和卡瓦贾搭档三号位和四号位。他们的运作方式非常相似,但英格兰队击球成功的关键在于每对搭档的跑动率和控制率始终较高。例如,自 2015 年世界杯以来,乔-鲁特的跑动率和控制率一直较高,平均每次被解雇的击球次数为 60.39 次,打击率为 91.80;相比之下,史蒂夫-史密斯的平均每次被解雇的击球次数为 43.36 次,打击率为 84.59。通过我们的算法将他们相似的方法分组观察,很明显他们都是每支球队的粘合剂,都有稳定的跑动积累和较高的控球率,但鲁特在这两方面的表现略微更加稳定。
同样,我们也可以观察到大击球手(第一组和第二组)的差异。在这里,我们可以看到与哈迪克-潘迪亚(Hardik Pandya)同组的麦克斯韦尔(Maxwell)的击球率一直很高。布特勒需要更多的时间来启动,但他的加速度比马克斯韦尔要大。此外,与马克斯韦尔相比,巴特勒在前 50 次击球中的控制率预测值更高,而马克斯韦尔在整局比赛中的控制概率稳步下降,但跑动率却没有增加。
最后 10 个以上玩家组
我们如何利用聚类来区分球员类型并了解球队实力的另一个例子是,根据击球手最后 10 场比赛的表现对他们进行分组,我们在上一篇博客中分析了这一指标,在本例中,分组完全基于每场比赛的得分。
这一分组将自 2015 年世界杯以来至少获得 400 ODI 跑分的球员分组,这些球员在一局比赛的最后 10 局累积跑分的方法相似。突出显示的是来自英格兰、澳大利亚和印度的一些关键球员。
首先,让我们观察第三组,其中包括英格兰队的本-斯托克斯(Ben Stokes)。虽然在第 41-46 局开始时每球得分率较高,但与其他组别相比,该组在最后四局的得分率出现了大幅下降。在这一阶段,这些球员的跑动速度似乎达到了极限,大约为每球 1.00-1.25 分。这仍然是一个非常快的得分率,但他们似乎并没有持续地打出额外的表现,将每球得分提升到 1.50 分以上。本-斯托克斯(Ben Stokes)的每球得分率甚至出现了下降,这可能是由于试图击球过高所致。这可能是英格兰队在收官阶段的一个弱点,但对于数据点较少的球员来说,在局末的预测可能并不确定,斯托克斯就是一个典型的例子。本博文末尾将对此进行进一步讨论。
算法还将巴特勒单独分组。正如上一篇博客所讨论的,他在最后 10 局的加速在这组球员中是无与伦比的。因此,聚类算法认为他的曲线是独一无二的,没有同类。不过,其余两组显示了球员之间一些有趣的比较。
一方面,第二组和第四组在最后 10 局的加速模式有些相似。事实上,只要稍加留意,就不会发现它们之间有什么大的区别,因为两组在 50 局时的每球得分预测值都差不多,都在 1.25-2.00 左右。然而,这几组之间的关键区别在于得分率的提升。
第二组包括英格兰队的莫恩-阿里(Moeen Ali)、印度队的维拉特-科利(Virat Kohli)和澳大利亚队的格伦-麦克斯韦尔(Glenn Maxwell),他们在第 45 局的得分已经超过了平均预测值。在最后 10 局中,他们往往会提早加速,但又保持稳定。然而,第四组的印度球员 MS Dhoni 等人往往会推迟这种加速。因此,尽管第四组球员在第 50 局时的跑动率往往会上升到一个非常可观的水平,但他们的加速比第二组球员更深入。
结论
本博客中的两个例子展示了根据跑动率和控制率对球员进行分组以了解球队和球员实力的各种方法。
将本届世界杯上的发动机室球员按其个人局数组成进行分组,就能清楚地看到英格兰队为何能始终保持其他球队无法比拟的得分率。与澳大利亚队相比,英格兰队的中单球员在得分率和控制率方面都表现出色。
此外,我们还可以看到为什么英格兰队在一局比赛的最后 10 局中如此强大,因为他们的击球顺序中包含了极具破坏力的后排球员,他们在这一局中往往比大多数人更早加速。
这些例子仅仅是对跑动率和控制率建模以及聚类算法如何识别球员原型的初步了解。我们观察到了国际球员在国际直接对话比赛中的特定类别,但我们的模型和方法还适用于大量其他各种国际和国内比赛。
*更多型号详情:
为了对相似曲线进行分组,我们使用了欧氏距离完全链接层次聚类。我们聚类所依据的特征是每次交付时的预测 GAM 值,因此在 50 次交付中,每个球员将有 50 个特征。通过查看交付的子集来比较曲线,可以减少这种情况。虽然在根据单一指标进行聚类时,我们不会对特征进行归一化处理,但当我们根据球员的跑动率和控制率进行聚类时,就需要对不同指标进行归一化处理。
就不确定性而言,我们还可以估算出运行率和控制率的相应置信区间,以了解我们对每次交付平均运行次数预测的不确定性。这只是一个粗略的指导,因为使用我们的方法进行稳健区间估计所需的一个主要假设不成立(高斯响应变量),但它确实可以让我们了解我们的结果在哪些方面不太确定。我们还可以考虑预测区间,但由于单次运行的变异性较大,这些区间往往较宽且信息量不大。下面我们展示了本-斯托克斯(Ben Stokes)的 95% 置信区间,以说明在我们的模型输出不确定性较大的一段期间,他的每次交付跑动估计值是如何下降的,因此这很可能是斯托克斯在这段时间内缺乏数据的一个假象。
值得注意的是,这些置信区间最有可能在一局比赛的两端增大,因为此时击球手面对击球的机会较少。这也是我们选择在这一阶段以 400 分为分界点绘制曲线图的原因。这个截断值可以减小,但需要注意模型拟合中使用的样条数和平滑度参数值。在英格兰对阵澳大利亚的中阶图中,输出的不确定性问题较小,因为我们查看的是单个球员的发球局,而不是一个球队的发球局。


