俗话说,"数字不会说谎",对吗?事实证明,这句话并不完全正确,尤其是当这些数字在讲述一个与体育有关的故事时。
以 2014 年世界杯德国队和巴西队的比赛为例。虽然德国队赢得了比赛,但巴西队在总射门次数、射正次数、扑救次数、危险进攻次数和禁区内射门次数上都远远超过了德国队,而这些都是高获胜概率的典型指标。巴西队获胜的可能性似乎更大,因为这些数据缺少了一个关键要素:背景。
本场比赛故事的关键部分是在这些数字的背景下讲述的。STATS 设计了 "预期进球价值"(EGV),从更广阔的视角来看待场上发生的一切以及本场比赛最终结果的原因。通过查看最近几个足球赛季的近 10,000 次射门,并分析每次射门前的 10 秒钟,STATS 创建了一种算法,可以将大块数据(如总射门、扑救和传球)分解为特定背景的分类器。
通过这些分类器可以详细了解发生了什么。巴西队的总射门次数比德国队多,但德国队的后卫与巴西队射手的距离在哪里?射手在球场的哪个位置?是开放阵型还是反击阵型?所有这些因素都需要考虑在内,这样才能准确了解发生了什么。
EGV 不仅对了解已发生的事情有价值,还可用于确定未来比赛的更真实概率和球队的有效性。有了这些映射到集群中的背景化数据点,STATS 可以深入研究并创建阵型,以显著改进的方式为行为建模。我们的目标是找到形成性数据,从而了解球队在一段时间内的互动情况、一支球队在主场或客场比赛中最常用的阵型,以及 "主场优势 "是否真的存在(确实存在!)。
有了上下文和处理多层次数据点的算法,STATS 很自豪能够开发出一种更准确的预测球队成功与否的方法。您可以在这里阅读我们论文中有关 EGV 的更多信息,或在这里观看我们的网络研讨会。