马丁-伊斯特伍德(Martin Eastwood)在 2017 年 OptaPro 分析Forum上发布了一份海报,对其工作进行了书面分析,讨论了工作的基本流程、采用的方法、沿途遇到的挑战以及足球分析行业对其的评价。
在 Twitter 上关注马丁:@penaltyblog
导言
第 67 分钟,水晶宫主场 1-0 负于伯恩茅斯。安德罗斯-汤森(Andros Townsend)在禁区外得球,尽管他有队友可以传球,但他还是选择了射门。球飞向门将,水晶宫失去球权。
我们如何评价足球运动员在比赛中做出的决定?
这是我在今年的 OptaPro 分析Forum 上向自己提出的问题,而我最终确定的解决方案是使用机器学习。对于没有接触过机器学习的人来说,机器学习是一种人工智能,它能让计算机在没有明确编程的情况下学习。谷歌的自动驾驶汽车就是通过机器学习知道该往哪里开,Facebook 也是通过机器学习自动识别照片中朋友的面孔。
任务的第二部分是如何让足球队了解这些见解。机器学习是一门涉及大量复杂数学的高深学科,我如何才能将这一想法以一种与足球俱乐部相关的方式呈现给他们呢?
数据
工作伊始,我怀着解决足球问题的宏大愿景。谷歌最近使用一种名为深度学习的机器学习技术击败了棋盘游戏围棋的世界冠军,我想在这里应用同样的概念。不过,由于只有六周时间来完成所有分析并进行演示,我将自己的野心控制在了更现实的水平,并决定只专注于评估球队在禁区内外的进攻行动。
为此,我在提案中申请了Opta 球赛事件数据和 ChyronHego 跟踪数据。Opta 数据提供了比赛中发生的一系列球赛事件,而光学跟踪数据则每秒 25 次提供球场上所有球员的 XY 坐标。
确定好的决定
由于目的是评估足球运动员的决定,我需要一种方法来确定什么是好的决定,什么是坏的决定。在探讨了几种方案后,我最终决定研究球员的行为是否增加了球队得分的整体可能性。
为了计算进球的可能性,我根据射门球员的位置和所有对手球员的位置创建了一个神经网络。然后,我用一组神经网络从未见过的射门进行测试,检验神经网络预测进球的准确性。
遗憾的是,结果有些令人失望。神经网络需要大量数据来训练,而只有有限的比赛集来建立模型,因此没有足够的数据让网络完全收敛。我试着简化模型,只加入对方后卫和门将的位置,但效果并没有多大改善。
我需要帮助网络识别数据中的相关信息,因此我添加了一些额外的功能,包括玩家的 Voronoi 网格,而不是仅仅依赖原始的 XY 坐标。
Voronoi 网格是在每个棋手周围绘制的图形,它标出了与其他棋手相比更靠近该棋手的区域(见下图 1 中的示例)。
球员的 Voronoi 区域越大,他们周围的空间就越大,来自对手的压力就越小。这一额外的特征工程创造了奇迹,神经网络的准确性大大提高。

图 1:显示每个玩家周围空间大小的 Voronoi 网格示例
可解释性
虽然神经网络在很多方面都很出色,但其缺点之一是难以解释,因为它们本质上是黑盒子。你将数据输入一端,然后从另一端得到结果,但你并不真正知道网络是如何或为何得出这样的答案。
我希望能与足球队讨论结果,而根据经验,没有数学背景的人可能会对黑箱算法产生怀疑,因此我还创建了一个基于逻辑回归的更简单模型。
虽然回归的准确性比不上神经网络,但它创建了一组系数,可以用来帮助解释每个结果。例如,如果一名球员只有 5%的进球机会,我就可以向教练准确地说明有多少是因为球员在球场上的位置、他们朝向球门的角度、他们周围有多少防守球员、他们的 Voronoi 区域有多小,等等。
在我离开电脑对数据进行了几天的处理之后,我终于可以高兴地展示每个事件对球队得分可能性的影响,并解释为什么每个行动都会产生积极或消极的影响。
展示数据
我想展示的主要输出结果是球员的行为如何影响球队的进球机会,因此我创建了一个网络应用程序,实时显示跟踪数据的动画效果(更多详情,请参阅文章结尾)。
然后,我确定了哪支球队正在进攻,并叠加了持球球员在其当前位置得分的概率,以及该球员成功传球给一名队员并由其射门得分的概率。
图 2 显示了一个示例截图,其中持球球员如果从当前位置射门,只有 2% 的机会得分。同样的球员也有 7% 的机会成功传球给附近的队友,由他们射门得分。
如果您回看这个例子的视频,那么传球显然是更好的选择,但我们在这里还能得到一个额外的好处,那就是可以量化这个决定在进球方面到底有多好。
然后,您可以将这些决定汇总到一个更长的时间段内,以了解每个球员的决定对其团队的影响。

图 2:目标概率示例
上面的例子假定球员在进攻时通常希望直接射门或传球给队友,但事实并非总是如此。通常情况下,球员希望将球转移到空当处,让队友跑过来。为了考虑到这一点,我加入了累积得分机会百分比,也就是图 2 左下角显示的数值。
该指标将所有球员的个人百分比合并为一个数字,这样您就可以看到球队的移动和阵型对其整体得分可能性的影响是积极的还是消极的。在这里使用累计百分比并不严格准确,因为实际上只有一名球员有机会射门,但我发现它是球队整体进球威胁的有用代表,而且我向分析师们展示这个概念时,他们似乎都非常喜欢。
反馈意见
我有幸与一些职业球队的教练和分析师详细讨论了这项工作,他们的反馈非常积极。尤其是青年队教练,他们认为这款应用程序是教孩子们在特定情况下该怎么做的好方法,因为他们可以实时观察球员跑动、传球等过程中百分比的变化。
事实上,该应用程序的整个互动方面似乎都非常成功。与静态的图表或数字电子表格相比,能够观看球员跑动并了解这对球队得分机会的影响似乎更能吸引人们的注意力。在当天的整个活动过程中,人们络绎不绝地玩起了这款应用程序,并通过镜头来探索不同类型事件的影响。
下一步工作
在 OptaProForum 之前,我只有有限的时间来开发这款应用程序,因此有很多想法都没有机会实现。在我的待办事项清单中,有一项是研究是否可以翻转一下,量化防守而不仅仅是进攻,例如,研究防守方在引导进攻方到危险性较低的地点方面做得如何,以及他们是否突破了自己的防线等等。
我也很想尝试在视频上叠加数据。呈现数据的方式可能需要稍作调整,但如果用户能看到视频中的玩家,而不仅仅是我为动画绘制的简单二维图形,就有可能提高参与度。
终于...
我制作了一个快速视频,展示了进球概率以及其他一些可以添加到跟踪数据中的叠加数据,供想要了解该应用程序使用情况的人观看。