

Après avoir présenté un poster lors de l'édition 2017 de l'OptaPro Analytics Forum, Martin Eastwood fournit une analyse écrite de son travail, discutant des processus qui le sous-tendent, de l'approche adoptée, des défis rencontrés en cours de route et de la façon dont il a été reçu par l'industrie de l'analyse du football.
Suivez Martin sur Twitter : @penaltyblog
Introduction
Nous sommes à la 67e minute et Crystal Palace s'incline 1-0 à domicile face à l'AFC Bournemouth. Andros Townsend a le ballon à l'extérieur de la surface et choisit de tirer malgré la présence de coéquipiers plus proches du but à qui il pourrait faire une passe. Le ballon vole dans les mains du gardien et la possession du ballon est perdue.
Comment évaluer les décisions prises par les footballeurs pendant les matchs ?
C'est la question que je me suis posée pour l'OptaPro Analytics Forum cette année et la solution que j'ai retenue a été d'utiliser l'apprentissage automatique. Pour ceux d'entre vous qui n'ont jamais entendu parler de l'apprentissage automatique, il s'agit d'une forme d'intelligence artificielle qui donne aux ordinateurs la capacité d'apprendre sans être explicitement programmés. C'est grâce à l'apprentissage automatique que les voitures autonomes de Google savent où aller et que Facebook reconnaît automatiquement les visages de vos amis sur vos photos.
La deuxième partie de la tâche consistait à rendre ces connaissances accessibles aux équipes de football. L'apprentissage automatique est un sujet assez lourd qui fait appel à de nombreuses mathématiques complexes. Comment pouvais-je prendre cette idée et la présenter à un club de football d'une manière qui soit pertinente pour lui ?
Les données
J'ai commencé mon travail avec l'idée de résoudre le problème du football. Google a récemment utilisé une technique d'apprentissage automatique connue sous le nom de Deep Learning pour battre le champion du monde du jeu de société Go et je voulais appliquer les mêmes concepts ici. Cependant, comme je n'avais que six semaines pour réaliser toutes les analyses et préparer une présentation, j'ai ramené mes ambitions à un niveau plus réaliste et j'ai décidé de me concentrer uniquement sur l'évaluation des actions offensives des équipes à l'intérieur et autour de la surface de réparation.
Pour ce faire, j'ai demandé, dans le cadre de ma proposition, des données Opta sur les événements survenus sur le terrain et des données de suivi ChyronHego. Les données Opta fournissent un ensemble d'événements survenus sur la balle pendant le match, tandis que les données de suivi optique donnent les coordonnées XY de tous les joueurs sur le terrain 25 fois par seconde.
Identifier les bonnes décisions
L'objectif étant d'évaluer les décisions des footballeurs, il me fallait un moyen de déterminer les bonnes et les mauvaises décisions. Après avoir exploré plusieurs options, j'ai décidé de vérifier si les actions des joueurs augmentaient les chances de leur équipe de marquer.
Pour calculer cette probabilité de marquer, j'ai créé un réseau neuronal basé sur l'emplacement du joueur qui tire au but et sur l'emplacement de tous les joueurs adverses. J'ai ensuite vérifié la précision du réseau neuronal en le testant sur une série de tirs que le réseau n'avait jamais vus auparavant.
Malheureusement, les résultats ont été quelque peu décevants. Les réseaux neuronaux ont besoin de beaucoup de données pour s'entraîner et avec seulement un ensemble limité de matches pour construire le modèle, il n'y avait tout simplement pas assez de données pour que le réseau converge complètement. J'ai essayé de simplifier le modèle en n'incluant que les emplacements des défenseurs et du gardien de but de l'équipe adverse, mais cela n'a pas vraiment amélioré les choses.
J'avais besoin d'aider le réseau à identifier les informations pertinentes dans les données. J'ai donc ajouté un certain nombre de fonctions supplémentaires, notamment les tessellations de Voronoï des joueurs, plutôt que de me baser uniquement sur les coordonnées XY brutes.
Les tesselles de Voronoï sont des formes dessinées autour de chaque joueur, marquant la zone qui est plus proche du joueur que de n'importe quel autre joueur (voir l'exemple de la figure 1 ci-dessous).
Plus la zone de Voronoï d'un joueur est grande, plus l'espace dont il dispose autour de lui est important et moins la pression exercée par l'adversaire est forte. Cette fonctionnalité supplémentaire a fait des merveilles et la précision du réseau neuronal s'est considérablement améliorée.
Figure 1 : Exemple de tesselles de Voronoï montrant l'espace autour de chaque joueur
Interprétabilité
Bien que les réseaux neuronaux soient excellents dans de nombreux domaines, l'un de leurs inconvénients est qu'ils sont difficiles à interpréter, car ce sont essentiellement des boîtes noires. Vous introduisez vos données d'un côté et obtenez un résultat de l'autre, mais vous ne savez pas vraiment comment ou pourquoi le réseau est parvenu à la réponse qu'il a donnée.
Je voulais pouvoir discuter des résultats avec les équipes de football et, d'après mon expérience, il peut être difficile pour les personnes sans formation mathématique de faire confiance aux algorithmes de la boîte noire.
Bien que la précision de la régression n'ait pas atteint celle du réseau neuronal, elle a permis de créer un ensemble de coefficients pouvant être utilisés pour expliquer chaque résultat. Par exemple, si un joueur n'avait que 5 % de chances de marquer, je pouvais montrer à un entraîneur quelle part de ce pourcentage était due à l'emplacement du joueur sur le terrain, à son angle par rapport au but, au nombre de défenseurs autour de lui, à la taille de sa zone de Voronoï, etc.
Après avoir laissé mon ordinateur travailler sur les données pendant quelques jours, j'étais enfin en mesure de montrer l'impact de chaque événement sur la probabilité de score d'une équipe et d'expliquer pourquoi chaque action avait un effet positif ou négatif.
Présenter les données
Le principal résultat que je voulais présenter était la manière dont les actions des joueurs affectaient les chances de leur équipe de marquer un but. Pour ce faire, j'ai créé une application web qui animait les données de suivi en temps réel (voir la fin de l'article pour plus de détails).
J'ai ensuite identifié l'équipe qui attaquait et j'ai superposé la probabilité que le joueur avec le ballon marque depuis son emplacement actuel, ainsi que la probabilité que le joueur réussisse à faire une passe à un membre de l'équipe et que celui-ci tire et marque à sa place.
La figure 2 montre un exemple de capture d'écran où le joueur avec le ballon n'a que 2 % de chances de marquer s'il tire depuis son emplacement actuel. Ce même joueur a également 7 % de chances de réussir une passe à un coéquipier proche, qui tirera et marquera à sa place.
Si vous regardez la vidéo de cet exemple, la passe est clairement la meilleure option, mais nous avons ici l'avantage supplémentaire de pouvoir quantifier exactement à quel point cette décision est meilleure pour marquer un but.
Vous pouvez ensuite regrouper ces décisions sur une période plus longue pour voir comment les décisions de chaque joueur influent sur l'équipe.
Figure 2 : Exemples de probabilités d'objectifs
L'exemple ci-dessus suppose que les joueurs cherchent généralement à tirer ou à passer directement à un coéquipier lorsqu'ils attaquent, mais ce n'est pas toujours le cas. Souvent, les joueurs cherchent à faire circuler le ballon dans l'espace pour qu'un coéquipier puisse s'y engouffrer. Pour en tenir compte, j'ai ajouté le pourcentage cumulé de chances de marquer, qui est la valeur indiquée dans le coin inférieur gauche de la figure 2.
Cette mesure combine tous les pourcentages individuels des joueurs en un seul chiffre afin que vous puissiez voir si les mouvements et la forme de l'équipe ont un impact positif ou négatif sur la probabilité globale de marquer. L'utilisation d'un pourcentage cumulé n'est pas tout à fait exacte, car un seul de ces joueurs peut réellement tirer, mais j'ai trouvé qu'il s'agissait d'un indicateur utile de la menace de but globale d'une équipe et le concept a semblé très bien accepté par les analystes à qui j'ai montré cette mesure.
Retour d'information
J'ai eu la chance de pouvoir discuter en détail de ce travail avec un certain nombre d'entraîneurs et d'analystes d'équipes professionnelles et les réactions ont été extrêmement positives. Les entraîneurs des équipes de jeunes, en particulier, ont pensé que l'application serait un excellent moyen d'enseigner aux enfants ce qu'il faut faire dans des situations spécifiques, car ils pourraient voir les pourcentages changer en temps réel lorsque les joueurs font des courses, traversent le ballon, etc.
En fait, l'aspect interactif de l'application a été très bien accueilli. Plutôt qu'un graphique statique ou une feuille de calcul, le fait de pouvoir regarder les joueurs courir et de voir comment cela affecte les chances de leur équipe de marquer a vraiment semblé intéresser les gens et capter leur attention. Tout au long de la journée, il y a eu un flux constant de personnes jouant avec l'application et parcourant les séquences pour explorer les effets de différents types d'événements.
Prochaines étapes
Je n'ai eu que peu de temps pour développer l'application à temps pour le Forum OptaPro et il y avait tout un tas d'idées que je n'ai pas eu l'occasion de mettre en œuvre. L'un des points qui figurait en bonne place sur ma liste de choses à faire était de voir s'il était possible de quantifier la défense plutôt que l'attaque, par exemple en examinant dans quelle mesure les défenseurs parviennent à guider les attaquants vers des endroits moins dangereux, s'ils brisent leur ligne de défense, etc.
J'ai également voulu essayer de superposer les données à la vidéo. La manière dont les données sont présentées peut nécessiter quelques ajustements, mais le potentiel d'engagement est encore plus grand lorsque les utilisateurs peuvent voir les joueurs dans la vidéo plutôt que les simples graphiques bidimensionnels que j'ai dessinés pour les animations.
Enfin...
J'ai réalisé une vidéo rapide montrant les probabilités de but et certaines des autres superpositions que vous pouvez ajouter aux données de suivi ici, pour tous ceux qui veulent voir l'application en action.