Skip to Main Content

Identification de schémas dans les jeux de construction à l'aide de la classification

Par : Stats Perform

Kuba Michalczyk a présenté un poster lors de l'édition 2019 de l'OptaPro Analytics Forum, qui appliquait des techniques de clustering pour visualiser le jeu de construction de chaque équipe de Premier League au cours de la saison 2017/18.

Dans ce blog, il expose la méthodologie qui sous-tend sa présentation, ainsi qu'un résumé des principales conclusions.

Cliquez ici pour voir l'affiche de Kuba.

Introduction

Il y a de nombreuses années, Charles Reep, pionnier de l'analyse du football, est arrivé à la conclusion que les séquences de jeu courtes étaient plus efficaces. Cette interprétation erronée a coïncidé avec l'adoption d'approches similaires par de nombreuses équipes, dont plusieurs basées en Angleterre.

Toutefois, cette tendance semble s'être inversée ces dernières années, de plus en plus d'équipes cherchant à construire à partir de l'arrière. Cela exige des défenseurs et des gardiens de but qu'ils aient une meilleure qualité de passe et qu'ils soient fortement impliqués dans la phase initiale de la construction. Toutefois, cela comporte des risques supplémentaires, car chaque ballon perdu dans les zones défensives rend l'équipe vulnérable.

En identifiant les schémas sous-jacents dans la manière dont les adversaires cherchent à construire à partir de l'arrière, les entraîneurs peuvent obtenir une référence rapide qui montre leurs emplacements de passe préférés et leur style de jeu. Ces résultats peuvent étayer l'analyse tactique, de sorte qu'une équipe peut concevoir des stratégies pour arrêter les attaques d'un adversaire au stade initial ou, simplement par le positionnement de l'équipe, forcer un adversaire à jouer le ballon d'une manière non entraînée ou inefficace.

Par conséquent, pour mon projet OptaPro Forum , j'ai utilisé les données d'événements de la saison 2017/18 de la Premier League pour préparer un cadre qui me permettrait de découvrir tout modèle sous-jacent dans la façon dont chaque équipe construit à partir de l'arrière. Il s'agissait d'une analyse en deux étapes qui a utilisé l'analyse de cluster dans les deux parties.

L'analyse de grappes est une approche d'exploration de données qui permet de classer les observations dans un cadre non supervisé, c'est-à-dire sans aucune étiquette connue à l'avance. Les groupes formés à la suite d'un regroupement doivent contenir des observations similaires les unes aux autres, et les observations de groupes distincts ne doivent pas être similaires.

Partie 1 - Regroupement des passes initiales

Pour la première partie de l'analyse, ces observations étaient des passes initiales, définies comme des passes qui :

- a fait progresser le ballon de manière significative vers le haut du terrain (les passes dont l'angle mesuré par rapport à la ligne de but était inférieur à 15 degrés ont été exclues) ;

- avait un point de départ dans le tiers défensif ;

- ont été réalisés par des gardiens de but ou des défenseurs ;

- n'étaient pas des passes de tête ou des lancers de gardiens de but.

Il convient de souligner que cette définition présente plusieurs limites. Tout d'abord, les passes effectuées par les milieux défensifs, qui soutiennent souvent les défenseurs centraux lors d'une phase de construction, n'ont pas été prises en compte. Ceci est dû au fait que les positions détaillées étaient absentes de l'échantillon de données.

Une solution potentielle aurait été d'essayer d'estimer la position moyenne des événements relatifs à un joueur, mais une telle approche pourrait être affectée par les inconvénients de la moyenne - étant donné que les joueurs changent parfois de position au cours d'un match, la position moyenne qui en résulte pourrait être trompeuse. Par conséquent, aux fins de cette analyse, les passes effectuées par tous les milieux de terrain ont été exclues. Néanmoins, lors de l'analyse d'une équipe particulière, un analyste pourrait décider quels joueurs pourraient jouer en tant que milieu de terrain et les inclure dans l'ensemble de données d'entrée.

Une autre limite est le fait que cette analyse est basée sur les données d'une saison entière et ne tient donc pas compte des changements de managers ou de joueurs, qui peuvent affecter le style de jeu d'une équipe. Toutefois, le fait de disposer de données sur une saison complète permet d'effectuer une analyse cohérente pour chaque équipe et de garantir des échantillons de taille comparable.

Étant donné que l'algorithme choisi, qui sera examiné ultérieurement, nous permet de spécifier un nombre minimum de passes similaires nécessaires pour classer une passe dans un groupe, ce paramètre pourrait être réduit et l'analyse pourrait porter sur un nombre de matches nettement inférieur. Cela permettrait une analyse de l'opposition basée sur des matches plus récents ou des matches tenant compte de tout changement.

Cette définition a permis d'obtenir un ensemble de données sur les coordonnées spatiales des passes contenant en moyenne 1 527 passes par équipe, ce qui constitue les données d'entrée pour la première étape.

Avant de lancer les données dans un algorithme de regroupement, il est utile de savoir comment elles sont dispersées. L'analyse en composantes principales (ACP) est généralement utile à cet égard. L'ACP est une technique de réduction de la dimensionnalité et, en tant que telle, elle nous permet de représenter un passage par un seul point dans un espace bidimensionnel, en préservant autant que possible la variabilité de ses coordonnées d'origine (coordonnées x, y de départ et x, y de fin).

Un exemple de résultat de l'ACP, présentant les passes initiales effectuées par Manchester United, est présenté ci-dessous.

 

Figure 1 : Résultats de l'ACP pour les passes initiées par Manchester United. Plus la couleur est claire , plus il y a de passes dans la région.

 

Cette sortie nous permet d'observer sept régions denses - six régions circulaires plus petites à l'extérieur et une grande zone au milieu, toutes reliées par des points de connexion plus ou moins nombreux. Ces points de liaison rendent les données difficiles à séparer et donc à regrouper, en particulier avec des méthodes de regroupement basées sur l'optimisation telles que l'algorithme k-means, très connu.

Cependant, mon intuition concernant les grappes était différente des hypothèses de k-means. Comme je voulais détecter des motifs répétitifs, mon objectif était d'attraper des régions denses, en ignorant éventuellement les points de passage et toute autre forme de bruit. C'est pourquoi j'ai utilisé l'algorithme DBSCAN (density-based spatial clustering on applications with noise). Le bruit peut être interprété comme des passes qui n'ont pas été faites dans des conditions normales d'accumulation, par exemple, sous pression, hors position, etc. Selon l'équipe, 53 à 80 % des passes ont été classées comme bruyantes, ce qui nous a permis de ne conserver que des schémas de jeu significatifs.

Un autre choix essentiel qui s'imposait était celui d'une forme de mesure de dissimilarité. Mon objectif premier étant d'établir la direction du jeu, la progression des passes étant une préoccupation secondaire, j'ai décidé de donner plus de poids à la coordonnée y. La raison de ce choix est que je m'intéresse davantage à la direction des passes par rapport à la largeur du terrain qu'à sa longueur. La raison de ce choix est que je me soucie davantage de la direction des passes par rapport à la largeur du terrain que par rapport à sa longueur.

 

 

La figure 2 montre des médioïdes de passes pour chaque équipe de Premier League. Les médoïdes sont les représentants des groupes qui sont les plus similaires à toutes les autres passes au sein d'un groupe. On constate que certaines équipes évitent les passes vers le milieu de terrain central et préfèrent distribuer le ballon en largeur (comme Bournemouth) ou en longueur (West Brom), tandis que, sans surprise, Manchester City joue beaucoup de passes courtes et centrales. Un autre exemple intéressant est celui de Leicester City, avec des ballons en diagonale dirigés vers la ligne médiane, un type de passe qui n'apparaît dans aucune autre équipe.

On peut également trouver des similitudes entre Huddersfield Town et Liverpool, bien que les Terriers n'aient pas joué les passes courtes et centrales, mais plutôt les longs ballons.

La figure 2 peut également être utilisée pour analyser l'implication des joueurs dans la construction du jeu en fonction de leur position. Par exemple, l'arrière gauche de Crystal Palace est probablement beaucoup plus impliqué dans le jeu de préparation que l'arrière droit. Toutefois, une telle conclusion doit être contre-vérifiée par l'homogénéité des grappes.

Nous allons maintenant nous intéresser à Arsenal. En regardant la figure 2, on pourrait être tenté de conclure qu'Arsenal a initié ses mouvements beaucoup plus souvent sur le côté droit que sur le côté gauche.

Le graphique ci-dessous présente la structure complète des grappes d'Arsenal, les médianes des grappes étant marquées en bleu foncé. La différence réelle n'est pas si évidente, car il y a deux groupes homogènes à gauche, alors qu'à droite, un seul groupe a été formé avec une structure plus hétérogène. Ce graphique nous aide donc à prendre en compte les variations à l'intérieur des grappes, tout en établissant la direction préférée d'Arsenal en matière de construction.

 

 

Partie 2 - Actions subséquentes modales

Dans la deuxième partie de mon analyse, j'ai voulu répondre à cette question : À quoi ressemblent les accumulations les plus fréquentes lorsqu'elles commencent dans un groupe de passes initiales particulier ?

À cette fin, j'ai pris toutes les séquences de jeu qui commençaient dans un groupe particulier et je les ai regroupées en utilisant la propagation d'affinités combinée à une mesure de similarité appropriée pour les données de séries temporelles - la déformation dynamique du temps (DTW). Cette mesure permet d'identifier les chemins qui ont une forme similaire.

Avant de calculer la distance entre deux séquences, DTW tente d'aligner une séquence pour qu'elle ressemble le plus possible à la référence. Les différences de vitesse et de nombre de passages au sein d'une séquence sont donc ignorées, tant que les trajectoires globales sont similaires.

Cependant, une séquence peut contenir quelques passes initiales (telles que définies dans la partie 1). Par conséquent, pour éviter que certaines parties d'une séquence soient prises en compte deux fois, les séquences ont été divisées en deux sous-séquences si le ballon revenait dans le tiers défensif. Par conséquent, une proportion considérable de sous-séquences n'étaient que des échanges de deux passes, le ballon étant joué d'un défenseur à l'autre, ce qui n'est pas suffisamment instructif. Cependant, une sous-séquence à deux passes peut toujours être intéressante si le ballon a été joué longtemps.

C'est pourquoi toutes les séquences qui n'ont pas franchi la ligne médiane ont été supprimées. Comme je me suis surtout intéressé à la façon dont les équipes construisent à partir de l'arrière et non à la façon dont elles attaquent, les sous-séquences ont été supprimées si le ballon entrait dans le dernier tiers. Ceci afin d'éviter de faire correspondre des sous-séquences en utilisant des informations qui ne sont pas pertinentes dans ce contexte.

Enfin, toutes les sous-séquences composées de passes initiales infructueuses ont été supprimées, car elles ont déjà été classées lors de la première étape.

 

 

Figure 4 : Exemple de résultat de l'étape 2 - les trois premiers modes de construction après une passe initiée par le groupe 1. Une ligne en pointillé indique que le ballon est porté. Une ligne continue indique une passe. La couleur indique l'ordre de la séquence, du bleu foncé au bleu clair. La largeur est mesurée comme la différence horizontale maximale en mètres au sein de la séquence. La largeur absolue est mesurée comme une distance maximale en mètres à partir d'une ligne verticale centrale dans la séquence. Le caractère direct est mesuré comme la différence nette de distance par rapport à la ligne de but de l'adversaire, divisée par la distance totale parcourue par le ballon au cours de la séquence.

La figure 4 présente les trois combinaisons les plus fréquentes d'Arsenal pour une passe initiale du groupe 1. Bien que ces résultats soient probablement à prendre avec des pincettes en raison de la petite taille de l'échantillon, les groupes présentés peuvent parfois nous informer, par exemple, sur les passes initiales qui tendent à activer une attaque directe sur le flanc, ou un jeu de construction plus long au milieu.

Conclusions

Les réactions que j'ai reçues lors du Forum ont été extrêmement positives. Les analystes de clubs ont particulièrement apprécié la capacité à repérer les différences entre les équipes et à détecter les points faibles potentiels. La détection de ces points d'intérêt a été rendue possible en ne se concentrant pas sur la perspective de la ligue, mais plutôt en analysant les données au niveau de l'équipe.

Une chose qui pourrait être développée davantage est une mesure statistique qui permettrait d'évaluer formellement la qualité du regroupement. J'ai passé pas mal de temps à étudier les différentes techniques de validation des regroupements, mais aucune d'entre elles ne m'a semblé appropriée d'un point de vue footballistique.

Par conséquent, toutes les grappes ont été validées visuellement et les paramètres DBSCAN ont été choisis de manière à ce que les grappes soient stables dans les valeurs voisines. L'existence d'une statistique de validation des grappes permettrait non seulement de réduire les biais humains, mais aussi d'automatiser le processus.

L'application

Si vous êtes intéressé par les résultats d'une équipe en particulier, jetez un coup d'œil à la ShinyApp qui l'accompagne.

Par ailleurs, n'hésitez pas à me faire part de vos réflexions sur Twitter, que ce soit publiquement ou par messagerie directe.