Skip to Main Content

Quel est l'impact des passes en rupture de ligne ?

 

Dans un blog invité pour Stats Perform, le data scientist Kuba Michalczyk présente les résultats d'un projet de recherche qui utilise des données de suivi pour déterminer si les passes en rupture de ligne augmentent la probabilité de marquer un but.

 

Par : Stats Perform

Pour la deuxième année consécutive, Kuba Michalczyk a vu sa proposition présélectionnée pour être présentée au Forum OptaPro 2020.

Le projet Forum Kuba a utilisé les données de suivi de 2018/19, fournies par la Pro League belge, pour identifier et évaluer les passes de rupture de ligne, auxquelles une valeur a ensuite été attribuée selon que la passe augmentait la probabilité de marquer un but ou, à l'autre extrémité de l'échelle, augmentait le risque d'un turnover.

Dans ce blog, il présente la méthodologie de son projet, ainsi qu'un résumé des principales conclusions.

Introduction

Les passes de rupture de ligne font l'objet de nombreuses discussions parmi les analystes, les entraîneurs et les experts du football. En disséquant une ligne de la formation adverse, elles permettent généralement à une équipe de passer d'une phase d'attaque à une autre.

Par conséquent, la capacité d'un joueur à effectuer une bonne passe de rupture de ligne est très appréciée. Alors que certaines stats existantes, comme le packing ou les passes progressives, peuvent parfois servir de proxy, j'ai appliqué les données de suivi de Stats Perform , tirées de la Pro League belge 2018/19, dans le but de créer une nouvelle méthode pour mesurer directement la valeur de ces passes.

Définition d'une passe de rupture de ligne

Le point de départ de cette recherche était d'établir une approche fiable pour détecter les lignes de formation, en tenant compte du fait que chaque joueur peut passer d'une ligne de formation à une autre en raison de ses mouvements.

Une façon naturelle de regrouper les joueurs en lignes est d'appliquer un algorithme de regroupement sur la coordonnée x du terrain (la coordonnée de la ligne de touche). Après avoir testé plusieurs algorithmes de regroupement, j'ai finalement opté pour l'un des plus simples - une optimisation des pauses naturelles de Jenks - avec trois groupes formés de joueurs de champ (les gardiens de but formant alors un quatrième groupe). Cet algorithme est une technique efficace et très compréhensible pour réduire le volume d'écart par rapport à la moyenne du groupe.

Pour éviter le passage immédiat d'une ligne à l'autre, la moyenne de la coordonnée x a été calculée sur une fenêtre temporelle de deux secondes. En outre, les regroupements qui ont duré moins d'une seconde ont été supprimés et réaffectés à la ligne précédente.

L'adoption d'un nombre fixe de groupes n'est peut-être pas l'approche optimale pour analyser d'autres domaines du football, mais je l'ai trouvée acceptable pour rechercher les passes qui brisent les lignes, car c'est la plupart du temps ainsi qu'une équipe défensive est normalement constituée. En outre, le fait d'autoriser un nombre variable de groupes conduirait probablement à des groupes composés d'un joueur qui ne forme pas vraiment une ligne, mais qui ne peut pas être ignoré car son positionnement peut être crucial pour le dispositif défensif.

Figure 1. Exemple de détection d'une ligne de formation à l'aide d'un regroupement 1-D

 

Aux fins de la présente analyse, une passe brisant une ligne est définie comme une passe qui non seulement coupe au moins une des lignes d'opposition au sens géométrique, mais aussi.. :

- Fait progresser le ballon vers l'avant sur au moins 10 mètres ;

- a un point de départ éloigné d'au moins cinq mètres du point d'intersection ;

- A un point d'arrivée situé à au moins deux mètres au-delà du joueur le plus profondément assis dans la ligne.

Cette définition élimine ces obstacles :

- Ils brisent les lignes dans un sens géométrique, mais il est peu probable qu'ils entraînent une transition vers la phase d'attaque suivante ;

- sont extrêmement faciles à réaliser, en raison de leur proximité avec la ligne qu'ils pénètrent.

La définition signifie également que le destinataire d'une passe n'est pas soumis à la pression exercée par un joueur de l'équipe adverse qui faisait partie de la ligne brisée.

Toutes les passes en jeu libre ont été prises en compte dans l'analyse, mais comme les coordonnées Z (hauteur du ballon) ne faisaient pas partie de l'échantillon de données, les résultats ne tiennent pas compte du fait qu'une passe a été jouée par-dessus ou le long du sol.

Une dernière considération avant de passer au modèle lui-même concerne les défis que pose la définition d'une passe interceptée. Comme les coordonnées finales d'une interception pointent vers l'endroit du terrain où l'interception a lieu, nous ne pouvons pas nous appuyer sur elles pour déterminer si une passe était censée rompre la ligne ou non.

Cependant, étant donné que nous disposons d'informations sur l'angle de la passe et la limite inférieure de la longueur d'une passe, nous pouvons essayer de déduire la destination finale prévue d'une passe. Pour ce faire, nous appliquons le modèle de survie de Weibull, qui est une technique spécifiquement adaptée au traitement des données à limite inférieure, afin d'estimer la longueur supplémentaire attendue d'une passe à partir du point d'interception. De cette façon, même si une passe a été interceptée, mais que sa destination prévue l'a classée comme une passe de rupture de ligne, nous pouvons toujours la marquer comme une passe de rupture de ligne non réussie.

Établissement d'un modèle pour attribuer une valeur aux réussites

L'objectif initial de ce projet était d'essayer de quantifier la valeur des différentes passes de rupture de ligne par rapport à celles qui ne le sont pas, en comparant des passes ayant des caractéristiques spatiales similaires.

Idéalement, un modèle de valeur de possession attendue (VPA), tenant compte de l'abondance des données de suivi disponibles, aurait été utilisé. Malheureusement, l'élaboration d'un modèle de VPE fiable, basé sur les données de suivi, est complexe et nécessiterait un temps disproportionné par rapport aux avantages de l'objectif final.

À l'autre extrémité de l'échelle, un modèle de buts escomptés sans tir, attribuant des valeurs aux événements provenant des zones les plus profondes du terrain, était probablement trop rigide pour la tâche. J'ai donc opté pour un modèle de valeur de possession attendue similaire à un cadre VAEP, dans lequel les données d'événements sont améliorées par les caractéristiques suivantes extraites des données de suivi :

  1. L'"angle de vue" maximum, qui est défini comme l'angle maximum créé par le ballon et deux joueurs adjacents à partir de la première ligne d'opposition en face d'un joueur avec le ballon ;

    Figure 2 : Exemple d'un "angle de vue" montrant la zone où un joueur en possession du ballon peut passer entre deux joueurs de l'équipe adverse au sein d'une ligne de défense. L'angle entre le joueur un, le ballon et le joueur deux, marqué en alpha, est l'angle maximum dans ce scénario. L'angle entre le joueur trois, le ballon et le joueur quatre est négatif et n'est donc pas pris en compte dans le calcul de "l'intégrité de la ligne" définie au point 3 ci-dessous.

  2. La distance maximale entre les joueurs adjacents de la première ligne d'opposition devant le joueur qui a le ballon ;
  3. L'"intégrité des lignes" est définie comme la somme des inverses des angles de vue positifs ;
  4. La "compacité de la ligne" est définie comme la somme des inverses des distances entre les joueurs adjacents d'une ligne ;
  5. Les valeurs de "contrôle du pas", au début et à la fin d'une action, sont définies selon le modèle présenté dans le présent document. livre blanc, rédigé par Luke Bornn et Javier Fernandez à Sloan 2018.

    Figure 3 : Exemple de sortie du modèle de "contrôle de l'inclinaison".

La première et la deuxième caractéristiques tentent de capter toute vulnérabilité possible dans la configuration de la ligne qui est la plus proche du joueur en possession du ballon. Le principe de l'"angle de vue" est qu'il est plus facile de passer le ballon entre deux joueurs lorsque l'angle créé par ces deux joueurs et le ballon est plus grand, soit parce qu'ils sont éloignés l'un de l'autre, soit parce que le joueur en possession du ballon est plus proche de la ligne d'opposition.

Cependant, la distance entre les joueurs adjacents d'une ligne est importante car c'est le langage que de nombreux entraîneurs utilisent pour transmettre leur dispositif aux joueurs. Par conséquent, les caractéristiques trois et quatre visent à saisir l'organisation de la première rangée de joueurs dans son ensemble, en appliquant les deux concepts décrits aux points un et deux.

Lorsque nous appliquons une somme d'angles et de distances inverses pour conserver l'échelle intuitive des deux mesures, les valeurs faibles indiquent un mauvais positionnement et les valeurs élevées une configuration solide.

Il est important de mentionner que l'"intégrité de la ligne" n'intègre pas les angles de vue négatifs. Pour en revenir à la figure 2, cet angle de vue négatif est créé entre le joueur trois, le ballon et le joueur quatre, qui est effectivement caché derrière le reste de la ligne. Dans ce cas, une passe potentielle ne pourrait passer que par ces deux joueurs depuis l'autre côté, rompant ainsi la ligne entre les joueurs deux et trois. Par conséquent, bien que la position du joueur quatre ne puisse pas être totalement ignorée, elle est moins critique que les positions des joueurs un, deux et trois. C'est pourquoi j'ai choisi de ne pas incorporer les angles négatifs dans le calcul.

Les cinq caractéristiques ont été traitées conformément au cadre VAEP, ce qui signifie en bref que les caractéristiques des deux événements actuels et précédents d'une chaîne de possession ont été introduites dans un modèle XGBoost afin de prédire la probabilité que l'équipe marque ou encaisse un but au cours des dix actions suivantes.

Une passe en rupture de ligne augmente-t-elle la probabilité de marquer un but ?

Le graphique en violon ci-dessous montre les probabilités de prédiction pour marquer et encaisser un but au cours de l'un des dix événements suivant une passe, selon que la passe est ou non un franchissement de ligne.

Une zone plus large sur un diagramme en violon représente une proportion plus élevée de scénarios auxquels une probabilité donnée a été attribuée. Les probabilités médianes sont marquées par des points et la fourchette entre le 25e et le 75e percentile est représentée par des barres.

Pour conserver une plage pratique sur l'axe des ordonnées, 1 % des valeurs de probabilité les plus élevées ont été supprimées.

Bien que cette approche manque de rigueur statistique, elle indique que les passes brisant la ligne augmentent la probabilité de marquer un but, avec une valeur médiane presque deux fois plus élevée que les passes ne brisant pas la ligne.

Il convient également de noter qu'une passe brisant la ligne sans succès ne semble pas non plus augmenter la probabilité d'encaisser un but, comme le montre le graphique ci-dessous.

Pour conserver une plage pratique sur l'axe des ordonnées, 1 % des valeurs de probabilité les plus élevées ont été supprimées.

Quels ont été les joueurs les plus efficaces pour réaliser des passes en rupture de ligne ?

Dans un contexte de recrutement, l'un des avantages de la définition des passes qui brisent les lignes est qu'elle permet d'identifier les candidats qui sont doués pour briser les lignes adverses par une passe.

Le diagramme de dispersion ci-dessous représente tous les joueurs qui ont joué en tant que défenseur central lors d'au moins dix matches de la Pro League 2018/19, avec le nombre de passes de rupture de ligne qu'ils ont tentées par 90 et leur taux de réussite.

Les joueurs situés dans le quadrant supérieur droit ont obtenu des résultats supérieurs à la moyenne dans les deux catégories.

Seuls les joueurs ayant joué au moins 900 minutes en défense centrale ont été pris en compte.

Comme pour les défenseurs centraux qui cherchent à faire des passes progressives, la capacité à faire passer le ballon dans la phase d'attaque suivante est cruciale pour les meneurs de jeu en profondeur. Les résultats des joueurs classés dans la catégorie des milieux centraux défensifs sont présentés ci-dessous.

Ruslan Malinovskiy, transféré de Genk à l'Atalanta l'été dernier, a été l'une des grandes vedettes de la saison dernière.

Seuls les joueurs ayant joué au moins 900 minutes au poste de milieu de terrain défensif ont été pris en compte.

Pouvez-vous identifier les passes en rupture de ligne avec les données d'événements ?

La possibilité de détecter automatiquement les dépassements de ligne peut se traduire par des avantages considérables en termes de flux de travail pour un analyste vidéo, qui doit passer beaucoup de temps à les rechercher manuellement.

En passant, étant donné le manque de disponibilité des données de suivi en dehors d'une compétition nationale, j'ai également cherché, dans le cadre de cette recherche, à construire un modèle permettant de prédire si une passe était ou non une rupture de ligne en se basant uniquement sur les caractéristiques dérivées des données de l'événement.

Ce modèle possédait une précision de 84% et un score AUC de 93%, ce qui signifie que le modèle pouvait prédire si une passe était ou non une rupture de ligne dans 84 cas sur 100.

Cependant, étant donné que seulement 8 % de toutes les passes étaient des ruptures de ligne, le point de coupure pour l'attribution des étiquettes était crucial. J'ai opté pour un modèle avec un taux de rappel de 89 % et un taux de précision de 32 %, ce qui signifie que le modèle pouvait correctement identifier 89 % de toutes les passes brisant la ligne, mais au prix de la classification de nombreuses passes comme brisant la ligne mais qui, en réalité, ne l'ont pas fait. Cela était prévisible, étant donné que le modèle ne peut pas voir où se trouvent les joueurs en défense sur le terrain sans données de suivi.

Un scénario dans lequel ces faux positifs peuvent survenir est celui où une équipe défend en bloc bas et où le ballon est joué par l'équipe en possession depuis son propre tiers défensif vers un milieu de terrain dans la moitié de terrain adverse, mais où ce joueur se trouve toujours devant la première ligne de défense de l'équipe adverse.

Même si ce n'est pas parfait, du point de vue du flux de travail, cela permettrait de réduire le nombre de passages à examiner sur vidéo, ce qui accélérerait les processus. La bonne nouvelle, c'est qu'en fonction des préférences de l'analyste, le seuil pourrait être ajusté afin d'obtenir une classification encore plus stricte.

La mauvaise nouvelle, c'est que si vous souhaitez obtenir une classification quasi parfaite des passes de rupture de ligne sans intervention manuelle, vous devez toujours utiliser des données de suivi.

Je tiens à remercier Karun Singh, qui a lu une version préliminaire de cet article et a fourni des commentaires précieux. Je remercie également Ricardo Tavares, ainsi que les auteurs de Socceraction, dont le code a été étendu pour préparer les visualisations des terrains et prétraiter les données, respectivement. Les données utilisées dans l'analyse ont été fournies par la Pro League belge, capturées par Stats Perform.