Quelle est l'efficacité des passes qui déjouent la défense ?
Dans un article publié sur le blog de Stats Perform, le data scientist Kuba Michalczyk présente les conclusions d'un projet de recherche qui utilise des données de suivi pour déterminer si les passes en profondeur augmentent la probabilité de marquer un but.

Pour la deuxième année consécutive, Kuba Michalczyk a vu l'une de ses propositions sélectionnée pour être présentée lors du Forum OptaPro 2020.
Le projet « Forum » de Kuba a utilisé les données de suivi de la saison 2018/2019, fournies par la Pro League belge, pour identifier et évaluer les passes décisives, auxquelles une valeur a ensuite été attribuée en fonction de leur capacité à augmenter la probabilité de marquer un but ou, à l'inverse, à accroître le risque de perte de balle.
Dans cet article rédigé en tant qu'invité, il présente la méthodologie qui sous-tend son projet, ainsi qu'un résumé des principales conclusions.
Introduction
Les passes qui déjouent la défense font l'objet de nombreuses discussions parmi les analystes, les entraîneurs et les experts du football. En tant que passes qui déjouent une ligne de la formation adverse, elles permettent généralement à une équipe de passer d'une phase offensive à une autre.
C'est pourquoi la capacité d'un joueur à effectuer une passe décisive est très prisée. Bien que certaines statistiques existantes, telles que les passes décisives ou les passes progressives, puissent parfois servir d'indicateur, j'ai utilisé les données de suivi de Stats Perform, issues de la Pro League belge 2018/19, dans le but de créer une nouvelle méthode permettant de mesurer directement la valeur de ces passes.
Définition d'un « passe décisive »
Le point de départ de cette recherche était de mettre au point une méthode fiable pour détecter les lignes de formation, en tenant compte du fait que chaque joueur peut passer d'une ligne de formation à une autre en fonction de ses déplacements.
Une méthode naturelle pour regrouper les joueurs en lignes consiste à appliquer un algorithme de regroupement aux coordonnées x du terrain (les coordonnées des lignes de touche). Après avoir testé plusieurs algorithmes de regroupement, j'ai finalement opté pour l'un des plus simples –l'optimisation des ruptures naturelles de Jenks– avec trois groupes formés par les joueurs de champ (les gardiens de but formant alors un quatrième groupe). Cet algorithme est une technique efficace et très compréhensible pour réduire l'ampleur de l'écart par rapport à la moyenne du groupe.
Pour éviter un changement instantané de ligne, la coordonnée x a été calculée en moyenne sur une fenêtre temporelle de deux secondes. De plus, les groupes d'une durée inférieure à une seconde ont été supprimés et rattachés à la ligne précédente.
Le recours à un nombre fixe de groupes n'est peut-être pas la meilleure approche pour analyser d'autres aspects du football, mais je l'ai jugé acceptable pour identifier les passes qui déjouent la ligne défensive, car c'est généralement ainsi qu'une équipe défensive se positionne. De plus, autoriser un nombre variable de groupes risquerait de donner lieu à des groupes composés d'un seul joueur qui ne forme pas vraiment une ligne, mais qui ne peut être ignoré car son placement peut s'avérer crucial pour l'organisation défensive.

Figure 1. Exemple de détection de lignes de formation à l'aide d'un regroupement unidimensionnel
Aux fins de la présente analyse, une passe qui franchit la ligne est définie comme une passe qui non seulement croise au moins l'une des lignes adverses d'un point de vue géométrique, mais qui, en outre :
– Fait progresser le ballon d'au moins 10 mètres ;
– dont le point de départ se trouve à au moins cinq mètres du point d'intersection ;
– dont le point d'arrivée se trouve à au moins deux mètres au-delà du joueur le plus en retrait de la ligne.
Cette définition exclut les passes qui :
– Elles permettent de briser les lignes d'un point de vue géométrique, mais ont peu de chances de déboucher sur une transition vers la phase d'attaque suivante ;
– Sont extrêmement faciles à réaliser, en raison de leur proximité avec la ligne qu'ils traversent.
Cette définition implique également que le receveur d'une passe n'est pas soumis à la pression exercée par un joueur adverse qui faisait partie de la ligne brisée.
Toutes les passes en jeu ont été prises en compte dans l'analyse ; toutefois, les coordonnées Z (hauteur du ballon) ne figurant pas dans l'échantillon de données, les résultats ne permettent pas de déterminer si une passe a été effectuée en profondeur ou au ras du sol.
Avant de passer au modèle proprement dit, il convient d'aborder une dernière question concernant les difficultés liées à la définition d'une passe interceptée. Étant donné que les coordonnées finales d'une interception indiquent l'endroit du terrain où celle-ci a eu lieu, on ne peut pas s'y fier pour déterminer si une passe visait ou non à franchir la ligne de défense.
Cependant, comme nous disposons d'informations sur l'angle de la passe et sur la limite inférieure de sa longueur, nous pouvons tenter de déduire la destination finale prévue de la passe. Pour ce faire, nous appliquons le modèlede survie de Weibull, une technique particulièrement adaptée au traitement des données avec une limite inférieure, afin d'estimer la longueur supplémentaire attendue d'une passe à partir du point d'interception. De cette manière, même si une passe a été interceptée, mais que sa destination prévue la classait comme une passe de rupture de ligne, nous pourrions tout de même la marquer comme une passe de rupture de ligne infructueuse.
Élaboration d'un modèle d'évaluation des passes
L'objectif initial de ce projet était d'essayer de quantifier la valeur des différentes passes avec changement de direction par rapport à celles qui n'en comportent pas, en comparant des passes présentant des caractéristiques spatiales similaires.
Idéalement, on aurait dû recourir à un modèle de valeur attendue de possession (EPV) tirant parti de la multitude de données de suivi disponibles. Malheureusement, la mise au point d'un modèle EPV fiable, fondé sur ces données de suivi, est complexe et demanderait un investissement en temps disproportionné par rapport aux avantages que l'on pourrait en tirer.
À l'autre extrémité du spectre, un modèle d'objectifs attendus ne tenant pas compte des tirs, qui attribuait des valeurs aux événements survenant dans les zones plus reculées du terrain, s'est sans doute révélé trop rigide pour cette tâche. J'ai donc opté pour un modèle de valeur de possession attendue similaire aucadre VAEP, dans lequel les données sur les événements sont enrichies par les caractéristiques suivantes, extraites des données de suivi :
- L'« angle de vue » maximal, défini comme l'angle maximal formé par le ballon et deux joueurs adjacents de la première ligne adverse situés devant un joueur en possession du ballon ;
Figure 2 : Exemple d’« angle de vue », illustrant la zone dans laquelle un joueur en possession du ballon peut effectuer une passe entre deux joueurs adverses au sein d’une ligne défensive. L’angle formé entre le joueur n° 1, le ballon et le joueur n° 2, désigné par le symbole alpha, correspond à l’angle maximal dans ce scénario. L’angle formé entre le joueur n° 3, le ballon et le joueur n° 4 est négatif et n’est donc pas pris en compte dans le calcul de l’« intégrité de la ligne » définie au point 3 ci-dessous.
- La distance maximale entre deux joueurs adjacents de la première ligne défensive placée face au porteur du ballon ;
- L’« intégrité de la ligne » est définie comme la somme des inverses des angles de vision positifs ;
- La « compacité d'une ligne » est définie comme la somme des inverses des distances entre les joueurs adjacents d'une ligne ;
- Les valeurs de « contrôle de la hauteur tonale », au début et à la fin d'une action, sont définies selon le modèle présenté dans ce Livre blanc rédigé par Luke Bornn et Javier Fernandez lors de la conférence Sloan 2018.
Figure 3 : Exemple de résultat du modèle « contrôle de la hauteur tonale »
Les schémas n° 1 et n° 2 visent tous deux à exploiter toute vulnérabilité éventuelle dans le dispositif défensif le plus proche du joueur en possession du ballon. Le principe sous-jacent à la notion d’« angle de vue » est qu’il est plus facile de faire une passe entre deux joueurs lorsque l’angle formé par ces deux joueurs et le ballon est plus grand, soit parce qu’ils sont éloignés l’un de l’autre, soit parce que le joueur en possession du ballon est plus proche de la ligne adverse.
Cependant, la distance entre les joueurs adjacents dans une ligne est importante, car c'est le langage que de nombreux entraîneurs utilisent pour expliquer leur disposition aux joueurs. Par conséquent, les points trois et quatre visent à rendre compte de la disposition de la première ligne de joueurs dans son ensemble, en appliquant les deux concepts exposés aux points un et deux.
Lorsque l'on additionne les angles inverses et les distances pour conserver l'échelle intuitive des deux mesures, les valeurs faibles indiquent un mauvais positionnement, tandis que les valeurs élevées témoignent d'une configuration solide.
Il est important de noter que la « cohésion de la ligne » ne tient pas compte des angles de vue négatifs. Si l’on revient à l’illustration de la figure 2, cet angle de vue négatif se crée entre le joueur n° 3, le ballon et le joueur n° 4, qui est en effet masqué par le reste de la ligne. Dans ce cas, une passe potentielle ne pourrait passer qu’entre ces deux joueurs depuis l’autre côté, rompant ainsi la cohésion de la ligne plus tôt, entre les joueurs n° 2 et n° 3. Par conséquent, bien que la position du joueur n° 4 ne puisse être totalement ignorée, elle est moins critique que celles des joueurs n° 1, 2 et 3. J'ai donc choisi de ne pas intégrer les angles négatifs dans le calcul.
Ces cinq caractéristiques ont été traitées selon lecadre VAEP, ce qui signifie, en résumé, que les caractéristiques de l'action en cours et des deux actions précédentes dans une chaîne de possession ont été intégrées à un modèleXGBoostafin de prédire la probabilité que l'équipe marque ou encaisse un but au cours des dix actions suivantes.
Une passe qui déjoue la défense augmente-t-elle les chances de marquer ?
Le graphique en violon ci-dessous présente les probabilités de marquer ou d'encaisser un but au cours de l'une des dix actions suivant une passe, selon que cette passe a permis ou non de percer la ligne défensive.
Une zone plus large sur un diagramme en violon correspond à une proportion plus élevée de scénarios auxquels est attribuée une probabilité donnée. Les probabilités médianes sont indiquées par des points, tandis que l'intervalle compris entre le 25e et le 75e centile est représenté par des barres.

Afin de conserver une plage pratique sur l'axe des y, 1 % des valeurs les plus probables ont été supprimées.
Bien que cette approche manque de rigueur statistique, elle montre que les passes qui permettent de franchir la ligne défensive augmentent la probabilité de marquer un but, avec une valeur médiane presque deux fois plus élevée que celle des passes qui ne franchissent pas cette ligne.
Il convient également de noter qu'une passe décisive manquée ne semble pas non plus augmenter de manière significative la probabilité d'encaisser un but, comme le montre le graphique ci-dessous.

Afin de conserver une plage pratique sur l'axe des y, 1 % des valeurs les plus probables ont été supprimées.
Quels ont été les joueurs les plus efficaces dans la réalisation de passes décisives ?
Dans le cadre du recrutement, l'un des avantages de définir les passes décisives réside dans le fait qu'elles permettent d'identifier les joueurs prometteurs qui excellent dans l'art de percer les lignes adverses grâce à une passe.
Le nuage de points ci-dessous présente tous les joueurs ayant évolué au poste de défenseur central lors d'au moins dix matches de la Pro League 2018/19, en indiquant le nombre de passes décisives qu'ils ont tentées par 90 minutes ainsi que leur taux de réussite.
Les joueurs situés dans le quadrant supérieur droit ont obtenu des résultats supérieurs à la moyenne dans les deux catégories.

Seuls les joueurs ayant disputé au moins 900 minutes au poste de défenseur central ont été pris en compte.
Tout comme pour les défenseurs centraux qui cherchent à effectuer des passes constructives, la capacité à faire passer le ballon à la phase offensive suivante est cruciale pour les meneurs de jeu en retrait. Les statistiques des joueurs classés comme milieux de terrain défensifs sont présentées ci-dessous.
L'un des joueurs les plus remarquables de la saison dernière était Ruslan Malinovskiy, qui a quitté Genk pour rejoindre l'Atalanta l'été dernier.

Seuls les joueurs ayant disputé au moins 900 minutes au poste de milieu défensif ont été pris en compte.
Pouvez-vous identifier les passes décisives à l'aide des données d'événement ?
La capacité à détecter automatiquement les passes entraînant un changement de ligne peut apporter des avantages considérables en termes de flux de travail pour un analyste vidéo, qui doit consacrer beaucoup de temps à les rechercher manuellement.
À titre d'aparté, compte tenu du manque de données de suivi disponibles en dehors des compétitions nationales, j'ai également cherché, dans le cadre de cette recherche, à élaborer un modèle permettant de prédire si une passe a permis de franchir la ligne ou non, en me basant uniquement sur des caractéristiques tirées des données d'événements.
Ce modèle affichait une précision de 84 % et un score AUC de 93 %, ce qui signifie qu'il était capable de déterminer si une passe franchissait ou non la ligne dans 84 cas sur 100.
Cependant, étant donné que seules 8 % de toutes les passes constituaient des passes décisives, le seuil de classification était déterminant. J'ai opté pour un modèle présentant un rappel de 89 % et une précision de 32 %, ce qui signifie que le modèle pouvait détecter correctement 89 % de toutes les passes décisives, mais au prix de classer de nombreuses passes comme décisives alors qu'en réalité, elles ne l'étaient pas. Cela était prévisible, étant donné que le modèle ne peut pas voir où se trouvent les défenseurs sur le terrain sans données de suivi.
Ces faux positifs peuvent notamment se produire lorsqu'une équipe défend en bloc bas et que l'équipe en possession du ballon le fait sortir de son propre tiers défensif pour le passer à un milieu de terrain situé dans la moitié de terrain adverse, mais que ce joueur se trouve toujours devant la première ligne défensive adverse.
Même si ce n'est pas parfait, d'un point de vue organisationnel, cela permettrait tout de même de réduire le nombre de séquences à examiner en vidéo, ce qui accélérerait les processus ; et la bonne nouvelle, c'est que, selon les préférences de l'analyste, le seuil pourrait être ajusté pour obtenir une classification encore plus stricte.
La mauvaise nouvelle, c'est que si vous souhaitez obtenir une classification quasi parfaite des passes qui entraînent un changement de ligne sans intervention manuelle, vous devrez tout de même utiliser des données de suivi.
Je tiens à remercier Karun Singh, qui a lu une version préliminaire de cet article et m'a fait part de ses précieux commentaires. Je remercie également Ricardo Tavares, ainsi que les auteurs du package Socceraction, dont le code a été adapté pour créer des visualisations du terrain et prétraiter les données, respectivement. Les données utilisées dans cette analyse ont été fournies par la Pro League belge et collectées par Stats Perform.








