

Cet article est une version écrite du Forum OptaPro Analytics 2018 de Ben Torvaney, qui visait à fournir un modèle unifié pour l'effet de la ligue et de l'âge sur la production des joueurs. Lisez la soumission initiale de Ben ici.
L'analyste mentor de Ben pour ce projet était Lucy Rushton, responsable du recrutement technique et de l'analyse à Atlanta United.
Pour en savoir plus sur la soumission d'une proposition de présentation à l'OptaPro Analytics Forum 2019, cliquez ici.
Pour le forum OptaPro 2018, j'ai présenté un modèle simple et extensible pour estimer l'effet de la ligue et de l'âge sur la production des joueurs dans une variété de métriques. Dans le processus, nous estimons également la performance individuelle des joueurs. Bien qu'il ne soit appliqué qu'à la ligue et à l'âge ici, le modèle peut facilement être étendu pour inclure d'autres facteurs sur la production des joueurs, tels que la position et l'adversaire.
Tout le monde souhaite réduire le risque de transfert. Une partie de ce risque réside dans l'incertitude liée au transfert de compétences d'un environnement de jeu à un autre. Nous ne pouvons jamais dire avec certitude quel sera le niveau de performance d'un joueur de l'équipe X dans l'équipe Y. Il est donc difficile d'établir des comparaisons équitables entre des joueurs évoluant dans des environnements différents. Mais que se passerait-il si nous pouvions essayer de supprimer certains de ces effets ? En d'autres termes, si nous pouvions les placer sur la même échelle ?
Commençons par penser au nombre de buts marqués. Après tout, c'est la seule statistique qui compte. Les joueurs sont transférés d'un championnat à l'autre et nous pouvons donc étudier l'évolution du taux de réussite de chaque joueur lorsqu'il passe d'un championnat à l'autre. En examinant un grand nombre de ces comparaisons, nous pouvons nous faire une idée de l'effet de chaque championnat sur le nombre de buts marqués.
Les résultats sont largement conformes à l'intuition et aux idées reçues, mais ils ont l'avantage d'être quantifiés. J'ai constaté que la Premier League était le championnat européen où il était le plus difficile de marquer des buts, et qu'il était devenu de plus en plus difficile de marquer des buts au cours des dernières années. On estime que les joueurs de Premier League marquent des buts à environ 80 % de la vitesse à laquelle ils le feraient en Serie A ou en Liga. En d'autres termes, si un joueur marque 0,5 but par 90 minutes (un but tous les deux matches) en Premier League, on s'attend à ce qu'il marque plus près de 0,6 but par 90 minutes en Serie A. De même, j'ai constaté que le pic de buts se situe entre 23 et 29 ans, avec des taux de buts estimés à environ 10-15% de plus que les joueurs équivalents à 20 ans, ou autour de 30 ans.
À quoi ressemble ce modèle ?
Les variables impliquant le nombre d'événements au cours d'une période donnée sont souvent modélisées par la distribution de Poisson. C'est utile et l'on peut considérer que le nombre de buts est approximativement distribué selon une loi de Poisson. En termes simples, la distribution de Poisson nous indique la probabilité de voir X événements au cours d'une période donnée, compte tenu d'un paramètre de taux (le nombre moyen d'événements au cours de cette période).
Nous pouvons nous en servir pour élaborer un modèle qui nous permettra d'atteindre notre objectif initial, à savoir séparer les compétences des joueurs des effets externes. Nous modélisons simplement le taux (buts par 90 minutes jouées) pour chaque joueur comme le produit de ces différents facteurs :
taux = compétence du joueur * effet de l'âge * effet de la ligue
Nous estimons ensuite chacun de ces paramètres à partir des données. Dans le cas présent, à partir d'un ensemble de buts marqués et de minutes jouées pour chaque joueur dans une sélection de ligues européennes de premier plan de 2006/07 à 2017/18 (inclus).
Pour rendre les choses plus concrètes, prenons un exemple. Si nous voulons faire une prédiction, nous pouvons simplement prendre le produit de chacun de ces paramètres. Ainsi, pour obtenir une estimation du nombre de buts marqués par Pierre-Emerick Aubameyang en 2018/19, nous prenons simplement l'"estimation de la compétence du joueur" (0,53), l'estimation du championnat de (0,84) et l'effet de l'âge estimé à 29 ans (1,08) et nous les multiplions ensemble. Cela nous donne un taux de buts estimé à environ 0,48 but par 90 minutes jouées.
L'âge
La bande montre l'intervalle crédible à 95 % pour chaque âge, la ligne sombre étant la médiane. Plus la bande est large, moins le modèle est sûr.
Chaque paramètre d'âge est estimé indépendamment les uns des autres. Rien dans le modèle n'impose la forme en U non inversé ; la belle courbe nette que vous voyez provient entièrement des données. Bien qu'il soit facile de penser à une poignée d'exceptions, les données sont claires : l'âge le plus élevé pour marquer des buts se situe entre 23 et 29 ans environ.
On observe également un pic, faible mais significatif, autour de l'âge de 20 ans. J'ai quelques idées sur ce qui pourrait expliquer ce phénomène. En moyenne, les remplaçants marquent plus que les titulaires. Cela s'explique par plusieurs raisons, dont la plus probable est l'avantage de jouer contre des adversaires fatigués, ainsi que les effets du score (les équipes qui perdent marquent plus que celles qui font match nul) et les effets tactiques. Je pense que ces effets pourraient être à l'origine du pic, étant donné que les jeunes joueurs sont souvent remplacés et qu'ils sont plus susceptibles d'être utilisés dans des rôles offensifs. Toutefois, il peut également s'agir de bruit ou d'une autre bizarrerie de la collecte des données, ou encore d'éléments tactiques.
Ce graphique montre l'évolution de l'effet relatif des différents championnats sur le nombre de buts marqués au fil du temps. Une valeur plus faible signifie que les joueurs ont tendance à marquer moins de buts dans ce championnat par rapport aux autres.
Ces données suggèrent que la Premier League devient plus difficile à marquer au fil du temps, tandis que la Ligue Un et la Liga portugaise deviennent plus faciles à marquer.
Il est important de noter que cela ne signifie pas nécessairement que ces championnats sont moins bons que la Premier League. La difficulté de marquer dans un championnat dépend à la fois de la qualité du championnat et du style de la compétition. En d'autres termes, le nombre moyen de buts par match.
Par exemple, au cours de cette période, la Bundesliga a marqué en moyenne plus de 3 buts par match, mais elle se situe toujours au milieu du classement. Cela s'explique par le fait qu'il s'agit d'un championnat qui compte beaucoup de joueurs et d'équipes de grande qualité. Le championnat portugais, quant à lui, affiche une moyenne d'environ 2 buts par match. Toutefois, en raison des forces relatives des ligues, les joueurs ont tendance à marquer plus de buts par match au Portugal qu'ils ne le feraient dans les autres ligues sélectionnées.
Joueurs
La liste des meilleurs joueurs semble correspondre plus ou moins à l'intuition ; les deux premiers joueurs sont corrects (et dans le bon ordre). Il est intéressant de noter que si l'on classe les joueurs en fonction de la médiane plutôt que de la limite inférieure (comme indiqué ici), Gabriel Jesus arrive en quatrième position (environ 0,8). Cependant, en raison de son âge et du nombre réduit de matches joués (en Europe, du moins), l'incertitude entourant sa véritable capacité à marquer des buts est beaucoup plus élevée que, par exemple, celle de Harry Kane.
Nous pouvons également constater que la liste comporte un grand nombre de joueurs qui ont continué à marquer à la fin de leur carrière. Je reviendrai sur ce point lorsque nous aborderons les autres statistiques.
Autres statistiques ?
Bien entendu, le football ne se résume pas aux seuls buts. Et les statistiques du football ne se limitent pas aux seuls buts. Nous pouvons appliquer à d'autres paramètres la même logique que celle utilisée pour comparer les taux de buts à travers les différentes époques et compétitions. J'ai sélectionné les tirs, les passes clés (la passe qui précède le tir, parfois appelée passe décisive), les passes du dernier tiers et les prises de balle réussies.
Elles proviennent d'un ensemble de données légèrement différent de celui utilisé pour les buts. OptaPro a fourni des données F9 (statistiques agrégées) pour la Premier League, la Liga, l'Eredivisie et le Football League Championship de 2013/14 à 2016/17 (inclus).
Là encore, cela semble correspondre à notre intuition. Nous avons l'habitude de voir les joueurs évoluer vers des positions plus profondes vers la fin de leur carrière. En revanche, les prises de balle sont essentiellement l'apanage des jeunes joueurs.
Il est intéressant de noter que le taux de tentatives de prises en charge ne diminue pas aussi rapidement que le taux de prises en charge réalisées. En d'autres termes, le pourcentage de tentatives réussies augmente avec l'âge. Cela pourrait être la preuve d'une sélectivité accrue et d'une meilleure prise de décision au fur et à mesure que les joueurs vieillissent.
Comme pour les buts, l'effet ci-dessus est un mélange de niveau de talent et de style de la ligue. Les mesures basées sur les tirs semblent être plus étroitement liées à la qualité de la ligue que les passes du dernier tiers et les prises à partie.
Il y a un peu plus de noms surprenants ici que dans le modèle des buts seuls. Toutefois, je pense que cela peut s'expliquer par la courbe d'âge combinée à la quantité plus limitée de données dans le temps. Par exemple, le modèle ne "voit" Wes Hoolahan qu'à un stade relativement avancé de sa carrière. Parce qu'il a obtenu des chiffres très élevés par rapport à d'autres joueurs d'un âge similaire, le modèle suppose qu'il était le meilleur au monde à son apogée.
Extension du modèle
La formule multiplicative au cœur du modèle permet de l'étendre simplement en ajoutant des facteurs supplémentaires à estimer. Un domaine qui pourrait s'avérer particulièrement fructueux serait la prise en compte des effets du jeu. Par exemple, l'heure du match et le score. Nous savons que les équipes ont tendance à marquer davantage en fin de match et lorsqu'elles perdent. La prise en compte de ces effets pourrait contribuer à améliorer la précision des estimations relatives à l'âge et aux joueurs individuels.
Un autre domaine d'amélioration pourrait être la personnalisation des courbes d'âge. En d'autres termes, traiter la capacité à réaliser des performances plus tôt ou plus tard dans une carrière qu'un joueur moyen comme une compétence distincte de celle de buteur (ou de générateur de tirs, de passeur, etc.). Cela pourrait atténuer certains des biais liés à l'âge que nous avons constatés dans les listes de meilleurs joueurs que nous avons vues précédemment.