Skip to Main Content

Modélisation de la composition des manches de cricket

Par : Stats Perform

Principaux enseignements

- L'équipe de science des données d'OptaPro a développé des méthodes pour décrire comment la probabilité de marquer et de contrôler les tirs évolue pour les joueurs et les équipes tout au long d'une manche.

- Parmi les premiers batteurs de la Coupe du monde, les Anglais Jonny Bairstow et Jason Roy augmentent rapidement leur taux de réussite après quelques minutes, à un niveau qui n'est dépassé que par Chris Gayle.

- Dans les 10 derniers overs, l'Anglais Jos Buttler accélère plus tôt que n'importe quel autre joueur de la Coupe du monde, avec une augmentation régulière mais constante de son taux de réussite tout au long des overs 41-50.

Nous sommes le20 février 2019, le premier One Day International (ODI) entre les Antilles et l'Angleterre à Bridgetown, à la Barbade. L'Angleterre vient de s'approcher d'un objectif autrefois redoutable de 361. Un coup d'œil à la carte de pointage permet de constater que Joe Root a atteint 100 points en 96 balles et que Chris Gayle a atteint 100 points en 100 balles.

Les scores finaux sont les suivants : Joe Root 102 en 97 balles. Chris Gayle 135 en 129 balles.

Pour un amateur de cricket occasionnel qui observe la carte de pointage, les verbes utilisés pour décrire les manches de Root et de Gayle peuvent sembler un peu étranges. Pour mesurer la vitesse d'une manche sur la carte de pointage, on utilise généralement le taux de réussite de la manche (nombre de points par 100 balles). Dans le cas présent, les deux joueurs ont un taux de réussite final de 105. Alors pourquoi quelqu'un qui a regardé le match aurait-il tendance à décrire leurs manches différemment ? Examinons la progression des manches jusqu'à 100 runs ci-dessous pour comprendre pourquoi.

 

 

Nous avons ici une meilleure idée de la façon dont leurs manches se sont déroulées. Comme à son habitude, Root a été la cheville ouvrière de la poursuite de l'Angleterre et a progressé jusqu'à 100 points à un rythme régulier de runs par balle. En revanche, Gayle a suivi un chemin différent. Il a réalisé ses 50 premiers runs en 76 balles et ses 50 seconds en seulement 24 balles. Bien qu'il s'agisse d'un exemple extrême pour Gayle, il n'est pas rare qu'il commence lentement avant de passer à la vitesse supérieure et d'accélérer à un rythme que peu d'autres joueurs peuvent égaler. Cependant, à la fin de la journée, les entrées de chaque joueur sur la carte de score sont remarquablement similaires en termes de taux de réussite.

Comprendre la progression des auditions

Pour mieux comprendre le jeu d'un batteur particulier, nous devons prendre en compte les mesures qui évoluent au cours d'une manche. L'équipe de science des données d'OptaPro a développé des méthodes pour comparer et évaluer la performance des joueurs en se basant sur la façon dont leurs mesures évoluent au cours d'une manche.

Dans le cas du cricket à 50 ans, il pourrait s'agir de comparer la façon dont un joueur cherche généralement à construire son tour en termes de taux de manche, mais aussi par le biais de mesures telles que la proportion de coups contrôlés. Nous pouvons ainsi comparer l'approche adoptée par les joueurs et les équipes dans la construction d'une manche. En outre, nous pouvons étendre cette approche pour observer non seulement la façon dont les joueurs construisent leurs propres manches, mais aussi en évaluant les joueurs les plus performants à certaines périodes d'un match. Par exemple, quels sont les joueurs les plus dangereux dans les 10 derniers mètres d'une manche et comment s'y prennent-ils généralement pour attaquer ces dernières livraisons ?

Comment quantifier la progression des manches

Dans ce blog, nous nous concentrerons sur deux mesures, que nous utilisons pour modéliser l'évolution de la performance des batteurs tout au long d'une manche :

- Prévision de courses par livraison : Nous considérons les courses par livraison plutôt que le taux d'attaque. Il s'agit de faire la distinction entre le taux d'attaque, qui prend généralement en compte le nombre total de points marqués au cours d'une manche, et le nombre prédit de points par livraison, qui est purement une prédiction du nombre de points marqués pour une livraison particulière au cours d'une manche.

- Probabilité prédite de coup contrôlé : Cette mesure, comprise entre 0 et 1, représente la probabilité prédite qu'un batteur contrôle une livraison. Nous définissons les coups contrôlés comme ceux dont l'issue est celle souhaitée par le batteur, qu'il s'agisse d'un coup lifté bien cadencé ou d'une sortie bien jugée à l'extérieur de la souche.

Notre objectif est de fournir une approximation de ces mesures pour différentes périodes d'une manche.

Pour prédire nos mesures, nous considérons une fenêtre mobile pour chaque livraison qui prend en compte toutes les livraisons auxquelles le batteur a été confronté dans cette fenêtre dans le cricket ODI. Par exemple, pour la20e livraison d'une manche, nous pourrions considérer une fenêtre de deux livraisons et donc prendre en compte toutes les livraisons auxquelles le batteur a été confronté dans sa carrière entre les18e et22e livraisons d'une manche. Nous utilisons ensuite ces données à travers des sections spécifiques d'une manche pour ajuster un modèle additif généralisé, permettant des prédictions lisses via une courbe spline (de plus amples détails sont disponibles à la fin de l'article).

La paire d'ouverture de l'Angleterre

Pour donner un exemple, considérons tous les ouvreurs depuis la Coupe du monde 2015 qui ont marqué au moins 400 runs dans les 15 premiers overs au cours de cette période. Nous considérons les 15 premières prolongations pour déterminer dans quelle mesure les batteurs d'ouverture tirent parti du premier powerplay (prolongations 1-10), au cours duquel seuls deux joueurs de champ sont autorisés à sortir du cercle intérieur, avant de passer au powerplay 2 (prolongations 11-15), au cours duquel quatre joueurs sont autorisés à sortir du cercle.

Nous présentons ci-dessous nos prévisions de courses par livraison pour la paire d'ouvreurs anglais de la Coupe du monde, Jonny Bairstow et Jason Roy (en jaune), ainsi que pour le puissant frappeur des Antilles, Chris Gayle (en bleu). Toutes les autres lignes (en rouge) représentent les autres joueurs d'ouverture des ODI.

 

 

Cette figure montre que les deux premiers joueurs de l'Angleterre ont des approches très similaires dans les 15 premiers tours de jeu. Ils ont tendance à accélérer progressivement après un départ un peu rapide, jusqu'à ce qu'ils se stabilisent à un peu plus d'un run par balle une fois que le premier powerplay est terminé et que le nombre maximum de joueurs de champ sur la ligne de démarcation est porté à quatre. Chris Gayle adopte une approche légèrement différente. Ses deux premiers tours de jeu sont un peu plus calmes que ceux des ouvreurs anglais, mais ensuite son augmentation du nombre de runs par livraison est significative par rapport à tous les autres ouvreurs. Bien qu'aucun des trois ouvreurs ne soit le plus rapide au départ, à la huitième manche, ils sont régulièrement dans le trio de tête en termes de courses par livraison.

Examinons maintenant la mesure de la probabilité des coups contrôlés pour le même batteur et la même période. Nous pouvons voir ici que Jonny Bairstow a un taux de coups contrôlés systématiquement plus élevé que Jason Roy. Ce contrôle, combiné à des taux de frappe élevés, explique pourquoi Bairstow a légèrement mieux réussi à ce poste (moyenne de 50,41 runs par manche) que Jason Roy (moyenne de 40,54 par manche). En comparaison, Chris Gayle est plus vulnérable pendant les 10 premiers overs. Cependant, dès que l'on atteint les 15 premières minutes, son taux de contrôle est supérieur à la moyenne, ce qui, combiné à son taux le plus élevé de runs par balle, montre pourquoi il peut être si destructeur s'il n'est pas délogé rapidement.

 

 

Jos Buttler

Jos Buttler est l'un des joueurs les plus destructeurs de la Coupe du monde de cette année. Il n'est pas nécessaire d'être un expert pour le déduire après avoir jeté un coup d'œil sur ses chiffres depuis la Coupe du monde 2015. Il frappe à un rythme d'environ 175 dans les 10 derniers overs d'une manche ; peu d'autres joueurs de cette Coupe du monde sont comparables.

Penchons-nous un peu plus sur ces chiffres. Ces chiffres des 10 dernières heures sont-ils le fruit d'une agressivité constante ? Ou Buttler est-il capable de passer à la vitesse supérieure comme personne d'autre ? Nous présentons ici notre taux prédictif de runs par livraison dans les 10 derniers mètres pour les joueurs ayant réalisé au moins 400 runs dans cette période des manches depuis la Coupe du monde 2015.

 

 

Personne ne s'approche de la prédiction de Buttler en termes de nombre de points par balle à aucun moment au cours des 10 dernières minutes. Ce qui est intéressant ici, c'est que la courbe de Buttler est assez linéaire. Son accélération a déjà commencé à la 41e heure et est incroyablement constante, contrairement à beaucoup d'autres joueurs qui attendent la 44e ou la 45e heure.

Conclusion

Les exemples présentés dans ce blog montrent comment les données balle par balle peuvent être utilisées pour développer des modèles permettant d'identifier différents archétypes de batteurs, qu'il s'agisse d'ouvreurs agressifs prenant des risques comme Chris Gayle ou d'agresseurs réguliers en fin de match comme Jos Buttler. En analysant les performances à une échelle plus fine, nous pouvons extraire des informations plus détaillées sur les performances des joueurs. Par exemple, nous avons montré comment l'agressivité soutenue de Jos Buttler, plutôt que sa charge en fin de match, contribue à son taux de réussite inégalé dans les 10 derniers mètres.

Ces méthodes peuvent être utilisées pour comprendre et visualiser les performances des batteurs dans toutes les formes de cricket et ce n'est que le début de ce qu'il est possible de faire en utilisant les données Opta pour l'analyse des performances des joueurs. D'autres possibilités incluent l'utilisation de nos données détaillées sur les événements, telles que les types de coups et les tendances du bowling, pour compléter les informations sur le taux de manche et les coups contrôlés.

Dans notre prochain blog, nous approfondirons ces méthodes en montrant comment l'analyse de regroupement de progressions similaires du taux de manche et du taux de contrôle peut être utilisée pour regrouper des joueurs similaires sur la base de leurs compositions de manches afin d'identifier des types de joueurs. Nos méthodes peuvent ainsi être utilisées pour identifier des joueurs similaires, ce qui peut servir à la composition des équipes et à la détection des joueurs.

*Autres détails du modèle :

Comme indiqué dans l'article, pour construire les données pour lesquelles nous adaptons notre modèle, nous utilisons une approche de fenêtre mobile.

Prenons l'exemple des 10 dernières minutes d'un ODI. Pour les chiffres de cet article, nous avons utilisé une fenêtre de taille 2 de part et d'autre de la livraison d'intérêt, où nous nous intéressons aux livraisons 241-300. Par conséquent, pour chaque livraison entre les balles 241 et 300, nous prenons le nombre moyen de runs marqués sur une fenêtre de 5 livraisons (maximum de 2 de part et d'autre + livraison d'intérêt) au cours de chaque manche. Dans de nombreux cas, il n'y aura eu aucune livraison dans une fenêtre, ce qui fait qu'il n'y aura pas de données pour cette livraison dans cette manche spécifique. Ces points de données sont collectés pour chaque livraison dans le segment pour chaque manche jouée par un batteur.

Une fois que nous disposons de ces points de données, nous ajustons un modèle additif généralisé (GAM) sur le segment des manches. Il s'agit d'une fonction lisse de toutes nos valeurs de course à travers les livraisons, où nous utilisons une spline de base pénalisée pour contrôler la douceur de notre courbe afin d'éviter un ajustement excessif. Nous pouvons également construire des intervalles de confiance puisque nous ne faisons la moyenne que sur 5 fenêtres de livraison au sein des manches, et non sur l'ensemble des manches. Pour éviter un problème commun aux splines, à savoir des prédictions erratiques sur leurs bords, nous incluons une mémoire tampon de 5 heures pour la collecte des données (si possible). Par exemple, pour les manches 41-50, nous ajustons le modèle aux manches 36-50, mais nous écartons les manches 36-40 dans l'analyse des prédictions. Nous ignorons également les prédictions dans la fenêtre finale (livraisons 40.0-40.2 et 49.4-49.6 dans cet exemple) afin de réduire l'impact des effets de bord lorsque nous ne pouvons pas inclure d'autres livraisons en dehors du segment d'intérêt.