Skip to Main Content

Identifier les archétypes de batteurs

Par : Stats Perform

Principaux enseignements

- Nous montrons comment l'analyse de regroupement des progressions de manches peut être utilisée pour regrouper les joueurs ayant des archétypes de batteurs similaires, tels que les joueurs à faible risque qui augmentent leur taux de réussite en fin de manche au-delà du rythme moyen.

- L'ordre intermédiaire de l'Angleterre (positions 3-5) se compare favorablement à celui de l'Australie, avec des prévisions de run et de taux de contrôle plus élevés..

- Dans les 10 dernières minutes des ODI, notre algorithme regroupe l'Anglais Jos Buttler en tant que joueur ayant un taux de réussite incomparable, mais identifie également l'Australien Glenn Maxwell dans le groupe de joueurs le plus dangereux.

Alors que l'Australie, tenante de la Coupe du monde, s'apprête à affronter l'Angleterre, pays organisateur, nous avons appliqué deux des nouvelles mesures avancées d'OptaPro pour mettre en évidence les différences dans les approches de frappe entre les deux équipes.

Dans notre blog précédent, nous avons présenté la modélisation de la progression des manches des joueurs basée sur les prédictions de la vitesse de course et de la vitesse de contrôle. Ces méthodes permettent de visualiser les données de match à une échelle fine, ce qui nous permet d'extraire des informations plus détaillées sur les performances des joueurs. L'étape suivante dans l'utilisation de ces méthodes consiste à utiliser les résultats de nos modèles pour identifier les archétypes de joueurs similaires, qui peuvent être utilisés pour comprendre la composition de l'équipe.

Regroupement de types de batteurs similaires

Pour récapituler brièvement, les mesures que nous avons définies dans le blog précédent sont les suivantes :

Prévision de courses par livraison : Nous considérons les courses par livraison plutôt que le taux d'attaque. Il s'agit de faire la distinction entre le taux d'attaque, qui prend généralement en compte le nombre total de points marqués au cours d'une manche, et le nombre prédit de points par livraison, qui est purement une prédiction du nombre de points marqués pour une livraison particulière effectuée au cours d'une manche.

Probabilité de coup contrôlé prédite : Il s'agit de la probabilité qu'un batteur contrôle une livraison. Nous définissons les coups contrôlés comme ceux dont l'issue est celle souhaitée par le batteur, qu'il s'agisse d'un coup lifté bien cadencé ou d'une sortie bien jugée à l'extérieur de la souche.

Grâce à ces mesures, nous pouvons classer les joueurs dans différents groupes, en fonction de la similitude de leurs résultats. Par exemple, nous pourrions regrouper des joueurs ayant une progression similaire des courses par livraison, ou une progression similaire du taux de contrôle. Il est également possible de combiner ces mesures pour regrouper des joueurs dont l'évolution des courses et du taux de contrôle est similaire. Par exemple, nous pourrions utiliser cet outil pour identifier les joueurs à faible risque qui augmentent le nombre de courses en fin de manches au-delà du rythme moyen.

Pour ce faire, nous utilisons des algorithmes de regroupement. L'idée de base est de regrouper les courbes en fonction de la distance qui les sépare sur la période considérée. Les courbes qui sont généralement assez proches les unes des autres sont susceptibles d'être placées dans le même groupe. Vous trouverez plus de détails sur cet algorithme à la fin de ce blog.

Comparaison des salles des machines de l'Angleterre et de l'Australie

L'une des principales différences entre l'Angleterre et la plupart des autres équipes de la Coupe du monde de cette année est l'agressivité constante de l'ensemble des joueurs, en particulier dans la "salle des machines" (postes 3 à 5).

Pour étudier comment les joueurs clés de la salle des machines de l'Angleterre et de l'Australie construisent leurs manches, nous avons modélisé leurs courses par livraison et leur probabilité de coup de contrôle avec des batteurs occupant les mêmes positions dans toutes les autres équipes de la Coupe du monde 2019.

Pour identifier les archétypes de batteurs, nous avons ensuite utilisé notre algorithme de regroupement pour regrouper les joueurs sur la base de leurs taux de contrôle et de course simultanément. Nous pouvons observer les caractéristiques uniques de chaque groupe. Nous avons choisi le nombre de groupes ici (six) de manière arbitraire et nous pourrions l'augmenter pour obtenir d'autres groupes descriptifs.

Les graphiques suivants représentent les six groupes de joueurs de la salle des machines et montrent leurs taux de course et de contrôle prévus, les joueurs australiens et anglais étant respectivement surlignés en or et en bleu. Les lignes blanches en pointillé représentent la performance moyenne de tous les joueurs.

 

 

Chaque groupe de cette analyse présente une caractéristique unique. Les groupes cinq et six sont les deux groupes les plus prudents en termes d'accumulation de points, mais avec un taux de contrôle relativement faible et élevé respectivement. Notez qu'aucun joueur australien ou anglais n'apparaît dans ce groupe, ce qui montre que les salles des machines des deux équipes sont toujours proactives.

Les groupes 3 et 4 sont assez similaires, mais le groupe 3 a un taux de points systématiquement plus élevé, ce qui correspond à un taux de contrôle initial inférieur à celui du groupe 4, bien que ce dernier s'améliore pour atteindre le taux de contrôle du groupe 4 après 50 livraisons. Enfin, les groupes 1 et 2 sont les plus performants.

Il est intéressant de noter les similitudes et les différences dans le fonctionnement des salles des machines anglaises et australiennes. Root et Morgan sont regroupés avec Smith et Khawaja aux postes de trois et quatre respectivement. Leur mode de fonctionnement est très similaire, mais la clé du succès de l'Angleterre au poste de batteur peut être observée par les taux de manche et de contrôle toujours plus élevés de chaque paire. Par exemple, les taux de manche et de contrôle constamment plus élevés de Joe Root correspondent à une moyenne de 60,39 runs par renvoi à un taux de frappe de 91,80 depuis la Coupe du monde 2015, par rapport à la moyenne de 43,36 runs par renvoi de Steve Smith à un taux de frappe de 84,59. En observant leurs approches similaires regroupées par notre algorithme, il est clair qu'ils sont le ciment de chaque équipe avec une accumulation régulière de runs et des taux de contrôle élevés, mais Root a été légèrement plus régulier dans les deux domaines.

De même, nous pouvons observer la différence entre les grands frappeurs (groupes 1 et 2). Ici, nous pouvons voir que Maxwell, qui est regroupé avec Hardik Pandya, frappe à un taux élevé et constant de courses par balle. Buttler met un peu plus de temps à démarrer, mais son accélération est supérieure à celle que Maxwell a tendance à gérer. En outre, le taux de contrôle de Buttler est plus élevé au cours des 50 premières livraisons que celui de Maxwell, dont la probabilité de contrôle diminue régulièrement tout au long de la manche, sans que le taux de manche ne progresse.

Les 10 derniers groupes de joueurs

Un autre exemple de la façon dont nous pouvons utiliser le regroupement pour séparer les types de joueurs et comprendre les forces de l'équipe peut être montré en regroupant les batteurs à partir de leur performance sur les 10 dernières heures, une mesure analysée dans notre blog précédent, où dans ce cas le regroupement est uniquement basé sur les courses par livraison.

Ce groupe regroupe les joueurs qui ont marqué au moins 400 runs en ODI depuis la Coupe du monde 2015 et qui ont une approche similaire en termes d'accumulation de runs dans les 10 derniers overs d'une manche. Sont mis en évidence certains joueurs clés d'Angleterre, d'Australie et aussi d'Inde.

 

 

Observons tout d'abord le groupe 3, dans lequel se trouve l'Anglais Ben Stokes. Bien que le taux de runs par livraison commence à être élevé dans les tours 41-46, ce groupe montre une chute considérable dans les quatre derniers tours par rapport aux autres groupes. Ces joueurs semblent atteindre une limite dans le taux de runs aux alentours de 1,00-1,25 runs par livraison dans cette période du jeu. Il s'agit toujours d'un taux de réussite très rapide, mais ils ne semblent pas passer à la vitesse supérieure pour faire grimper leur nombre de runs par livraison au-dessus de 1,50. Ben Stokes montre même une baisse de son taux de courses par balle, peut-être parce qu'il essaie de trop frapper la balle. Cela pourrait être une faiblesse pour l'Angleterre en fin de match, mais les prévisions en fin de match peuvent être incertaines pour les joueurs ayant peu de points de données, dont Stokes est un excellent exemple. Ce point est abordé plus en détail à la fin de ce billet.

L'algorithme regroupe également Buttler seul. Comme nous l'avons vu dans le blog précédent, son accélération dans les 10 dernières minutes est sans équivalent dans cet ensemble de joueurs. Par conséquent, l'algorithme de regroupement identifie sa courbe comme étant unique et sans équivalent. Toutefois, les deux autres groupes présentent des comparaisons intéressantes entre les joueurs.

D'une part, les groupes 2 et 4 suivent un schéma d'accélération assez similaire tout au long des 10 dernières minutes. En fait, un bref coup d'œil pourrait ne pas révéler de différences majeures entre eux, puisque les deux groupes ont des prédictions similaires de runs par livraison à 50 overs d'environ 1,25-2,00. Cependant, la principale différence entre ces groupes est la montée en puissance du taux de réussite.

Le groupe 2, qui comprend l'Anglais Moeen Ali, l'Indien Virat Kohli et l'Australien Glenn Maxwell, affiche déjà un score supérieur à la moyenne dès la 45e heure de jeu. Ils ont tendance à accélérer tôt, mais de manière régulière au cours des dix dernières heures de jeu. Cependant, des joueurs tels que l'Indien MS Dhoni, dans le groupe 4, ont tendance à retarder cette accélération. Par conséquent, bien que les joueurs du groupe 4 aient tendance à augmenter leur nombre de points vers la 50e heure, ils accélèrent plus profondément dans les manches que ceux du groupe 2.

Conclusions

Les deux exemples de ce blog montrent les différentes façons dont le regroupement des joueurs sur la base de leurs taux de manche et de contrôle peut être utilisé pour comprendre les forces de l'équipe et des joueurs.

En regroupant les joueurs de l'équipe centrale de cette Coupe du monde en fonction de la composition de leurs manches individuelles, on comprend mieux pourquoi l'Angleterre a toujours marqué à un rythme inégalé par les autres équipes. Par rapport à leurs homologues australiens, les joueurs de l'ordre intermédiaire de l'Angleterre obtiennent des résultats favorables en termes de nombre de points marqués et de taux de contrôle.

En outre, nous pouvons également comprendre pourquoi l'Angleterre a été si forte au cours des 10 dernières minutes d'une manche, car son ordre de bataille contient des joueurs très destructeurs en fin de partie qui ont tendance à accélérer plus tôt que la plupart des autres joueurs au cours de cette période de la manche.

Ces exemples ne font qu'effleurer la façon dont la modélisation des taux de manche et de contrôle, ainsi que les algorithmes de regroupement, peuvent permettre d'identifier des archétypes de joueurs. Nous avons observé des catégories spécifiques de joueurs internationaux lors des ODI, mais il existe une multitude d'autres compétitions internationales et nationales auxquelles nos modèles et méthodes pourront s'appliquer.

*Autres détails du modèle :

Pour regrouper les courbes similaires, nous utilisons la distance euclidienne de regroupement hiérarchique à liaison complète. Les caractéristiques sur lesquelles nous nous regroupons sont les valeurs GAM prédites à chaque livraison. Ainsi, sur un segment de 50 livraisons, chaque joueur aura 50 caractéristiques. Ce nombre peut être réduit en examinant un sous-ensemble de livraisons pour comparer les courbes. Bien que nous ne normalisions pas les caractéristiques lors du regroupement sur une seule mesure, lorsque nous regroupons les joueurs sur la base de leur taux de course et de leur taux de contrôle, une normalisation entre les mesures est nécessaire.

En termes d'incertitude, nous pouvons également estimer les intervalles de confiance correspondants à nos taux de passage et de contrôle, afin de donner une idée de l'incertitude entourant notre prédiction du nombre moyen de passages par livraison. Il ne s'agit que d'une indication approximative, car l'une des principales hypothèses requises pour une estimation robuste des intervalles à l'aide de notre approche n'est pas valable (variables de réponse gaussiennes), mais cela donne une idée des domaines dans lesquels nos résultats sont moins sûrs. Nous pourrions également considérer les intervalles de prédiction, mais en raison de la grande variabilité des séries obtenues par un seul tir, ces intervalles ont tendance à être larges et peu informatifs. Nous présentons ci-dessous l'intervalle de confiance à 95 % pour Ben Stokes, afin de montrer que la diminution de son estimation des courses par livraison se produit dans une section où les résultats de notre modèle sont plus incertains, ce qui pourrait bien être un artefact dû au manque de données dans cette période des manches de Stokes.

 

 

Il est important de noter que ces intervalles de confiance sont plus susceptibles d'augmenter aux extrémités d'une manche, où les batteurs ont moins d'occasions de faire face à des livraisons. C'est la raison pour laquelle nous avons choisi un seuil de 400 runs dans cette période de la manche pour nos graphiques. Ce seuil pourrait être réduit, mais il faudrait alors faire attention au nombre de splines et aux valeurs des paramètres de lissage utilisés dans l'ajustement du modèle. L'incertitude de la sortie est moins problématique dans les tracés de l'ordre intermédiaire entre l'Angleterre et l'Australie, car nous examinons des périodes de manches d'un joueur individuel plutôt qu'une partie des manches d'une équipe.