Ir al contenido principal

Identificar los arquetipos de bateador

Por: Stats Perform

Principales conclusiones

- Mostramos cómo el análisis de agrupación de progresiones de entradas puede utilizarse para agrupar jugadores con arquetipos de bateo similares, tales como jugadores de bajo riesgo que aumentan el ritmo de carrera en las últimas entradas por encima del ritmo medio.

- El orden medio de Inglaterra (posiciones 3-5) se compara favorablemente con la de Australia, con mayores pronósticos de velocidad de carrera y control..

- En los 10 overs finales de los ODIs, nuestro algoritmo agrupa al inglés Jos Buttler por sí mismo como poseedor de una tasa de anotación incomparablemente alta, pero también identifica al australiano Glenn Maxwell en el siguiente grupo de jugadores más peligrosos.

Mientras Australia, vigente campeona del mundo, se prepara para enfrentarse a Inglaterra, la anfitriona, hemos aplicado dos de las nuevas métricas avanzadas de OptaPro para destacar las diferencias en los planteamientos de bateo entre ambos equipos.

En nuestro blog anterior, presentamos la modelización de la progresión de las entradas de los jugadores basada en predicciones de la tasa de carreras y la tasa de control. Estos métodos permiten visualizar los datos de los partidos a gran escala, lo que nos permite extraer información más detallada sobre el rendimiento de los jugadores. El siguiente paso en la utilización de estos métodos es utilizar los resultados de nuestros modelos para identificar arquetipos de jugadores similares, que pueden utilizarse para comprender la composición de los equipos.

Agrupación de tipos de bateadores similares

Para recapitular brevemente, las métricas que definimos en el blog anterior son:

Predicción de carreras por lanzamiento: Consideramos las carreras por lanzamiento en lugar de la tasa de strike. Esto es para distinguir entre la tasa de strike, que normalmente considera la tasa de anotación total de la entrada, y la predicción de carreras por lanzamiento, que es puramente una predicción de la tasa de anotación para un lanzamiento en particular en una entrada.

Probabilidad Prevista de Tiro Controlado: Es la probabilidad de que un bateador controle un lanzamiento. Definimos los tiros controlados como aquellos en los que el resultado del tiro fue el deseado por el bateador, desde un tiro bombeado bien sincronizado hasta un golpe fuera del muñón.

Utilizando estas métricas, podemos asignar jugadores a varios grupos, basándonos en la similitud de sus resultados. Por ejemplo, podríamos agrupar a jugadores con una progresión similar de carreras por envío, o una progresión similar del índice de control. También es posible combinar estas métricas para agrupar a jugadores que tengan una evolución similar de carreras e índice de control. Por ejemplo, podríamos utilizar esta herramienta para identificar a los jugadores de bajo riesgo que aumentan el porcentaje de carreras en las últimas entradas por encima del ritmo medio.

Para ello utilizamos algoritmos de agrupación. La idea básica es agrupar las curvas en función de la distancia que las separa en el periodo de interés. Las curvas que suelen estar bastante cerca unas de otras suelen colocarse en el mismo grupo. Al final de este blog encontrará más información sobre este algoritmo.

Comparando la sala de máquinas de Inglaterra y Australia

Una de las principales diferencias entre Inglaterra y muchos de los demás equipos de la Copa Mundial de este año es su constante agresividad en toda la línea de bateo, especialmente en su "sala de máquinas" (posiciones 3-5).

Para explorar cómo los jugadores clave de la sala de máquinas de Inglaterra y Australia construyen sus entradas, hemos modelado sus carreras por entrega y la probabilidad de tiro de control junto con bateadores en las mismas posiciones de todos los demás equipos de la Copa del Mundo 2019.

Para identificar los arquetipos de bateadores, hemos utilizado nuestro algoritmo de agrupación para agrupar a los jugadores en función de sus porcentajes de control y de carrera simultáneamente. Podemos observar los rasgos únicos de cada grupo, cuyo número (seis) hemos elegido arbitrariamente, y que podría aumentarse para obtener más grupos descriptivos.

Los siguientes gráficos representan los seis grupos de jugadores de la sala de máquinas y muestran sus índices de carrera y control previstos, con los jugadores de Australia e Inglaterra resaltados en dorado y azul respectivamente. Las líneas blancas discontinuas representan el rendimiento medio de todos los jugadores.

 

 

Cada grupo de este análisis presenta un rasgo único. Los grupos cinco y seis son los dos más cautelosos en términos de acumulación de carreras, pero con un índice de control relativamente bajo y alto respectivamente. Obsérvese que ninguno de los jugadores australianos o ingleses aparece en este grupo, lo que pone de relieve que las salas de máquinas de ambos equipos son sistemáticamente proactivas.

Los grupos tres y cuatro son algo similares, pero el grupo tres tiene un índice de carreras sistemáticamente superior que corresponde a un índice de control inicial reducido en comparación con el grupo cuatro, aunque éste mejora hasta igualar el índice de control del grupo cuatro a los 50 partos afrontados. Por último, los grupos uno y dos son los grandes bateadores.

Es interesante observar las similitudes y diferencias en el funcionamiento de las salas de máquinas inglesa y australiana. Root y Morgan, que batean en el tres y el cuatro, están agrupados con Smith y Khawaja, respectivamente. Funcionan de forma muy similar, pero la clave del éxito del bateo inglés puede observarse en los índices de carreras y de control sistemáticamente superiores de cada pareja. Por ejemplo, las tasas de carrera y control consistentemente más altas de Joe Root corresponden a un promedio de bateo de 60,39 carreras por expulsión con una tasa de ataque de 91,80 desde la Copa del Mundo de 2015, en comparación con el promedio de bateo de Steve Smith de 43,36 carreras por expulsión con una tasa de ataque de 84,59. Observando sus enfoques similares agrupados por nuestro algoritmo, está claro que son el pegamento en cada equipo con una acumulación de carreras constante y altas tasas de control, pero Root ha sido ligeramente más consistente en ambas áreas.

Del mismo modo, podemos observar la diferencia en los grandes bateadores (grupos uno y dos). Aquí podemos ver que Maxwell, que está agrupado con Hardik Pandya, batea a un ritmo consistentemente alto de carrera por bola. Buttler tarda un poco más en ponerse en marcha, pero su aceleración es mayor que la que suele conseguir Maxwell. Además, la tasa de control de Buttler tiene una predicción más alta a lo largo de las primeras 50 entregas en comparación con Maxwell, cuya probabilidad de control disminuye constantemente a lo largo de las entradas sin ganar en tasa de carrera.

Final 10 sobre grupos de jugadores

Otro ejemplo de cómo podemos utilizar la agrupación para separar los tipos de jugadores y comprender los puntos fuertes del equipo se puede mostrar agrupando a los bateadores a partir de su rendimiento final en 10 lanzamientos, una métrica analizada en nuestro blog anterior, donde en este caso la agrupación se basa únicamente en las carreras por lanzamiento.

Esta agrupación agrupa a los jugadores que han anotado al menos 400 carreras en ODI desde la Copa del Mundo de 2015, que tienen un enfoque similar en términos de acumulación de carreras en los últimos 10 overs de una entrada. Se destacan algunos jugadores clave de Inglaterra, Australia y la India.

 

 

En primer lugar, observemos el grupo tres, en el que se encuentra el inglés Ben Stokes. Aunque la tasa de carreras por lanzamiento empieza siendo alta en los overs 41-46, este grupo muestra un descenso considerable en los últimos cuatro overs en comparación con los otros grupos. Estos jugadores parecen alcanzar un límite de carreras en torno a 1,00-1,25 carreras por lanzamiento en este periodo del partido. Sigue siendo un ritmo de anotación muy rápido, pero no parece que consigan esa velocidad extra para elevar sus carreras por envío por encima de 1,50. Ben Stokes muestra incluso un descenso en la tasa de carreras por bola, posiblemente debido a que intenta golpear demasiado la pelota. Esto podría ser un punto débil para Inglaterra en los últimos overs, pero la predicción en la cola de las entradas puede ser incierta para los jugadores con pocos puntos de datos, de los que Stokes es un buen ejemplo. Esta cuestión se analiza con más detalle al final de esta entrada del blog.

'El algoritmo también agrupa a Buttler por sí mismo. Como se comentó en el blog anterior, su aceleración en los 10 overs finales no tiene parangón en este conjunto de jugadores. Por lo tanto, el algoritmo de agrupación identifica su curva como única sin equivalente. Sin embargo, los dos grupos restantes muestran algunas comparaciones interesantes entre jugadores.

Por un lado, los grupos dos y cuatro siguen un patrón de aceleración algo similar a lo largo de los 10 overs finales. De hecho, un breve vistazo podría no revelar grandes diferencias entre ellos, ya que ambos grupos tienen predicciones similares de carreras por entrega a los 50 overs de alrededor de 1,25-2,00. Sin embargo, la diferencia clave entre estos grupos es el aumento del ritmo de anotación.

El grupo dos, que incluye al inglés Moeen Ali, al indio Virat Kohli y al australiano Glenn Maxwell, ya está marcando por encima de la media de carreras prevista en el 45º over. Suelen acelerar pronto, pero de forma constante a lo largo de los 10 overs finales. Sin embargo, jugadores como el indio MS Dhoni, del grupo cuatro, tienden a retrasar esta aceleración. Por lo tanto, aunque los jugadores del grupo cuatro tienden a aumentar a un ritmo de carreras muy respetable hacia el 50º over, aceleran más en las entradas que los del grupo dos.

Conclusiones

Los dos ejemplos de este blog muestran varias formas de agrupar a los jugadores en función de sus porcentajes de carreras y controles para comprender los puntos fuertes del equipo y de los jugadores.

Al agrupar a los jugadores de la sala de máquinas en esta Copa Mundial por su composición individual de entradas, está claro por qué Inglaterra ha anotado sistemáticamente a un ritmo inigualado por cualquier otro equipo. Si se compara con sus homólogos australianos, el orden medio de Inglaterra presenta un rendimiento favorable tanto en términos de porcentaje de carreras como de control.

Además, también podemos ver por qué Inglaterra ha sido tan fuerte durante los últimos 10 overs de una entrada, con su orden de bateo conteniendo jugadores de último orden altamente destructivos que tienden a acelerar antes que la mayoría en este periodo de las entradas.

Estos ejemplos son sólo una muestra de cómo la modelización de la tasa de carreras y controles, junto con los algoritmos de agrupación, pueden identificar arquetipos de jugadores. Hemos observado categorías específicas de jugadores internacionales en los ODI, pero hay muchas otras competiciones nacionales e internacionales a las que se pueden aplicar nuestros modelos y métodos.

*Más detalles del modelo:

Para agrupar curvas similares, utilizamos la agrupación jerárquica de enlace completo de distancia euclidiana. Las características que agrupamos son los valores GAM previstos en cada entrega, por lo que en un segmento de 50 entregas, cada jugador tendrá 50 características. Esto puede reducirse analizando un subconjunto de entregas para comparar las curvas. Aunque no normalizamos las características cuando nos agrupamos en función de una única medida, cuando agrupamos a los jugadores en función de su porcentaje de carreras y su porcentaje de controles, es necesario normalizar todas las medidas.

En cuanto a la incertidumbre, también podemos estimar los intervalos de confianza correspondientes de nuestras tasas de ejecuciones y controles, para hacernos una idea de la incertidumbre que rodea a nuestra predicción de las ejecuciones medias por parto. Se trata sólo de una guía aproximada, ya que uno de los principales supuestos necesarios para una estimación robusta de los intervalos con nuestro enfoque no se cumple (variables de respuesta gaussianas), pero da una idea de dónde tenemos menos certeza en nuestros resultados. También podríamos considerar intervalos de predicción, pero debido a la gran variabilidad de las ejecuciones que se pueden obtener con un solo disparo, estos intervalos tienden a ser amplios y poco informativos. Abajo mostramos el intervalo de confianza del 95% para Ben Stokes, para mostrar como su estimación de carreras por lanzamiento disminuida está durante una sección de mayor incertidumbre en la salida de nuestro modelo, por lo tanto esto bien puede ser un artefacto de la falta de datos en este periodo de las entradas de Stokes.

 

 

Es importante señalar que es más probable que estos intervalos de confianza aumenten en los extremos de una entrada, donde los bateadores tienen menos oportunidades de enfrentarse a lanzamientos. Por eso hemos elegido un límite de 400 carreras en este periodo de la entrada para nuestros gráficos. Este límite podría reducirse, pero habría que tener cuidado con el recuento de splines y los valores de los parámetros de suavidad utilizados en el ajuste del modelo. La incertidumbre de los resultados es menor en los gráficos de Inglaterra contra Australia, ya que estamos analizando periodos de las entradas de un jugador individual en lugar de una sección de las entradas de un equipo.