Este artículo es una versión escrita del OptaPro Analytics Forum 2018 de Ben Torvaney, cuyo objetivo era proporcionar un modelo unificado para el efecto de la liga y la edad en el rendimiento de los jugadores. Lee la presentación inicial de Ben aquí.
La analista mentora de Ben en este proyecto fue Lucy Rushton, Jefa de Contratación y Análisis Técnico del Atlanta United.
Para obtener más información sobre cómo enviar una propuesta para presentar en el Forum Analítico OptaPro 2019, haga clic aquí
Para el foro OptaPro de 2018, presenté un modelo simple y extensible para estimar el efecto de la liga y la edad en el rendimiento de los jugadores en una variedad de métricas. En el proceso, también estimamos el rendimiento individual de los jugadores. Aunque aquí solo se aplica a la liga y la edad, el modelo puede ampliarse fácilmente para incluir otros factores sobre el rendimiento de los jugadores, como la posición y el rival.
Todo el mundo quiere reducir el riesgo de transferencia. Parte de ese riesgo radica en la incertidumbre de transferir habilidades de un entorno de juego a otro. Nunca podemos decir con certeza lo bien que rendirá un jugador del equipo X en el equipo Y. Esto dificulta las comparaciones justas de jugadores en entornos diferentes. Pero, ¿y si pudiéramos intentar eliminar algunos de estos efectos? Es decir, ¿y si pudiéramos ponerlos en la misma escala?
Empecemos por pensar en los goles. Al fin y al cabo, es la única estadística que importa. Los jugadores pasan de una liga a otra, por lo que podemos ver cómo cambia el porcentaje de goles de cada jugador cuando pasa de una liga a otra. Observando muchas de estas comparaciones, podemos hacernos una idea del efecto de cada liga en los goles.
Los resultados coinciden en gran medida con la intuición y la sabiduría popular, pero tienen la ventaja de estar cuantificados. De una selección de las principales ligas europeas, la Premier League es la más difícil de marcar, y lo ha sido cada vez más en los últimos años. Se calcula que los jugadores de la Premier League marcan goles a un 80% de la velocidad a la que lo harían en la Serie A o en la Liga española. En otras palabras, si un jugador marcaba 0,5 goles cada 90 minutos (un gol cada dos partidos) en la Premier League, cabría esperar que marcara cerca de 0,6 goles cada 90 minutos en la Serie A. Asimismo, he descubierto que el pico goleador se produce entre los 23 y los 29 años, con tasas de goles estimadas en torno a un 10-15% superiores a las de jugadores equivalentes en torno a los 20 años, o alrededor de los 30 años.
¿Qué aspecto tiene este modelo?
Las variables que implican el número de eventos en un periodo de tiempo determinado suelen modelizarse con la distribución de Poisson. Esto es útil y podemos pensar que los goles también tienen una distribución de Poisson aproximada. En pocas palabras, la distribución de Poisson nos indica la probabilidad de ver X eventos en un periodo de tiempo determinado, dado un parámetro de tasa (el número medio de eventos en ese periodo de tiempo).
Podemos utilizar esto para elaborar un modelo que nos permita alcanzar nuestro objetivo original de separar la habilidad del jugador de los efectos externos. Simplemente modelamos la tasa (goles por 90 minutos jugados) de cada jugador como el producto de estos diferentes factores:
tasa = habilidad del jugador * efecto edad * efecto liga
A continuación, estimamos cada uno de estos parámetros a partir de los datos. En este caso, a partir de un conjunto de goles marcados y minutos jugados por cada jugador en una selección de las principales ligas europeas desde 2006/07 hasta 2017/18 (inclusive).
Para concretar más, veamos un ejemplo. Si queremos hacer una predicción, podemos simplemente tomar el producto de cada uno de estos parámetros. Así, para obtener una estimación de la tasa goleadora de Pierre-Emerick Aubameyang en 2018/19, simplemente tomamos la "estimación de la habilidad del jugador" (0,53), la estimación de la liga de (0,84) y el efecto estimado de la edad a los 29 años (1,08) y los multiplicamos. Esto nos da una tasa goleadora estimada de unos 0,48 goles por cada 90 minutos jugados.
Edad
La banda muestra el intervalo de credibilidad del 95% para cada edad, siendo la línea oscura la mediana. Cuanto más ancha es la banda, menos seguro es el modelo.
Cada parámetro de edad se estima de forma independiente. No hay nada en el modelo que fuerce la forma de U sin invertir; la curva limpia y bonita que se ve procede enteramente de los datos. Aunque es fácil pensar en un puñado de excepciones, los datos son claros: el pico de edad goleadora se sitúa entre los 23 y los 29 años.
También hay un pequeño pero significativo pico alrededor de los 20 años. Tengo un par de ideas sobre lo que puede estar provocando esto. Por término medio, los suplentes marcan más que los titulares. Esto se debe a varias razones, probablemente a la ventaja de jugar contra rivales cansados, así como a efectos del marcador (los equipos que pierden marcan más que los que empatan) y a efectos tácticos. Sospecho que esto podría estar produciendo el pico, ya que los jugadores jóvenes salen con frecuencia como suplentes y es más probable que jueguen en funciones ofensivas. Sin embargo, también podría tratarse de ruido o de alguna otra peculiaridad de la recopilación de datos, o de elementos tácticos.
Este gráfico muestra el cambio en el efecto relativo de las diferentes ligas sobre los goles a lo largo del tiempo. Un valor más bajo significa que los jugadores tienden a marcar menos goles en esa liga en relación con las demás.
Estos datos sugieren que la Premier League es cada vez más difícil de marcar, mientras que la Ligue Unite y la Liga portuguesa son cada vez más fáciles.
Es importante señalar que esto no significa necesariamente que estas ligas sean peores que la Premier League. Lo difícil que es marcar en una liga es producto tanto de la calidad de la liga como del estilo de la competición. Es decir, la media de goles por partido.
Por ejemplo, durante este periodo, la Bundesliga promedió más de 3 goles por partido, y aún así se encuentra cerca de la mitad de la tabla. Esto se debe a que es una liga con muchos jugadores y equipos de gran calidad. La liga portuguesa, por su parte, registró una media de 2 goles por partido. Sin embargo, debido a la relativa fortaleza de las ligas, los jugadores siguen tendiendo a marcar más goles por partido en Portugal que en las otras ligas seleccionadas.
Jugadores
La lista de los mejores jugadores parece ajustarse más o menos a la intuición; acierta con los dos primeros (y en el orden correcto). Curiosamente, si se ordena por mediana en lugar de por límite inferior (como se muestra aquí), Gabriel Jesus aparece en el puesto número cuatro (alrededor de 0,8). Sin embargo, debido a su edad y al menor número de partidos jugados (al menos en Europa), la incertidumbre en torno a su verdadera capacidad goleadora es mucho mayor que, por ejemplo, la de Harry Kane.
También podemos ver que en la lista abundan los jugadores que han seguido marcando hasta bien avanzada su carrera. Hablaré un poco más de esto cuando pasemos a las demás estadísticas.
¿Otras estadísticas?
Por supuesto, el fútbol es mucho más que goles. Y las estadísticas futbolísticas son algo más que goles. Podemos aplicar a otros parámetros la misma lógica que utilizamos para comparar los porcentajes de goles en diferentes épocas y competiciones. He seleccionado los disparos, los pases clave (el pase previo al disparo, a veces denominado asistencia al disparo), los pases en el último tercio y los saques de banda completados.
Proceden de un conjunto de datos ligeramente diferente al utilizado para los goles. OptaPro proporcionó datos F9 (estadísticas agregadas) para la Premier League, La Liga, Eredivisie y Football League Championship desde 2013/14 hasta 2016/17 (inclusive).
Una vez más, esto parece coincidir con nuestra intuición. Estamos acostumbrados a ver cómo los jugadores se desplazan a posiciones más profundas hacia el final de sus carreras. Por otro lado, las entradas son propias de jugadores jóvenes.
Curiosamente, el índice de intentos de asalto no disminuye tan rápidamente como el de asaltos completados. En otras palabras, el porcentaje de recepciones completadas aumenta con la edad. Esto puede ser prueba de una mayor selectividad y una mejor toma de decisiones a medida que los jugadores maduran.
Como en el caso de los goles, el efecto anterior es una mezcla del nivel de talento y el estilo de la liga. Las métricas basadas en los disparos parecen estar más estrechamente relacionadas con la calidad de la liga que los pases en el último tercio y los saques de banda.
Aquí hay algunos nombres más sorprendentes que en el modelo de sólo goles. Sin embargo, creo que esto puede explicarse por la curva de edad combinada con una cantidad de datos más limitada en el tiempo. Por ejemplo, el modelo sólo "ve" a Wes Hoolahan en una fase relativamente tardía de su carrera. Como sus números son muy elevados en comparación con los de otros jugadores de edad similar, el modelo asume que era el mejor del mundo en su mejor momento.
Ampliación del modelo
La fórmula multiplicativa en la que se basa el modelo hace que resulte sencillo ampliarlo simplemente añadiendo factores adicionales a la estimación. Un aspecto que podría resultar especialmente fructífero sería tener en cuenta los efectos del juego. Por ejemplo, la hora del partido y el marcador. Sabemos que los equipos tienden a marcar más al final de los partidos y cuando van perdiendo. Tener esto en cuenta podría ayudar a mejorar la precisión de las estimaciones de edad y de cada jugador.
Otro aspecto mejorable podría ser la personalización de las curvas de edad. En otras palabras, tratar la capacidad de rendir antes o después en una carrera que un jugador medio como una habilidad distinta de la de marcar goles (o generar disparos, pases, etc.). Esto podría aliviar parte del sesgo de edad que vimos antes en las listas de los mejores jugadores.






