Kuba Michalczyk exhibió una presentación de póster en el OptaPro Analytics Forum 2019, en la que aplicó técnicas de agrupación para visualizar el juego de acumulación de cada equipo de la Premier League durante la temporada 2017/18.
En este blog invitado expone la metodología de su presentación, junto con un resumen de las principales conclusiones.
Haga clic aquí para ver el cartel de Kuba.
Introducción
Hace muchos años, el pionero de la analítica futbolística, Charles Reep, llegó a la conclusión de que las secuencias cortas de juego tienen más éxito. Esta interpretación errónea coincidió con la adopción de planteamientos similares por parte de muchos equipos, entre ellos varios con sede en Inglaterra.
Sin embargo, esta tendencia parece haberse invertido en los últimos años, con cada vez más equipos que buscan construir desde atrás. Para ello, los defensas y los porteros deben mejorar su capacidad de pase y participar activamente en la fase inicial de la construcción. Sin embargo, esto conlleva riesgos adicionales, ya que cada balón que se pierde en zonas defensivas deja vulnerable al equipo.
Al identificar patrones subyacentes en la forma en que los adversarios buscan construir desde atrás, los entrenadores pueden obtener una referencia rápida que muestre sus ubicaciones de pase y estilo de juego preferidos. Estos hallazgos pueden respaldar el análisis táctico, de modo que un equipo puede idear estrategias para detener los ataques de un rival en la fase inicial o, simplemente mediante el posicionamiento del equipo, obligar a un adversario a jugar el balón de forma poco entrenada o ineficaz.
Por lo tanto, para mi proyecto Forum OptaPro utilicé datos de eventos de la temporada 2017/18 de la Premier League para preparar un marco que me permitiera descubrir cualquier patrón subyacente en cómo cada equipo construía desde atrás. Se trataba de un análisis en dos fases que empleaba el análisis de conglomerados en ambas partes.
El análisis de conglomerados es un enfoque de minería de datos que clasifica observaciones en entornos no supervisados, es decir, sin etiquetas conocidas de antemano. Los grupos formados como resultado de la agrupación deben contener observaciones similares entre sí, y las observaciones de grupos separados no deben ser similares.
Parte 1 - Agrupación de pases iniciadores
Para la primera parte de este análisis, estas observaciones fueron pases de iniciación, que se definieron como pases que:
- hizo progresar el balón significativamente más arriba (se excluyeron los pases con un ángulo inferior a 15 grados medidos contra la línea de gol);
- tenía un punto de partida dentro del tercio defensivo;
- fueron realizadas por porteros o defensas;
- no eran pases de cabeza ni lanzamientos de los porteros.
Hay que señalar que esta definición tiene varias limitaciones. En primer lugar, no se han tenido en cuenta los pases realizados por los centrocampistas defensivos, que a menudo apoyan a los centrales durante la fase de creación. Esto se debe a la ausencia de posiciones detalladas en la muestra de datos.
Una posible solución habría sido intentar estimar la posición media de los eventos relacionados con un jugador, pero este enfoque podría verse afectado por los inconvenientes de la media: como los jugadores a veces cambian de posición durante un partido, la posición media resultante podría ser engañosa. Por lo tanto, a efectos de este análisis, se excluyeron los pases realizados por todos los centrocampistas. No obstante, al analizar un equipo concreto, un analista podría decidir qué jugadores podrían jugar como centrocampistas de contención e incluirlos en el conjunto de datos de entrada.
Otra limitación es el hecho de que este análisis se basa en datos de toda una temporada y, por tanto, no tiene en cuenta los cambios de entrenador o de jugadores, que pueden afectar al estilo de juego de un equipo. Sin embargo, disponer de datos de una temporada completa permite que el análisis sea coherente para cada equipo y garantiza tamaños de muestra comparables.
Dado que el algoritmo elegido, que se analizará más adelante, permite especificar un número mínimo de pases similares necesarios para clasificar un pase en un cluster, este parámetro podría reducirse y podría realizarse un análisis a partir de un número significativamente menor de partidos. Esto permitiría realizar análisis de oposición basados en partidos o encuentros más recientes teniendo en cuenta cualquier cambio.
La definición dio como resultado un conjunto de datos de coordenadas espaciales de pases que contiene una media de 1.527 pases por equipo, lo que constituye los datos de entrada para la primera fase.
Antes de lanzar los datos a un algoritmo de agrupación, conviene saber cómo están dispersos. Aquí suele ayudar el análisis de componentes principales (ACP). El ACP es una técnica de reducción de la dimensionalidad y, como tal, nos permite representar un pase mediante un único punto en un espacio bidimensional, preservando tanta variabilidad de sus coordenadas originales (coordenadas x, y iniciales y x, y finales) como sea posible.
A continuación se muestra un ejemplo de salida de PCA, que presenta los pases iniciales realizados por el Manchester United.
Figura 1: Resultado del PCA para los pases iniciales del Manchester United. Cuanto más claro es el color, más pases hay en la región.
A partir de este resultado podemos observar siete regiones densas: seis regiones circulares más pequeñas en el exterior con una gran área en el centro, todas ellas conectadas con puntos puente de número variable. Estos puntos puente hacen que los datos sean difíciles de separar y, por tanto, de agrupar, especialmente con métodos de agrupación basados en la optimización, como el conocido algoritmo k-means.
Sin embargo, mi intuición detrás de los clusters era diferente a los supuestos de k-means. Como quería detectar patrones repetitivos, mi objetivo era captar regiones densas, ignorando posiblemente los puntos puente y cualquier otra forma de ruido. Por lo tanto, se empleó un algoritmo DBSCAN (agrupación espacial basada en la densidad en aplicaciones con ruido). En este caso, el ruido puede interpretarse como pases no realizados en condiciones normales de acumulación, por ejemplo, realizados bajo presión, fuera de posición, etc. Dependiendo del equipo, entre el 53% y el 80% de los pases se clasificaron como ruido, lo que nos dejó sólo con patrones de juego significativos.
Otra elección esencial que había que hacer era una forma de medida de la disimilitud. Como mi objetivo principal era establecer la dirección del juego, siendo el avance de los pases una preocupación secundaria, decidí dar más peso a la coordenada y. La razón de estas ponderaciones elegidas era que me importaba más la dirección del pase con respecto a la anchura del terreno de juego que a su longitud.
La figura 2 muestra los pases medoides de cada equipo de la Premier League. Los medoides son los representantes de grupos que más se parecen a todos los demás pases de un grupo. Podemos ver que algunos equipos evitan los pases al centro del campo y prefieren distribuir el balón a lo ancho (como el Bournemouth) o a lo largo (West Brom), mientras que, quizá no resulte sorprendente, el Manchester City juega mucho con pases cortos y centrales. Otro buen ejemplo es el Leicester City, con balones diagonales dirigidos hacia la línea de medio campo, un tipo de pase que no aparece en ningún otro equipo.
También se pueden observar similitudes entre el Huddersfield Town y el Liverpool, aunque los Terriers no jugaban con pases cortos y centrales, y en su lugar exhibían agrupaciones de balones largos.
La Figura 2 también puede utilizarse para analizar la participación en la creación por posición. Por ejemplo, es probable que el lateral izquierdo del Crystal Palace participe mucho más en su juego de acumulación que su lateral derecho. Sin embargo, esta conclusión debe contrastarse con la homogeneidad de los grupos.
Ahora centraremos nuestra atención en el Arsenal. Si observamos la Figura 2, puede resultar tentador concluir que el Arsenal inició sus jugadas con mucha más frecuencia por la derecha que por la izquierda.
El gráfico siguiente presenta la estructura completa de los cúmulos del Arsenal, con los medoides de los cúmulos marcados en azul oscuro. La diferencia real no es tan evidente, ya que a la izquierda hay dos clusters homogéneos, mientras que a la derecha sólo se ha formado un cluster con una estructura más heterogénea. Así pues, el gráfico nos ayuda a tener en cuenta la variación dentro de los clusters, al tiempo que establece la dirección de acumulación preferida por el Arsenal.
Parte 2 - Acciones posteriores modales
En la segunda parte de mi análisis quería responder a esta pregunta: ¿Qué aspecto tienen las acumulaciones más frecuentes cuando comienzan en un determinado grupo de pasadas iniciales?
Para ello, tomé todas las secuencias de juego que empezaban en un clúster concreto y las agrupé utilizando la propagación por afinidad combinada con una medida de similitud apropiada para datos de series temporales: la deformación temporal dinámica (DTW). Esta medida permite identificar trayectorias que tienen una forma similar.
Antes de calcular la distancia entre dos secuencias, DTW intenta alinear una secuencia para que se parezca lo más posible a la de referencia, por lo que se ignoran las diferencias de velocidad y número de pasadas dentro de una secuencia, siempre que las trayectorias generales sean similares.
Una secuencia, sin embargo, podía contener varios pases iniciales (como se define en la parte 1). Por lo tanto, para evitar que algunas partes de una secuencia se consideraran dos veces, las secuencias se dividieron en dos subsecuencias si el balón volvía a entrar en el tercio defensivo. Como resultado, una proporción considerable de secuencias eran sólo intercambios de dos pases, con el balón jugado desde un defensor e inmediatamente de vuelta, que no son suficientemente informativos. Sin embargo, una secuencia de dos pases puede seguir siendo interesante si el balón se jugó en largo.
Por este motivo, se eliminaron todas las secuencias que no cruzaban la línea de medio campo. Como mi principal interés se centraba en cómo los equipos construían desde atrás y no en cómo atacaban, se recortaron las secuencias si el balón entraba en el último tercio. Esto se hizo para evitar que las secuencias coincidieran con información irrelevante en este contexto.
Por último, se eliminaron todas las subsecuencias formadas por pases de iniciación fallidos, puesto que ya se habían clasificado en la primera etapa.
Figura 4: Ejemplo de salida de la segunda fase: las tres primeras acumulaciones de modo tras el pase inicial del grupo 1. La línea discontinua indica que el balón es transportado. La línea discontinua indica que se lleva el balón. Una línea continua indica un pase. El color indica el orden de la secuencia, de azul oscuro a azul claro. La anchura se mide como la máxima diferencia horizontal en metros dentro de la secuencia. La anchura absoluta se mide como la distancia máxima en metros desde una línea vertical central dentro de la secuencia. La dirección se mide como la diferencia neta en distancia a la línea de meta contraria, dividida por la distancia total recorrida por el balón durante la secuencia.
La Figura 4 presenta las tres acumulaciones más frecuentes del Arsenal para un pase inicial del grupo 1. Aunque estos resultados probablemente deban tomarse con cautela debido al pequeño tamaño de la muestra, los grupos presentados a veces pueden informarnos, por ejemplo, de qué pases iniciales tienden a activar un ataque directo por la banda o una jugada de acumulación más larga por el centro.
Conclusiones
Los comentarios generales que recibí en el Forum fueron abrumadoramente positivos. Los analistas de clubes apreciaron especialmente la posibilidad de detectar diferencias entre equipos y posibles puntos débiles. La detección de estos puntos de interés fue posible gracias a que no nos centramos en la perspectiva de la liga, sino que analizamos los datos a nivel de equipo.
Algo que podría desarrollarse más es una medida estadística que permitiera evaluar formalmente la calidad de la agrupación. Pasé bastante tiempo estudiando diferentes técnicas de validación de agrupaciones y ninguna de ellas me pareció apropiada desde el punto de vista futbolístico.
Por lo tanto, todos los conglomerados se validaron visualmente y los parámetros DBSCAN se eligieron de forma que los conglomerados fueran estables en los valores vecinos. Disponer de una estadística de validación de clústeres no sólo reduciría el sesgo humano, sino que también ayudaría a automatizar el proceso.
La aplicación
Si le interesan los resultados de algún equipo en particular, consulte la ShinyApp adjunta.
Además, no dude en compartir sus opiniones o puntos de vista conmigo en Twitter, ya sea públicamente o a través de mensajes directos.



