Por segundo año consecutivo, Kuba Michalczyk fue preseleccionado para presentar una propuesta en el Forum OptaPro 2020.
El proyecto Forum de Kuba aplicó datos de seguimiento de 2018/19, suministrados por la Pro League belga, para identificar y evaluar los pases de ruptura de línea, a los que luego se asignó un valor en función de si el pase aumentaba la probabilidad de que se marcara un gol o, en el otro extremo de la escala, aumentaba el riesgo de que se produjera una pérdida de balón.
En este blog invitado expone la metodología de su proyecto, junto con un resumen de las principales conclusiones.
Introducción
Los pases de ruptura de líneas son muy discutidos entre analistas, entrenadores y expertos en fútbol. Como pases que diseccionan una línea de la formación rival, suelen permitir a un equipo la transición de una fase ofensiva a otra.
Por lo tanto, la capacidad de un jugador para realizar un buen pase de ruptura de línea es muy valorada. Aunque algunas estadísticas existentes, como el empaque o los pases progresivos, podrían servir a veces como aproximación, he aplicado datos de seguimiento Stats Perform , tomados de la Pro League belga 2018/19, con el objetivo de crear un nuevo método para medir directamente el valor de estos pases.
Definición de un pase de ruptura de línea
El punto de partida de esta investigación fue establecer un enfoque fiable para detectar líneas de formación, teniendo en cuenta que cada jugador puede cambiar de una línea de formación a otra como resultado de su movimiento.
Una forma natural de agrupar a los jugadores en líneas consiste en aplicar un algoritmo de agrupación a la coordenada x del terreno de juego (la coordenada de la línea de banda). Tras probar unos cuantos algoritmos de agrupación, finalmente me decidí por uno de los más sencillos -una optimización de pausas naturales de Jenks-, en el que se forman tres agrupaciones de jugadores de campo (y los porteros forman una cuarta agrupación). Este algoritmo es una técnica eficaz y muy comprensible para reducir el volumen de desviación de la media de los clusters.
Para evitar el cambio inmediato entre líneas, la coordenada x se promedió a lo largo de una ventana temporal de dos segundos. Además, las agrupaciones que duraban menos de un segundo se eliminaban y se reasignaban a la línea anterior.
Adoptar un número fijo de agrupaciones puede no ser el enfoque óptimo para analizar otras áreas del fútbol, pero me pareció aceptable al buscar pases de ruptura de líneas, ya que en su mayor parte, así es como se configuraría normalmente un equipo defensivo. Además, permitir un número variable de agrupaciones probablemente daría lugar a agrupaciones formadas por un jugador que en realidad no forma una línea, pero que no se puede ignorar, ya que su posicionamiento puede ser crucial para la configuración defensiva.

Figura 1. Detección de líneas de formación Ejemplo de detección de líneas de formación mediante clustering 1-D
A efectos de este análisis, un pase que rompe la línea se define como un pase que no sólo interseca al menos una de las líneas de oposición en sentido geométrico, sino que también:
- Avanza el balón al menos 10 metros;
- Tiene un punto de partida que está al menos a cinco metros del punto de intersección;
- Tiene un punto final de al menos dos metros más allá del jugador sentado más profundo en la línea.
Esta definición elimina pasa eso:
- Rompen las líneas en un sentido geométrico, pero es poco probable que den lugar a una transición a la siguiente fase de ataque;
- Son extremadamente fáciles de completar, debido a su proximidad a la línea que penetra.
La definición también significa que el receptor de un pase no está sujeto a la presión ejercida por ningún jugador contrario que forme parte de la línea de ruptura.
En el análisis se tuvieron en cuenta todos los pases en juego abierto, pero como las coordenadas Z (altura del balón) no formaban parte de la muestra de datos, los resultados no tienen en cuenta si un pase se jugó por encima o a lo largo del suelo.
Una última consideración antes de pasar al modelo propiamente dicho se refiere a los retos que plantea la definición de un pase interceptado. Dado que las coordenadas finales de una interceptación apuntan al lugar del campo en el que se produce la interceptación, no podemos basarnos en ellas para determinar si un pase pretendía romper la línea o no.
Sin embargo, dado que disponemos de información sobre el ángulo del pase y el límite inferior de la longitud de un pase, podemos intentar deducir el destino final previsto de un pase. Para ello, aplicamos el modelo de supervivencia de Weibull, que es una técnica especialmente adecuada para tratar con datos de límite inferior, para estimar la longitud adicional prevista de un pase desde el punto de interceptación. De este modo, incluso si un pase era interceptado, pero su destino previsto lo clasificaba como rompe-líneas, podríamos marcarlo como un pase rompe-líneas fallido.
Establecer un modelo para asignar valor a los pases
El objetivo inicial de este proyecto era tratar de cuantificar el valor de los distintos pases de línea frente a los que no lo son, mediante la comparación de pases con características espaciales similares.
Lo ideal habría sido emplear un modelo de Valor de Posesión Esperado (VPE) que tuviera en cuenta la abundancia de datos de seguimiento disponibles. Por desgracia, la creación de un modelo EPV fiable basado en datos de seguimiento es compleja y requeriría una cantidad de tiempo desproporcionada en comparación con los beneficios del objetivo final.
En el otro extremo de la escala, un modelo de goles esperados sin disparo, que asigna valores a los eventos de las zonas más profundas del campo, era probablemente demasiado rígido para la tarea. Por lo tanto, me decidí por un modelo de valor de posesión esperado similar a un marco VAEP, en el que los datos de los eventos se mejoran con las siguientes características extraídas de los datos de seguimiento:
- El "ángulo de visión" máximo, que se define como el ángulo máximo creado por el balón y dos jugadores adyacentes cualesquiera a partir de la primera línea de oposición delante de un jugador con el balón;
Figura 2: Un ejemplo de "ángulo de visión", que muestra la zona en la que un jugador en posesión puede pasar entre dos jugadores rivales dentro de una línea defensiva. El ángulo entre el jugador uno, el balón y el jugador dos, marcado como alfa, es el ángulo máximo en este escenario. El ángulo entre el jugador tres, el balón y el jugador cuatro es negativo y, por tanto, se ignora en el cálculo de la "integridad de la línea" definida en el punto 3 siguiente.
- La distancia máxima entre jugadores adyacentes en la primera línea de oposición por delante del jugador con el balón;
- La "integridad de la línea" se define como la suma de la inversa de los ángulos de visión positivos;
- La "compacidad de la línea" se define como la suma de los inversos de las distancias entre jugadores adyacentes en una línea;
- Los valores de "control de paso", al inicio y al final de una acción, se definen según el modelo introducido en este libro blanco, autoría de Luke Bornn y Javier Fernández en Sloan 2018..
Figura 3: Ejemplo de salida del modelo de "control de cabeceo
Tanto la característica uno como la característica dos intentan captar cualquier posible vulnerabilidad en la configuración de la línea que está más cerca del jugador en posesión. La premisa en la que se basa el "ángulo de visión" es que es más fácil pasar el balón entre dos jugadores cuando el ángulo creado por esos dos jugadores y el balón es mayor, ya sea porque están muy separados entre sí o porque el jugador en posesión está más cerca de la línea contraria.
Sin embargo, la distancia entre los jugadores adyacentes en una línea es importante, ya que es el lenguaje que muchos entrenadores utilizan para transmitir su disposición a los jugadores. En consecuencia, las características tres y cuatro pretenden captar la disposición de la primera fila de jugadores en su conjunto, aplicando los dos conceptos esbozados en los puntos uno y dos.
Cuando aplicamos una suma de ángulos y distancias inversas para mantener la escala intuitiva de ambas medidas, los valores bajos indican un mal posicionamiento y los altos demuestran una configuración sólida.
Un aspecto clave que hay que mencionar es que la "integridad de la línea" no incorpora ángulos de visión negativos. Volviendo a la visualización de la Figura 2, este ángulo de visión negativo se crea entre el jugador tres, el balón, y el jugador cuatro, que está efectivamente oculto tras el resto de la línea. En este caso, un posible pase sólo podría atravesar a esos dos jugadores desde el otro lado, rompiendo antes la línea entre los jugadores dos y tres. Por lo tanto, aunque la posición del jugador cuatro no puede ignorarse totalmente, es menos crítica que las posiciones de los jugadores uno, dos y tres. En consecuencia, he optado por no incorporar ángulos negativos en el cálculo.
Las cinco características se procesaron de acuerdo con el marco VAEP, lo que en resumen significaba que las características del evento actual y de los dos anteriores de una cadena de posesión se introdujeron en un modelo XGBoost para predecir la probabilidad de que el equipo marcara o encajara un gol en las diez acciones siguientes.
¿Aumenta la probabilidad de gol un pase de ruptura de línea?
El gráfico de violín que aparece a continuación muestra las probabilidades de marcar y recibir un gol durante cualquiera de los diez eventos que siguen a un pase, en función de si el pase rompe la línea o no.
Un área más amplia en un gráfico de violín representa una mayor proporción de escenarios a los que se asigna una probabilidad determinada. La mediana de las probabilidades está marcada por los puntos y el intervalo entre los percentiles 25 y 75 está documentado por barras.

Para mantener un rango práctico en el eje Y, se ha eliminado el 1% de los valores de mayor probabilidad.
Aunque este enfoque carece de rigor estadístico, indica que los pases que rompen la línea aumentan la probabilidad de que se marque un gol, con un valor medio casi dos veces superior al de los pases que no rompen la línea.
También cabe destacar que un pase fallido de ruptura de línea tampoco parece aumentar tanto la probabilidad de que se encaje un gol, como se destaca a continuación.

Para mantener un rango práctico en el eje Y, se ha eliminado el 1% de los valores de mayor probabilidad.
¿Quiénes fueron los jugadores más eficaces a la hora de completar los pases de ruptura de línea?
En un contexto de reclutamiento, una de las ventajas de definir los pases de ruptura de línea es que puede ayudar a identificar a los aspirantes que son buenos rompiendo líneas contrarias con un pase.
El gráfico de dispersión a continuación traza todos los jugadores que jugaron como defensa central en al menos diez partidos durante la Pro League 2018/19, con el número de pases de ruptura de línea que intentaron por 90 y su tasa de éxito.
Los jugadores del cuadrante superior derecho obtuvieron puntuaciones superiores a la media en ambas categorías.

Sólo se incluyeron los jugadores con al menos 900 minutos jugados en la defensa central.
Al igual que en el caso de los centrales que buscan pases progresivos, tener la capacidad de pasar el balón a la siguiente fase ofensiva es crucial para los mediapuntas de contención. A continuación se muestran los resultados de los jugadores clasificados como centrocampistas centrales de contención.
Uno de los jugadores más destacados de la temporada pasada fue Ruslan Malinovskiy, traspasado del Genk al Atalanta el pasado verano.

Sólo se incluyeron jugadores con al menos 900 minutos jugados en el mediocampo defensivo.
¿Puede identificar los pases en falso con datos de eventos?
Contar con la capacidad de detectar automáticamente los pases de línea puede suponer considerables ventajas en el flujo de trabajo para un analista de vídeo, que tiene que dedicar mucho tiempo a buscarlos manualmente.
Como nota a pie de página, dada la falta de disponibilidad de datos de seguimiento fuera de una competición nacional, como parte de esta investigación también intenté construir un modelo que predijera si un pase rompía la línea o no basándome únicamente en características derivadas de los datos del evento.
Este modelo poseía una precisión del 84% y una puntuación AUC del 93%, lo que significaba que el modelo podía predecir si un pase rompía la línea o no en 84 de cada 100 casos.
Sin embargo, dado que sólo el 8% de todos los pases eran de rotura de línea, el punto de corte para asignar etiquetas era crucial. Me decidí por un modelo con un índice de recuerdo del 89% y de precisión del 32%, lo que significaba que el modelo podía detectar correctamente el 89% de todos los pases que rompían la línea, pero a costa de clasificar muchos pases como pases que rompían la línea pero que, en realidad, no lo hacían. Esto era de esperar, dado que el modelo no puede ver dónde se encuentran los jugadores defensores en el campo sin datos de seguimiento.
Un escenario en el que pueden surgir esos falsos positivos es cuando un equipo defiende en un bloqueo bajo y el balón es jugado por el equipo en posesión desde su propio tercio defensivo hacia un centrocampista en el campo contrario, pero ese jugador sigue situado delante de la primera línea defensiva del equipo contrario.
Aunque no es perfecto, desde el punto de vista del flujo de trabajo reduciría el número de pases para revisar el vídeo, lo que agilizaría los procesos, y la buena noticia es que, en función de las preferencias del analista, el límite podría ajustarse para obtener una clasificación aún más estricta.
La mala noticia es que si se desea una clasificación casi perfecta de los pases de línea sin intervención manual, sigue siendo necesario utilizar datos de seguimiento.
Me gustaría dar las gracias a Karun Singh, que leyó una versión preliminar de este artículo y aportó valiosos comentarios. Asimismo, doy las gracias a Ricardo Tavares, así como a los autores del paquete Socceraction, cuyo código se amplió para preparar visualizaciones de los terrenos de juego y preprocesar los datos, respectivamente. Los datos utilizados en el análisis proceden de la Pro League belga, capturados por Stats Perform.

