¿Qué impacto tienen los pases que rompen la línea defensiva?

En una entrada de blog como colaborador de Stats Perform, el científico de datos Kuba Michalczyk presenta las conclusiones de un proyecto de investigación que utiliza datos de seguimiento para determinar si los pases que rompen la línea defensiva aumentan la probabilidad de que se marque un gol.

Stats Perform

~ 9 min de lectura

Por segundo año consecutivo, Kuba Michalczyk ha sido preseleccionado para presentar una propuesta en el Foro OptaPro 2020.

El proyecto «Forum» de Kuba utilizó datos de seguimiento de la temporada 2018/19, facilitados por la Pro League belga, para identificar y evaluar los pases que rompían la línea defensiva, a los que posteriormente se les asignó un valor en función de si el pase aumentaba la probabilidad de que se marcara un gol o, por el contrario, incrementaba el riesgo de pérdida de balón.

En esta entrada de blog como autor invitado, describe la metodología en la que se basa su proyecto, junto con un resumen de las principales conclusiones.

Introducción

Los pases que rompen las líneas son un tema muy debatido entre analistas, entrenadores y expertos de fútbol. Al ser pases que desarticulan una línea de la formación rival, suelen permitir a un equipo pasar de una fase de ataque a otra.

Por lo tanto, se valora mucho la capacidad de un jugador para realizar un buen pase que rompa las líneas defensivas. Aunque algunas estadísticas existentes, como los «packing» o los pases progresivos, pueden servir en ocasiones como indicador aproximado, he aplicado los datos Stats Perform , extraídos de la Pro League belga de la temporada 2018/19, con el objetivo de crear un nuevo método para medir directamente el valor de estos pases.

Definición de un pase que rompe la línea

El punto de partida de esta investigación fue establecer un método fiable para detectar las líneas de formación, teniendo en cuenta que cada jugador puede pasar de una línea de formación a otra como consecuencia de sus movimientos.

Una forma natural de agrupar a los jugadores en líneas consiste en aplicar un algoritmo de agrupación a la coordenada x del campo (la coordenada de la línea de banda). Tras probar varios algoritmos de agrupamiento, finalmente me decidí por uno de los más sencillos —la optimización de rupturas naturales de Jenks— con tres grupos formados por los jugadores de campo (mientras que los porteros forman un cuarto grupo). Este algoritmo es una técnica eficaz y muy comprensible para reducir el volumen de desviación respecto a la media del grupo.

Para evitar el cambio inmediato entre líneas, se calculó la media de la coordenada x en un intervalo de dos segundos. Además, se eliminaron los grupos que duraban menos de un segundo y se reasignaron a la línea anterior.

Aunque establecer un número fijo de grupos quizá no sea el enfoque óptimo para analizar otros aspectos del fútbol, me pareció aceptable a la hora de buscar pases que rompan la línea defensiva, ya que, en la mayoría de los casos, así es como se suele organizar un equipo defensivo. Además, permitir un número variable de grupos probablemente daría lugar a grupos formados por un solo jugador que, en realidad, no forma parte de la línea, pero que no puede ignorarse, ya que su posicionamiento puede ser crucial para la organización defensiva.

Figura 1. Ejemplo de detección de líneas de formación mediante agrupamiento unidimensional

A efectos de este análisis, se entiende por «pase que rompe la línea» aquel que no solo cruza al menos una de las líneas del equipo contrario en sentido geométrico, sino que además:

– Avanza con el balón al menos 10 metros;

– Tiene un punto de partida situado al menos a cinco metros del punto de intersección;

– Tiene un punto final situado al menos dos metros más allá del jugador más retrasado de la línea.

Esta definición excluye los pases que:

– Rompen las líneas en un sentido geométrico, pero es poco probable que den lugar a una transición a la siguiente fase de ataque;

– Son muy fáciles de realizar, debido a su proximidad a la línea que atraviesan.

La definición también implica que el receptor de un pase no está sujeto a la presión ejercida por ningún jugador rival que formara parte de la línea rota.

En el análisis se tuvieron en cuenta todos los pases en juego abierto; sin embargo, dado que las coordenadas Z (altura del balón) no formaban parte de la muestra de datos, los resultados no tienen en cuenta si un pase se realizó por alto o raso.

Una última consideración antes de pasar al modelo en sí misma se refiere a las dificultades que plantea definir qué es un pase interceptado. Dado que las coordenadas finales de una intercepción indican el lugar del campo donde se produce la intercepción, no podemos basarnos en ellas para determinar si un pase tenía como objetivo romper la línea defensiva o no.

Sin embargo, dado que disponemos de información sobre el ángulo del pase y el límite inferior de su longitud, podemos intentar deducir el destino final previsto del pase. Para ello, aplicamos el modelode supervivencia de Weibull, una técnica especialmente indicada para tratar datos con un límite inferior, con el fin de estimar la longitud adicional prevista del pase desde el punto de intercepción. De esta forma, aunque un pase fuera interceptado, pero su destino previsto lo clasificara como un pase de ruptura de línea, podríamos marcarlo como un pase de ruptura de línea fallido.

Creación de un modelo para asignar valor a los pases

El objetivo inicial de este proyecto era intentar cuantificar el valor de los diferentes pases con cambio de línea en comparación con los que no lo tienen, mediante la comparación de pases con características espaciales similares.

Lo ideal habría sido utilizar un modelo de valor de posesión esperado (EPV) que aprovechara la gran cantidad de datos de seguimiento disponibles. Lamentablemente, crear un modelo EPV fiable basado en datos de seguimiento es una tarea compleja y requeriría una cantidad de tiempo desproporcionada en comparación con los beneficios que reportaría el objetivo final.

En el extremo opuesto, un modelo de goles esperados sin tener en cuenta los disparos, que asignaba valores a las jugadas ocurridas en zonas más retrasadas del campo, probablemente resultaba demasiado rígido para esta tarea. Por lo tanto, me decidí por un modelo de valor de posesión esperada similar almarco VAEP, en el que los datos de las jugadas se complementan con las siguientes características extraídas de los datos de seguimiento:

El «ángulo de visión» máximo, que se define como el ángulo máximo formado por el balón y dos jugadores adyacentes de la primera línea defensiva situada frente al jugador que tiene el balón;
Figura 2: Un ejemplo de «ángulo de visión», que muestra la zona en la que un jugador en posesión del balón puede pasar entre dos jugadores rivales dentro de una línea defensiva. El ángulo entre el jugador uno, el balón y el jugador dos, marcado como «alfa», es el ángulo máximo en esta situación. El ángulo entre el jugador tres, el balón y el jugador cuatro es negativo y, por lo tanto, se ignora al calcular la «integridad de la línea» definida en el punto 3 más adelante.
La distancia máxima entre los jugadores adyacentes de la primera línea defensiva situada frente al jugador que tiene el balón;
La «integridad de la línea» se define como la suma de los inversos de los ángulos de visión positivos;
La «compacidad de la línea» se define como la suma de los inversos de las distancias entre los jugadores adyacentes en una línea;
Los valores de «control de tono», al inicio y al final de una acción, se definen según el modelo presentado en este libro blanco, escrito por Luke Bornn y Javier Fernández en Sloan 2018.
Figura 3: Ejemplo de resultado del modelo de «control de tono»

Tanto la característica uno como la característica dos tratan de detectar cualquier posible punto débil en la disposición de la línea más cercana al jugador que tiene la posesión. La premisa en la que se basa el «ángulo de visión» es que resulta más fácil pasar el balón entre dos jugadores cuando el ángulo que forman esos dos jugadores y el balón es mayor, ya sea porque están muy separados entre sí o porque el jugador con la posesión se encuentra más cerca de la línea contraria.

Sin embargo, la distancia entre los jugadores adyacentes en una línea es importante, ya que es el lenguaje que utilizan muchos entrenadores para transmitir su disposición a los jugadores. Por ello, los puntos tres y cuatro pretenden reflejar la disposición de la primera línea de jugadores en su conjunto, aplicando los dos conceptos descritos en los puntos uno y dos.

Cuando aplicamos la suma de los ángulos inversos y las distancias para mantener la escala intuitiva de ambas medidas, los valores bajos indican una mala colocación, mientras que los valores altos reflejan una configuración sólida.

Un aspecto clave que hay que mencionar es que la «integridad de la línea» no tiene en cuenta los ángulos de visión negativos. Volviendo a la imagen de la figura 2, este ángulo de visión negativo se crea entre el jugador tres, el balón y el jugador cuatro, que queda oculto detrás del resto de la línea. En este caso, un posible pase solo podría atravesar a esos dos jugadores desde el otro lado, rompiendo la línea antes, entre los jugadores dos y tres. Por lo tanto, aunque la posición del jugador cuatro no puede ignorarse por completo, es menos crítica que las posiciones de los jugadores uno, dos y tres. En consecuencia, decidí no incluir los ángulos negativos en el cálculo.

Las cinco características se procesaron siguiendo elmarco VAEP, lo que, en resumen, significaba que las características del evento actual y de los dos eventos anteriores en una cadena de posesión se introdujeron en un modeloXGBoostpara predecir la probabilidad de que el equipo marcara o encajara un gol en las diez jugadas siguientes.

¿Aumenta la probabilidad de marcar un gol un pase que rompe la línea defensiva?

El gráfico de violín que se muestra a continuación presenta las probabilidades de marcar y encajar un gol durante cualquiera de las diez jugadas posteriores a un pase, en función de si dicho pase rompe la línea defensiva o no.

Una zona más amplia en un gráfico de violín representa una mayor proporción de escenarios a los que se ha asignado una probabilidad determinada. Las probabilidades medianas se indican mediante puntos, y el rango comprendido entre el percentil 25 y el 75 se representa mediante barras.

Para mantener un rango práctico en el eje Y, se ha eliminado el 1 % de los valores con mayor probabilidad.

Aunque este enfoque carece de rigor estadístico, indica que los pases que rompen la línea defensiva aumentan la probabilidad de que se marque un gol, con un valor medio casi el doble que el de los pases que no rompen dicha línea.

También cabe destacar que un pase de ruptura de líneas fallido tampoco parece aumentar demasiado la probabilidad de encajar un gol, tal y como se pone de manifiesto a continuación.

Para mantener un rango práctico en el eje Y, se ha eliminado el 1 % de los valores con mayor probabilidad.

¿Quiénes fueron los jugadores más eficaces a la hora de realizar pases que rompían la línea defensiva?

En el ámbito de la selección de jugadores, una de las ventajas de definir los pases que rompen las líneas defensivas es que puede ayudar a identificar a los candidatos que destacan por su capacidad para romper las líneas del equipo contrario con un pase.

El gráfico de dispersión que se muestra a continuación recoge a todos los jugadores que actuaron como defensas centrales en al menos diez partidos durante la Pro League 2018/19, indicando el número de pases en profundidad que intentaron por cada 90 minutos y su porcentaje de acierto.

Los jugadores situados en el cuadrante superior derecho obtuvieron una puntuación superior a la media en ambas categorías.

Solo se incluyeron los jugadores que hubieran disputado al menos 900 minutos como defensas centrales.

Al igual que ocurre con los centrales que buscan dar pases progresivos, la capacidad de llevar el balón a la siguiente fase de ataque es fundamental para los mediocampistas de apoyo. A continuación se muestran los datos de los jugadores clasificados como mediocampistas defensivos.

Uno de los jugadores más destacados de la temporada pasada fue Ruslan Malinovskiy, que fichó por el Atalanta procedente del Genk el verano pasado.

Solo se incluyeron los jugadores que hubieran disputado al menos 900 minutos en la posición de mediocampista defensivo.

¿Se pueden identificar los pases que rompen la línea defensiva a partir de los datos de los eventos?

La capacidad de detectar automáticamente los pases que cruzan la línea de fondo puede suponer una mejora considerable en el flujo de trabajo de un analista de vídeo, que tiene que dedicar mucho tiempo a buscarlos manualmente.

Como nota al margen, dada la falta de datos de seguimiento fuera de una competición nacional, como parte de esta investigación también intenté crear un modelo que predijera si un pase rompía la línea defensiva o no basándome únicamente en características derivadas de los datos de los eventos.

Este modelo presentaba una precisión del 84 % y un valor AUC del 93 %, lo que significaba que el modelo podía predecir si un pase rompía la línea defensiva o no en 84 de cada 100 casos.

Sin embargo, dado que solo el 8 % de todos los pases rompían la línea defensiva, el umbral para asignar etiquetas resultaba crucial. Me decidí por un modelo con un recall del 89 % y una precisión del 32 %, lo que significaba que el modelo podía detectar correctamente el 89 % de todos los pases que rompían la línea, pero a costa de clasificar muchos pases como «rompedores de línea» que, en realidad, no la rompían. Esto era de esperar, dado que el modelo no puede ver dónde se encuentran los jugadores defensores en el campo sin datos de seguimiento.

Una situación en la que pueden producirse esos falsos positivos es cuando un equipo defiende en un bloque bajo y el equipo que tiene la posesión saca el balón desde su propio tercio defensivo hacia un centrocampista situado en el campo contrario, pero ese jugador sigue estando situado delante de la primera línea defensiva del rival.

Aunque no es una solución perfecta, desde el punto de vista del flujo de trabajo reduciría el número de jugadas que hay que revisar en vídeo, lo que agilizaría los procesos; además, la buena noticia es que, en función de las preferencias de cada analista, el umbral podría ajustarse para obtener una clasificación aún más estricta.

La mala noticia es que, si quieres una clasificación casi perfecta de los pases que rompen la línea defensiva sin intervención manual, sigues necesitando utilizar datos de seguimiento.

Me gustaría dar las gracias a Karun Singh, que leyó un borrador de este artículo y me aportó comentarios muy valiosos. Asimismo, quiero dar las gracias a Ricardo Tavares, así como a los autores del paquete Socceraction, cuyo código se amplió para elaborar las visualizaciones del terreno de juego y preprocesar los datos, respectivamente. Los datos utilizados en el análisis fueron facilitados por la Liga Profesional Belga y recopilados por Stats Perform.