Tras presentar un póster en el OptaPro Analytics Forum de 2017, Martin Eastwood ofrece un análisis escrito de su trabajo, en el que analiza los procesos en los que se basa, el enfoque adoptado, los retos que se plantean por el camino y cómo fue recibido por el sector del análisis del fútbol.
Siga a Martin en Twitter: @penaltyblog
Introducción
Es el minuto 67 y el Crystal Palace pierde 1-0 en casa contra el AFC Bournemouth. Andros Townsend tiene el balón fuera del área y opta por disparar a pesar de tener compañeros más cerca de la portería a los que podría pasar. El balón vuela a las manos del portero y se pierde la posesión.
¿Cómo evaluamos las decisiones que toman los futbolistas durante los partidos?
Esta fue la pregunta que me hice para el OptaPro Analytics Forum de este año y la solución que elegí fue utilizar el aprendizaje automático. Para los que no conozcan el aprendizaje automático, se trata de una forma de inteligencia artificial que permite a los ordenadores aprender sin ser programados explícitamente. El aprendizaje automático es la forma en que los coches autoconducidos de Google saben adónde ir y cómo Facebook reconoce automáticamente las caras de tus amigos en tus fotografías.
La segunda parte de la tarea consistía en cómo poner estos conocimientos al alcance de los equipos de fútbol. El aprendizaje automático es un tema bastante pesado que implica un montón de matemáticas complejas, así que ¿cómo podía tomar esta idea y presentarla a un club de fútbol de una manera que fuera relevante para ellos?
Los datos
Empecé el trabajo con grandes visiones de resolver el fútbol. Google utilizó recientemente una técnica de aprendizaje automático conocida como Deep Learning para derrotar al campeón mundial del juego de mesa Go y yo quería aplicar los mismos conceptos aquí. Sin embargo, con solo seis semanas para completar todos los análisis y preparar una presentación, limité mis ambiciones a un nivel más realista y decidí centrarme exclusivamente en evaluar las acciones de ataque de los equipos dentro y alrededor del área.
Para ello, como parte de mi propuesta, solicité tanto datos de Opta sobre eventos en el balón como datos de seguimiento de ChyronHego. Los datos de Opta ofrecen un conjunto de eventos con balón que se producen durante el partido, mientras que los datos de seguimiento óptico proporcionan las coordenadas XY de todos los jugadores sobre el terreno de juego 25 veces por segundo.
Identificar las buenas decisiones
Como el objetivo era evaluar las decisiones de los futbolistas, necesitaba una forma de determinar cuáles eran buenas y cuáles malas. Tras explorar varias opciones, me decidí por analizar si las acciones de los jugadores aumentaban la probabilidad general de marcar de su equipo.
Para calcular esta probabilidad de gol, creé una red neuronal basada en la ubicación del jugador que disparaba a puerta y en las ubicaciones de todos los jugadores contrarios. A continuación, comprobé la precisión de la red neuronal a la hora de predecir los goles marcados probándola con un conjunto de disparos que la red nunca había visto antes.
Por desgracia, los resultados fueron algo decepcionantes. Las redes neuronales necesitan muchos datos para entrenarse y, con un conjunto limitado de partidos para construir el modelo, no había datos suficientes para que la red convergiera plenamente. Intenté simplificar el modelo incluyendo únicamente las posiciones de los defensas y el portero contrarios, pero la cosa no mejoró mucho.
Necesitaba echar una mano a la red para identificar la información relevante en los datos, así que añadí una serie de funciones adicionales, como las teselaciones de Voronoi de los jugadores, en lugar de basarme únicamente en las coordenadas XY en bruto.
Las teselaciones de Voronoi son formas dibujadas alrededor de cada jugador que marcan la zona que está más cerca del jugador que de cualquier otro jugador (véase el ejemplo de la figura 1).
Cuanto mayor sea el área de Voronoi de un jugador, mayor será el espacio de que disponga a su alrededor y menor la presión a la que presumiblemente esté sometido por parte del rival. Esta ingeniería de características adicional funcionó a las mil maravillas y la precisión de la red neuronal mejoró considerablemente.

Figura 1: Ejemplo de teselado de Voronoi que muestra la cantidad de espacio alrededor de cada jugador
Interpretabilidad
Aunque las redes neuronales son excelentes para muchas cosas, uno de sus inconvenientes es que son difíciles de interpretar, ya que en esencia son cajas negras. Introduces los datos por un extremo y obtienes un resultado por el otro, pero no sabes realmente cómo o por qué la red ha llegado a la respuesta que ha dado.
Quería poder discutir los resultados con los equipos de fútbol y, por experiencia, a las personas sin formación matemática les puede costar confiar en los algoritmos de caja negra, así que también creé un modelo más sencillo basado en una regresión logística.
Aunque la precisión de la regresión no fue igual a la de la red neuronal, creó un conjunto de coeficientes que podían utilizarse para ayudar a explicar cada resultado. Por ejemplo, si un jugador sólo tenía un 5% de posibilidades de marcar, podía mostrarle a un entrenador exactamente qué parte de ese porcentaje se debía a la ubicación del jugador en el campo, su ángulo hacia la portería, cuántos defensas había a su alrededor, lo pequeña que era su área de Voronoi, etcétera.
Después de dejar mi ordenador revolviendo los datos durante unos días, por fin pude mostrar el impacto de cada acontecimiento en la probabilidad de puntuar de un equipo y explicar por qué cada acción tenía un efecto positivo o negativo.
Presentación de los datos
El principal resultado que quería presentar era cómo afectaban las acciones de los jugadores a la posibilidad de que su equipo marcara un gol, así que para ello creé una aplicación web que animaba los datos de seguimiento en tiempo real (para más detalles, véase el final del artículo).
A continuación, identifiqué qué equipo estaba atacando y superpuse la probabilidad de que el jugador con el balón marcara desde su posición actual, así como la probabilidad de que el jugador pasara con éxito el balón a un miembro del equipo y éste disparara y marcara en su lugar.
La Figura 2 muestra una captura de pantalla de ejemplo en la que el jugador con el balón sólo tiene un 2% de posibilidades de marcar si dispara desde su posición actual. El mismo jugador también tiene un 7% de posibilidades de pasar el balón a un compañero cercano y que éste dispare y marque en su lugar.
Si se ve el vídeo de este ejemplo de vuelta, el pase es claramente la mejor opción, pero aquí tenemos la ventaja añadida de poder cuantificar exactamente cuánto mejor es esa decisión en términos de marcar un gol.
A continuación, puede agregar estas decisiones a lo largo de un período más largo para ver cómo las decisiones de cada jugador están afectando a su equipo.

Figura 2: Ejemplo de probabilidades de gol
El ejemplo anterior presupone que, al atacar, los jugadores intentan chutar o pasar el balón directamente a un compañero, pero no siempre es así. A menudo, los jugadores buscan mover el balón hacia el espacio para que un compañero corra hacia él. Para tenerlo en cuenta, he añadido el porcentaje acumulado de posibilidades de marcar, que es el valor que aparece en la esquina inferior izquierda de la Figura 2.
Esta métrica combina todos los porcentajes individuales de los jugadores en una sola cifra para que puedas ver si el movimiento y la forma del equipo están teniendo un impacto positivo o negativo en su probabilidad general de marcar. El uso de un porcentaje acumulativo no es estrictamente exacto, ya que sólo uno de los jugadores puede disparar, pero me pareció un indicador útil de la amenaza de gol global de un equipo, y el concepto pareció gustar mucho a los analistas a los que se lo mostré.
Comentarios
Tuve la suerte de poder hablar en detalle del trabajo con varios entrenadores y analistas de equipos profesionales, y la respuesta fue abrumadoramente positiva. Los entrenadores de los equipos juveniles, en particular, pensaron que la aplicación sería una gran manera de enseñar a los niños qué hacer en situaciones específicas, ya que podrían ver cómo cambian los porcentajes en tiempo real a medida que los jugadores corren, cruzan el balón, etc.
De hecho, todo el aspecto interactivo de la aplicación pareció funcionar muy bien. En lugar de ser un gráfico estático o una hoja de cálculo con números, el hecho de poder ver a los jugadores correr y comprobar cómo afectaba eso a las posibilidades de marcar de su equipo pareció atraer a la gente y captar su atención. A lo largo del día hubo un flujo constante de personas que jugaban con la aplicación y saltaban a través de las secuencias para explorar los efectos de diferentes tipos de eventos.
Próximos pasos
Sólo tuve tiempo limitado para desarrollar la aplicación a tiempo para el Forum OptaPro y había un montón de ideas que no tuve la oportunidad de poner en práctica. Uno de los aspectos que más me interesaba era estudiar si se podía cambiar todo para cuantificar la defensa en lugar del ataque, por ejemplo, analizando la capacidad de los defensores para guiar a los atacantes hacia lugares menos peligrosos, si están rompiendo su línea defensiva, etcétera.
También quería probar a superponer los datos sobre el vídeo. Puede que haya que ajustar un poco la forma de presentar los datos, pero el potencial de implicación es aún mayor cuando los usuarios pueden ver a los jugadores en el vídeo, en lugar de los simples gráficos bidimensionales que he dibujado para las animaciones.
Finalmente...
He preparado un vídeo rápido que muestra las probabilidades de gol y algunas de las otras superposiciones que se pueden añadir a los datos de seguimiento aquí para cualquiera que quiera ver la aplicación en acción.