Ir al contenido principal
Organismos de radiodifusión y televisión conectada, federaciones y titulares de derechos, clubes profesionales y universidades

Aplicaciones de AI Generativa en el Deporte: Q2 Update, Part II

Por: Patrick Lucey

En la segunda parte de nuestro último artículo sobre Tendencias deAI en el deporte, el científico jefe Patrick Lucey explica cómo Opta Vision resuelve un problema clave que ha frenado el análisis del fútbol durante los últimos 25 años, utilizando una combinación de vision por ordenador e AI generativa. 

Si se perdió la primera parte la semana pasada, puede encontrarla aquí


El principal reto de la captura de datos de localización y movimiento de los jugadores a partir del vídeo en el fútbol es que el vídeo remoto no ofrece una perspectiva uniforme del partido.

Para seguir un partido desde vídeo remoto, sólo se utiliza un ángulo de cámara. Se trata de la vista de la cámara principal/de juego, situada normalmente en la línea de medio campo con un ángulo razonablemente alto. La razón por la que sólo se utiliza este ángulo es que contiene la información necesaria, como las líneas laterales, el círculo central, el área de 18 yardas, etc., para calibrar la cámara. Otras vistas no contienen esa información, por lo que la calibración de la cámara es prácticamente imposible.

Sin embargo, incluso utilizando el ángulo de visión alto de la cámara de juego, por término medio sólo 11 de los 22 jugadores están normalmente a la vista. Y a menudo hay primeros planos y repeticiones, periodos en los que antes no se podían capturar datos de seguimiento de los jugadores.

El tiempo que se dedican a las repeticiones y los primeros planos varía de un juego a otro; en algunos los primeros planos son mínimos y en otros son muy numerosos, hasta el 20% del juego.

Está claro que el análisis de un juego de equipo como el fútbol tiene importantes limitaciones si no se captan el 20% de los eventos del juego y el 50% de las carreras sin balón que realizan los jugadores.

Observa estos dos ejemplos. El primero (arriba) muestra cuando 11 de los 22 jugadores están fuera de la vista, y el segundo ejemplo (abajo) muestra cuando todos los jugadores están fuera de la vista, debido a un primer plano.

Estos dos ejemplos están tomados del mismo segmento de juego. Primero tenemos la cámara de juego durante un periodo de tiempo, faltando la mitad de los jugadores de cada equipo. Luego tenemos un primer plano de unos 8 segundos, en el que faltan 20 jugadores. El primer plano contiene tres pases antes de que se produzca un pase en profundidad por la parte derecha del campo.

Utilizando el seguimiento a distancia estándar, que no captura datos de seguimiento durante los primeros planos, nos perderíamos la posición y el movimiento de la mayoría de los jugadores y, posiblemente más importante, estos 3 pases, y sobre todo el último pase que da lugar a una jugada de ataque.

Los pases clave son raros y muy importantes. Por lo tanto, pasar por alto los pases clave y los pases que conducen al pase clave, así como la influencia y las decisiones de otros jugadores, deja un gran vacío en el análisis.

De este modo, la obtención de datos de seguimiento completos puede colmar esa laguna y permitir un análisis completo. Pero, ¿cómo?

Opta Vision AI Generativa

Los expertos humanos son bastante buenos estimando lo que está ocurriendo cuando no pueden ver las cosas en el deporte, basándose en lo que han visto en el pasado y en el conocimiento de cómo juegan los distintos equipos, jugadores y entrenadores en diferentes situaciones. La cuestión es cómo conseguir que un ordenador aprenda esto e "impute" los detalles que faltan.

Como se ha explicado en artículos anteriores de esta serie, los modelos de AI Generativa entrenados en texto pueden corregir una frase incorrecta o completar una palabra que falta. Los modelos entrenados en imágenes pueden utilizar el relleno y la expansión (in-painting y out-painting) para completar una imagen. Los modelos multimodales entrenados en texto, imágenes y vídeos, como "Sora", la tecnología de conversión de texto en vídeo de OpenAI, pueden generar un vídeo completo a partir de una simple descripción textual.

En el caso del fútbol, el lenguaje que hemos creado utiliza tanto nuestros datos de eventos (es decir, qué ocurrió con el balón y quién estuvo implicado) como nuestros datos de seguimiento (ubicación y movimiento del jugador). Del mismo modo que Sora aprendió la correspondencia entre texto y vídeo, Stats Perform aprendió la correspondencia entre eventos y datos de seguimiento, lo que nos permite resolver este problema.

Al disponer de los datos de seguimiento remoto antes y después de la jugada, y de la información sobre qué jugadas/acciones se producen y a través de qué jugadores, nuestro modelo (que ha sido entrenado con una enorme cantidad de datos propios de Opta ) tiene el contexto suficiente para estimar con precisión (o "imputar") dónde se encuentran esos jugadores. Vea nuestros resultados a continuación: en mi opinión, ¡es mágico!

Para este trabajo, nos inspiramos en los recientes trabajos en el ámbito de los vehículos autónomos, que hacen algo parecido: utilizan los mapas como su "equivalente textual" y, a continuación, emplean vision por ordenador para mapear los objetos del mundo en este "espacio cartográfico".

Al tratarse de datos visuales, los modelos de difusión son preferibles para tareas visuales como la generación de imágenes o trayectorias, ya que destacan en la captura de detalles finos y la producción de resultados de alta calidad. Para datos secuenciales como texto y tareas basadas en texto (por ejemplo, ChatGPT y Gemini), son más adecuadas las redes neuronales de transformadores. Aunque la difusión es un enfoque distinto al de los transformadores, sigue perteneciendo al ámbito de AI generativa porque puede crear nuevas imágenes de aspecto realista (o, en este caso, generar trayectorias realistas de jugadores desaparecidos).

Como ya se ha dicho, los resultados son bastante "mágicos". Pero lo más importante es que esto resuelve un problema clave en el fútbol, ya que ahora todos los pases pueden analizarse en el contexto de la ubicación y el movimiento de otros jugadores, algo a lo que nos referimos como "análisis completo".

Así que podemos hacer el mismo tipo de análisis a partir de vídeo remoto que podríamos hacer desde el estadio, lo que supone un enorme cambio de paradigma a la hora de obtener información de más jugadores, equipos y ligas".

También nos permite crear datos completos de partidos anteriores. A medida que avancemos en este proceso, les iremos informando. Sin embargo, hace poco lo expusimos en la MIT Sloan Sports Analytics Conference, donde Harry Hughes, del equipo de Stats Perform AI , hizo un trabajo increíble presentando este trabajo: consulta aquí todos los detalles, junto con un enlace a un vídeo de la presentación.

¿Por qué un sistema CV no puede rastrear durante los primeros planos?

Como se puede ver en el ejemplo de la parte inferior izquierda, podemos ver claramente a los jugadores (es decir, camisetas blancas), por lo que detectar a estos jugadores mediante un sistema CV es bastante fácil.

Sin embargo, al ser a ras de suelo, es prácticamente imposible estimar dónde están esos jugadores en el "espacio de píxeles" (es decir, las imágenes) en relación con el resto de jugadores y el terreno de juego. Ese tipo de razonamiento para la detección posicional y de movimiento es mucho más fácil de hacer en el "espacio de seguimiento" (es decir, la vista del terreno de juego de arriba abajo).

Una figura destacada en el espacio de AI , Yann LeCun, mencionó recientemente que modelizar el mundo en "espacio de píxeles" es ineficaz e imposible de resolver. Estamos de acuerdo, y esa idea es la clave para resolver este reto de generar datos de seguimiento completos a partir de vídeo remoto. Nuestro enfoque para generar datos de seguimiento trata el "espacio de datos de seguimiento" como una compresión 1.000.000:1 del espacio de píxeles.

Lo bueno de operar dentro del espacio de datos de seguimiento es que también "nos ata al mundo real", ya que limita las posibilidades a las dimensiones del terreno de juego (105x68m de media en el fútbol), y el contexto adicional de los acontecimientos lo restringe aún más.

¿Por qué limitarse a los datos de seguimiento de los jugadores? ¿Podrían los sistemas de CV detectar "datos de eventos" directamente del vídeo?

En primer lugar, definamos qué son los "datos de eventos". Utilizando el fútbol como ejemplo, los datos de eventos se refieren a las acciones que realizan los jugadores durante el partido y a las decisiones que toman los árbitros. Se trata de tiros libres, saques de meta, saques de esquina, saques de banda, toques, pases, regates, disparos, goles, goles en propia meta, paradas, remates de cabeza, entradas, intercepciones, faltas, penaltis, tarjetas amarillas, tarjetas rojas, etc.

Los datos de posición y movimiento combinados con los datos de eventos proporcionan la visión completa del juego. Sin ambos, es imposible analizar y predecir las decisiones y capacidades de los jugadores en situaciones concretas.

Algunas cosas clave a tener en cuenta sobre los "eventos" son:

  1. En realidad, muchos acontecimientos son de naturaleza multimodal, tanto visual como sonora (por ejemplo, el silbato del árbitro), ya que dependen de decisiones arbitrales humanas. Sólo es falta, penalti, fuera de juego, tarjeta amarilla, tarjeta roja, córner o gol si el árbitro humano decide que lo es. Incluso un portero que toca un disparo por encima del larguero sólo puede ser una parada si el árbitro concede un córner.
  2. Algunos eventos tienen duraciones. Un pase tiene una ubicación inicial y una ubicación final si el jugador lo recibe con éxito.
  3. Algunos acontecimientos pueden cambiar a posteriori debido a la intervención del VAR o del árbitro asistente.
  4. Muchos sucesos ocurren con múltiples actores en estrecha proximidad y requieren una evaluación minuciosa para detectar y clasificar con precisión y coherencia según las definiciones prescritas.

Si tenemos en cuenta que los equipos y los medios de comunicación necesitan que los datos del evento se recopilen en directo, de forma coherente y precisa para que sean útiles, para cientos de competiciones de fútbol de élite masculino y femenino en todo el mundo, podemos ver la necesidad de contar con humanos expertos en el bucle tanto para situaciones en las que se encuentran diferentes puntos de vista, como para interpretar las decisiones del árbitro (o el cambio en las decisiones). Además, incluso cuando hay entre 10 y 12 cámaras y un chip en el balón, es necesaria la intervención humana, como demuestra el sistema semiautomático de detección del fuera de juego utilizado en la Copa Mundial Masculina de la FIFA 2022.

Así pues, las fuentes de entrada de datos deportivos podrían considerarse multimodales, ya que incorporan entradas procedentes de la recopilación humana, así como a través de vision. La naturaleza complementaria de los datos de entrada, así como la redundancia incorporada a este proceso, garantizan la obtención de datos completos y precisos, independientemente de lo que ocurra durante el partido, del vídeo de entrada o de la toma de decisiones del árbitro.

¿No pueden GPT-4o o Gemini realizar el procesamiento de imágenes/vídeos para el deporte, ya que son multimodales? ¿Por qué no se pueden utilizar para crear datos de seguimiento de jugadores?

Aparte del elevado coste y la latencia del uso de API comerciales para procesar imágenes y datos de vídeo, el uso de modelos estándar sólo captará una parte de los jugadores que sean claramente visibles, lo que se traducirá en una falta de detalles críticos de la "última milla", incluidas las principales lagunas en el juego, debido a los diversos matices del deporte y sus muchos casos extremos.

Las razones son las siguientes:

  1. Datos de entrenamiento: Los modelos como GPT-4o y Gemini se entrenan con datos disponibles públicamente que se basan en el emparejamiento de imágenes y leyendas, y no en secuencias detalladas de datos deportivos específicos del dominio que contienen datos de seguimiento y eventos asociados, y
  2. El lenguaje: Modelos como GPT-4o y Gemini aprenden las correlaciones entre imágenes/vídeo y texto. Como se ha mencionado anteriormente, queremos aprender las correlaciones entre los datos de seguimiento y los datos de eventos, que es nuestro equivalente de imágenes/vídeo y texto.

Otra forma de ver esto es que los datos deportivos (seguimiento y evento) son su propio "lenguaje", y GPT-4o y Gemini han sido optimizados para el lenguaje natural (imagen y pie de foto) - por lo que los modelos de base de Stats PerformPerform están literalmente hablando un lenguaje diferente a los modelos no entrenados en datos deportivos detallados.

Aunque teóricamente podría ser posible aprender un modelo entre la imagen/vídeo y el emparejamiento de datos de eventos, no es práctico debido a la compresión del vídeo al seguimiento (es decir, 1.000.000:1), los datos de seguimiento fundamentan los datos en la realidad del deporte, y los datos de seguimiento son un resultado muy útil por sí mismo para la visualización, la interacción y la interpretabilidad (como mostraremos en el próximo artículo).

¿Conseguir que un agente de AI vea un partido deportivo en directo y explique las reglas es lo mismo que analizar un partido?

Esta es una buena pregunta, y realmente llega al corazón de la diferencia en la comprensión de un lenguaje (o la comprensión de un tema como un novato o un experto). Los LLM multimodales actuales basados en el lenguaje natural podrían reconocer un vídeo e identificarlo como un partido de fútbol (y quizá identificar algunos de los equipos y jugadores - y potencialmente el marcador y la hora del partido a partir del 'bicho' del marcador en la pantalla). A partir de ahí, podría explicar las reglas del fútbol y quizá algo de la historia de los clubes implicados, algo que podría obtener rápidamente de una búsqueda en Wikipedia (es decir, información textual de alto nivel que puede encontrarse públicamente en Internet).

Sin embargo, identificar qué deporte se está jugando y detectar detalles sobre lo que está sucediendo en el juego son dos cosas muy diferentes. La próxima ola de GenAI no consiste simplemente en identificar qué deporte se está jugando, que es lo que podría hacer un novato, sino en observar el partido como un "experto". Para ello, es necesario tener el lenguaje de un experto. En el caso del fútbol, es entender qué formación está jugando un equipo, o dónde "debería haber estado" un defensa en una situación determinada, qué pase "debería haber hecho" un jugador y lo costoso que fue un pase erróneo que dio lugar a un contraataque. También es vital conectarlo con el elemento "en vivo", algo que los actuales LLM estándar no pueden hacer porque tienen un límite de conocimientos. Por lo tanto, disponer tanto de los datos del evento y del seguimiento como de la base de datos deportiva "en directo y actualizada" es extremadamente importante y absolutamente necesario para "ver" un partido como un experto.

En el próximo artículo, hablaremos de cómo podemos utilizar los eventos y el seguimiento como el lenguaje bruto del deporte y luego transformarlo de forma que podamos "ver" un partido como un experto. En esencia, los datos de los eventos y del seguimiento sirven como palabras (tanto textuales como visuales), pero siguen sin estar estructurados, ya que tenemos que formar frases, párrafos y capítulos hasta llegar a un libro entero (o una biblioteca de libros).

¿Los datos deportivos son estructurados o no?

En términos de eventos distintos (como un pase o un disparo), los datos están estructurados. Se pueden almacenar y recuperar en una base de datos. También podemos almacenar los datos de seguimiento como una fila por fotograma de acción.

El reto es que un deporte como el fútbol es un juego continuo y para modelar la imagen completa de 22 jugadores moviéndose y eventos ocurriendo, necesitamos unirlos secuencialmente, y no independientemente. La analogía en este caso sería almacenar cada palabra o frase de un libro por separado: puede garantizar su almacenamiento, pero perderá el contexto.

Los datos de seguimiento y eventos asociados a cada evento pueden considerarse una frase dentro de un libro (donde un juego es un libro). Otra forma de pensar en los datos de seguimiento y eventos que hemos recopilado es considerarlos átomos, que tenemos que reunir en una estructura coherente.

Sin embargo, ¡el número de átomos (es decir, eventos y jugadores) contiene más permutaciones que átomos hay en el universo!

Los modelos generativos AI nos permiten aprender la estructura adecuada a partir de estos átomos sin estructurar.

Básicamente, todo lo que hacemos en AI tiene que ver con la representación o con conseguir la estructura de entrada adecuada para que un ordenador aprenda de ella.

Para generar conjuntamente datos de seguimiento y sucesos, debemos tener en cuenta la posición, las velocidades y las aceleraciones de todos los jugadores, así como los sucesos anteriores. Todo ello varía con el tiempo. Como en el caso anterior, esto tiene más permutaciones que átomos hay en el universo, por lo que nuestros modelos con los datos brutos nos permiten aprender la estructura correcta (lo que también se conoce como incrustación).

En el próximo artículo profundizaremos en cómo podemos utilizar los datos de seguimiento de muchas formas distintas, concretamente en cómo ver un partido como un experto, pero también cómo hacer búsquedas de forma visual e interactiva.

Habló brevemente de RoboSoccer en el último artículo, ¿tiene algo que ver?

Empezamos este artículo hablando de la historia de vision vision por ordenador en el deporte, pero no tocamos una de las primeras áreas realmente activas de la vision por ordenador en el deporte en los años 90, que fue el RoboSoccer. Fue una de las áreas de investigación más activas antes de que la revolución Moneyball se centrara en el deporte real.

El objetivo de RoboSoccer, o RoboCup, era conseguir que un equipo de robots humanoides totalmente autónomos venciera al mejor equipo humano de fútbol del mundo, en un campo real, en 2050. Para llegar a este nivel, necesitamos dos cosas:

  1. Crear un robot que pueda empezar a moverse como un humano, algo que cada vez está más cerca gracias al reciente lanzamiento del robot de Boston Dynamics, y
  2. Conseguir que estos robots "perciban" el mundo como un jugador humano. Pero para ello necesitamos generar suficientes ejemplos para que estos robots aprendan sobre el movimiento y la estructura del fútbol.

Creo que el trabajo que hemos estado haciendo dentro de Opta Vision nos ayudará a analizar cada partido que se haya jugado "completamente", y también empezará a proporcionar la cantidad de datos completos necesarios para entrenar a un Robot a leer el juego como un experto humano.

Sin embargo, la belleza del deporte es que lo practican seres humanos, es impredecible, fluido y proporciona una experiencia en vivo, única y compartida de la que la gente puede disfrutar. Aunque es un objetivo interesante (muy parecido a enseñar a un ordenador a jugar al ajedrez, a Jeopardy o a Go, pero mucho más difícil), creo que retos como la RoboCup demostrarán lo increíbles que son los seres humanos y el nivel de preparación, práctica y entrenamiento necesarios para rendir al más alto nivel, tanto cognitiva como físicamente.


En futuros artículos, destacaremos cómo podemos utilizar los datos de seguimiento de vision para comprender deportes como el fútbol, el baloncesto y el tenis. También destacaremos el papel que desempeña la AI Generativa en la predicción.