
Volvemos con la última entrega de nuestra serie Últimas tendencias de la IA en el deporte , escrita por nuestro Jefe Científico Patrick Lucey. En la primera parte, analiza las últimas novedades que pueden aportar los datos de seguimiento de los jugadores, posibles gracias a la combinación de la visión por ordenador y la IA generativa.
El ritmo de la innovación en el campo de la inteligencia artificial no muestra signos de detenerse, primero con el lanzamiento de GPT-4o por OpenAI y después con la conferencia anual I/O de Google de esta semana. Dos cosas me llamaron la atención desde el punto de vista deportivo:
- El CTO de OpenAI mencionando que un próximo paso para GPT-4o podría ser "ver" un partido deportivo en directo y "explicarte las reglas", y
- Lo que la búsqueda asistida por IA de Google -en concreto, la "búsqueda visual "- puede desbloquear.
Esto me hizo pensar: "¿Qué significa ver y buscar un partido de un deporte como el fútbol?". Cuando se ve un partido de fútbol, ¿basta con destacar los equipos sobre el terreno de juego, buscar las reglas en Wikipedia y hacer un resumen? Eso podría ser suficiente para un niño o alguien que no haya visto el partido antes.
Sin embargo, la mayoría de los aficionados de todo el mundo están realmente inmersos en el deporte y desean obtener más información a un nivel más detallado. Por ejemplo: ¿ha hecho el jugador el pase correcto?, ¿están los defensas en la posición correcta?, ¿se está cansando el equipo o no?, ¿tiene éxito el equipo cuando ejecuta esta jugada concreta?
La promesa de los agentes de IA no es sólo ver un partido como un novato, sino verlo como un experto. Pero para entender el juego como un experto, el sistema de IA debe estar entrenado en el lenguaje específico del deporte, que se basa en los datos que recopilamos cada día(tanto datos de eventos como de seguimiento).
Los datos de seguimiento (es decir, las "x" y "o" visuales de los movimientos de los jugadores), especialmente cuando se combinan con datos de eventos (es decir, los eventos que ocurrieron y con quién ocurrieron) desbloquean la capacidad de un sistema de IA para "ver" un partido deportivo como un experto y analizar las jugadas en detalle, para generar perspectivas específicas y valiosas para entrenadores y aficionados. También permite realizar búsquedas visuales de la acción deportiva en directo, lo que abre nuevas aplicaciones analíticas y predictivas.
En el próximo artículo, profundizaremos en cómo podemos hacerlo, pero antes es necesario comprender cómo se recopila realmente esta información fundamental: los datos de seguimiento de los jugadores a escala. En este artículo profundizaremos en este tema.
Antes de entrar en detalles, veamos primero qué eran los datos de seguimiento por visión computerizada, en qué se están convirtiendo y cómo se están aplicando para ayudar a equipos y atletas a alcanzar los más altos niveles de rendimiento.
Seguimiento de jugadores (y balones) mediante visión por ordenador (CV): breve historia inicial
Es un hecho poco conocido que la integración de sistemas de visión por ordenador (VC) en los deportes representa una de las primeras implantaciones comerciales con éxito en cualquier campo. Una prueba, por si hiciera falta, de lo mucho que los aficionados al deporte y los entrenadores quieren saber sobre el juego.
El uso del seguimiento CV en los deportes se remonta a 1996, cuando se utilizó inicialmente para seguir el disco en los partidos de la NHL mediante un sistema de seguimiento por infrarrojos en tiempo real, también conocido como "glow-puck" (más o menos al mismo tiempo que se colocaban anuncios virtuales en las retransmisiones de béisbol). Poco después, en 1997, aparecieron la línea "amarilla" y la línea de diez en el fútbol americano, y en los Juegos Olímpicos de Sydney de 2000, la "línea de récord mundial" en deportes olímpicos como la natación y el sprint. La primera tecnología de seguimiento de pelotas fue desarrollada en 2000 por Hawk-Eye y se utilizó en una retransmisión durante un partido de críquet en 2001.
El primer sistema de seguimiento de jugadores utilizado en la Premier League inglesa data de 1998. Ese sistema utilizaba una configuración multicámara para capturar el vídeo del partido desde todos los ángulos, y luego dependía de los humanos para anotar manualmente la ubicación de los jugadores.
Una década más tarde, se implantaron sistemas de CV totalmente automatizados basados en cámaras para el seguimiento de los jugadores. Poco después aparecieron sistemas que generaban automáticamente retransmisiones de competiciones deportivas de menor nivel. Muchos de los mejores momentos deportivos de los que se puede disfrutar en Internet también se han automatizado hace más de una década, pero estos métodos no suelen utilizar datos de seguimiento de jugadores, sino una mezcla de datos de eventos recopilados por humanos, audio (por ejemplo, ruidos fuertes de la multitud) y cambios de detección de escenas basados en CV (por ejemplo, acercamiento a un jugador, luego a la multitud, luego al entrenador, acercamiento de nuevo al jugador y vuelta a la vista principal de la cámara).
A principios de la década de 2000 también aparecieron dispositivos como el GPS y la RFID. Muchos aficionados podrían pensar que éstas son las principales fuentes de datos de seguimiento en el fútbol en directo. De hecho, la CV sigue siendo el método preferido para recopilar datos de seguimiento de jugadores en un partido de fútbol en directo de élite debido a su discreción y escalabilidad.
¿Cómo funcionan los sistemas de visión por ordenador (CV)?
En primer lugar, definamos la visión por ordenador (VC) y su lugar en la IA.
La CV es la ciencia que permite a los ordenadores comprender imágenes y/o vídeos digitales. Por tanto, cuando hablamos de un sistema de CV, estamos hablando básicamente de un sistema de IA.
Para emplear un sistema CV de recogida de datos de seguimiento de un acontecimiento deportivo de élite, como un partido de fútbol, el proceso comenzaba tradicionalmente con un sistema de captura de vídeo de alta definición.
Este sistema consta de cámaras situadas estratégicamente por todo el recinto, que sirven esencialmente de "ojos" para captar la acción en el campo.
Estas cámaras de alta definición pueden instalarse desde un único punto de vista (para minimizar la huella de hardware y facilitar la instalación/desinstalación), o distribuirse en varias ubicaciones alrededor del campo.
Una vez configurado el sistema de captura de vídeo, estos "ojos" transmiten los datos visuales a un ordenador, que transforma la información visual bruta en un formato comprensible para el ordenador. Este formato puede manifestarse en "puntos" 2D o en "esqueletos" 3D.
Las etapas de esta transformación son las siguientes:
- Detección de jugadores y balones: Se trata de identificar la ubicación de los jugadores y el balón en cada imagen. Para la detección de jugadores, dependiendo de la granularidad de la medida requerida y de la densidad de píxeles de la imagen de entrada, esto puede lograrse mediante la detección de cuadros delimitadores alrededor del jugador en la imagen o mediante la detección del esqueleto o silueta de cada jugador. Para la detección de balones, normalmente se utiliza un cuadro delimitador.
- Identidad del equipo y del jugador: Tras la etapa de detección, el siguiente paso consiste en identificar el equipo al que pertenece cada jugador (normalmente basándose en el color de su camiseta) y la identidad del jugador (normalmente determinada mediante la identificación del número de la camiseta del jugador). Cuando un jugador está oculto (es decir, no es visible) durante un periodo de tiempo, esta tarea suele denominarse "reidentificación".
- Calibración de la cámara: Este paso consiste en detectar las líneas y las esquinas del terreno de juego, que luego se utilizan para asignar las posiciones del jugador y del balón a coordenadas del mundo real.
- Seguimiento: Por último, las detecciones se asocian a una única identidad a lo largo del partido. Esto puede hacerse tanto en el plano de la imagen (es decir, los píxeles que vemos) como en el plano del terreno de juego (es decir, la vista aérea del terreno de juego). Normalmente, en los deportes se utiliza el enfoque de "seguimiento por detección", pero a menudo se producen fallos o falsas detecciones, de ahí la necesidad de un rastreador. Como hay muchos jugadores en el campo, lo llamamos "seguimiento multiobjeto".
Normalmente se emplean métodos de aprendizaje profundo para cada uno de estos pasos. Por ejemplo, las redes neuronales convolucionales (CNN) se utilizan normalmente para detectar el jugador/balón, pero también forman la representación de entrada para la identificación de equipos y jugadores. Los modelos de segmentación suelen utilizarse junto con detectores de líneas/esquinas para la calibración. Para entrenar estos modelos, se requiere una enorme cantidad de ejemplos de entrenamiento de las imágenes en bruto con cuadros delimitadores asociados (o esqueletos), ID de equipo e ID de jugador, así como ubicaciones de bordes/esquinas. En algunas situaciones, también es necesario comprender automáticamente el marcador mediante el reconocimiento óptico de caracteres (OCR). A continuación se ilustra un ejemplo de todos estos pasos.
Más adelante en el artículo, explicaremos cómo estos métodos de aprendizaje profundo están relacionados con la tendencia de utilizar métodos de GenAI, pero a un alto nivel, se podría pensar en el proceso como la creación del lenguaje visual del deporte (es decir, las x y las o), que se presta al modelado del lenguaje posterior.
¿Por qué y cuándo utilizan los sistemas de CV "puntos" o "esqueletos" para detectar y seguir a los jugadores?
Resulta útil concebir un sistema de CV como una herramienta de detección o medición. La precisión requerida para la medición, ya sea en milímetros o centímetros, determina el tipo de salida de seguimiento necesaria. Estos pueden clasificarse en:
- Mediciones finas (precisión milimétrica): Abarca tareas de arbitraje (por ejemplo, detección semiautomática de fueras de juego en fútbol, análisis de lanzadores en béisbol y arbitraje en baloncesto) y gráficos de retransmisiones(por ejemplo, segmentación de la generación de avatares fotorrealistas de atletas y retransmisiones aumentadas).
- Mediciones de grano grueso (precisión centimétrica): Se refieren a las mediciones de la forma física de los jugadores durante un partido (por ejemplo, la distancia que han corrido, el número de sprints de alta intensidad), así como a las mediciones tácticas (por ejemplo, la formación que ha utilizado un equipo, lo bien que ha ejecutado un jugador un pase o, en baloncesto, si el equipo ha utilizado un pick-and-roll).
Para las mediciones de grano fino, como la detección semiautomática de fuera de juego y los avatares fotorrealistas, es necesario el seguimiento del esqueleto, ya que proporciona información 3D detallada para estos casos de uso.
Por otro lado, la detección de la caja delimitadora es suficiente para mediciones de grano grueso, lo que permite estimar el "centro de masa" de un jugador, dando como resultado "puntos" en 2D. A continuación se muestra un ejemplo de la diferencia entre el seguimiento del centro de masa (arriba) y el seguimiento de la postura corporal (abajo), extraído de un artículo que escribimos sobre este tema.
¿Cómo se separa la información visual bruta en datos útiles y no útiles?
Históricamente, cuando pensamos en datos de seguimiento, nos referimos a la utilización de los puntos 2D que representan a los jugadores que se mueven por todo el campo/la cancha. La gente suele pensar que este tipo de datos de seguimiento son datos "grandes". Sin embargo, es todo lo contrario: el sistema de seguimiento actúa como una herramienta de compresión, extrayendo sólo la información esencial de los píxeles de vídeo en bruto, como las posiciones y los movimientos de los jugadores y el balón, y descartando detalles extraños como el césped, las multitudes y los anuncios.
Esta relación de compresión puede llegar a ser de 1.000.000:1. Por lo tanto, los datos de seguimiento en los deportes pueden compararse con el algoritmo de compresión de vídeo definitivo o con un códec específico para deportes, lo que permite diversas aplicaciones posteriores.
A partir de estas mediciones, los datos de seguimiento pueden utilizarse de numerosas formas adicionales, cuya utilidad aumenta exponencialmente si los datos de seguimiento pueden combinarse con datos de eventos, mostrando no sólo dónde está un jugador, sino qué está haciendo. Esto incluye la búsqueda interactiva, la simulación, el análisis de estrategias y las aplicaciones de realidad mixta. Aunque en futuros artículos profundizaremos en estas aplicaciones, aquí nos centraremos en la tecnología de visión por ordenador subyacente.
Si el seguimiento por visión computerizada existe desde hace tanto tiempo, ¿por qué no se utiliza ya en todas partes?
Algunas ligas deportivas de primer nivel emplean hardware y sistemas de seguimiento por visión computerizada dentro del recinto, utilizando múltiples cámaras fijas especializadas instaladas alrededor del recinto, como SportVU de Stats Perform.
Por lo general, estos sistemas proporcionan datos de posición y movimiento de gran precisión. Incluso estos resultados sólo proporcionan una parte de la imagen y deben combinarse con los "datos del acontecimiento" mencionados anteriormente y más adelante. Además, el acceso está restringido al equipo propietario de la sede, o se comparte entre los equipos de esa liga específica para el análisis táctico. Muy rara vez se comparten los datos fuera de esa liga. A veces, las conclusiones que se obtienen también se pueden ver en los análisis televisivos.
Tanto el coste del hardware, como el complejo proceso de fusión de los datos de seguimiento y de eventos, y los recursos analíticos necesarios para extraer información procesable de los datos de seguimiento de las cámaras, hacen que la aplicación de los sistemas de cámaras fijas de CV sea muy limitada fuera de las grandes ligas.
También significa que, aunque los grandes equipos/ligas hayan podido acceder a los datos de seguimiento dentro de su propia liga, siguen teniendo puntos ciegos materiales. No pueden acceder a los datos de otras ligas y competiciones. Esto crea enormes limitaciones a la hora de buscar jugadores para fichar en estas ligas, a la hora de prepararse para jugar contra equipos de otras ligas en competiciones de copa, o para enfrentarse a nuevos jugadores o entrenadores de otras ligas.
El acceso a los datos de seguimiento de una sola competición también limita la cantidad de datos de que disponen los analistas de los equipos para desarrollar y entrenar modelos que permitan hacer predicciones específicas sobre estilos y patrones de juego y simular diferentes tácticas. Eso significa que esas predicciones y simulaciones tienen una escala y un valor limitados.
Para "oficiar", que requiere una precisión milimétrica, se necesita una cantidad aún mayor de hardware dentro del recinto, como cámaras de alta resolución. Esto no solo conlleva unos costes adicionales considerables, sino que también plantea problemas operativos, ya que es esencial disponer de acceso al recinto y de conexiones a internet fiables y de alta capacidad, algo que puede no estar disponible en todos los recintos.
Incluso con amplias instalaciones de hardware en los estadios, a veces son necesarias medidas adicionales. Por ejemplo, durante la Copa Mundial de la FIFA 2022, la tecnología de detección semiautomática del fuera de juego complementó los datos de seguimiento de jugadores basados en visión por ordenador incorporando chips RFID al balón. Del mismo modo, en deportes como el cricket, las imágenes de drones complementan los sistemas existentes para capturar las posiciones en el campo, mientras que la NFL y la NHL obligan a los jugadores a llevar chips RFID, lo que amplía aún más la huella del hardware.
La buena noticia es que, para las mediciones de granularidad gruesa, como el seguimiento de la forma física y las perspectivas tácticas, la amplia infraestructura de hardware ya no es un requisito previo. Mediante el uso de IA generativa y datos profundos, se puede lograr una solución escalable que abarque tanto el seguimiento como los datos de eventos sin necesidad de hardware adicional, lo que permite la compatibilidad con versiones anteriores, una enorme cobertura y rentabilidad. Utiliza vídeo remoto ampliamente disponible.
Más allá de los sistemas de hardware para obtener información de granularidad gruesa mediante vídeo a distancia
Como humanos, podemos entender lo que ocurre en un partido a través del vídeo a distancia (es decir, el vídeo que se consume fuera del estadio), así que parece lógico ampliar un sistema de CV para que haga lo mismo.
El potencial de este sistema es enorme, especialmente para los deportes mundiales que se nutren de múltiples competiciones de élite. Pueden obtenerse datos de seguimiento de los miles de equipos profesionales de fútbol masculino y femenino de todo el mundo, así como de las más de 350 escuelas de primera división de baloncesto y las innumerables ligas internacionales de baloncesto.
Esto significa que también podemos retroceder en el tiempo para recopilar imágenes históricas de lugares que no tenían instaladas cámaras CV.
Nuestro equipo especializado en IA de Stats Perform Perform ha sido pionero en el desarrollo de la tecnología de seguimiento remoto durante los últimos 8 años, al igual que fuimos pioneros en la recopilación de datos de seguimiento de jugadores y balones en los estadios a través de SportVU.
Nuestro viaje de seguimiento remoto en realidad comenzó en el baloncesto con nuestro sistema patentado AutoStats que se lanzó en 2019. Los principales retos a la hora de capturar datos de seguimiento de vídeo remoto en baloncesto son calibrar una cámara en movimiento y volver a identificar a los jugadores que están dentro y fuera del campo de visión.
Los resultados de AutoStats en baloncesto se utilizan ahora para el análisis de las perspectivas del draft por equipos como Orlando Magic y Tactics, así como para impulsar nuevos ángulos narrativos en los medios de comunicación y en la televisión, como en la Copa del Mundo de Baloncesto FIBA 2023.
Además de AutoStats, nos hemos centrado en el fútbol con nuestro producto Opta Vision Opta Vision. La ambición de Opta Vision era similar: generar "datos de seguimiento completos" de cada partido de fútbol, comparables a los del seguimiento in situ. Luego, combinarlos con datos de eventos para que sean aún más valiosos para los analistas.
En segunda parte de esta actualización, Patrick se explayará sobre cómo se está aplicando la IA Generativa para "imputar" la ubicación en el campo de todos los jugadores de fútbol, fuera del plano de la cámara, durante un partido para proporcionar a los analistas datos de seguimiento completos e ininterrumpidos de cada jugador desde el pitido inicial hasta el tiempo reglamentario.