Skip to Main Content
L'IA dans le sport, les diffuseurs et la télévision connectée, les fédérations et les détenteurs de droits, les clubs professionnels et les universités

Applications de l'IA générative dans le sport : Mise à jour du deuxième trimestre, partie I

Par : Patrick Lucey

Nous sommes de retour avec le dernier épisode de notre série sur les dernières tendances de l'IA dans le sport , rédigée par notre scientifique en chef Patrick Lucey. Dans la première partie, il examine les dernières informations qui changent la donne à partir des données de suivi des joueurs, rendues possibles grâce à la combinaison de la vision par ordinateur et de l'IA générative.


Le rythme de l'innovation dans le domaine de l'IA ne montre aucun signe de ralentissement - d'abord avec la publication de GPT-4o par OpenAI, puis avec la conférence annuelle I/O de Google cette semaine. Deux choses m'ont sauté aux yeux d'un point de vue sportif :

  1. Le directeur technique d'OpenAI a indiqué que la prochaine étape pour GPT-4o pourrait être de "regarder" un match de sport en direct et de "vous expliquer les règles".
  2. Ce que la recherche assistée par l'IA de Google - en particulier la "recherche visuelle " - peut apporter.

Cela m'a amené à réfléchir à la question suivante : "Qu'est-ce que cela signifie de regarder et de faire des recherches sur un sport comme le football ? Lorsqu'on regarde un match de football, suffit-il de mettre en évidence les équipes sur le terrain, puis de rechercher les règles sur Wikipédia et d'en faire un résumé ? Cela peut suffire à un enfant ou à quelqu'un qui n'a jamais vu le match auparavant.

Mais la plupart des supporters du monde entier sont réellement engagés dans le sport et veulent plus d'informations à un niveau granulaire. Ces questions sont les suivantes : le joueur a-t-il fait la bonne passe ? les défenseurs sont-ils en bonne position ? l'équipe se fatigue-t-elle ou non ? quel est le degré de réussite de l'équipe lorsqu'elle exécute ce jeu spécifique ?

La promesse des agents d'IA n'est pas seulement de regarder un match comme un novice, mais de regarder un match comme un expert. Mais pour comprendre le jeu comme un expert, le système d'IA doit être formé au langage spécifique du sport, qui est basé sur les données que nous collectons chaque jour(à la fois les données de l'événement et les données de suivi).

Les données de suivi (c'est-à-dire les "x" et les "o" visuels des mouvements des joueurs), en particulier lorsqu'elles sont combinées avec les données d'événements (c'est-à-dire les événements qui se sont produits et avec qui ils se sont produits) permettent à un système d'IA de "regarder" un match sportif comme un expert et d'analyser les jeux en détail, afin de générer des informations spécifiques et précieuses pour les entraîneurs et les supporters. Elle nous permet également d'effectuer des recherches visuelles sur les actions sportives en direct, ce qui ouvre la voie à d'autres applications analytiques et prédictives.

Dans le prochain article, nous nous pencherons sur la façon dont nous pouvons le faire, mais il est d'abord nécessaire de comprendre comment ces données critiques - les données de suivi des joueurs à l'échelle - sont réellement collectées. Dans cet article, nous allons approfondir ce sujet.

Avant d'entrer dans les détails, voyons d'abord ce qu'étaient les données de suivi de la vision par ordinateur, ce qu'elles sont devenues et comment elles sont appliquées pour aider les équipes et les athlètes à atteindre les niveaux de performance les plus élevés.

Suivi des joueurs (et des ballons) à l'aide de la vision par ordinateur (VCI) - un bref historique

C'est un fait peu connu que l'intégration de systèmes de vision par ordinateur dans les sports représente l'un des premiers déploiements commerciaux réussis dans les domaines suivants domaine domaine. Preuve, s'il en était besoin, que les amateurs de sport et les entraîneurs veulent en savoir plus sur le jeu !

L'utilisation du suivi CV dans le sport remonte à 1996, lorsqu'il a été initialement utilisé pour suivre le palet dans les matchs de la LNH à l'aide d'un système de suivi infrarouge en temps réel, également connu sous le nom de "glow-puck" (à peu près à la même époque, des publicités virtuelles ont été placées dans les retransmissions de baseball). La première ligne "jaune" et la ligne des dix au football américain ont suivi peu après, en 1997, puis la "ligne du record mondial" dans les sports olympiques comme la natation et le sprint a été lancée pour les Jeux olympiques de Sydney en 2000. La première technologie de suivi des balles a été mise au point en 2000 par Hawk-Eye et utilisée lors de la diffusion d'un match de cricket en 2001.

Le premier système de suivi des joueurs utilisé dans la Premier League anglaise remonte à 1998. Ce système utilisait une configuration à plusieurs caméras pour capturer la vidéo du match sous tous les angles, et s'appuyait ensuite sur des humains pour annoter manuellement l'emplacement des joueurs.

Dix ans plus tard, des systèmes CV entièrement automatisés basés sur des caméras pour le suivi des joueurs ont été déployés. Peu de temps après, des systèmes générant automatiquement des retransmissions pour les compétitions sportives de niveau inférieur ont vu le jour. De nombreux clips sportifs que vous pouvez voir en ligne sont également automatisés depuis plus d'une décennie, mais ces méthodes n'utilisent généralement pas les données de suivi des joueurs - elles utilisent surtout un mélange de données d'événements collectées par l'homme, de son (c'est-à-dire le bruit de la foule), ainsi que des changements de détection de scène basés sur la CV (par exemple, zoom sur un joueur, puis sur la foule, puis sur l'entraîneur, puis gros plan sur le joueur à nouveau, puis retour à la vue principale de la caméra).

Les dispositifs portables tels que le GPS et la RFID sont également apparus au début des années 2000. De nombreux supporters pourraient penser qu'il s'agit là des principales sources de données de suivi dans le football en direct. En fait, le CV reste la méthode préférée pour collecter les données de suivi des joueurs lors d'un match de football d'élite en direct, en raison de sa discrétion et de son évolutivité.

Comment fonctionnent les systèmes de vision par ordinateur ?

Tout d'abord, définissons la vision par ordinateur (VA) et sa place dans l'IA.

La CV est la science qui permet aux ordinateurs de comprendre les images et/ou les vidéos numériques. Par conséquent, lorsque nous parlons d'un système de CV, nous parlons essentiellement d'un système d'IA.

Pour utiliser un système de CV afin de collecter des données de suivi lors d'un événement sportif de haut niveau, tel qu'un match de football, le processus commence traditionnellement par un système de capture vidéo haute définition.

Ce système comprend des caméras placées stratégiquement autour du site, servant essentiellement d'"yeux" pour capturer l'action sur le terrain.

Ces caméras haute définition peuvent être installées à partir d'un seul point de vue (pour minimiser l'encombrement du matériel et faciliter l'installation et le démontage), ou réparties à différents endroits du terrain.

Une fois le système de capture vidéo installé, ces "yeux" transmettent les données visuelles à un ordinateur, qui transforme alors les informations visuelles brutes en un format compréhensible par l'ordinateur. Ce format peut se présenter sous la forme de "points" en 2D ou de "squelettes" en 3D.

Les étapes de cette transformation sont les suivantes :

  • Détection des joueurs et du ballon : Il s'agit d'identifier l'emplacement des joueurs et du ballon dans chaque image. Pour la détection des joueurs, en fonction de la granularité de mesure requise et de la densité de pixels de l'image d'entrée, il est possible de détecter des boîtes de délimitation autour du joueur dans l'image ou de détecter le squelette ou la silhouette de chaque joueur. Pour la détection des ballons, on utilise normalement une boîte englobante.
  • Identité de l'équipe et du joueur : Après la détection, l'étape suivante consiste à identifier l'équipe à laquelle appartient chaque joueur (généralement sur la base de la couleur de son maillot) et l'identité du joueur (généralement déterminée par l'identification du numéro de maillot du joueur). Lorsqu'un joueur est occulté (c'est-à-dire qu'il n'est pas visible) pendant un certain temps, cette tâche est souvent appelée "réidentification".
  • Étalonnage de la caméra : Cette étape consiste à détecter les lignes et les coins du terrain, qui sont ensuite utilisés pour cartographier les positions du joueur et du ballon en coordonnées réelles.
  • Le suivi : Enfin, les détections sont associées à une identité unique au cours du match. Cela peut se faire à la fois dans le plan de l'image (c'est-à-dire les pixels que nous voyons) et dans le plan du terrain (c'est-à-dire la vue de haut en bas du terrain). Normalement, dans les sports, on utilise l'approche du "suivi par détection", mais il arrive souvent que des détections soient manquées ou fausses, d'où la nécessité d'un tracker. Comme il y a plusieurs joueurs sur le terrain, nous appelons cela le "suivi multi-objets".

Des méthodes d'apprentissage en profondeur sont normalement employées pour chacune de ces étapes. Par exemple, les réseaux neuronaux convolutifs (CNN) sont normalement utilisés pour détecter le joueur/la balle, mais ils forment également la représentation d'entrée pour l'identification de l'équipe et du joueur. Les modèles de segmentation sont souvent utilisés conjointement avec des détecteurs de lignes/coins pour le calibrage. Pour entraîner ces modèles, il faut disposer d'un très grand nombre d'exemples d'entraînement d'images brutes avec les boîtes de délimitation (ou squelettes) associées, l'identifiant de l'équipe et l'identifiant du joueur, ainsi que les emplacements des bords/coins. Dans certaines situations, il est également nécessaire de comprendre automatiquement le tableau d'affichage grâce à la reconnaissance optique de caractères (OCR). Un exemple de toutes ces étapes est illustré ci-dessous.

Plus loin dans l'article, nous verrons comment ces méthodes d'apprentissage en profondeur sont liées à la tendance à utiliser des méthodes GenAI - mais à un niveau élevé, vous pouvez considérer le processus ici comme la création du langage visuel du sport (c'est-à-dire les x et les o) - qui se prête à la modélisation du langage en aval.

Pourquoi et quand les systèmes de CV utilisent-ils des "points" ou des "squelettes" pour détecter et suivre les joueurs ?

Il est utile de concevoir un système de CV comme un outil de détection ou de mesure. La précision requise pour la mesure - en millimètres ou en centimètres - détermine le type de sortie de suivi nécessaire. On peut les classer en plusieurs catégories :

  1. Mesures fines (précision au millimètre près) : Cette catégorie englobe les tâches d'arbitrage (par exemple, la détection semi-automatique des hors-jeu au football, l'analyse des lanceurs au baseball et l'arbitrage au basket-ball) et les graphiques de diffusion (par exemple, la segmentation de la génération d'avatars photoréalistes d'athlètes et les diffusions augmentées).
  2. Mesures à gros grain (précision au centimètre près) : Elles concernent les mesures de la condition physique des joueurs pendant un match (par exemple, la distance parcourue, le nombre de sprints de haute intensité) ainsi que les mesures tactiques (par exemple, la formation jouée par une équipe, la qualité d'exécution d'une passe par un joueur ou, au basket-ball, si l'équipe a utilisé un pick-and-roll).

Pour les mesures fines telles que la détection semi-automatique des hors-jeu et les avatars photoréalistes, le suivi du squelette est nécessaire car il fournit des informations 3D détaillées pour ces cas d'utilisation.

D'autre part, la détection de la boîte englobante est suffisante pour les mesures à gros grain, permettant d'estimer le "centre de masse" d'un joueur, ce qui se traduit par des "points" en 2D. Un exemple illustrant la différence entre le suivi du centre de masse (en haut) et le suivi de la position du corps (en bas) est donné ci-dessous, tiré d'un article que nous avons rédigé sur le sujet.

Comment les informations visuelles brutes sont-elles séparées en données utiles et non utiles ?

Historiquement, lorsque nous pensons aux données de suivi, il s'agit de l'utilisation des points 2D représentant les joueurs se déplaçant sur le terrain. Les gens considèrent souvent ce type de données de suivi comme des données "volumineuses". Le système de suivi agit comme un outil de compression, n'extrayant que les informations essentielles des pixels vidéo bruts, telles que les positions et les mouvements des joueurs et du ballon, tout en éliminant les détails superflus tels que l'herbe, la foule et les publicités.

Ce taux de compression peut atteindre 1 000 000:1. Par conséquent, les données de suivi dans le domaine du sport peuvent être assimilées à l'algorithme de compression vidéo ultime ou à un codec spécifique au sport, ce qui permet diverses applications en aval.

À partir de ces mesures, les données de suivi peuvent être utilisées de nombreuses façons supplémentaires, dont l'utilité augmente de façon exponentielle si les données de suivi peuvent être combinées avec des données d'événements, montrant non seulement où se trouve un joueur, mais aussi ce qu'il fait. Cela inclut la recherche interactive, la simulation, l'analyse stratégique et les applications de réalité mixte. De futurs articles approfondiront ces applications, mais nous nous concentrerons ici sur la technologie de vision par ordinateur sous-jacente.

Si le suivi par vision par ordinateur existe depuis si longtemps, pourquoi n'est-il pas déjà utilisé partout ?

Certaines ligues sportives de premier plan utilisent du matériel et des systèmes de suivi par vision artificielle sur place, en utilisant plusieurs caméras fixes spécialisées installées autour de la salle, comme SportVU de Stats Perform

Ces systèmes fournissent généralement des données de position et de mouvement à gros grain. Même ces données ne fournissent qu'une partie de l'image et doivent encore être fusionnées avec les "données d'événement" mentionnées ci-dessus et plus loin. En outre, l'accès est limité à l'équipe propriétaire du site ou est partagé entre les équipes d'une ligue spécifique à des fins d'analyse tactique. Il est très rare que les données soient partagées en dehors de cette ligue. Les informations obtenues sont parfois utilisées dans les analyses télévisées.

Le coût du matériel, le processus complexe de fusion des données de suivi et d'événements, et les ressources en analystes nécessaires pour extraire des informations exploitables des données de suivi des caméras signifient que l'application des systèmes de caméras CV fixes est très limitée en dehors des ligues majeures.

Cela signifie également que même si les grandes équipes/ligues ont pu accéder aux données de suivi au sein de leur propre ligue, elles ont toujours des angles morts matériels. Elles ne peuvent pas accéder aux données des autres ligues et compétitions. Cela crée d'énormes contraintes lorsqu'il s'agit de recruter des joueurs dans ces ligues, de se préparer à affronter des équipes d'autres ligues dans des compétitions de coupe, ou de jouer contre de nouveaux joueurs ou entraîneurs d'autres ligues.

L'accès aux données de suivi d'une seule compétition limite également la quantité de données dont disposent les analystes des équipes pour développer et former des modèles permettant de faire des prédictions spécifiques sur les styles et les schémas de jeu et de simuler différentes tactiques. Cela signifie que ces prédictions et simulations sont limitées en termes d'échelle et de valeur.

Pour l'"arbitrage", qui exige une précision au millimètre près, un matériel encore plus important est nécessaire sur le site, comme des caméras à haute résolution. Cela entraîne non seulement des coûts supplémentaires importants, mais pose également des problèmes opérationnels, car il est essentiel d'avoir accès au site et de disposer de connexions internet fiables et robustes, ce qui n'est pas forcément le cas dans tous les sites.

Même avec des installations matérielles importantes dans les stades, des mesures supplémentaires sont parfois nécessaires. Par exemple, lors de la Coupe du monde de la FIFA 2022, la technologie de détection semi-automatique du hors-jeu a complété les données de suivi des joueurs basées sur la vision par ordinateur en incorporant des puces RFID dans le ballon. De même, dans des sports comme le cricket, les images de drones complètent les systèmes existants pour saisir les positions sur le terrain, tandis que la NFL et la NHL obligent les joueurs à porter des puces RFID, ce qui élargit encore l'empreinte matérielle.

La bonne nouvelle, c'est que pour les mesures à gros grain telles que le suivi de la condition physique et les informations tactiques, l'infrastructure matérielle étendue n'est désormais plus une condition préalable. Grâce à l'IA générative et aux données approfondies, une solution évolutive comprenant à la fois des données de suivi et des données d'événements peut être obtenue sans matériel supplémentaire, ce qui permet une rétrocompatibilité, une couverture énorme et un bon rapport coût-efficacité. Elle utilise la vidéo à distance largement disponible.

Aller au-delà des systèmes matériels pour obtenir des informations plus détaillées, en utilisant la vidéo à distance

En tant qu'êtres humains, nous pouvons comprendre ce qui se passe lors d'un match grâce à la vidéo à distance (c'est-à-dire la vidéo consommée en dehors du stade), il semble donc logique d'étendre un système de CV pour faire de même.

Le potentiel de ce système est énorme, en particulier pour les sports mondiaux alimentés par de multiples compétitions d'élite. Il est possible de recueillir des données de suivi pour les milliers d'équipes professionnelles mondiales de football masculin et féminin, ainsi que pour les plus de 350 écoles de basket-ball de division 1 et la myriade de ligues internationales de basket-ball.

Cela signifie également que nous pouvons remonter dans le temps pour collecter des images historiques, dans des lieux qui n'étaient pas équipés de caméras CV.

Notre équipe de spécialistes de l'IA chez Stats Perform a été pionnière dans le développement de la technologie de suivi à distance au cours des 8 dernières années, tout comme nous avons été pionniers dans la collecte de données de suivi des joueurs et des ballons sur place via SportVU.

Notre parcours en matière de suivi à distance a en fait commencé dans le domaine du basket-ball avec notre système breveté AutoStats, qui a été lancé en 2019. Les principaux défis liés à la capture de données de suivi à partir d'une vidéo à distance pour le basket-ball consistent à calibrer une caméra en mouvement et à ré-identifier les joueurs qui sont dans le champ de vision et hors du champ de vision.

Les résultats d'AutoStats en matière de basket-ball sont désormais utilisés pour l'analyse des perspectives de recrutement par des équipes telles que les Orlando Magic et les tactiques, ainsi que pour alimenter de nouveaux angles de narration dans les médias et à la télévision, comme lors de la Coupe du monde de basket-ball FIBA 2023.

Parallèlement à AutoStats, nous nous sommes concentrés sur le football avec notre programme Opta Vision . L'ambition d'Opta Vision était similaire : générer des "données de suivi complètes" pour chaque match de football, comparables au suivi sur place. Nous avons ensuite combiné ces données avec des données événementielles pour qu'elles soient encore plus utiles aux analystes.


Dans la deuxième partie de cette mise à jour, Patrick expliquera comment l'IA générative est appliquée pour "imputer" l'emplacement sur le terrain de tous les joueurs de football, hors champ de la caméra, pendant un match, afin de fournir aux analystes des données de suivi complètes et ininterrompues pour chaque joueur, du premier coup de sifflet jusqu'à la fin du match.