Dans la deuxième partie de notre dernier article sur les tendances de lAI dans le sport, Patrick Lucey, Chief Scientist, explique comment la technologie de l AI peut AI utilisée dans le sport. Opta Vision résout un problème clé qui a freiné l'analyse du football au cours des 25 dernières années, en utilisant une combinaison de vision ordinateur et d'AI générative.
Si vous avez manqué la première partie la semaine dernière, vous pouvez la trouver ici.
La principale difficulté liée à la saisie des données de localisation et de mouvement des joueurs à partir de la vidéo dans le football réside dans le fait que la vidéo à distance n'offre pas une perspective uniforme du match.
Pour suivre un match à partir d'une vidéo à distance, un seul angle de caméra est utilisé. Il s'agit de la vue de la caméra principale/de la caméra de jeu, normalement située à la ligne médiane et à un angle raisonnablement élevé. La raison pour laquelle cet angle est le seul utilisé est qu'il contient les informations nécessaires pour calibrer la caméra, telles que les lignes de touche, le cercle central, la zone des 18 mètres, etc. Les autres vues ne contiennent pas ces informations, ce qui rend l'étalonnage de la caméra pratiquement impossible.
Cependant, même en utilisant l'angle de vue élevé de la caméra de jeu, en moyenne, seuls 11 des 22 joueurs sont normalement visibles. De plus, il y a souvent des gros plans et des reprises - des périodes où, auparavant, aucune donnée de suivi des joueurs ne pouvait être capturée.
Le temps consacré aux reprises et aux gros plans varie d'un jeu à l'autre ; certains jeux ne comportent que très peu de gros plans, tandis que d'autres en comportent beaucoup, jusqu'à 20 % du jeu.
Il est clair que l'analyse d'un jeu d'équipe comme le football est très limitée si 20 % des événements du jeu et 50 % des courses hors ballon effectuées par les joueurs ne sont pas pris en compte.
Regardez ces deux exemples. Le premier (en haut) montre que 11 des 22 joueurs sont hors de vue, et le second (en bas) montre que tous les joueurs sont hors de vue, en raison d'un gros plan.
Ces deux exemples sont tirés du même segment de jeu. Tout d'abord, nous avons la caméra du jeu pendant un certain temps, sans la moitié des joueurs de chaque équipe. Ensuite, nous avons un gros plan d'environ 8 secondes, auquel il manque 20 joueurs. Le gros plan contient trois passes avant qu'une balle en profondeur ne soit jouée sur le côté droit du terrain.
En utilisant le suivi à distance standard, qui ne capture pas les données de suivi pendant les gros plans, nous manquerions la position et le mouvement de la plupart des joueurs et, peut-être plus important encore, ces trois passes - et surtout la dernière passe qui mène à un jeu offensif.
Les passes décisives sont rares et très importantes. Le fait de ne pas tenir compte des passes clés, des passes qui mènent à la passe clé, de l'influence et des décisions des autres joueurs, laisse donc une grande lacune dans l'analyse.
La possibilité de combler cette lacune en obtenant des données de suivi complètes peut donc permettre une analyse complète. Mais comment ?
Opta Vision AI générative
Les experts humains sont assez doués pour estimer ce qui se passe lorsqu'ils ne peuvent pas voir les choses dans le sport, en se basant sur ce qu'ils ont vu dans le passé et sur leur connaissance de la façon dont les différentes équipes, les joueurs et les entraîneurs jouent dans des situations différentes. La question est de savoir comment nous pouvons faire en sorte qu'un ordinateur apprenne cela et "impute" les détails manquants.
Comme l'expliquent les articles précédents de cette série, les modèles d'AI générative formés sur du texte peuvent corriger une phrase incorrecte ou compléter un mot manquant. Les modèles formés sur des images peuvent utiliser le remplissage et l'expansion (in-painting et out-painting) pour compléter une image. Les modèles multimodaux formés sur du texte, des images et des vidéos, comme la technologie de conversion de texte en vidéo "Sora" d'OpenAI, peuvent générer une vidéo complète à partir d'une simple description textuelle.
Pour le football, le langage que nous avons créé utilise à la fois nos données d'événements (c'est-à-dire ce qui s'est passé sur le ballon et qui était impliqué) et nos données de suivi (emplacement et mouvement du joueur). De la même manière que Sora a appris la correspondance entre le texte et la vidéo, Stats Perform a appris la correspondance entre les événements et les données de suivi, ce qui nous permet de résoudre ce problème.
En ayant les données de suivi à distance avant et après l'événement de la balle, et en ayant ensuite les informations sur les événements/actions de la balle qui se produisent et par quels joueurs, notre modèle (qui est formé sur une énorme quantité de nos données exclusives Opta ) a suffisamment de contexte pour estimer avec précision (ou "imputer") où se trouvent ces joueurs. Voir nos résultats ci-dessous - à mon avis, c'est magique !
Pour ce travail, nous nous sommes inspirés des travaux récents dans le domaine des véhicules autonomes, qui font quelque chose de similaire - en utilisant les cartes comme leur "équivalent textuel" et en utilisant ensuite la vision ordinateur pour cartographier les objets dans le monde dans cet "espace cartographique".
Comme il s'agit de données visuelles, les modèles de diffusion sont préférés pour les tâches visuelles telles que la génération d'images ou de trajectoires, car ils excellent à capturer les détails fins et à produire des résultats de haute qualité. Pour les données séquentielles comme le texte et les tâches basées sur le texte (par exemple, ChatGPT et Gemini), les réseaux neuronaux transformateurs sont mieux adaptés. Bien que la diffusion soit une approche différente des transformateurs, elle relève toujours de l'AI générative car elle peut créer de nouvelles images réalistes (ou, dans ce cas, générer des trajectoires réalistes de joueurs manquants).
Comme nous l'avons dit, les résultats sont assez "magiques". Mais plus important encore, cela résout un problème clé dans le football, car toutes les passes peuvent désormais être analysées dans le contexte de l'emplacement et du mouvement des autres joueurs - ce que nous appelons "l'analyse complète".
Nous pouvons donc effectuer le même type d'analyse à partir de la vidéo à distance qu'à partir de la vidéo sur place, ce qui constitue un changement de paradigme majeur pour obtenir des informations sur un plus grand nombre de joueurs, d'équipes et de ligues.
Il nous permet également de créer des données complètes à partir des jeux précédents. Au fur et à mesure que nous progressons dans cette voie, nous vous en dirons plus à ce sujet. Mais nous avons récemment présenté ce projet à la MIT Sloan Sports Analytics Conference, où Harry Hughes, de l'équipe Stats Perform AI , a fait un travail remarquable en présentant ce travail - voir ici pour tous les détails, ainsi qu'un lien vers une vidéo de la présentation.
Pourquoi un système CV ne peut-il pas suivre les gros plans ?
Comme vous pouvez le voir dans l'exemple en bas à gauche, nous pouvons voir clairement les joueurs (c'est-à-dire les maillots blancs), de sorte que la détection de ces joueurs par un système CV est assez facile.
Cependant, comme il s'agit d'un jeu au niveau du sol, il est pratiquement impossible d'estimer où se trouvent ces joueurs dans "l'espace des pixels" (c'est-à-dire les images) par rapport au reste des joueurs et au terrain. Ce type de raisonnement pour la détection de la position et du mouvement est beaucoup plus facile à faire dans "l'espace de suivi" (c'est-à-dire la vue du terrain de haut en bas).
Yann LeCun, figure de proue de l'AI , a récemment déclaré que la modélisation du monde en "espace pixel" était inefficace et impossible à résoudre. Nous sommes d'accord, et cette idée est la clé pour résoudre le problème de la génération de données de suivi complètes à partir de vidéos à distance. Notre approche de la génération de données de suivi consiste essentiellement à traiter l'"espace des données de suivi" comme une compression 1 000 000:1 de l'espace des pixels.
L'intérêt d'opérer dans l'espace des données de suivi est qu'il nous "lie au monde réel", car il limite les possibilités aux dimensions du terrain (105x68m en moyenne pour le football), et le contexte supplémentaire des événements les contraint encore davantage.
Pourquoi s'arrêter aux données de suivi des joueurs ? Les systèmes de CV pourraient-ils détecter des "données d'événement" directement à partir de la vidéo ?
Tout d'abord, définissons ce que sont les "données événementielles". Si l'on prend l'exemple du football, les données événementielles font référence aux actions effectuées par les joueurs au cours du match et aux décisions prises par les officiels. Elles comprennent les coups francs, les coups de pied de but, les corners, les remises en jeu, les touches, les passes, les dribbles, les tirs, les buts, les buts contre son camp, les arrêts, les têtes, les tacles, les interceptions, les fautes, les pénalités, les cartons jaunes, les cartons rouges, etc.
Les données de position et de mouvement combinées aux données d'événements fournissent une vision complète du jeu. Sans les deux, il est impossible d'analyser et de prévoir les décisions et les capacités des joueurs dans des situations spécifiques.
Voici quelques points essentiels à noter concernant les "événements" :
- De nombreux événements sont en fait multimodaux par nature - à la fois visuels et sonores (par exemple, le sifflet de l'arbitre) - car ils dépendent des décisions de l'arbitre humain. Il n'y a faute, penalty, hors-jeu, carton jaune, carton rouge, corner, but que si l'arbitre humain décide qu'il s'agit de cet événement. Même un gardien de but qui touche un tir au-dessus de la barre ne peut être considéré comme un arrêt que si l'arbitre accorde un corner.
- Certains événements ont une durée. Un laissez-passer a un lieu de départ et un lieu d'arrivée si le joueur le reçoit avec succès.
- Certains événements peuvent être modifiés après coup grâce à l'intervention de la VAR ou de l'arbitre assistant.
- De nombreux événements se produisent avec plusieurs acteurs à proximité immédiate et nécessitent une évaluation minutieuse afin de détecter et de classer avec précision et cohérence les événements selon les définitions prescrites.
Si l'on considère que les équipes et les médias ont besoin que les données relatives à l'événement soient collectées en direct, de manière cohérente et précise pour qu'elles soient utiles, pour des centaines de compétitions de football d'élite masculines et féminines à travers le monde, nous pouvons voir la nécessité d'avoir des experts humains dans la boucle à la fois pour les situations où des vues différentes sont rencontrées, mais aussi pour interpréter les décisions de l'arbitre (ou les changements de décisions). De même, même lorsqu'il y a 10 à 12 caméras et une puce dans le ballon, l'intervention humaine est nécessaire, comme le montre le système semi-automatique de détection des hors-jeu utilisé lors de la Coupe du monde masculine de la FIFA 2022.
Les sources d'entrée des données sportives peuvent donc être considérées comme multimodales, incorporant des entrées provenant de la collecte humaine ainsi que de la vision ordinateur. La nature complémentaire des données d'entrée, ainsi que la redondance intégrée dans ce processus, garantissent la saisie de données complètes et précises, indépendamment de ce qui se passe pendant le match, de la vidéo d'entrée ou de la décision de l'arbitre.
GPT-4o ou Gemini ne peuvent-ils pas traiter des images/vidéos pour le sport puisqu'ils sont multimodaux ? Pourquoi ne pas les utiliser pour créer des données de suivi des joueurs ?
Outre le coût élevé et la latence liés à l'utilisation d'API commerciales pour traiter les images et les données vidéo, l'utilisation de modèles standard ne permettra de capturer qu'une partie des joueurs clairement visibles, ce qui entraînera un manque de détails critiques sur le "dernier kilomètre", y compris des lacunes importantes dans le jeu, en raison des diverses nuances du sport et de ses nombreux cas de figure.
Les raisons en sont les suivantes :
- Données d'entraînement : Les modèles tels que GPT-4o et Gemini sont entraînés sur des données accessibles au public qui sont basées sur l'appariement d'images et de légendes, et non sur des séquences détaillées de données sportives spécifiques à un domaine et contenant des données de suivi et d'événement associées.
- Le langage : Les modèles tels que GPT-4o et Gemini apprennent les corrélations entre les images/vidéos et le texte. Comme indiqué précédemment, nous voulons apprendre les corrélations entre les données de suivi et les données d'événements, qui sont l'équivalent de nos images/vidéos et de notre texte.
Une autre façon de voir les choses est que les données sportives (suivi et événement) constituent leur propre "langue", et que GPT-4o et Gemini ont été optimisés pour le langage naturel (image et légende) - les modèles de base de Stats Performparlent donc littéralement une langue différente des modèles qui n'ont pas été entraînés sur des données sportives détaillées.
Bien qu'il soit théoriquement possible d'apprendre un modèle entre l'image/vidéo et l'appariement des données d'événement, ce n'est pas pratique en raison de la compression de la vidéo par rapport au suivi (c'est-à-dire 1 000 000:1), les données de suivi relient les données à la réalité du sport, et les données de suivi sont un résultat très utile en soi pour la visualisation, l'interaction et l'interprétabilité (comme nous le montrerons dans l'article suivant).
Demander à un agent d'AI regarder un match sportif en direct et d'en expliquer les règles, est-ce la même chose qu'analyser un match ?
C'est une bonne question, qui touche au cœur de la différence entre la compréhension d'une langue (ou la compréhension d'un sujet en tant que novice ou expert). Les LLM multimodaux actuels basés sur le langage naturel pourraient reconnaître une vidéo et l'identifier comme un match de football (et peut-être identifier certaines équipes et certains joueurs - et éventuellement le score et l'heure du match à partir du "bug" du score sur l'écran). À partir de là, il pourrait expliquer les règles du football et éventuellement l'histoire des clubs concernés, ce qu'il pourrait rapidement glaner à partir d'une recherche sur Wikipédia (c'est-à-dire des informations textuelles de haut niveau qui peuvent être trouvées publiquement sur l'internet).
Cependant, identifier le sport qui se joue et détecter les détails de ce qui se passe dans le jeu sont deux choses très différentes. La prochaine vague de GenAI ne consistera pas simplement à identifier le sport pratiqué, ce qu'un novice pourrait faire, mais à regarder le match comme un "expert". Pour ce faire, vous devez avoir le langage d'un expert. Pour le football, il s'agit de comprendre quelle formation joue une équipe, ou où un défenseur "aurait dû se trouver" dans une situation donnée, quelle passe un joueur "aurait dû faire" et quel a été le coût d'une passe mal placée qui a conduit à une contre-attaque. Il est également essentiel de les relier à l'élément "en direct", ce que les systèmes de gestion du temps actuellement disponibles sur étagère ne peuvent pas faire parce qu'ils sont limités en termes de connaissances. Il est donc extrêmement important de disposer à la fois de l'événement et des données de suivi, mais aussi de la base de données sportives "en direct et à jour", ce qui est absolument nécessaire pour "regarder" un match comme un expert.
Dans le prochain article, nous verrons comment nous pouvons utiliser les données d'événements et de suivi comme le langage brut du sport et les transformer de manière à ce que nous puissions "regarder" un match comme un expert. Par essence, les données d'événements et de suivi servent de mots (à la fois textuels et visuels), mais elles ne sont toujours pas structurées, car nous devons former des phrases, des paragraphes et des chapitres jusqu'à un livre entier (ou une bibliothèque de livres).
Les données sportives sont-elles structurées ou non structurées ?
En termes d'événements distincts (comme une passe ou un tir), les données sont structurées. Elles peuvent être stockées et récupérées dans une base de données. Nous pouvons également stocker les données de suivi sous la forme d'une ligne par image d'action.
La difficulté réside dans le fait qu'un sport comme le football est un jeu continu et que pour modéliser l'image complète de 22 joueurs en mouvement et d'événements se produisant, nous devons les assembler de manière séquentielle et non indépendante. L'analogie ici serait de stocker chaque mot ou chaque phrase d'un livre séparément - on peut s'assurer qu'ils sont stockés, mais ils perdront leur contexte.
Les données de suivi et d'événement associées à chaque événement peuvent être considérées comme une phrase dans un livre (où un jeu est un livre). Une autre façon d'envisager les données de suivi et d'événement que nous avons collectées est de les considérer comme des atomes, que nous devons rassembler en une structure cohérente.
Cependant, le nombre d'atomes (c'est-à-dire les événements et les joueurs) contient plus de permutations qu'il n'y a d'atomes dans l'univers !
Les modèles d'AI générative nous permettent d'apprendre la bonne structure à partir de ces atomes bruts non structurés.
Fondamentalement, tout ce que nous faisons dans le domaine de l'AI concerne la représentation ou l'obtention de la bonne structure d'entrée à partir de laquelle un ordinateur peut apprendre.
Pour générer des données de suivi et des événements, nous devons tenir compte de la position, de la vitesse et de l'accélération de tous les joueurs, ainsi que des événements précédents. Tous ces éléments varient en fonction du temps. Comme indiqué ci-dessus, il y a plus de permutations qu'il n'y a d'atomes dans l'univers - nos modèles avec les données brutes nous permettent donc d'apprendre la bonne structure (qui est également connue sous le nom d'intégration).
Dans le prochain article, nous approfondirons la façon dont nous pouvons utiliser les données de suivi de différentes manières - en particulier sur la façon de regarder un match comme un expert, mais aussi sur la façon de faire des recherches visuelles et interactives.
Vous avez brièvement parlé de RoboSoccer dans le dernier article, est-ce lié ?
Nous avons commencé cet article en évoquant l'histoire de la vision par ordinateur dans le sport, mais nous n'avons pas abordé l'un des premiers domaines réellement actifs de la vision ordinateur dans le sport dans les années 1990, à savoir le RoboSoccer. Il s'agissait de l'un des domaines de recherche les plus actifs avant que la révolution Moneyball ne mette l'accent sur le sport dans le monde réel.
L'objectif de RoboSoccer, ou RoboCup, était de faire en sorte qu'une équipe de robots humanoïdes entièrement autonomes batte la meilleure équipe de football humaine du monde, sur un vrai terrain, d'ici à 2050. Pour atteindre ce niveau, nous avons besoin de deux choses :
- Créer un robot capable de se déplacer comme un être humain, ce qui se rapproche de plus en plus grâce à la récente mise sur le marché du robot de Boston Dynamics, et
- Faire en sorte que ces robots "perçoivent" le monde comme un joueur humain. Mais pour ce faire, nous devons générer suffisamment d'exemples pour que ces robots apprennent les mouvements et la structure du football.
Je pense que le travail que nous avons effectué au sein d'Opta Vision nous aidera à analyser tous les matchs qui ont été joués "complètement", et il commencera également à fournir la quantité de données complètes nécessaires pour entraîner un robot à lire le match comme un expert humain.
Cependant, la beauté du sport réside dans le fait qu'il est pratiqué par des êtres humains, qu'il est imprévisible et fluide et qu'il offre une expérience vivante, unique et partagée dont les gens peuvent profiter. Bien qu'il s'agisse d'un objectif intéressant à poursuivre (un peu comme apprendre à un ordinateur à jouer aux échecs, à Jeopardy ! ou au jeu de Go - mais beaucoup plus difficile), je pense que des défis comme la RoboCup montreront à quel point les humains sont étonnants et le niveau de préparation, d'entraînement et de coaching requis pour réaliser des performances cognitives et physiques au plus haut niveau.
Dans les prochains articles, nous montrerons comment nous pouvons utiliser les données de suivi de la vision ordinateur pour comprendre des sports tels que le football, le basket-ball et le tennis. Nous mettrons également en évidence le rôle que joue l'AI générative dans la prédiction.