
Patrick Lucey, scientifique en chef, est de retour pour le dernier épisode des Dernières tendances de l'AI dans le sport de la série 2024. Dans cette mise à jour, le Dr Lucey aborde la GenAI des entreprises spécialisées et la façon dont la dernière innovation qui change la donne s'applique à nous dans le monde du sport.
Le moment est bien choisi pour que Stats Perform lance son enquête 2025 sur l'engagement des fans de sport, la monétisation et les tendances de l'IA. 2025 Sports Fan Engagement, Monetisation and AI Trends (Engagement des fans de sport, monétisation et tendances en matière d AI ) puisque cela marque le deuxième anniversaire de la sortie de ChatGPT, qui a tout changé. L AI est passée d'un outil de niche, utilisé uniquement pour des tâches spécifiques, à un utilitaire général utilisé par des centaines de millions de personnes chaque semaine (ChatGPT vient d'annoncer qu'il comptait 300 millions d'utilisateurs hebdomadaires dans le monde).
Bien qu'il y ait encore des problèmes d'hallucinations, pour la plupart des travailleurs du savoir dans le monde - qui l'utilisent pour des tâches telles que les questions/réponses générales, la relecture, la traduction, le brainstorming et le codage - il s'agit de l'outil d'assistance ultime, car il permet aux travailleurs d'en faire beaucoup plus qu'auparavant. En effet, l'une des nombreuses conclusions de notre enquête révèle qu'un nombre croissant de responsables de médias sportifs, qu'il s'agisse d'émissions, d'équipes, de ligues, de fédérations, de sponsors ou de paris sportifs, adoptent l'AI de diverses manières pour accroître leur audience et commercialiser leur contenu, et trouvent qu'il est plus facile de le faire que ceux qui sont à la traîne.
Bien entendu, les innovations en AI ne se sont pas arrêtées à la première version de ChatGPT. Il semble que de nouvelles innovations sortent chaque semaine. Par exemple, au cours des deux derniers mois, il y a eu des innovations étonnantes. Outre les prix Nobel décernés aux pionniers de l'AI Geoff Hinton et Demis Hassabis, respectivement pour la physique et la chimie, le récent lancement du produit Apple Intelligence, les améliorations apportées aux lunettes intelligentes Ray Ban de Meta. Le modèle de raisonnement d'OpenAI o1 pour les tâches complexes a été stupéfiant et, plus récemment, la version 2.0 de Gemini de Google.
Cependant, alors que nous attendons la dernière version du modèle GPT-5 (ou Orion) d'OpenAI, de plus en plus de rumeurs indiquent que l'innovation se tarit et que nous nous heurtons à un mur - que les améliorations rapides initiales résultant de l'utilisation de plus de données et de modèles plus grands atteignent apparemment une limite. Le PDG de Google s'est fait l'écho de ce sentiment en déclarant que "la pente est plus raide" pour les progrès de l'AI avec les LLM actuels.
Contrairement à ce que l'on pourrait penser de prime abord, cela ne signifie pas la fin de l'innovation dans le domaine de la GenAI. Loin de là !
Nous pensons au contraire qu'elle annonce une nouvelle phase d'innovation de la GenAI. Une phase centrée sur les cas d'utilisation en entreprise - que nous appelons Enterprise GenAI. Dans cet article, nous soulignons ce que cela signifie et comment cela s'applique à nous dans le monde du sport.
Les LLM actuels se heurtent-ils à un mur ? Pourquoi ?
Dans une certaine mesure, nous atteignons une sorte de seuil pour les cas d'utilisation actuels de la LLM basée sur le texte (par exemple, ChatGPT). La raison en est simple : elle est due au manque de nouvelles données à partir desquelles les modèles peuvent apprendre.
Les grands modèles de langage (LLM) utilisés aujourd'hui dans les applications populaires d'AI générique sont formés sur des volumes massifs de données, principalement des textes, mais aussi des données audio, des images et des vidéos, provenant principalement d'Internet, mais ces modèles sont sur le point d'apprendre tout ce qu'ils peuvent de ces données, et il n'existe pas de nouvelles sources significatives de données publiques à grande échelle.
En fait, ces modèles ont maximisé ce qu'ils pouvaient tirer de ces sources de données publiques.
Cependant, il y a beaucoup plus d'informations en dehors du texte et des données d'image que nous trouvons sur l'internet.
Extension des applications et des performances du modèle
Au lieu de former des modèles plus importants, les entreprises cherchent maintenant à rendre les modèles actuels plus efficaces et plus rapides (voir la version 3.3 du lama de Meta), tout en élargissant les types de tâches que ces modèles peuvent accomplir en utilisant de nouvelles sources de données supplémentaires spécifiques à un domaine. Ces nouvelles sources de données permettent de créer de nouvelles tâches et solutions.
Cela signifie que les LLM peuvent, par exemple, s'aventurer dans les domaines plus complexes des mathématiques, de la géométrie et de la physique, comme l'a fait récemment OpenAI avec son modèle "o1". Le modèle o1 dépasse le niveau de précision d'un doctorat sur un ensemble de problèmes de physique, de biologie et de chimie, et s'est classé parmi les 500 meilleurs étudiants des États-Unis lors d'une épreuve de qualification pour les Olympiades de mathématiques des États-Unis. Le nouveau modèle Gemini 2.0 de Google permet également aux assistants AI d'accomplir des tâches telles que la recherche sur le web et la rédaction de rapports détaillés grâce à leur outil "Deep Research".
Ces nouvelles tâches sont beaucoup plus complexes que la plupart des autres, et les approches actuelles doivent donc évoluer pour permettre au modèle de les résoudre. Pour résoudre des problèmes de mathématiques, de géométrie ou de physique, ou pour effectuer des recherches sur des sujets complexes, le modèle doit prévoir une série d'étapes (appelée "chaîne de pensée") avant de fournir une réponse.
Ces types de modèles sont appelés modèles de "raisonnement" car ils semblent imiter la façon dont les humains "pensent" avant de répondre (bien que, comme l'a récemment souligné Yann LeCun lors de sa conférence à l'université Columbia de New York, ces modèles n'ont toujours pas la capacité de planifier efficacement et ne sont qu'une approximation).
Mais comme indiqué ci-dessus, au lieu d'être plus intelligents (c'est-à-dire d'apprendre de nouvelles tâches à partir des mêmes données), les modèles de raisonnement sont simplement étendus à de nouvelles tâches en incluant d'abord un nouvel ensemble de données spécifiques à ces tâches (c'est-à-dire mathématiques/physiques/chimie).
Ils sont ensuite optimisés pour atteindre les meilleures performances sur une série de tests de référence.
Ainsi, pour améliorer les performances perçues ou les types de tâches qu'un modèle peut accomplir, il est essentiel d'entraîner les modèles existants sur de nouveaux ensembles de données, puis de les optimiser pour ces nouvelles tâches.
Nous le constatons dans le domaine de la vision ordinateur avec les différents modèles de segmentation, qui nécessitent des cartes de segmentation détaillées (c'est-à-dire chaque pixel étiqueté dans l'ensemble d'apprentissage avec une étiquette indiquant l'objet/le segment auquel il est attribué), les agents de jeux vidéo qui peuvent suggérer ce qu'il faut faire ensuite, ou le début de l'informatique incarnée, où les modèles ajoutent le mode de capture des clics/de la saisie.
De plus, le seul véritable moyen d'améliorer ou d'étendre les capacités des grands modèles linguistiques actuels est d'utiliser des données différenciées.
Mais où se trouvent ces nouveaux ensembles de données différenciés ?
L'un de ces domaines est l'" AI souveraine", dans laquelle les pays ont accès à leurs propres données (par exemple dans le domaine des soins de santé, des transports et de la défense) et peuvent utiliser ces données pour construire des modèles capables de répondre à des questions spécifiques au pays. Un autre domaine est celui du monde des affaires, où les entreprises disposent de leurs propres données et peuvent répondre à des questions qui leur sont propres, d'où le nom d'"Enterprise GenAI".
Entreprise GenAI
Selon IBM, moins de 1 % des données disponibles dans les entreprises (c'est-à-dire les données que les entreprises collectent au quotidien) sont disponibles sur l'internet. (c'est-à-dire les données que les entreprises collectent dans le cadre de leurs activités quotidiennes) sont disponibles sur l'internet.
Les 99 % restants de données d'entreprise représentent bien sûr un vaste réservoir d'informations, contenant des modèles et des connaissances extrêmement riches, qui pourraient potentiellement être utilisés pour aider à effectuer de nouvelles tâches spécifiques et alimenter l'innovation humaine de manière plus efficace et efficiente.
Les données d'entreprise représentent donc un terrain fertile et l'utilisation des données d'entreprise pour l'AI générative semble être la voie la plus probable pour poursuivre la croissance dans ce domaine.
En ce qui concerne les applications GenAI d'entreprise, il existe deux cas d'utilisation clés, qui dépendent du type de données :
- Données génériques de l'entreprise : Il s'agit de types génériques de données textuelles, audio et images/vidéo qui sont privées pour une entreprise. Pour les données textuelles, il s'agit des communications internes, des interactions avec les clients, des documents opérationnels, des documents de vente et de marketing, de la documentation technique et sur les produits, des dossiers juridiques et financiers, des données sur les ressources humaines et des communications externes. Les LLM textuels actuels, améliorés par des techniques de génération améliorée par récupération (RAG), constituent un excellent point de départ pour l'interrogation, l'accès, la recherche et la traduction de ces documents. Ces capacités peuvent être encore améliorées grâce à la mise au point du modèle. De même, les LLM actuels peuvent être utilisés pour la transcription et le résumé audio, tandis que les modèles de langage visuel (VLM) peuvent gérer des tâches telles que la détection d'objets génériques dans cette catégorie de données.
- Données d'entreprise spécialisées: Il s'agit de types de données propres à l'entreprise ou à ses activités, telles que les données générées par des capteurs, les données spatio-temporelles (par exemple, les coordonnées GPS ou le suivi d'événements) et les données provenant de machines, de moteurs ou d'autres équipements. Certaines de ces données sont examinées plus en détail ci-dessous. Ces ensembles de données nécessitent souvent des techniques de traitement et d'analyse spécialisées. Contrairement aux données génériques, les données spécialisées sont très spécifiques à un domaine et adaptées au contexte opérationnel ou industriel de l'entreprise et représentent souvent la propriété intellectuelle la plus précieuse de l'entreprise. Les étapes de l'utilisation de ces données consistent à : i) collecter les données, ii) les transformer en un langage, et iii) utiliser ce langage.
Dans la suite de cet article, nous nous concentrerons sur les applications GenAI qui utilisent des données d'entreprise spécialisées.
Quel est le lien entre le sport et les données spécialisées des entreprises ?
Bien qu'il existe des données génériques dans le domaine du sport, les données sportives qui capturent les performances dynamiques et en direct des joueurs sur le terrain ou le champ de bataille constituent l'un des ensembles de données les plus intéressants, les plus uniques et les plus "spécialisés" qui existent dans le monde. Elles sont dynamiques et ont une valeur considérable si elles sont accessibles en direct, mais elles doivent également être larges, profondes, uniformes et cohérentes pour pouvoir être utilisées efficacement dans la modélisation - et bien sûr, elles doivent être exactes. La valeur de ces données réside dans le fait qu'elles reconstruisent objectivement l'histoire de la performance - plus les données sont granulaires, meilleure est la reconstruction. D'un autre point de vue, ces données peuvent être considérées comme le langage universel du sport - et chez Stats Perform, nous avons créé ce langage.
Comme la plupart des langages sophistiqués, le langage du sport est multimodal. Les principaux modes sont à la fois les "données d'événement" et les données de "suivi des mouvements du ballon/joueur" (voir les parties I et II de notre article intitulé Dernières tendances de l'AI dans le sport pour une description).
Bien que le sport soit à l'origine de plus de 10 % des recherches sur l'internet chaque jour, les données qui existent actuellement sur le web sous une forme qui pourrait être utilisée pour former un modèle sont obsolètes, fragmentées et souvent peu profondes et étroites par nature.
En revanche, un ensemble de données "d'entreprise" propriétaire comme l'énorme base de données Opta de Stats Performest à jour, complet, exhaustif en termes d'étendue et de profondeur, collecté de manière cohérente et contient des informations qui ne sont disponibles nulle part ailleurs à grande échelle, telles que des données d'événements très détaillées et des données de position et de mouvement en dehors de la pelouse.
En raison de ces caractéristiques, notre ensemble de données sportives "spécialisées" est similaire aux données collectées dans les domaines de la logistique, de la fabrication, du transport, des véhicules autonomes, de la météorologie et de la biologie, et représente le carburant de la prochaine vague d'applications futures de l'AI
Quels sont les exemples de GenAI d'entreprise spécialisée en dehors du sport ?
La première vague d'AI générative (par exemple, ChatGPT) a été alimentée par de grandes quantités de données textuelles génériques. Les données textuelles sont un excellent point de départ, car il en existe une énorme quantité disponible publiquement et les données sont de nature séquentielle, deux attributs clés pour que les LLM prospèrent. En dehors du sport, il existe de nombreux domaines qui contiennent d'énormes quantités de données séquentielles et qui sont également propices à l'épanouissement des LLM - et ils vont potentiellement changer le monde (ou sont déjà en train de le changer). Nous en présentons quatre ci-dessous.
Dans le premier exemple, nous avons l'utilisation de véhicules autonomes qui sont maintenant utilisés dans certaines villes des États-Unis pour les taxis sans chauffeur - tout récemment lancés à Los Angeles le mois dernier et qui le seront bientôt à Miami.. La sixième génération de Waymo Driver comprend 13 caméras, quatre lidars, six radars et un ensemble de récepteurs audio externes, ainsi que des cartes à haute résolution pour surveiller l'environnement et naviguer en toute sécurité de manière autonome. À partir de ces riches sources de données d'entrée, ces robotaxis utilisent un modèle de base spécifique aux véhicules autonomes qui cartographie toutes ces sources d'information en un seul modèle pour mesurer et prédire les comportements spécifiques au monde des véhicules autonomes.
Le deuxième exemple concerne les prévisions météorologiques. La prévision précise du temps est vitale pour toutes les industries, qu'il s'agisse des transports, de l'agriculture, de la sécurité publique ou simplement de la vie quotidienne. Les méthodes actuelles de prévision météorologique nécessitent des superordinateurs pour effectuer des équations physiques complexes, ce qui prend du temps et nécessite des calculs. En outre, pour obtenir les prévisions les plus précises, il faut disposer d'images à haute résolution, difficiles à obtenir à grande échelle. Toutefois, des travaux récents ont montré qu'il est possible d'établir des prévisions précises à l'aide d'un modèle de base qui nécessite moins de calculs, mais qui peut également utiliser des données à faible résolution et atteindre la même précision.. Cette semaine, DeepMind de Google vient de publier un modèle appelé GenCast qui peut prédire le temps avec plus de précision que le meilleur système actuellement utilisé - et le fait en quelques minutes contre plusieurs heures, ce qui est le temps qu'il faut aux modèles actuels pour générer leurs prévisions.
Cela se rapporte parfaitement au troisième exemple concernant la robotique. Qu'il s'agisse d'un simple bras robotisé identifiant, triant et manipulant vos colisou d'un robot surveillant une exploitation agricole et identifiant et cueillant vos fruits ou légumes à un rendement optimalDans le domaine de la robotique, des avancées majeures sont réalisées grâce à la capacité des capteurs à mesurer des attributs spécifiques à un domaine, en plus d'autres données telles que des prévisions météorologiques précises. L'impact de ces travaux est que les colis peuvent être livrés avec précision et en temps voulu (ce qui signifie qu'ils seront moins chers et reçus plus rapidement), et que les aliments seront non seulement cueillis au moment optimal, mais qu'ils pourront également être produits en plus grande quantité sans être gaspillés.
Le quatrième exemple concerne la chimie et la biologie. Comme indiqué au début de l'article, le principal scientifique de l'équipe DeepMind a remporté un prix Nobel de chimie pour ses travaux sur AlphaFoldqui prédit avec précision les structures 3D des protéines en quelques heures plutôt qu'en quelques années. C'est important car cette méthode peut être utilisée pour le développement de médicaments contre des maladies, ainsi que pour une thérapie médicamenteuse ciblée en utilisant les différents facteurs contextuels d'une personne - deux choses qui ne sont pas possibles avec les méthodes actuelles et qui constituent donc un inconvénient majeur.. Le potentiel de ces méthodes peut également être appliqué à la création de nouveaux biocarburants propres pour remédier aux pénuries d'énergie d'une manière propre et renouvelable ou décomposer les déchets tels que les plastiques, qui constituent actuellement un problème pour la planète.
Le point commun de ces quatre exemples est qu'ils reposent sur d'énormes quantités de données séquentielles. Pour les véhicules autonomes, les données d'entrée ne sont pas des mots textuels mais des nuages de points provenant du LIDAR, des images provenant des caméras RVB, des cartes à grain fin ainsi que des informations provenant de l'intérieur de la voiture. Pour les conditions météorologiques, les données d'entrée sont celles des différents capteurs. Pour la robotique, ce sont les capteurs de profondeur, les capteurs robotiques et le dictionnaire des produits possibles, et pour l'exemple de la biologie, au lieu de mots, ce sont les structures des protéines, et/ou l'ADN, l'ARN. Chaque domaine a son propre langage. Une fois ce langage établi, vous pouvez procéder à la modélisation du langage (de préférence la modélisation du langage à grande échelle (LLM). Ces modèles peuvent alors représenter, décrire et prédire avec précision ce qui se passe dans les univers spécifiques des "entreprises spécialisées".
Transformers - L'apprenant universel : "Il suffit d'ajouter des données séquentielles
Une fois que vous disposez d'une grande quantité de données séquentielles, vous devez utiliser la bonne machine pour apprendre à partir de ces données. L'élément clé de cette machinerie est le "réseau neuronal transformateur", qui peut contextualiser les informations bien mieux que les méthodes d'apprentissage automatique précédentes. ChatGPT et d'autres LLM ont montré que les transformateurs apprennent très bien les données séquentielles génériques (par exemple, le texte, les images/vidéos, l'audio). Mais ce que l'on oublie souvent, c'est que ces modèles peuvent fonctionner sur d'autres formes de données séquentielles, comme les données sportives, ce que nous montrerons plus loin.
Cependant, pour avoir une idée de la manière dont ces transformateurs fonctionnent, utilisons deux phrases d'exemple utilisant des données textuelles (cet exemple a été adapté à partir du billet de blog qui a présenté l'article original "Attention is All You Need Paper" (L'attention est tout ce dont vous avez besoin))
- "L'homme a déposé de l'argent à la banque
- "L'homme s'est assis sur la rive du fleuve"
Pour qu'un ordinateur comprenne la phrase, il faut d'abord la symboliser, ce qui revient à convertir des mots (ou des sous-mots) en nombres. Avant les transformateurs, nous représentions ces mots indépendamment, ce qui signifie que l'ordinateur représenterait le mot "banque" par les mêmes chiffres.
Mais si vous regardez les mots de la phrase qui se trouvent autour du mot "banque", nous comprenons, en tant qu'humains, qu'il a une autre signification. En utilisant un modèle de transformateur modèlenous permet d'apprendre efficacement à partir des mots qui entourent le mot en question. Dans ce cas, le modèle apprendra que ces mots ont des significations différentes, de sorte que les nombres représentant les mots seront différents (voir ci-dessous).
Entreprise spécialisée GenAI dans le sport : Exploiter la nature séquentielle des données sportives
Vous vous demandez probablement en quoi l'exemple ci-dessus est important dans le domaine du sport. Tout d'abord, notre ensemble de données sportives spécialisées est séquentiel. Si nous regardons la composition de l'équipe de départ d'une équipe, telle que Manchester City, l'équipe est essentiellement une phrase. Chaque joueur est un mot, et nous pouvons classer ces mots du gardien de but à l'attaquant. Certains joueurs (c'est-à-dire certains mots) ont un impact plus fort que d'autres, comme Erling Haaland. Lorsqu'il joue, il aura un impact sur ce que font les autres joueurs (c'est-à-dire que les joueurs essaieront de lui offrir des occasions de but), et il aura également un impact sur ce que font les adversaires. Mais si Haaland est mis au repos ou blessé et que Jack Grealish entre en jeu (voir ci-dessous), il aura un impact sur la façon dont les joueurs jouent (c'est-à-dire que le changement d'un seul "mot" a un impact considérable sur le sens de la phrase ou sur la façon dont l'équipe jouera). Comme dans l'exemple de la météo mis en évidence précédemment, l'utilisation d'un transformateur avec une représentation séquentielle de la performance des joueurs nous permet d'obtenir une bien meilleure prédiction de la performance future des joueurs par rapport aux approches actuelles qui prédisent les joueurs indépendamment les uns des autres.
En outre, les données d'événement qui capturent ce qui se passe sur le ballon est comme une phrase, mais à la place des mots, nous avons l'action prise par un joueur (par exemple, passe par le joueur A, à l'endroit X Y Y). A, à l'endroit X,Y au moment T) et nous avons une séquence de ces événements jusqu'à la fin de la mi-temps ou du match. Les données de suivi, qui capturent la position et le mouvement des joueurs et du ballon à chaque image, sont également séquentielles à la fois en termes d'espace et de temps. d'espace et de temps. L'utilisation de transformateurs nous aide non seulement à modéliser la nature séquentielle des données de manière beaucoup plus efficace, mais il nous permet également d'obtenir les deux flux d'informations dans le même cadre de référence, ce qui nous permet de faire des choses telles que notre génération de trajectoiresque nous avons mis en évidence dans la partie II (voir ci-dessous).
Une fois ces modèles "de base" définis, nous pouvons y ajouter d'autres sources ou modes d'information. Ce que nous faisons ici dans le domaine du sport est un excellent exemple de l'utilisation de données d'entreprise spécialisées, qui conduit à des modèles linguistiques d'entreprise spécialisés, ce qui, dans notre cas, permet d'améliorer les prédictions, les simulations et les mesures des performances, ce qui, en fin de compte, profite aux amateurs de sport.
L'année 2024 a été passionnante et 2025 nous réserve des avancées encore plus excitantes. Merci de votre lecture et si c'est votre première fois, consultez les parties I et II de nos précédentes mises à jour sur l'AI dans le sport et demandez l'accès à notre enquête sur l'engagement des fans de sport, la monétisation et les tendances de l'AI en 2025 ici.