Récapitulatif Sloan : Moneyball, apprentissage automatique et grands modèles de langage

Depuis 2011, je participe à la MIT Sloan Sports Analytics Conference à Boston (y compris l'édition à distance de 2021) et j'ai toujours apprécié d'y assister, principalement pour rattraper des amis dans l'industrie, mais aussi pour entendre et discuter (et parfois présenter) de nouvelles innovations dans le domaine de l'analyse sportive. Cette année n'a pas dérogé à la règle, avec de nombreux panels divertissants, des exposés intéressants et des documents de recherche. Mais quelque chose était un peu différent cette année, avec l'incertitude et l'hésitation concernant l'impact de l'AI sur l'industrie du sport et la façon dont elle pourrait supprimer des emplois humains. Une semaine s'étant écoulée depuis la conférence SSAC du MIT, j'ai pu réfléchir et résumer mes cinq principaux enseignements de la conférence, les deux derniers faisant référence à cette question (qui était également le sujet de ma présentation et du panel auquel j'ai participé, mais étant donné que c'est ce dont j'ai discuté pendant la majeure partie de la conférence, je consacrerai la majeure partie des détails à ces deux sujets).

20 ans après Moneyball: Il est difficile de le croire, mais cela fait 20 ans que le livre "Moneyball" de Michael Lewis a été publié. Pour commémorer cet événement, une table ronde réunissant Michael Lewis, Shane Battier, Bill James et Daryl Morey, animée par Jackie McCullum, a été organisée et très divertissante. Le thème principal était (et je pense que cela échappe souvent aux gens), mais Moneyball n'est pas seulement une histoire de sport ; il utilise le sport comme exemple (spécifiquement les A's d'Oakland dans le baseball) sur la façon dont l'utilisation des données et de l'analyse comme outil d'assistance pour mesurer les processus et valoriser les ressources peut optimiser la façon dont les entreprises peuvent fonctionner - cela peut être un avantage concurrentiel massif si vos concurrents ne font pas la même chose.
Le meilleur investissement est dans le sport féminin: Comme l'ont souligné de nombreuses personnes dans de nombreux panels, le meilleur investissement est actuellement dans le sport féminin. Cette opinion découle de l'augmentation de la popularité, de la valeur des franchises et des droits de diffusion de la WNBA, des ligues de football féminin en Europe et du lancement récent de la T20 Cricket Women's Premier League en Inde. En outre, nous avons constaté que le sport féminin est un excellent moyen de présenter les nouvelles choses que nous avons faites avec nos grands partenaires de la WTA et de nombreuses compétitions de football, de basket-ball et de cricket.
Les accessoires des joueurs en direct : L'augmentation des paris aux États-Unis a également été un sujet important de la conférence. Outre la logistique et les obstacles liés à l'adhésion des États aux jeux d'argent, une autre rhétorique clé concernait le besoin d'accessoires pour les joueurs en direct et la nécessité d'actualiser les données et les modèles à faible latence. De notre point de vue, c'est quelque chose que nous avons entendu dans le monde entier (mais pas aux États-Unis) et que nous sommes déjà en train de mettre en œuvre. Notre partenariat entre le Betting Innovation Centre et Sporting Solutions en est un exemple récent. Nous vous tiendrons au courant de l'évolution de la situation dans cet espace...
ChatGPT et son application au sport: Au cours des trois derniers mois, avec l'introduction de ChatGPT, l'utilisation de l'AI générative et des grands modèles de langage a fait couler beaucoup d'encre et suscité beaucoup d'intérêt (voir nos deux articles ici pour un examen approfondi) : Première partie & Partie 2). J'ai fait un exposé sur ce sujet le vendredi après-midi lors de la conférence. Les points clés que j'ai essayé de faire passer sont les suivants :
1. Les grands modèles linguistiques (LLM) actuels, tels que ChatGPT, hallucinent les faits, ce qui est très problématique dans le domaine du sport,
2. Pour mettre en place des chatbots dans le sport, vous devez adopter une approche fondée sur les faits et utiliser des données sportives en temps réel, fiables et couvrant tous les sports (comme nous le faisons chez Stats Perform),
3. Le langage du sport n'est pas un texte en langage naturel comme celui utilisé dans les grands modèles de langage - c'est son propre langage (le texte sportif qui consiste en des statistiques comme les tirs, les tacles et les passes ainsi que le mode visuel - utilisant des données de position montrant l'emplacement et le mouvement des joueurs),
4. En utilisant le langage visuel, nous pouvons étendre et mettre à l'échelle le langage du sport pour trouver de nouveaux modèles qui aident les équipes et les médias à analyser et à raconter de meilleures histoires. De bons exemples sont nos nouvelles mesures Opta Vision le football, comme les passes de rupture de ligne et la pression (qui font partie de l'ensemble Opta Vision ), qui révèlent des couches de détails auparavant invisibles qui rendent les matchs plus fascinants, aident les équipes à trouver les forces cachées des joueurs et à faire de meilleures prédictions en matière de tactique et de stratégie.
5. L'avenir de l'analyse sportive est d'utiliser ces données et de former de grands modèles de langage (en utilisant à la fois les statistiques discrètes dérivées et les modèles de langage visuels), qui peuvent être utilisés pour des prédictions encore plus polyvalentes et complètes dans tout le sport, pour aider les équipes à prendre de meilleures décisions avant et pendant le match, et pour rendre la couverture médiatique encore plus attrayante et disponible, ce qui stimule la croissance et l'attention des supporters.

J'ai reçu d'excellents échos de cette présentation. La formalisation du sport comme son propre langage et la création de modèles de langage sur ces ensembles de données spécifiques ont semblé très bien résonner. De plus, cette tendance à utiliser des modèles de langage était présente dans quelques articles de recherche, ce qui reflète les approches que nous avons adoptées à Stats Perform pour générer nos nouveaux produits, comme mentionné ci-dessus, au cours des deux dernières années.

Inquiétude face à la "montée des machines" : La discussion sur les TPG a donné lieu à des conversations plus intéressantes lors du panel du samedi après-midi auquel j'ai participé, où l'on nous a demandé d'aborder les conséquences négatives et les limites potentielles de l'AI dans le sport. Les points clés que j'ai soulevés sont les suivants :

1. Pour une grande partie du monde, les données ne sont pas numérisées ou disponibles. C'est également très vrai dans le domaine du sport. Si les données relatives à la position de chaque joueur, sur le terrain et en dehors, augmentent considérablement notre capacité à analyser les situations de match et à faire des prédictions, de nombreux autres facteurs ne seront jamais pris en compte dans nos modèles. Il s'agit notamment de données privées telles que les données relatives à la santé, au sommeil et à la nutrition, et même le fait que deux joueurs de la même équipe ne s'apprécient pas ce jour-là. Cela pourrait être considéré comme une limitation. J'y vois au contraire un élément fondamental de la beauté du sport - du moins, du sport humain. L'analyse du sport arrive à un stade de maturité en ce qui concerne la capture et l'analyse des performances à l'intérieur d'un match, en particulier grâce aux progrès récents. Cependant, il existe des garde-fous naturels et imposés, tels que la restriction de la disponibilité des données privées par le biais des CBA et d'autres réglementations, qui garantiront qu'un humain aura un droit de regard sur la décision finale (comme un pilote d'avion - il peut compter sur le pilote automatique pour la plupart, mais il peut intervenir si nécessaire, mais il sera toujours nécessaire à bord de l'avion). Nous pensons que c'est là le point fort de la technologie de l'AI : créer des outils d'assistance pour aider les experts humains à mieux faire leur travail. Je ne vois rien qui puisse changer cela de sitôt.
2. Je suis fermement convaincu que les opportunités créées par l'AI dans le sport l'emportent largement sur le coût du capital humain. Si les machines se développent, c'est soit pour effectuer des tâches très répétitives et chronophages, soit pour nous aider à augmenter les résultats analytiques, mais cela ne fait qu'élargir le champ d'action de l'homme. Par exemple, l AI nous aide à repérer plus tôt les anomalies potentielles dans la collecte des données, ce qui signifie que les statistiques en direct des matchs sont plus précises, ce qui permet à nos analystes d'en collecter davantage pour un plus grand nombre de matchs. Cela signifie que nous pouvons alimenter de nouvelles histoires. L AI est donc un outil de plus dans la boîte à outils qui permet à nos clients et à nous-mêmes d'en faire plus et, en fin de compte, de rendre le sport encore plus captivant. Il y a encore beaucoup d'histoires non racontées, mais l AI nous aide à en raconter davantage. Voir mon commentaire précédent sur le sport féminin, par exemple.
3. Confiance, fiabilité et sécurité de AI : Cependant, avec l'avancée de la technologie de AI , nous devons être attentifs à la provenance de nos données sportives et à leur mise à jour (ce que j'ai mis en évidence avec l'exemple de ChatGPT). De plus, avec l'augmentation des fausses voix et vidéos, il est nécessaire de vérifier l'authenticité de toutes les données sportives. Un exemple que j'ai utilisé lors de la table ronde était d'imaginer que quelqu'un utilise la technologie du "deep fake" pour générer des moments forts de sa performance en utilisant des séquences historiques de Giannis ou d'autres stars émergentes du basket-ball. Une stratégie consiste à avoir une "confiance zéro", en s'assurant qu'une personne est là pour vérifier si cette personne est bien la personne d'intérêt. Une autre solution consiste à faire appel à un fournisseur de données et d'analyses de confiance, qui se chargera lui-même de cette vérification. Cela est déjà en cours dans des domaines autres que le sport, mais le domaine de la sécurité de AI devient indispensable dans ce monde de l'AI , où il peut être utilisé pour vérifier si un élément de contenu est réel ou généré. C'est pourquoi savoir où et comment toutes vos données (et les résultats de l'AI au-dessus de ces données) sont créées, et faire confiance à cette source, sera un pilier central lors de l'élaboration d'une stratégie de gouvernance des données et de l'AI .

Dans l'ensemble, la conférence a été très agréable à suivre. Après des années de distanciation sociale et de vidéoconférences, le fait de pouvoir se réunir en tant que communauté en un seul lieu et à un seul moment a été une expérience tout à fait agréable. Dans cette optique, leForum Opta se tiendra prochainement à Londres, et j'ai hâte d'y assister au vu des orateurs, des documents de recherche et des innovations qui y seront présentés. Nous espérons vous y voir tous !

Patrick Lucey est le scientifique en chef du géant des données sportives Stats Perform. Il dirige l'équipe d'AI dans le but de maximiser la valeur des profonds trésors de données sportives de l'entreprise. Patrick a étudié et travaillé dans le domaine de l'AI au cours des 20 dernières années, occupant des postes de recherche chez Disney Research et à l'Institut de robotique de l'Université Carnegie Mellon. Il a également passé du temps au Centre de recherche T.J. Watson d'IBM pendant qu'il poursuivait son doctorat. Patrick est originaire d'Australie, où il a obtenu son BEng(EE) à l'Université de Southern Queensland et son doctorat à l'Université de technologie de Queensland. Il est l'auteur de plus de 100 articles évalués par des pairs et a été coauteur d'articles dans le cadre du MIT Sloan Best Research Paper Track, remportant le prix du meilleur article en 2016 et le deuxième prix en 2017 et 2018.

Récapitulatif Sloan : Moneyball, apprentissage automatique et grands modèles de langage

Nous recommandons également

S'inscrire au tableau d'affichage