Ir al contenido principal
Apuestas y Afiliados, Club Media, Clubes y Colegios Profesionales

Resumen de Sloan: Moneyball, aprendizaje automático y grandes modelos lingüísticos

Por: Patrick Lucey

Desde 2011, he asistido a la MIT Sloan Sports Analytics Conference en Boston (incluida la edición a distancia de 2021) y siempre he disfrutado asistiendo, sobre todo poniéndome al día con amigos del sector, pero también escuchando y debatiendo (y a veces presentando) nuevas innovaciones en el espacio de la analítica deportiva. Este año no ha sido diferente, con muchos paneles entretenidos, charlas interesantes y trabajos de investigación. Pero algo ha cambiado este año: la incertidumbre y las dudas sobre el impacto de AI en la industria del deporte y sobre cómo podría acabar con los puestos de trabajo humanos. Ahora que ha pasado una semana desde la conferencia SSAC del MIT, he podido reflexionar y resumir mis 5 conclusiones clave de la conferencia, de las cuales las 2 últimas se refieren a este tema (que también fue el tema de mi presentación y del panel en el que participé, pero dado que es lo que traté durante la mayor parte de la conferencia, dedicaré la mayor parte de los detalles a esos dos temas).

  • 20 años después de Moneyball: Es difícil de creer, pero han pasado 20 años desde que se publicó "Moneyball" de Michael Lewis. Para conmemorar la ocasión, hubo una mesa redonda en la que participaron Michael Lewis, Shane Battier, Bill James y Daryl Morey, moderada por Jackie McCullum, y fue muy entretenida. El tema clave fue (y creo que esto a menudo se le escapa a la gente), pero Moneyball no es sólo una historia de deportes; utiliza el deporte como ejemplo (específicamente los Oakland A's en béisbol) sobre cómo el uso de datos y análisis como una herramienta de ayuda para medir los recursos de proceso y valor puede optimizar la forma en que las empresas pueden funcionar - esto puede ser una ventaja competitiva masiva si sus competidores no están haciendo lo mismo.
  • La mejor inversión está en el deporte femenino: Como destacaron numerosas personas en muchos paneles, la mejor inversión actualmente está en el deporte femenino. Esta opinión se deriva del aumento de la popularidad, el valor de las franquicias y los derechos de retransmisión de la WNBA, las ligas de fútbol femenino en Europa y el reciente lanzamiento de la T20 Cricket Women's Premier League en la India. Además, hemos descubierto que el deporte femenino es una excelente manera de mostrar las novedades que hemos hecho con nuestros grandes socios de la WTA y numerosas competiciones de fútbol, baloncesto y críquet.
  • Apuestas en directo: El aumento de las apuestas en Estados Unidos también fue un tema destacado en la conferencia. Además de la logística y los obstáculos para conseguir que los estados se sumen a las apuestas, otra retórica clave giró en torno a la necesidad de apoyos de jugadores en vivo y la necesidad de actualizar datos y modelos poco latentes. Desde nuestro punto de vista, esto es algo que hemos oído en todo el mundo (aunque no en Estados Unidos) y que ya estamos liderando para conseguirlo. Nuestro Centro de Innovación de Apuestas, en colaboración con Sporting Solutions, es un ejemplo reciente. Más información en este espacio...
  • ChatGPT y su aplicación al deporte: En los últimos tres meses, con la introducción de ChatGPT, mucha prensa y mucho interés se han centrado en el uso de la AI Generativa y los Grandes Modelos de Lenguaje (vea nuestros dos artículos aquí para profundizar en el tema: Parte 1 & Parte 2). El viernes por la tarde di una charla sobre este tema en la conferencia. Los puntos clave que intenté transmitir fueron:
    1. Los grandes modelos lingüísticos (LLM) actuales, como ChatGPT, alucinan con los hechos, lo que resulta muy problemático en el deporte,
    2. Para habilitar los chatbots en el deporte, es necesario utilizar un enfoque basado en los hechos y utilizar datos deportivos en tiempo real, fiables y de todos los deportes (como hacemos en Stats Perform),
    3. El lenguaje del deporte no es un texto en lenguaje natural como el que se utiliza en los grandes modelos lingüísticos, sino su propio lenguaje (el texto deportivo, que consiste en estadísticas como tiros, entradas y pases, así como el modo visual, que utiliza datos posicionales que muestran la ubicación y el movimiento de los jugadores),
    4. Utilizando el lenguaje visual, podemos ampliar y escalar el lenguaje del deporte para encontrar nuevos patrones que ayuden a los equipos y a los medios de comunicación a analizar y contar mejores historias. Buenos ejemplos de ello son nuestras nuevas métricas de fútbol Opta Vision , como los pases entre líneas y la presión (parte del conjunto Opta Vision ), que revelan capas de detalles que antes no se veían y que hacen que los partidos sean más atractivos, ayudan a los equipos a encontrar los puntos fuertes ocultos de los jugadores y a hacer mejores predicciones sobre tácticas y estrategias.
    5. El futuro de la analítica deportiva consiste en utilizar estos datos y crear grandes modelos lingüísticos (tanto con estadísticas discretas derivadas como con modelos lingüísticos visuales), que puedan utilizarse para realizar predicciones aún más versátiles y exhaustivas en todo el deporte, para ayudar a los equipos a tomar mejores decisiones antes y durante el partido, y hacer que la cobertura mediática sea aún más atractiva y esté más disponible, impulsando el crecimiento y la atención de los aficionados.

La presentación tuvo muy buena acogida. La formalización del deporte como lenguaje propio y la creación de modelos lingüísticos a partir de estos conjuntos de datos específicos han tenido muy buena acogida. Además, esta tendencia a utilizar modelos lingüísticos aparecía en un par de artículos de investigación, lo que refleja los enfoques que hemos estado adoptando en Stats Perform Perform para generar nuestros nuevos productos, como se ha mencionado anteriormente, en los últimos dos años.

  • Preocupación por el "auge de las máquinas": El debate del GPT dio lugar a conversaciones más interesantes en el panel del sábado por la tarde en el que participé, en el que se nos pidió que abordáramos las posibles consecuencias adversas y limitaciones de AI en el deporte. Los puntos clave que planteé fueron:
    1. Los datos de gran parte del mundo no están digitalizados ni disponibles. Lo mismo ocurre con el deporte. Aunque los datos posicionales de cada jugador, con y sin balón, amplían enormemente nuestra capacidad para analizar situaciones de partido y hacer predicciones, hay muchos otros factores que nunca entrarán en nuestros modelos. Por ejemplo, datos privados como los relativos a la salud, el sueño, la alimentación o incluso si dos jugadores del mismo equipo se caen mal ese día. Esto podría considerarse una limitación. Yo lo veo como una parte fundamental de la belleza del deporte, al menos del deporte humano. La analítica deportiva está llegando a un estado de madurez en lo que respecta a la captura y el análisis del rendimiento dentro del partido, especialmente con los recientes avances. Sin embargo, existen barreras naturales e impuestas, como la restricción de la disponibilidad de datos privados a través de la ACB y otras normativas, que garantizarán que un ser humano supervise la decisión final (como un piloto de avión, que puede confiar en el piloto automático en su mayor parte, pero puede intervenir cuando sea necesario, pero siempre será necesario en el avión). Creemos que ese es el punto dulce de la tecnología AI : crear herramientas de asistencia para ayudar a los expertos humanos a hacer mejor su trabajo. No creo que nada cambie esta situación a corto plazo.
    2. Creo firmemente que las oportunidades creadas por AI en el deporte superan con creces cualquier coste de capital humano. Si "las máquinas están subiendo", es para hacer trabajos muy repetitivos y que consumen mucho tiempo, o para ayudarnos a ampliar los resultados analíticos, pero en todo caso, eso está creando más margen para el esfuerzo humano. Por ejemplo, AI nos ayuda a detectar antes posibles anomalías en la recopilación de datos, lo que significa que las estadísticas en directo de los partidos son más precisas y que nuestros analistas pueden recopilar con confianza más datos para más partidos. Esto significa que podemos alimentar nuevas historias. Como tal, AI es otra herramienta que nos permite a nosotros y a nuestros clientes hacer más y, en última instancia, hacer que el deporte sea aún más cautivador. Todavía quedan muchas historias por contar, pero AI nos está ayudando a que se cuenten más. Véase, por ejemplo, mi comentario anterior sobre el deporte femenino.
    3. Confianza, fiabilidad y seguridad de AI : Sin embargo, con el avance de la tecnología AI , tenemos que ser conscientes de la procedencia de nuestros datos deportivos y de si están actualizados (algo que destaqué con el ejemplo de ChatGPT). Además, con el aumento de las falsificaciones de voz y vídeo, es necesario verificar la autenticidad de todos los datos deportivos. Un ejemplo que utilicé en el panel fue imaginar que alguien utilizara tecnología de "falsificación profunda" para generar momentos destacados de su actuación utilizando imágenes históricas de Giannis u otras estrellas emergentes del baloncesto. Una estrategia es tener "confianza cero", asegurándose de que haya una persona que verifique si esa persona es realmente la persona de interés. Otra alternativa es recurrir a un proveedor de datos y análisis de confianza que se encargue de ello. Esto ya está en marcha en ámbitos ajenos al deporte, pero el campo de la seguridad de AI AI se está convirtiendo en algo imprescindible en este mundo de AI , donde puede utilizarse para verificar si un contenido es real o generado. De ahí que saber dónde y cómo se crean todos sus datos (y los resultados de AI sobre esos datos), y confiar en esa fuente, vaya a ser un pilar central a la hora de diseñar una estrategia de gobernanza de los datos y AI .

En general, fue muy divertido asistir a la conferencia. Después de años de distanciamiento social y videoconferencias, poder reunirnos como comunidad en un mismo lugar y momento fue una experiencia muy agradable. En este sentido, dentro de poco celebraremos en Londres nuestroForum Opta , al que estoy impaciente por asistir por los ponentes, los trabajos de investigación y las innovaciones que se presentarán. Esperamos verles a todos.

El Dr. Patrick Lucey es el científico jefe del gigante de datos deportivos Stats Perform, y dirige el equipo de AI con el objetivo de maximizar el valor de los profundos tesoros de datos deportivos de la empresa. Patrick ha estudiado y trabajado en el campo AI durante los últimos 20 años, ocupando puestos de investigación en Disney Research y en el Instituto de Robótica de la Universidad Carnegie Mellon, además de pasar un tiempo en el Centro de Investigación T.J. Watson de IBM mientras realizaba su doctorado. Patrick procede de Australia, donde se licenció en Ingeniería Electrónica por la Universidad del Sur de Queensland y se doctoró por la Universidad Tecnológica de Queensland. Es autor de más de 100 artículos revisados por pares y ha sido coautor de artículos en el MIT Sloan Best Research Paper Track, ganando el mejor artículo en 2016 y el subcampeonato en 2017 y 2018.