El científico jefe Patrick Lucey vuelve para la última entrega de Últimas tendencias de AI en el deporte de 2024. En esta actualización, el Dr. Lucey habla de la GenAI de Specialized Enterprise y de cómo la última innovación que cambia las reglas del juego se aplica al mundo del deporte.
Es el momento oportuno para que Stats Perform lance su encuesta 2025 Sports Fan Engagement, Monetisation and AI Trends survey ya que se cumplen dos años del lanzamiento de ChatGPT, que lo cambió todo. AI pasó de ser una herramienta de nicho, que sólo se utilizaba para tareas específicas, a una utilidad de uso general que utilizan cientos de millones de personas cada semana (ChatGPT acaba de anunciar que tiene 300 millones de usuarios semanales en todo el mundo).
Aunque sigue habiendo problemas en torno a las alucinaciones, para la mayoría de los trabajadores del conocimiento de todo el mundo -que la utilizan para tareas como preguntas/respuestas generales, corrección de textos, traducción, lluvia de ideas y codificación- es la herramienta de asistencia definitiva, ya que permite a los trabajadores hacer mucho más que antes. De hecho, una de las muchas conclusiones de nuestra encuesta revela que un número cada vez mayor de ejecutivos de medios deportivos de retransmisiones, equipos, ligas, federaciones, patrocinadores y casas de apuestas deportivas están adoptando AI de diversas formas para ayudar a aumentar su audiencia y comercializar sus contenidos, y les resulta más fácil hacerlo que a los que van a la zaga.
Por supuesto, las innovaciones en AI no se detuvieron con el lanzamiento inicial de ChatGPT. Parece que cada semana aparecen nuevas innovaciones. Por ejemplo, en los últimos dos meses se han producido algunas innovaciones sorprendentes. Además de los premios Nobel concedidos a los pioneros de AI Geoff Hinton y Demis Hassabis por física y química respectivamente, el reciente lanzamiento de Apple Intelligence, las mejoras en las gafas inteligentes Ray Ban de Meta. El modelo de razonamiento de OpenAI o1 para tareas complejas ha sido asombroso, y más recientemente el lanzamiento de Gemini 2.0 de Google.
Sin embargo, incluso mientras esperamos la última versión del modelo GPT-5 (u Orion) de OpenAI, crecen los rumores de que la innovación se está agotando y de que nos estamos topando con un muro: que las rápidas mejoras iniciales derivadas del uso de más datos y modelos más grandes están llegando aparentemente a un límite. El consejero delegado de Google se hizo eco de este sentimiento, afirmando que "la colina es más empinada" para los avances de AI con los LLM actuales.
Sin embargo, en contra de lo que se pueda pensar en un principio, esto no significa el fin de la innovación en el espacio GenAI. Ni mucho menos.
Por el contrario, creemos que anuncia una nueva fase de innovación GenAI. Una que se centra en los casos de uso empresarial, lo que llamamos GenAI Empresarial. En este artículo, destacamos lo que esto significa, y cómo se aplica a nosotros en el mundo del deporte.
¿Se están topando con un muro los actuales LLM? ¿Por qué?
Hasta cierto punto, estamos llegando a una especie de umbral para los actuales casos de uso de LLM basados en texto (por ejemplo, ChatGPT). Y la razón es sencilla: se debe a la falta de datos nuevos de los que puedan aprender los modelos.
Los grandes modelos lingüísticos (LLM) que se utilizan hoy en día en las aplicaciones populares AI Gen AI se entrenan a partir de enormes volúmenes de datos; en su mayoría, texto, pero también audio, imágenes y vídeo, que se extraen sobre todo de Internet; pero estos modelos están cerca de aprender todo lo que pueden de estos datos, y no existen nuevas fuentes significativas de datos públicos a escala.
Esencialmente, estos modelos han maximizado lo que pueden obtener de estas fuentes de datos públicas.
Sin embargo, hay mucha más información fuera de los datos de texto e imagen que encontramos en Internet.
Ampliación de las aplicaciones y el rendimiento de los modelos
En lugar de entrenar modelos más grandes, las empresas buscan ahora que los modelos actuales sean más eficientes y rápidos (véase el lanzamiento de Llama 3.3 de Meta), al tiempo que amplían los tipos de tareas que estos modelos pueden realizar utilizando nuevas fuentes de datos complementarias y específicas del dominio. Con estas nuevas fuentes de datos pueden crearse nuevas tareas y soluciones.
Esto significa que los LLM pueden ahora, por ejemplo, aventurarse en los dominios más complejos de las matemáticas/geometría y la física, como ha hecho recientemente OpenAI con su modelo "o1". El modelo o1 supera el nivel de precisión de un doctorado en una serie de problemas de física, biología y química, además de situarse entre los 500 mejores estudiantes de EE.UU. en una prueba clasificatoria para la Olimpiada Matemática de ese país. El nuevo modelo Gemini 2.0 de Google también permite a los asistentes de AI realizar tareas como búsquedas en Internet y redactar informes detallados a través de su herramienta "Deep Research".
Estas nuevas tareas son mucho más complejas que la mayoría, por lo que los enfoques actuales deben evolucionar para que el modelo pueda resolverlas. Para resolver problemas matemáticos, geométricos o físicos o investigar temas complejos, el modelo debe trazar una serie de pasos (lo que se denomina "cadena de pensamiento") antes de dar una respuesta.
Este tipo de modelos se denominan modelos de "razonamiento", ya que parecen imitar la forma en que los humanos "piensan" antes de responder (aunque, como destacó recientemente Yann LeCun en su reciente conferencia en la Universidad de Columbia de Nueva York, tales modelos siguen careciendo de la capacidad de planificar eficazmente y son más bien una aproximación).
Pero, como en el caso anterior, en lugar de ser más inteligentes (es decir, aprender nuevas tareas a partir de los mismos datos), los modelos de razonamiento se limitan a ampliarse a nuevas tareas incluyendo primero un nuevo conjunto de datos específico para esas tareas (es decir, matemáticas/física/química).
A continuación, se optimizan para alcanzar el máximo rendimiento en una serie de pruebas comparativas.
Así que, para mejorar el rendimiento percibido o los tipos de tareas que puede realizar un modelo, la clave está en entrenar los modelos existentes en nuevos conjuntos de datos y optimizarlos para esas nuevas tareas.
Lo estamos viendo en el ámbito de vision por ordenador con los diversos modelos de segmentación, que requieren mapas de segmentación detallados (es decir, cada píxel etiquetado en el conjunto de entrenamiento con una etiqueta a qué objeto/segmento se asigna), los agentes de videojuegos que pueden sugerir qué hacer a continuación, o el inicio de la computación encarnada, donde los modelos están añadiendo el modo de capturar los clics/la escritura.
Y la única forma real de mejorar o ampliar las capacidades de los grandes modelos lingüísticos actuales es utilizar datos diferenciados.
Pero, ¿dónde están estos nuevos conjuntos de datos diferenciados?
Un área es la " AI soberana", en la que los países tienen acceso a sus propios datos exclusivos (pensemos en la sanidad, el transporte y la defensa) y pueden utilizar esos datos como combustible para construir modelos que respondan a preguntas específicas del país. Otro ámbito es el de los negocios, en el que las empresas tienen sus propios datos y pueden responder a preguntas específicas, de ahí el nombre de "GenAI empresarial".
GenAI empresarial
Según IBM, menos del 1% de los datos disponibles en las empresas (es decir, los datos que las empresas recogen en su día a día), está disponible en Internet.
El 99% restante de los datos de las empresas representa, por supuesto, un vasto conjunto de información que contiene patrones y conocimientos de enorme riqueza, que podrían utilizarse para ayudar a realizar tareas nuevas y específicas y alimentar la innovación humana de forma más eficiente y eficaz.
Por lo tanto, los datos empresariales representan un terreno fértil y su utilización para la AI Generativa parece la vía más probable para continuar el crecimiento en este campo.
En términos de aplicaciones GenAI para empresas, existen dos casos de uso clave, en función del tipo de datos:
- Datos genéricos de la empresa: Se refiere a tipos genéricos de datos de texto, audio e imagen/vídeo que son privados para una empresa. En el caso de los datos de texto, se incluirían las comunicaciones internas, las interacciones con los clientes, los documentos operativos, los materiales de ventas y marketing, la documentación técnica y de productos, los registros legales y financieros, los datos de recursos humanos y las comunicaciones externas. Los actuales LLM basados en texto, mejorados con técnicas de Generación Mejorada de Recuperación (RAG), proporcionan un excelente punto de partida para interrogar, acceder, buscar y traducir estos documentos. Estas capacidades pueden mejorarse aún más mediante el ajuste del modelo. Del mismo modo, los LLM actuales pueden utilizarse para la transcripción y el resumen de audio, mientras que los modelos de lenguaje visual (VLM) pueden encargarse de tareas como la detección genérica de objetos dentro de esta categoría de datos.
- Datos especializados de empresas: Engloba tipos de datos exclusivos de la empresa o de sus operaciones, como datos generados por sensores, datos espaciotemporales (por ejemplo, coordenadas GPS o seguimiento de eventos) y datos de maquinaria, motores u otros equipos. A continuación se analizan con más detalle algunos de ellos. Estos conjuntos de datos suelen requerir técnicas de tratamiento y análisis especializadas. A diferencia de los datos genéricos, los datos especializados son muy específicos del dominio y están adaptados al contexto operativo o industrial de la empresa, y a menudo representan la propiedad intelectual más valiosa de la empresa. Las etapas para utilizar estos datos consisten en: i) recopilar los datos, ii) transformarlos a un lenguaje, y iii) utilizar ese lenguaje.
En el resto de este artículo, nos centraremos en las aplicaciones GenAI que utilizan Datos Especializados de Empresa.
¿Qué relación guarda el deporte con los datos especializados de las empresas?
Aunque existen datos genéricos en el deporte, los datos deportivos que recogen el rendimiento dinámico y en directo de los jugadores en el campo de batalla son uno de los conjuntos de datos más interesantes, únicos y "especializados" que existen en el mundo. Son dinámicos y tienen un enorme valor si se puede acceder a ellos en directo, pero también tienen que ser amplios, profundos, uniformes y coherentes para poder ser utilizados de forma eficiente y eficaz en la modelización y, por supuesto, tienen que ser precisos. El valor de estos datos reside en que reconstruyen objetivamente la historia del rendimiento: cuanto más granulares sean los datos, mejor será la reconstrucción. Desde otro punto de vista, estos datos pueden considerarse el lenguaje universal del deporte, y en Stats Perform Perform hemos creado este lenguaje.
Como la mayoría de los lenguajes sofisticados, el del deporte es multimodal. Los modos principales son los datos de "eventos" y los datos de "movimiento de seguimiento del balón/jugador" (para una descripción, véanse la Parte I y la Parte II de nuestra publicación anterior Últimas tendencias de AI en el deporte ).
Aunque el deporte es responsable de más del 10% de las búsquedas diarias en Internet, los datos que existen actualmente en la red, en una forma que podría utilizarse para entrenar un modelo, están desactualizados, fragmentados y a menudo son de naturaleza superficial y estrecha.
Por otro lado, una base de datos "empresarial" patentada, como la enorme base de datos Opta de Stats Perform, está actualizada, es completa, exhaustiva en términos de amplitud y profundidad, se recopila de forma sistemática y contiene información que no está disponible en ningún otro lugar a escala, como datos de eventos muy detallados y datos posicionales y de movimientos fuera del balón.
Debido a estas características, nuestro conjunto de datos deportivos "especializados" es similar a los datos recogidos en los ámbitos de la logística, la fabricación, el transporte, los vehículos autónomos, la meteorología y la biología, y representa el combustible para la próxima oleada de futuras aplicaciones de AI .
¿Cuáles son algunos ejemplos de GenAI empresarial especializada fuera del deporte?
En la primera oleada de AI Generativa (por ejemplo, ChatGPT), el combustible que la impulsó fueron grandes cantidades de datos de texto genéricos. Los datos de texto son un buen punto de partida, ya que existe una enorme cantidad de ellos disponible públicamente y los datos son de naturaleza secuencial, que son dos atributos clave para que prosperen los LLM. Fuera del deporte, existen muchos campos con enormes cantidades de datos secuenciales que también son ideales para que los LLM prosperen, y que potencialmente van a cambiar el mundo (o ya lo están cambiando). A continuación destacamos cuatro.
En el primer ejemplo, tenemos el uso de vehículos autónomos que ahora se utilizan en algunas ciudades de los EE.UU. para los taxis sin conductor - el más reciente lanzado en Los Ángeles el mes pasado y estará en Miami en breve.. La sexta generación de Waymo Driver incluye 13 cámaras, cuatro lidares, seis radares y un conjunto de receptores de audio externos, así como mapas de alta resolución para controlar el entorno y navegar de forma autónoma y segura. A partir de estas ricas fuentes de datos de entrada, estos robotaxis utilizan un modelo de base específico para vehículos autónomos que mapea todas estas fuentes de información en un modelo para medir y predecir comportamientos específicos del mundo de los vehículos autónomos.
El segundo ejemplo se refiere a la predicción meteorológica. La predicción precisa del tiempo es vital para todas las industrias, ya sea el transporte, la agricultura, la seguridad pública o simplemente la vida cotidiana. Los métodos actuales de predicción meteorológica requieren superordenadores que realicen complejas ecuaciones físicas que requieren tiempo y cálculo. Además, para tener las predicciones más exactas, se necesitan imágenes de alta resolución que son difíciles de obtener a escala. Sin embargo, trabajos recientes han demostrado que se pueden hacer predicciones precisas utilizando un modelo básico que requiere menos cálculo pero que también puede utilizar entradas de baja resolución y lograr la misma precisión. Esta semana DeepMind de Google acaba de lanzar un modelo llamado GenCast que puede predecir el tiempo con más precisión que el mejor sistema actualmente en uso - y lo hace en minutos en comparación con horas que es el tiempo que los modelos actuales tardan en generar sus pronósticos.
Esto enlaza perfectamente con el tercer ejemplo sobre robótica. Ya se trate de un brazo robótico que identifique, clasifique y manipule sus paqueteso un robot que supervise una granja e identifique y recoja sus frutas o verduras con un rendimiento óptimose están produciendo avances clave gracias a la capacidad de los sensores para medir atributos específicos de cada ámbito, además de otras aportaciones como la predicción meteorológica precisa. La repercusión de este trabajo es que los paquetes podrán entregársele con precisión y en el momento oportuno (lo que significa que serán más baratos y se recibirán más a tiempo), y los alimentos no sólo se recogerán en el momento óptimo, sino que además se podrá generar más comida sin desperdiciarla.
El cuarto ejemplo se refiere a la química y la biología. Como se mencionó al principio del artículo, el científico principal del equipo de DeepMind ganó un premio Noble de química por su trabajo en AlphaFoldque predice con precisión las estructuras tridimensionales de las proteínas en horas en lugar de años. Esto es importante porque este método se puede utilizar para el desarrollo de fármacos para enfermedades, así como para la terapia farmacológica dirigida mediante la utilización de los diversos factores contextuales de una persona - ambos no son posibles con y por lo tanto un gran inconveniente de los métodos actuales. El potencial de estos métodos también puede aplicarse a la creación de nuevos biocombustibles limpios para hacer frente a la escasez de energía de una manera limpia y renovable o descomponer productos de desecho como los plásticos, que actualmente son un problema para el planeta.
Lo que tienen en común estos cuatro ejemplos es que se basan en enormes cantidades de datos secuenciales. En el caso de los vehículos autónomos, las entradas no son palabras textuales, sino nubes de puntos procedentes del LIDAR, imágenes de las cámaras RGB, mapas detallados e información del interior del vehículo. En el caso de la meteorología, los datos proceden de los distintos sensores. Para la robótica, son los sensores de profundidad, los sensores robóticos y el diccionario de posibles productos, y con el ejemplo de la biología, en lugar de palabras son las estructuras de las proteínas, y/o el ADN, el ARN. Cada ámbito tiene su propio lenguaje y, una vez establecido, se pueden crear modelos lingüísticos (preferiblemente grandes modelos lingüísticos, LLM). Estos modelos pueden entonces representar, describir y predecir con precisión lo que ocurre en estos mundos específicos de "empresa especializada".
Transformers - El Aprendiz Universal: "Sólo hay que añadir datos secuenciales"
Una vez que se dispone de una gran cantidad de datos secuenciales, es necesario utilizar la maquinaria adecuada para aprender de estos datos. La pieza clave de la maquinaria es la "red neuronal transformadora", que puede contextualizar la información mucho mejor que los métodos de aprendizaje automático anteriores. ChatGPT y otros LLM han demostrado que los transformadores son grandes aprendices de datos secuenciales genéricos (por ejemplo, texto, imágenes/vídeo, audio). Pero lo que a menudo se pasa por alto es que estos modelos pueden funcionar con otras formas de datos secuenciales, como los datos deportivos, que mostraremos más adelante.
Sin embargo, para tener una intuición de cómo funcionan estos transformadores, vamos a utilizar dos frases de ejemplo utilizando datos de texto (este ejemplo se ha adaptado de la entrada del blog que presentó el original "Attention is All You Need Paper" (La atención es todo lo que necesita el papel))
- "El hombre depositó dinero en el banco"
- "El hombre se sentó en la orilla del río"
Para que un ordenador entienda la frase, primero hay que tokenizarla, lo que no es más que convertir palabras (o subpalabras) en números. Antes de los transformadores, representábamos estas palabras de forma independiente, lo que significaba que el ordenador representaría la palabra "banco" con los mismos números.
Pero si te fijas en las palabras de la frase que están alrededor de la palabra "banco", nosotros como humanos entendemos que tiene un significado diferente. Utilizando un modelo modelopodemos aprender eficazmente de las palabras que rodean a la palabra de interés. Cuando esto ocurre, el modelo aprenderá que estas palabras tienen significados diferentes, por lo que los números que representan palabras serán diferentes (véase más abajo).
GenAI empresarial especializada en el deporte: Aprovechamiento de la naturaleza secuencial de los datos deportivos
Probablemente se pregunte por qué el ejemplo anterior es importante para el deporte. Bueno, en primer lugar, nuestro conjunto de datos especializado en deportes es secuencial. Si nos fijamos en la alineación inicial de un equipo, como el Manchester City, el equipo es esencialmente una frase. Cada jugador es una palabra, y podemos ordenar esas palabras desde el portero hasta el delantero. Algunos jugadores (es decir, palabras) tienen un impacto más fuerte que otros, como Erling Haaland. Cuando juegue, influirá en lo que hagan los demás (por ejemplo, los jugadores intentarán crearle ocasiones de gol), y también influirá en lo que hagan los rivales. Pero si Haaland descansa o se lesiona y entra en juego Jack Grealish (véase más adelante), éste influirá en la forma de jugar de los demás (es decir, el cambio de esa "palabra" tiene un impacto enorme en el significado de la frase o en la forma de jugar del equipo). Al igual que en el ejemplo meteorológico anterior, si utilizamos un transformador con una representación secuencial del rendimiento de los jugadores, podemos predecir mucho mejor el rendimiento futuro de los jugadores en comparación con los métodos actuales, que predicen el rendimiento de los jugadores independientemente unos de otros.
Además, los datos de eventos que capturan lo que ocurre con el balón son como una frase, pero en lugar de palabras tenemos la acción realizada por un jugador (por ejemplo, pase del jugador A, en la posición X,Y en el momento T) y tenemos una secuencia de estos eventos hasta que termina el tiempo o el partido. Los datos de seguimiento, que capturan la posición y el movimiento de los jugadores y del balón en cada fotograma, también son secuenciales en términos de espacio y tiempo. espacio y tiempo. El uso de transformadores no sólo nos ayuda a modelar la naturaleza secuencial de los datos de forma mucho más eficaz, sino que además sino que también nos permite obtener ambos flujos de información en el mismo marco de referencia, lo que nos permite hacer cosas como nuestra generación de trayectoriasque ya destacamos en la Parte II (véase más abajo).
Una vez establecidos estos modelos "básicos", podemos añadirles otras fuentes o modos de información. Lo que estamos haciendo aquí en el deporte es un gran ejemplo de cómo utilizar datos empresariales especializados, que conducen a modelos lingüísticos empresariales especializados, que en nuestro caso ayudan a mejorar las predicciones, las simulaciones y también las mediciones del rendimiento, lo que en última instancia beneficia a los aficionados al deporte.
El año 2024 ha sido apasionante y el 2025 nos depara avances aún más emocionantes. Gracias por leer y, si es la primera vez que lo hace, consulte la Parte I y la Parte II de nuestras actualizaciones anteriores sobre AI en el deporte y solicite acceso a nuestra encuesta sobre la participación de los aficionados, la monetización y las tendencias de AI en el deporte en 2025 aquí.



