Como o esporte está liderando a próxima onda de avanços da GenAI que mudam o jogo

O cientista-chefe Patrick Lucey está de volta para a última edição de Últimas Tendências em AI no Esporte de 2024. Nesta atualização, o Dr. Lucey discute a Specialized Enterprise GenAI e como a mais recente inovação revolucionária é aplicada a nós no mundo do esporte.

O momento é apropriado para a Stats Perform lançar nossa pesquisa 2025 sobre Engajamento de fãs de esportes, monetização e tendências de AI pois marca o aniversário de dois anos do lançamento do ChatGPT, que mudou tudo. AI deixou de ser uma ferramenta de nicho, usada apenas para tarefas específicas, para se tornar um utilitário de uso geral que é usado por centenas de milhões de pessoas todas as semanas (o ChatGPT acaba de anunciar que tem 300 milhões de usuários semanais em todo o mundo).

Embora ainda existam problemas relacionados a alucinações, para a maioria dos trabalhadores do conhecimento em todo o mundo - que a utilizam para tarefas como perguntas/respostas gerais, revisão, tradução, brainstorming e codificação - ela é a melhor ferramenta de assistência, pois permite que os trabalhadores façam muito mais do que antes. De fato, uma das muitas descobertas da nossa pesquisa revela que um número cada vez maior de executivos da mídia esportiva em transmissões, equipes, ligas, federações, patrocinadores e casas de apostas esportivas está adotando AI de várias maneiras para ajudar a aumentar o público e comercializar o conteúdo, e está achando mais fácil fazer isso do que aqueles que estão ficando para trás.

É claro que as inovações AI não pararam com o lançamento inicial do ChatGPT. Parece que novas inovações estão sendo lançadas semanalmente. Por exemplo, nos últimos dois meses, houve algumas inovações incríveis. Além dos prêmios Nobel concedidos aos pioneiros AI Geoff Hinton e Demis Hassabis em física e química, respectivamente, o recente lançamento do produto Apple Intelligence, melhorias nos óculos inteligentes Ray Ban da Meta. O modelo de raciocínio da OpenAI o1 para tarefas complexas tem sido surpreendente e, mais recentemente, o lançamento do Gemini 2.0 do Google.

No entanto, mesmo com a antecipação do lançamento do modelo mais recente do GPT-5 (ou Orion) da OpenAI, há rumores crescentes de que a inovação está se esgotando e que estamos chegando a um limite - que os rápidos aprimoramentos iniciais decorrentes do uso de mais dados e modelos maiores estão aparentemente chegando a um limite. O CEO do Google repetiu esse sentimento, afirmando que a "colina é mais íngreme" para os avanços AI com os LLMs atuais.

Embora haja alguma substância aqui, ao contrário do que você possa pensar inicialmente, isso não significa o fim da inovação no espaço da GenAI. Longe disso!

Em vez disso, acreditamos que ela anuncia uma nova fase de inovação da GenAI. Uma fase que se concentra em casos de uso corporativo, que chamamos de Enterprise GenAI. Neste artigo, destacamos o que isso significa e como se aplica a nós no mundo do esporte.

Os atuais LLMs estão batendo em um muro? Por quê?

Até certo ponto, estamos atingindo uma espécie de limite para os casos de uso atuais de LLM baseados em texto (por exemplo, ChatGPT). E o motivo é simples: isso se deve à falta de novos dados com os quais os modelos possam aprender.

Os grandes modelos de linguagem (LLMs) usados hoje em dia nos aplicativos populares AI da geração são treinados em grandes volumes de dados, principalmente texto, mas também aumentados por áudio, imagens e vídeo, que são extraídos principalmente da Internet, mas esses modelos estão quase aprendendo o máximo que podem com esses dados, e não existem novas fontes significativas de dados públicos em escala.

Essencialmente, esses modelos maximizaram o que podem obter dessas fontes de dados públicos.

No entanto, há muito mais informações fora dos dados de texto e imagem que encontramos na Internet.

Ampliação dos aplicativos e do desempenho do modelo

Em vez de treinar modelos maiores, as empresas agora estão procurando tornar os modelos atuais mais eficientes e rápidos (consulte o lançamento do Meta Llama 3.3), ao mesmo tempo em que ampliam os tipos de tarefas que esses modelos podem realizar usando fontes de dados novas, suplementares e específicas do domínio. Com essas novas fontes de dados, novas tarefas e soluções podem ser criadas.

Isso significa que os LLMs podem, por exemplo, agora se aventurar nos domínios mais complexos da matemática/geometria e física, como a OpenAI fez recentemente com seu modelo "o1". O modelo o1 excede a precisão de nível de doutorado em uma referência de problemas de física, biologia e química, além de ficar entre os 500 melhores alunos dos EUA em uma eliminatória para a Olimpíada de Matemática dos EUA. O novo modelo Gemini 2.0 do Google também permite que os assistentes AI realizem tarefas como pesquisar na Web e escrever relatórios detalhados por meio da ferramenta "Deep Research".

Novas tarefas como essas são muito mais complexas do que a maioria e, portanto, as abordagens atuais precisam evoluir para permitir que o modelo as resolva. Para resolver problemas de matemática/geometria/física ou pesquisar tópicos complexos, o modelo precisa mapear uma série de etapas (algo chamado de "cadeia de raciocínio") antes de fornecer uma resposta.

Esses tipos de modelos são chamados de modelos de "raciocínio", pois parecem imitar a forma como os humanos "pensam" antes de responder (embora, conforme destacado recentemente por Yann LeCun em sua recente palestra na Universidade de Colúmbia, em Nova York, esses modelos ainda não tenham a capacidade de planejar com eficiência e sejam mais uma aproximação).

Mas, como dito acima, em vez de serem mais inteligentes (ou seja, aprenderem novas tarefas com os mesmos dados), os modelos de raciocínio estão apenas sendo expandidos para novas tarefas, incluindo primeiro um novo conjunto de dados específicos para essas tarefas (ou seja, matemática/física/química).

Em seguida, eles são otimizados para atingir o melhor desempenho em um conjunto de testes de benchmark.

Portanto, essencialmente para melhorar o desempenho percebido ou os tipos de tarefas que um modelo pode realizar, a chave é treinar os modelos existentes em novos conjuntos de dados e, em seguida, otimizá-los para essas novas tarefas.

Estamos vendo isso no campo da vision computacional com os vários modelos de segmentação, que exigem mapas de segmentação detalhados (ou seja, cada pixel rotulado no conjunto de treinamento com um rótulo para o objeto/segmento ao qual está atribuído), agentes de videogame que podem sugerir o que fazer em seguida ou o início da computação incorporada, em que os modelos estão adicionando o modo de capturar os cliques/digitação.

E a única maneira real de melhorar ou ampliar os recursos dos grandes modelos de linguagem atuais é usar dados diferenciados.

Mas onde estão esses novos conjuntos de dados diferenciados?

Uma área é a " AI Soberana", em que os países têm acesso a seus próprios dados exclusivos (pense em saúde, transporte e defesa) e podem usar esses dados como combustível para criar modelos que possam abordar questões específicas do país. Outra área é o mundo dos negócios, em que as empresas, ou "Enterprises", têm seus próprios dados exclusivos e podem responder a perguntas específicas de suas próprias empresas - daí o nome "Enterprise GenAI".

GenAI empresarial

De acordo com a IBM, menos de 1% dos dados disponíveis no Enterprise (ou seja, os dados que as empresas coletam como parte de seu dia a dia) está disponível na Internet.

Os 99% restantes dos dados corporativos representam, é claro, um vasto conjunto de informações, contendo padrões e percepções extremamente ricos, que poderiam ser usados para ajudar a executar tarefas novas e específicas e alimentar a inovação humana de forma mais eficiente e eficaz.

Portanto, os dados corporativos representam um terreno fértil, e o uso de dados corporativos para a AI generativa parece ser o caminho mais provável para continuar o crescimento no campo.

Em termos de aplicativos Enterprise GenAI, há dois casos de uso principais, que dependem do tipo de dados:

Dados genéricos da empresa: Refere-se a tipos genéricos de dados de texto, áudio e imagem/vídeo que são privados de uma empresa. No caso de dados de texto, isso incluiria comunicações internas, interações com clientes, documentos operacionais, materiais de vendas e marketing, documentação técnica e de produtos, registros jurídicos e financeiros, dados de RH e comunicações externas. Os atuais LLMs baseados em texto, aprimorados com técnicas de Geração Aumentada por Recuperação (RAG), oferecem um excelente ponto de partida para interrogar, acessar, pesquisar e traduzir esses documentos. Esses recursos podem ser aprimorados ainda mais com o ajuste fino do modelo. Da mesma forma, os LLMs atuais podem ser usados para transcrição e resumo de áudio, enquanto os modelos de linguagem visual (VLMs) podem lidar com tarefas como a detecção de objetos genéricos nessa categoria de dados.
Dados empresariais especializados: Abrangem tipos de dados exclusivos da empresa ou de suas operações, como dados gerados por sensores, dados espaço-temporais (por exemplo, coordenadas de GPS ou rastreamento de eventos) e dados de máquinas, motores ou outros equipamentos. Exploramos alguns deles em mais detalhes a seguir. Esses conjuntos de dados geralmente exigem técnicas especializadas de processamento e análise. Diferentemente dos dados genéricos, os dados especializados são altamente específicos do domínio e adaptados ao contexto operacional ou industrial da empresa e, muitas vezes, representam o PI mais valioso da empresa. As etapas para a utilização desses dados consistem em: i) coletar dados, ii) transformá-los em uma linguagem e iii) utilizar essa linguagem.

No restante deste artigo, vamos nos concentrar nos aplicativos GenAI que utilizam dados empresariais especializados.

Como o esporte está relacionado aos dados empresariais especializados?

Embora existam dados genéricos nos esportes, os dados esportivos que capturam o desempenho dinâmico e ao vivo dos jogadores no campo/tribunal de batalha são um dos conjuntos de dados mais interessantes, exclusivos e "especializados" que existem no mundo. Eles são dinâmicos e têm um valor enorme se puderem ser acessados ao vivo, mas também precisam ser amplos, profundos, uniformes e consistentes para poderem ser usados de forma eficiente e eficaz na modelagem e, é claro, precisam ser precisos. O valor por trás desses dados é que eles reconstroem objetivamente a história do desempenho - quanto mais granulares forem os dados, melhor será a reconstrução. Por outro ângulo, esses dados podem ser vistos como a linguagem universal dos esportes - e na Stats Perform, nós criamos essa linguagem.

Como a maioria das linguagens sofisticadas, a linguagem dos esportes é multimodal. Os principais modos são os dados de "eventos" e os dados de "movimento de rastreamento de bola/jogador" (consulte a Parte I e a Parte II de nossas últimas Tendências em AI no Esporte para obter uma descrição).

Embora o esporte seja responsável por mais de 10% das buscas na Internet todos os dias, os dados que existem atualmente na Web, de forma que possam ser utilizados para treinar um modelo, estão desatualizados, fragmentados e, muitas vezes, são de natureza superficial e restrita.

Por outro lado, um conjunto de dados proprietário "empresarial", como o enorme banco de dados Opta da Stats Perform, é atualizado, completo, abrangente em termos de amplitude e profundidade, coletado de forma consistente e contém informações que não estão disponíveis em nenhum outro lugar em escala, como dados de eventos altamente detalhados e dados de posicionamento e movimento fora da bola.

Devido a essas características, nosso conjunto de dados esportivos "especializados" é semelhante aos dados coletados nos domínios de logística, fabricação, transporte, veículos autônomos, clima e biologia, e representa o combustível para a próxima onda de futuros aplicativos AI .

Quais são alguns exemplos de GenAI empresarial especializada fora do esporte?

Na primeira onda de AI generativa (por exemplo, ChatGPT), o combustível que impulsionou essa onda foram grandes quantidades de dados de texto genéricos. Os dados de texto são um ótimo lugar para começar, pois existe uma enorme quantidade deles disponível publicamente e os dados são sequenciais por natureza, que são dois atributos essenciais para que os LLMs prosperem. Fora do esporte, existem muitos domínios que possuem enormes quantidades de dados sequenciais que também são excelentes para os LLMs prosperarem - e eles potencialmente mudarão o mundo (ou já estão mudando o mundo). Abaixo, destacamos quatro.

No primeiro exemplo, temos o uso de veículos autônomos, que agora são utilizados em algumas cidades dos EUA para táxis sem motorista - lançados mais recentemente em Los Angeles no mês passado e que estarão em Miami em breve. O Waymo Driver de sexta geração inclui 13 câmeras, quatro lidars, seis unidades de radar e uma série de receptores de áudio externos, além de mapas de alta resolução para monitorar o ambiente e navegar de forma autônoma e segura. A partir dessas ricas fontes de dados de entrada, esses robôs-eixo usam um modelo de base específico para veículos autônomos que mapeia todas essas fontes de informação em um modelo para medir e prever comportamentos específicos do mundo dos veículos autônomos.

O segundo exemplo é a previsão do tempo. A previsão precisa do tempo é vital para todos os setores, seja no transporte, na agricultura, na segurança pública ou simplesmente na vida cotidiana. Os métodos atuais de previsão do tempo exigem que os supercomputadores façam equações físicas complexas, o que demanda tempo e computação. Além disso, para obter as previsões mais precisas, são necessárias imagens de alta resolução, que são difíceis de obter em escala. No entanto, um trabalho recente mostrou que é possível fazer previsões precisas usando um modelo de base que exige menos computação, mas que também pode utilizar dados de baixa resolução e obter a mesma precisão. Esta semana, a DeepMind do Google acaba de lançar um modelo chamado GenCast que pode prever o clima com mais precisão do que o melhor sistema atualmente em uso - e faz isso em minutos, em vez de horas, que é o tempo que os modelos atuais levam para gerar suas previsões.

Isso se conecta muito bem ao terceiro exemplo sobre robótica. Seja um único braço robótico identificando, classificando e manuseando seus pacotesou um robô monitorando uma fazenda e identificando e colhendo suas frutas ou legumes com o rendimento idealEm um robô que monitora uma fazenda e identifica e colhe suas frutas e verduras com o rendimento ideal, os principais avanços estão ocorrendo devido à capacidade dos sensores de medir atributos específicos do domínio, além de outras informações, como a previsão precisa do tempo. O impacto desse trabalho é que os pacotes podem ser entregues com precisão e em tempo hábil (o que significa que serão mais baratos e recebidos em tempo hábil), e os alimentos não serão apenas colhidos no momento ideal, mas também poderão ser gerados mais alimentos sem desperdício.

O quarto exemplo diz respeito à química e à biologia. Conforme mencionado no início do artigo, o cientista líder da equipe da DeepMind ganhou um prêmio Noble em química por seu trabalho no AlphaFoldque prevê com precisão as estruturas 3D das proteínas em horas, em vez de anos. Isso é importante porque esse método pode ser usado para o desenvolvimento de medicamentos para doenças, bem como para terapia medicamentosa direcionada, utilizando os vários fatores contextuais de uma pessoa - o que não é possível e, portanto, é uma grande desvantagem dos métodos atuais. O potencial desses métodos também pode ser aplicado na criação de novos biocombustíveis limpos para resolver a escassez de energia de forma limpa e renovável ou para decompor produtos residuais, como plásticos, que atualmente são um problema para o planeta.

O que esses quatro exemplos têm em comum é que eles dependem de enormes quantidades de dados sequenciais. No caso dos veículos autônomos, as entradas não são palavras textuais, mas nuvens de pontos do LIDAR, as imagens das câmeras RGB, os mapas de granulação fina, bem como as informações de dentro do carro. Para o clima, a entrada são as várias entradas de sensores dos vários locais, para a robótica, são os sensores de profundidade, os sensores robóticos e o dicionário de possíveis produtos e, com o exemplo da biologia, em vez de palavras, são as estruturas de proteínas e/ou DNA, RNA. Cada domínio tem sua própria linguagem - uma vez que essa linguagem tenha sido estabelecida, você pode fazer modelagem de linguagem (de preferência, modelagem de linguagem grande (LLMs). Esses modelos podem então representar, descrever e prever com precisão o que ocorre nesses mundos específicos de "Empresa Especializada".

Transformers - O aluno universal: "Basta adicionar dados sequenciais"

Quando você tiver uma grande quantidade de dados sequenciais, precisará usar o mecanismo correto para aprender com esses dados. A peça-chave do maquinário é a "rede neural transformadora", que pode contextualizar as informações muito melhor do que os métodos anteriores de aprendizado de máquina. O ChatGPT e outros LLMs mostraram que os transformadores são ótimos aprendizes de dados sequenciais genéricos (por exemplo, texto, imagens/vídeo, áudio). Mas o que muitas vezes não se percebe é que esses modelos podem funcionar em outras formas de dados sequenciais, como dados esportivos, que mostraremos mais adiante.

No entanto, para ter uma ideia de como esses transformadores funcionam, vamos usar duas frases de exemplo usando dados de texto (esse exemplo foi adaptado da postagem do blog que apresentou o artigo original "Attention is All You Need Paper")

"O homem depositou dinheiro no banco"
"O homem sentou-se na margem do rio"

Para que um computador entenda a frase, primeiro a tokenizamos, o que significa apenas converter palavras (ou subpalavras) em números. Antes dos transformadores, representávamos essas palavras de forma independente, o que significaria que o computador representaria a palavra "banco" com os mesmos números.

Mas se você observar as palavras da frase que estão ao redor da palavra "bank", nós, como seres humanos, entendemos que ela tem um significado diferente. Usando um transformador modelopodemos aprender efetivamente com as palavras que estão ao redor da palavra de interesse. Quando isso acontecer, o modelo aprenderá que essas palavras têm significados diferentes, de modo que os números que representam as palavras serão diferentes (veja abaixo).

Empresa especializada GenAI no esporte: Utilizando a natureza sequencial dos dados esportivos

Agora você deve estar se perguntando: como o exemplo acima é importante no esporte? Bem, em primeiro lugar, nosso conjunto de dados especializado em esportes é sequencial. Se observarmos a escalação inicial de um time, como o Manchester City, o time é essencialmente uma frase. Cada jogador é uma palavra, e podemos ordenar essas palavras do goleiro ao atacante. Alguns jogadores (ou seja, palavras) têm um impacto mais forte do que outros, como Erling Haaland. Quando ele estiver jogando, terá impacto sobre o que os outros jogadores estão fazendo (ou seja, os jogadores tentarão prepará-lo para chances de gol) e também terá impacto sobre o que os adversários estão fazendo. Mas se Haaland estiver descansado ou lesionado e Jack Grealish entrar em campo (veja abaixo), ele afetará a forma como os jogadores estão atuando (ou seja, a mudança de uma "palavra" tem um impacto enorme no significado da frase ou na forma como o time jogará). Como no exemplo do clima destacado anteriormente, usando um transformador com uma representação sequencial do desempenho do jogador, podemos produzir um desempenho de previsão muito melhor do desempenho futuro do jogador em comparação com as abordagens atuais que preveem os jogadores independentemente uns dos outros.

Além disso, os dados de eventos que capturam o que acontece na bola são como uma frase, mas em vez de palavras, temos a ação realizada por um jogador (por exemplo, passe do jogador A, no local X,Y no momento T) e temos uma sequência desses eventos até o fim do tempo ou da partida. Os dados de rastreamento, que capturam a posição e o movimento dos jogadores e da bola em cada quadro, também são sequenciais em termos de espaço e tempo. espaço e tempo. O uso de transformadores não só nos ajuda a modelar a natureza sequencial dos dados com muito mais eficiência, mas também também nos permite obter os dois fluxos de informações no mesmo quadro de referência, o que nos permite fazer coisas como a geração de trajetóriaque destacamos anteriormente na Parte II (veja abaixo).

Quando tivermos esses modelos "básicos" definidos, poderemos acrescentar outras fontes de informação ou modos a esses modelos. O que estamos fazendo aqui no esporte é um ótimo exemplo de como utilizar dados empresariais especializados, que levam a modelos especializados de linguagem empresarial, que, no nosso caso, ajudam a fazer melhores previsões, simulações e também melhores medições de desempenho, o que, em última análise, beneficia os fãs de esportes.

2024 foi um ano emocionante e 2025 reserva avanços ainda mais empolgantes. Obrigado pela leitura e, se é a sua primeira vez, confira a Parte I e a Parte II de nossas atualizações anteriores sobre AI no esporte e solicite acesso à nossa pesquisa 2025 Sports Fan Engagement, Monetisation and AI Trends aqui.

Como o esporte está liderando a próxima onda de avanços revolucionários da GenAI