Ir para o conteúdo principal
Apostas e afiliados, Mídia de clubes, Clubes profissionais e faculdades

Recapitulação da Sloan: Moneyball, aprendizado de máquina e grandes modelos de linguagem

Por: Patrick Lucey

Desde 2011, participo da Conferência MIT Sloan Sports Analytics em Boston (incluindo a edição remota de 2021) e sempre gostei de participar, principalmente para conversar com amigos do setor, mas também para ouvir e discutir (e às vezes apresentar) inovações no espaço de análise esportiva. Este ano não foi diferente, com muitos painéis divertidos, palestras interessantes e trabalhos de pesquisa. Mas algo estava um pouco diferente este ano, com a incerteza e a hesitação sobre como AI afetará o setor esportivo e como ela poderá tirar empregos humanos. Como já se passou uma semana desde a conferência do MIT SSAC, pude refletir e resumir minhas 5 principais conclusões da conferência, sendo que as duas últimas se referem a essa questão (que também foi o tópico da minha apresentação e do painel em que participei, mas como foi sobre isso que passei a maior parte da conferência discutindo, vou detalhar esses dois tópicos).

  • 20 anos depois de Moneyball: É difícil de acreditar, mas já se passaram 20 anos desde que o livro "Moneyball", de Michael Lewis, foi lançado. Para comemorar a ocasião, houve um painel com Michael Lewis, Shane Battier, Bill James e Daryl Morey, moderado por Jackie McCullum - e foi um painel muito divertido. O tema principal foi (e acho que isso muitas vezes passa despercebido pelas pessoas), mas Moneyball não é apenas uma história esportiva; ele usa o esporte como exemplo (especificamente o Oakland A's no beisebol) sobre como o uso de dados e análises como uma ferramenta auxiliar para medir o processo e valorizar os recursos pode otimizar a forma como as empresas podem funcionar - isso pode ser uma enorme vantagem competitiva se seus concorrentes não estiverem fazendo o mesmo.
  • O melhor investimento é no esporte feminino: Conforme destacado por várias pessoas em vários painéis, o melhor investimento atualmente é no esporte feminino. Essa opinião decorre do aumento da popularidade, das avaliações de franquias e dos direitos de transmissão da WNBA, das ligas de futebol feminino na Europa e do recente lançamento da T20 Cricket Women's Premier League na Índia. Além disso, descobrimos que o esporte feminino é uma ótima maneira de mostrar coisas novas que fizemos com nossos grandes parceiros da WTA e várias competições de futebol, basquete e críquete.
  • Provas para jogadores ao vivo: O aumento das apostas nos EUA também foi um tópico de destaque na conferência. Além da logística e dos obstáculos para que os estados aceitem os jogos de azar, outra retórica importante foi sobre a necessidade de adereços de jogadores ao vivo e a necessidade de atualização de modelos e dados de baixa latência. Do nosso ponto de vista, isso é algo que ouvimos em todo o mundo (mas não nos EUA) e já estamos liderando o processo de entrega. Nossa parceria do Betting Innovation Centre com a Sporting Solutions é um exemplo recente. Fique atento a mais informações nossas neste espaço...
  • ChatGPT e como ele se aplica ao esporte: Nos últimos três meses, com a introdução do ChatGPT, muita imprensa e interesse se concentraram no uso da AI generativa e dos modelos de linguagem grandes (consulte nossos dois artigos aqui para um mergulho profundo): Parte 1 & Parte 2). Dei uma palestra sobre esse tópico na sexta-feira à tarde na conferência. Os pontos principais que tentei transmitir foram:
    1. Os LLMs (Large Language Models) atuais, como o ChatGPT, alucinam fatos, o que é muito problemático no esporte,
    2. Para habilitar os chatbots no esporte, é preciso utilizar uma abordagem que priorize os fatos e utilize dados esportivos ao vivo, confiáveis e de todos os esportes (como fazemos na Stats Perform),
    3. A linguagem do esporte não é um texto de linguagem natural como o usado em grandes modelos de linguagem - é sua própria linguagem (texto esportivo que consiste em estatísticas como chutes, desarmes e passes, bem como o modo visual - usando dados posicionais que mostram a localização e o movimento dos jogadores),
    4. Usando a linguagem visual, podemos expandir e dimensionar a linguagem do esporte para encontrar novos padrões que ajudem as equipes e a mídia a analisar e contar histórias melhores. Grandes exemplos são nossas novas métricas de futebol Opta Vision , como passes de quebra de linha e pressão (parte do conjunto Opta Vision ), que revelam camadas de detalhes antes invisíveis que tornam os jogos mais atraentes, ajudam as equipes a encontrar pontos fortes ocultos dos jogadores e a fazer melhores previsões sobre táticas e estratégias.
    5. O futuro da análise esportiva é utilizar esses dados e formar grandes modelos de linguagem (usando as estatísticas discretas derivadas e os modelos de linguagem visual), que podem ser usados para previsões ainda mais versáteis e abrangentes em todos os esportes, para ajudar as equipes a tomar melhores decisões antes e durante o jogo e tornar a cobertura da mídia ainda mais atraente e disponível, impulsionando o crescimento e a atenção dos fãs.

Recebi ótimos comentários sobre a apresentação. A formalização do esporte como sua própria linguagem e a criação de modelos de linguagem nesses conjuntos de dados específicos pareceram repercutir muito bem. Além disso, essa tendência de usar modelos de linguagem estava em alguns dos trabalhos de pesquisa, o que reflete as abordagens que nós da Stats Perform temos adotado na geração de nossos novos produtos, conforme mencionado acima, nos últimos dois anos.

  • Preocupação com a "Ascensão das Máquinas": A discussão sobre a GPT levou a conversas mais interessantes no painel da tarde de sábado em que participei, no qual fomos solicitados a abordar quaisquer possíveis consequências adversas e limitações da AI no esporte. Os principais pontos que levantei foram:
    1. Os dados de grande parte do mundo não estão digitalizados ou disponíveis. Isso também é muito verdadeiro no esporte. Embora os dados de posicionamento de cada jogador, dentro e fora da bola, ampliem muito nossa capacidade de analisar situações de jogo, bem como de fazer previsões, há muitos outros fatores que nunca entrarão em nossos modelos. Isso inclui dados privados, como dados de saúde, dados de sono, dados de nutrição e até mesmo se dois jogadores do mesmo time não gostam um do outro naquele dia. Isso pode ser visto como uma limitação. Eu vejo isso como uma parte fundamental da beleza do esporte - bem, pelo menos do esporte humano. A análise esportiva está chegando a um estado maduro de captura e análise do desempenho dentro da partida, especialmente com os avanços recentes. No entanto, existem barreiras naturais e impostas, como a restrição da disponibilidade de dados privados por meio de CBAs e outros regulamentos, que garantirão que um ser humano supervisione a decisão final (como um piloto de avião - ele pode confiar no piloto automático na maior parte do tempo, mas pode intervir quando necessário, mas sempre será necessário no avião). Acreditamos que esse é o ponto ideal da tecnologia AI : criar ferramentas de assistência para ajudar os especialistas em domínios humanos a fazer melhor seu trabalho. Não vejo nada mudando isso tão cedo.
    2. Acredito firmemente que as oportunidades criadas pela AI no esporte superam qualquer custo de capital humano. Se "as máquinas estão surgindo", é para fazer trabalhos altamente repetitivos e demorados ou para nos ajudar a dimensionar os resultados analíticos, mas, no mínimo, isso está criando mais espaço para o esforço humano. Por exemplo, AI nos ajuda a detectar possíveis anomalias na coleta de dados mais cedo, o que significa que as estatísticas ao vivo dos jogos são mais precisas, o que significa que nossos analistas podem coletar com confiança mais dados para mais jogos. Isso significa que podemos alimentar novas histórias. Dessa forma, AI é mais uma ferramenta na caixa de ferramentas que capacita nossos clientes e nós a fazer mais e, em última análise, a tornar o esporte ainda mais cativante. Ainda há muitas histórias não contadas, mas AI está nos ajudando a permitir que mais delas sejam contadas. Veja meu comentário anterior sobre o esporte feminino, por exemplo.
    3. Confiança, confiabilidade e segurança de AI : no entanto, com o avanço da tecnologia AI , precisamos estar atentos à origem de nossos dados esportivos e se eles estão atualizados (o que destaquei com o exemplo do ChatGPT). Além disso, com o aumento das falsificações profundas de voz e vídeo, é necessário verificar a autenticidade de todos os dados esportivos. Um exemplo que usei no painel foi imaginar se alguém usasse a tecnologia de "deep fake" para gerar destaques de seu desempenho usando imagens históricas de Giannis ou de outras estrelas emergentes do basquete. Uma estratégia é ter "confiança zero", garantindo que uma pessoa esteja presente para verificar se essa pessoa é de fato a pessoa de interesse. Uma alternativa é utilizar um provedor de dados e análises confiável, onde eles mesmos fazem isso. Isso já está em andamento em áreas fora do esporte, mas o campo da segurança AI está se tornando imprescindível neste mundo AI , onde pode ser usado para verificar se um conteúdo é real ou gerado. Por isso, saber onde e como todos os seus dados (e os resultados AI sobre esses dados) são criados e confiar nessa fonte será um pilar central na elaboração de uma estratégia de governança de dados e AI .

De modo geral, foi muito divertido participar da conferência. Depois de anos de distanciamento social e videoconferência, poder se reunir como uma comunidade em um único local e horário foi uma experiência muito agradável. Para isso, teremos nossoForum Opta em breve, em Londres, pelo qual estou ansioso, com base nos palestrantes, trabalhos de pesquisa e inovações que serão apresentados. Esperamos ver todos lá!

O Dr. Patrick Lucey é o cientista-chefe da gigante de dados esportivos Stats Perform, liderando a equipe de AI com o objetivo de maximizar o valor dos profundos tesouros de dados esportivos da empresa. Patrick estudou e trabalhou na área de AI nos últimos 20 anos, ocupando cargos de pesquisa na Disney Research e no Robotics Institute da Carnegie Mellon University, além de ter passado um tempo no T.J. Watson Research Center da IBM enquanto fazia seu Ph.D. Patrick é natural da Austrália, onde obteve seu BEng(EE) na University of Southern Queensland e seu doutorado na Queensland University of Technology. Ele é autor de mais de 100 artigos revisados por pares e foi coautor de artigos no MIT Sloan Best Research Paper Track, ganhando o prêmio de melhor artigo em 2016 e vice-campeão em 2017 e 2018.