





Estamos de volta com a última parte da nossa série Últimas Tendências em AI no Esporte , escrita pelo nosso cientista-chefe Patrick Lucey. Na primeira parte, ele analisa os mais recentes insights revolucionários disponíveis nos dados de rastreamento de jogadores, possibilitados por uma combinação de vision computacional e AI generativa.
O ritmo da inovação no campo da AI não dá sinais de diminuir - primeiro com o lançamento do GPT-4o pela OpenAI e depois com a conferência anual I/O do Google nesta semana. Duas coisas me chamaram a atenção do ponto de vista esportivo:
- O CTO da OpenAI mencionou que a próxima etapa do GPT-4o poderia ser "assistir" a um jogo esportivo ao vivo e "explicar as regras para você", e
- O que a pesquisa AI do Google - especificamente a "pesquisa visual " - pode revelar.
Isso me fez pensar: "O que significa assistir e pesquisar um jogo de esporte como o futebol?" Ao assistir a um jogo de futebol, é suficiente destacar os times em campo e, em seguida, procurar as regras na Wikipédia e fornecer um resumo? Isso pode ser suficiente para uma criança ou alguém que nunca viu o jogo antes.
Mas a maioria dos torcedores em todo o mundo está realmente envolvida com o esporte e quer mais informações em um nível granular. Essas perguntas incluem: o jogador fez o passe certo?; os defensores estão na posição certa?; a equipe está ficando cansada ou não?; qual é o nível de sucesso da equipe quando executa essa jogada específica?
A promessa dos agentes AI não é apenas assistir a um jogo como um novato, mas assistir a um jogo como um especialista. Mas para entender o jogo como um especialista, o sistema de AI precisa ser treinado na linguagem específica do esporte, que se baseia nos dados que coletamos todos os dias(dados de eventos e dados de rastreamento).
Os dados de rastreamento (ou seja, os "x e o" visuais dos movimentos dos jogadores), especialmente quando combinados com os dados de eventos (ou seja, os eventos que ocorreram e com quem ocorreram), permitem que um sistema AI "assista" a um jogo esportivo como um especialista e analise as jogadas em detalhes, para gerar insights específicos e valiosos para técnicos e fãs. Isso também nos permite fazer buscas visuais de ações esportivas ao vivo, abrindo outras aplicações analíticas e preditivas.
No próximo artigo, vamos nos aprofundar em como podemos fazer isso, mas primeiro é necessário entender como essa entrada crítica - dados de rastreamento de jogadores em escala - é realmente coletada. Neste artigo, vamos nos aprofundar nesse tópico.
Antes de entrar em detalhes, vamos primeiro ver o que eram os dados de rastreamento de vision computacional, o que eles estão se tornando e como estão sendo aplicados para ajudar equipes e atletas a atingir os mais altos níveis de desempenho.
Rastreamento de jogadores (e bolas) usando vision computacional (CV) - um breve histórico inicial
É um fato pouco conhecido que a integração de sistemas de vision computacional (CV) em esportes representa uma das primeiras implantações comerciais bem-sucedidas em qualquer campo. Uma prova, se necessário, do quanto os fãs de esportes e os técnicos querem saber sobre o jogo!
O uso do rastreamento de CV em esportes remonta a 1996, quando foi inicialmente usado para rastrear o disco em jogos da NHL usando um sistema de rastreamento por infravermelho em tempo real, também conhecido como "glow-puck" (mais ou menos na mesma época em que anúncios virtuais foram colocados em transmissões de beisebol). A primeira linha "amarela" e a linha dez no futebol americano vieram logo em seguida, em 1997, e a "Linha de Recorde Mundial" em esportes olímpicos como natação e corrida foi lançada para os Jogos Olímpicos de Sydney em 2000. A primeira tecnologia de rastreamento de bola foi desenvolvida em 2000 pela Hawk-Eye e usada em uma transmissão durante uma partida de críquete em 2001.
O primeiro sistema de rastreamento de jogadores usado na Premier League inglesa data de 1998. Esse sistema utilizava uma configuração de várias câmeras para capturar o vídeo do jogo de todos os ângulos e, em seguida, dependia de humanos para anotar manualmente a localização dos jogadores.
Uma década depois, foram implantados sistemas CV baseados em câmeras totalmente automatizados para rastreamento de jogadores. Pouco tempo depois, surgiram os sistemas que geravam transmissões automaticamente para competições esportivas de nível inferior. Muitos dos clipes de destaques esportivos que você pode apreciar on-line também foram automatizados há mais de uma década, mas esses métodos tendem a não usar dados de rastreamento de jogadores - eles utilizam principalmente uma mistura de dados de eventos coletados por humanos, áudio (ou seja, ruído alto da multidão), bem como alterações de detecção de cena baseadas em CV (por exemplo, zoom em um jogador, depois na multidão, depois no técnico, depois em close-up do jogador novamente e, em seguida, de volta à visão principal da câmera).
Vestíveis como GPS e RFID também surgiram no início dos anos 2000. Muitos torcedores podem supor que essas são as principais fontes de dados de rastreamento no futebol ao vivo. Na verdade, o CV continua sendo o método preferido para coletar dados de rastreamento de jogadores em uma partida de futebol ao vivo de elite devido à sua discrição e escalabilidade.
Como funcionam os sistemas de vision computacional (CV)?
Primeiro, vamos definir vision computacional (CV) e seu lugar na AI.
CV é a ciência que permite que os computadores compreendam imagens e/ou vídeos digitais. Portanto, quando nos referimos a um sistema de CV, estamos essencialmente discutindo um sistema AI .
Para empregar um sistema de CV para coletar dados de rastreamento de um evento esportivo de nível de elite, como uma partida de futebol, o processo tradicionalmente começava com um sistema de captura de vídeo de alta definição.
Esse sistema inclui câmeras estrategicamente posicionadas ao redor do local, servindo essencialmente como "olhos" para capturar a ação em campo.
Essas câmeras de alta definição podem ser instaladas a partir de um único ponto de vista (para minimizar o espaço ocupado pelo hardware e facilitar a instalação/desinstalação) ou distribuídas em vários locais do campo.
Após a configuração do sistema de captura de vídeo, esses "olhos" transmitem os dados visuais para um computador, que transforma as informações visuais brutas em um formato compreensível para o computador. Esse formato pode se manifestar em "pontos" 2D ou em "esqueletos" 3D.
As etapas envolvidas nessa transformação incluem:
- Detecção de jogadores e bolas: Isso envolve a identificação do local dos jogadores e da bola em cada imagem. Para a detecção do jogador, dependendo da granularidade da medição necessária e da densidade de pixels da imagem de entrada, isso pode ser feito detectando caixas delimitadoras ao redor do jogador na imagem ou detectando o esqueleto ou a silhueta de cada jogador. Para a detecção de bolas, normalmente é utilizada uma caixa delimitadora.
- Identidade da equipe e do jogador: Após o estágio de detecção, a próxima etapa é identificar o time ao qual cada jogador pertence (geralmente com base na cor da camisa) e a identidade do jogador (geralmente determinada pela identificação do número da camisa do jogador). Quando um jogador é ocluído (ou seja, não é visível) por um período de tempo, essa tarefa é geralmente chamada de "reidentificação".
- Calibração da câmera: Essa etapa envolve a detecção de linhas e cantos no campo, que são usados para mapear as posições do jogador e da bola para coordenadas do mundo real.
- Rastreamento: Por fim, as detecções são associadas a uma única identidade no decorrer da partida. Isso pode ser feito tanto no plano da imagem (ou seja, os pixels que vemos) quanto no plano do campo (ou seja, a visão de cima para baixo do campo). Normalmente, nos esportes, é utilizada a abordagem de "rastreamento por detecção", mas muitas vezes perdemos ou temos detecções falsas, daí a necessidade de um rastreador. Como há muitos jogadores em campo, chamamos isso de "rastreamento de vários objetos".
Os métodos de aprendizagem profunda são normalmente empregados para cada uma dessas etapas. Por exemplo, as Redes Neurais Convolucionais (CNNs) são normalmente utilizadas para detectar o jogador/bola, mas também formam a representação de entrada para a identificação do time e do jogador. Os modelos de segmentação geralmente são usados em conjunto com detectores de linha/canto para calibração. Para treinar esses modelos, é necessária uma enorme quantidade de exemplos de treinamento das imagens brutas com caixas delimitadoras associadas (ou esqueletos), ID da equipe e ID do jogador, bem como localizações de bordas/cantos. Em algumas situações, também é necessário compreender automaticamente o placar por meio do reconhecimento óptico de caracteres (OCR). Um exemplo de todas essas etapas é ilustrado abaixo.
Mais adiante no artigo, vamos relacionar como esses métodos de aprendizagem profunda estão relacionados à tendência de utilização de métodos de GenAI, mas, em um nível mais alto, você poderia pensar no processo aqui como a criação da linguagem visual do esporte (ou seja, os x e os o), que se presta à modelagem de linguagem downstream.
Por que e quando os sistemas de CV usam "pontos" ou "esqueletos" para detectar e rastrear jogadores?
É útil conceituar um sistema de CV como uma ferramenta de detecção ou medição. A precisão necessária para a medição - seja em milímetros ou centímetros - determina o tipo de saída de rastreamento necessário. Elas podem ser categorizadas em:
- Medições refinadas (precisão milimétrica): Isso abrange tarefas de arbitragem (por exemplo, detecção semiautomática de impedimento no futebol, análise de arremessadores no beisebol e arbitragem no basquete) e gráficos de transmissão (por exemplo, segmentação de geração de avatares fotorrealistas de atletas e transmissões aumentadas).
- Medidas de granulação grossa (precisão centimétrica): Estão relacionadas a medidas de condicionamento físico dos jogadores durante uma partida (por exemplo, a distância que eles correram, quantos sprints de alta intensidade), bem como medidas táticas (por exemplo, qual formação uma equipe jogou, quão bem um jogador executou um passe ou, no basquete, se a equipe utilizou um pick-and-roll).
Para medições de granulação fina, como detecção semiautomática de impedimento e avatares fotorrealistas, o rastreamento do esqueleto é necessário, pois fornece informações 3D detalhadas para esses casos de uso.
Por outro lado, a detecção de caixa delimitadora é suficiente para medições de granulação grossa, permitindo a estimativa do "centro de massa" de um jogador, resultando em "pontos" 2D. Um exemplo que mostra a diferença entre o rastreamento do centro de massa (parte superior) e o rastreamento da postura corporal (parte inferior) é apresentado abaixo, retirado de um artigo que escrevemos sobre o assunto.
Como as informações visuais brutas são separadas em dados úteis e não úteis?
Historicamente, quando pensamos em dados de rastreamento, eles têm sido a utilização de pontos 2D que representam os jogadores se movimentando por todo o campo/tribunal. As pessoas costumam pensar nesse tipo de dados de rastreamento como dados "grandes". No entanto, é o contrário - o sistema de rastreamento funciona como uma ferramenta de compactação, extraindo apenas as informações essenciais dos pixels brutos do vídeo, como as posições e os movimentos dos jogadores e da bola, enquanto descarta detalhes estranhos, como grama, multidões e anúncios.
Essa taxa de compactação pode chegar a 1.000.000:1. Portanto, os dados de rastreamento em esportes podem ser comparados ao algoritmo de compactação de vídeo definitivo ou a um codec específico para esportes, permitindo vários aplicativos downstream.
A partir dessas medições, os dados de rastreamento podem ser utilizados de várias maneiras adicionais, que se expandem exponencialmente em utilidade se os dados de rastreamento puderem ser combinados com dados de eventos, mostrando não apenas onde um jogador está, mas o que ele está fazendo. Isso inclui pesquisa interativa, simulação, análise de estratégia e aplicativos de realidade mista. Embora artigos futuros se aprofundem nesses aplicativos, nosso foco aqui é a tecnologia vision computacional subjacente.
Se o rastreamento vision computacional existe há tanto tempo, por que ele ainda não é usado em todos os lugares?
Algumas ligas esportivas de alto nível empregam hardware e sistemas de rastreamento de vision computacional no local, utilizando várias câmeras fixas especializadas instaladas ao redor do local, como a SportVU da Stats Perform.
Em geral, esses sistemas fornecem saídas de dados de posição e movimento de granulação grossa. Mesmo esses resultados fornecem apenas parte do quadro e ainda precisam ser combinados com os "dados do evento", conforme mencionado acima e posteriormente. Além disso, o acesso é restrito à equipe proprietária do local ou é compartilhado entre as equipes dessa liga específica para análise tática. Muito raramente os dados são compartilhados fora dessa liga. Os insights derivados às vezes também são vistos em análises na TV.
O custo do hardware, o processo complexo de mesclar dados de rastreamento e de eventos e o recurso de analista necessário para extrair percepções acionáveis dos dados de rastreamento da câmera significam que a aplicação de sistemas de câmeras CV fixas é muito limitada fora das ligas principais.
Isso também significa que, embora as grandes equipes/ligas possam ter acesso a dados de rastreamento dentro de sua própria liga, elas ainda têm pontos cegos materiais. Eles não podem ter acesso a esses dados de outras ligas e competições. Isso cria enormes restrições ao procurar jogadores para recrutar nessas ligas, ao se preparar para jogar contra equipes de outras ligas em competições de copa ou para jogar contra novos jogadores ou técnicos de outras ligas.
O acesso aos dados de rastreamento de uma única competição também limita a quantidade de dados que os analistas das equipes têm para desenvolver e treinar modelos para fazer previsões específicas sobre estilos e padrões de jogo e para simular diferentes táticas. Isso significa que essas previsões e simulações são limitadas em sua escala e valor.
Para a "arbitragem", que exige precisão milimétrica, é necessária uma quantidade ainda maior de hardware no local, como câmeras de alta resolução. Isso não só acarreta custos incrementais substanciais, mas também apresenta desafios operacionais, pois o acesso ao local e a conexões de Internet confiáveis e de alta capacidade são essenciais, o que pode não estar disponível em todos os locais.
Mesmo com amplas instalações de hardware em arenas, às vezes são necessárias medidas adicionais. Por exemplo, durante a Copa do Mundo da FIFA 2022, a tecnologia semiautomática de detecção de impedimento complementou os dados de rastreamento de jogadores vision computacional incorporando chips RFID na bola. Da mesma forma, em esportes como o críquete, as filmagens de drones complementam os sistemas existentes para capturar as posições de campo, enquanto a NFL e a NHL exigem que os jogadores usem chips RFID vestíveis, expandindo ainda mais a pegada de hardware.
A boa notícia é que, para medições de granulação grossa, como rastreamento de condicionamento físico e percepções táticas, a extensa infraestrutura de hardware não é mais um pré-requisito. Usando AI generativa e dados profundos, é possível obter uma solução escalonável que inclua dados de rastreamento e de eventos sem hardware adicional, permitindo assim compatibilidade com versões anteriores, enorme cobertura e economia. Ele usa vídeo remoto amplamente disponível.
Indo além dos sistemas de hardware para obter percepções de granulação grossa, usando vídeo remoto
Como seres humanos, podemos entender o que está ocorrendo em um jogo por meio de vídeo remoto (ou seja, o vídeo consumido fora do estádio), portanto, parece lógico estender um sistema de CV para fazer o mesmo.
O potencial disso é enorme, especialmente para esportes globais alimentados por várias competições de elite. Os dados de rastreamento podem ser capturados para os milhares de times profissionais de futebol masculino e feminino em todo o mundo, bem como para as mais de 350 escolas da divisão 1 de basquete e inúmeras ligas internacionais de basquete.
Isso significa que também podemos voltar no tempo para coletar filmagens históricas, de locais que não tinham câmeras CV instaladas.
Nossa equipe de especialistas em AI da Stats Perform foi pioneira no desenvolvimento da tecnologia de rastreamento remoto nos últimos 8 anos ou mais, assim como fomos pioneiros na coleta de dados de rastreamento de jogadores e bolas no local por meio da SportVU.
Nossa jornada de rastreamento remoto, na verdade, começou no basquete com nosso sistema patenteado AutoStats, lançado em 2019. Os principais desafios da captura de dados de rastreamento do vídeo remoto do basquete são calibrar uma câmera em movimento e reidentificar os jogadores que estão dentro e fora da visão.
Os resultados de basquete da AutoStats agora são usados para a análise de prospectos de draft por equipes como o Orlando Magic e táticas, além de impulsionar novos ângulos de narrativa na mídia e na TV, como na Copa do Mundo de Basquete da FIBA de 2023.
Além do AutoStats, estamos nos concentrando no futebol com nosso Opta Vision produto. A ambição do Opta Vision era semelhante: gerar "dados de rastreamento completos" de cada jogo de futebol, comparáveis ao rastreamento no local. Em seguida, combiná-los com dados de eventos para que sejam ainda mais valiosos para os analistas.
Na segunda parte desta atualização, Patrick explicará como AI generativa está sendo aplicada para "imputar" a localização em campo de todos os jogadores de futebol, fora da tomada da câmera, durante uma partida, para fornecer aos analistas dados de rastreamento completos e ininterruptos de cada jogador, desde o primeiro apito até o tempo integral.