Ir para o conteúdo principal

Identificação de padrões em jogos de construção usando clustering

Por: Stats Perform

Kuba Michalczyk exibiu uma apresentação de pôster no OptaPro Analytics Forum de 2019, que aplicou técnicas de agrupamento para visualizar o jogo de construção de cada equipe da Premier League durante a temporada 2017/18.

Neste blog de convidado, ele descreve a metodologia por trás de sua apresentação, juntamente com um resumo das principais conclusões.

Clique aqui para ver o pôster de Kuba.

Introdução

Há muitos anos, o pioneiro da análise de futebol, Charles Reep, chegou à conclusão de que sequências curtas de jogadas são mais bem-sucedidas. Essa interpretação equivocada coincidiu com a adoção de abordagens semelhantes por muitas equipes, inclusive várias da Inglaterra.

No entanto, essa tendência parece ter se invertido nos últimos anos, com mais e mais equipes buscando construir a partir da defesa. Isso exige que os defensores e goleiros tenham melhores habilidades de passe e estejam fortemente envolvidos na fase inicial da construção. No entanto, isso traz riscos adicionais, pois cada bola perdida em áreas defensivas deixa a equipe vulnerável.

Ao identificar padrões subjacentes na forma como os adversários procuram construir a partir da defesa, os técnicos podem obter uma referência rápida que mostre os locais de passe e o estilo de jogo preferidos. Essas descobertas podem apoiar a análise tática, de modo que uma equipe possa elaborar estratégias para interromper os ataques de um adversário na fase inicial ou, simplesmente pelo posicionamento da equipe, forçar um adversário a jogar a bola de forma não treinada ou ineficiente.

Portanto, para o meu projeto OptaPro Forum , usei dados de eventos da temporada 2017/18 da Premier League para preparar uma estrutura que me permitisse descobrir quaisquer padrões subjacentes na forma como cada equipe construiu a partir da defesa. Essa foi uma análise em dois estágios que empregou a análise de cluster em ambas as partes.

A análise de cluster é uma abordagem de mineração de dados que classifica observações em ambientes não supervisionados, ou seja, sem rótulos previamente conhecidos. Os grupos formados como resultado do agrupamento devem conter observações semelhantes entre si, e as observações de grupos separados não devem ser semelhantes.

Parte 1 - Agrupamento de passes iniciais

Na primeira parte dessa análise, essas observações foram passes iniciais, definidos como passes que:

- progrediram a bola significativamente mais alto no campo (foram excluídos os passes com ângulo inferior a 15 graus medidos em relação à linha do gol);

- teve um ponto de partida no terço defensivo;

- foram feitas por goleiros ou defensores;

- não eram passes de cabeça ou lançamentos do goleiro.

Deve-se ressaltar que essa definição tem várias limitações. Em primeiro lugar, não foram considerados os passes feitos por meio-campistas defensivos, que muitas vezes apoiam os zagueiros durante a fase de construção. Isso se deve ao fato de não haver posições detalhadas na amostra de dados.

Uma possível solução teria sido tentar estimar a posição média dos eventos relacionados a um jogador, mas essa abordagem poderia ser afetada pelas desvantagens da média - como os jogadores às vezes mudam de posição durante um jogo, a posição média resultante poderia ser enganosa. Portanto, para fins desta análise, os passes feitos por todos os meio-campistas foram excluídos. No entanto, ao analisar uma determinada equipe, um analista poderia decidir quais jogadores poderiam estar atuando como meio-campistas de contenção e incluí-los no conjunto de dados de entrada.

Outra limitação é o fato de que essa análise se baseia em dados de uma temporada inteira e, portanto, não leva em conta as mudanças de gerentes ou jogadores, que podem afetar o estilo de jogo de uma equipe. No entanto, ter uma temporada completa de dados permite que a análise seja consistente para cada equipe e garante tamanhos de amostra comparáveis.

Como o algoritmo escolhido, que será discutido posteriormente, permite especificar um número mínimo de passes semelhantes necessários para classificar um passe em um cluster, esse parâmetro poderia ser reduzido e a análise de um número significativamente menor de jogos poderia ser realizada. Isso permitiria a análise da oposição com base em jogos ou partidas mais recentes, levando em conta quaisquer alterações.

A definição resultou em um conjunto de dados de coordenadas espaciais de passes contendo, em média, 1.527 passes por equipe, o que constitui os dados de entrada para a primeira etapa.

Antes de lançar os dados em um algoritmo de agrupamento, vale a pena revelar como eles estão espalhados. Nesse caso, a análise de componentes principais (PCA) geralmente ajuda. A PCA é uma técnica de redução de dimensionalidade e, como tal, nos permite representar uma passagem por um único ponto em um espaço bidimensional, preservando o máximo possível de variabilidade de suas coordenadas originais (coordenadas x, y iniciais e x, y finais).

Um exemplo de saída do PCA, apresentando passes iniciais feitos pelo Manchester United, pode ser visto abaixo.

 

Figura 1: Resultado da PCA para passes iniciais do Manchester United. Quanto mais clara a cor, maior o número de passes na região.

 

A partir dessa saída, podemos observar sete regiões densas - seis regiões menores e circulares no exterior com uma grande área no meio, todas conectadas com vários pontos de ponte. Esses pontos de ponte tornam os dados difíceis de separar e, portanto, de agrupar, especialmente com métodos de agrupamento baseados em otimização, como o amplamente conhecido algoritmo k-means.

Entretanto, minha intuição por trás dos clusters era diferente das suposições do k-means. Como eu queria detectar padrões repetitivos, meu objetivo era capturar regiões densas, possivelmente ignorando pontos de ponte e qualquer outra forma de ruído. Portanto, foi empregado um algoritmo DBSCAN (agrupamento espacial baseado em densidade em aplicativos com ruído). Aqui, o ruído pode ser interpretado como passes que não foram feitos em configurações normais de acúmulo, por exemplo, feitos sob pressão, fora de posição, etc. Dependendo da equipe, 53% a 80% dos passes foram classificados como ruídos, deixando-nos apenas com padrões significativos de jogo.

Outra escolha essencial que teve de ser feita foi uma forma de medida de dissimilaridade. Como meu objetivo principal era estabelecer a direção do jogo, sendo o progresso dos passes uma preocupação secundária, decidi dar mais peso à coordenada y. O motivo por trás desses pesos escolhidos foi que eu me preocupava mais com a direção do passe em relação à largura do campo em vez do comprimento do campo.

 

 

A Figura 2 mostra os passes de medoid para cada time da Premier League. Os medóides são representantes de clusters que são os mais semelhantes a todos os outros passes em um cluster. Podemos ver que algumas equipes evitam passar para o meio-campo central e preferem distribuir a bola para a frente (como o Bournemouth) ou para trás (West Brom), enquanto, talvez sem surpresa, o Manchester City faz muitos passes curtos e centrais. Outro bom exemplo é o Leicester City, com bolas diagonais direcionadas para a linha do meio de campo, um tipo de passe que não apareceu em nenhuma outra equipe.

Também é possível identificar semelhanças entre o Huddersfield Town e o Liverpool, embora os Terriers não tenham feito passes curtos e centrais e, em vez disso, tenham exibido grupos de bolas longas.

A Figura 2 também pode ser usada para analisar o envolvimento no acúmulo por posição. Por exemplo, o lateral esquerdo do Crystal Palace provavelmente está muito mais envolvido no jogo de construção do que o lateral direito. No entanto, essa conclusão deve ser verificada com a homogeneidade do grupo.

Agora vamos voltar nossa atenção para o Arsenal. Observando a Figura 2, pode ser tentador concluir que o Arsenal iniciou suas jogadas com muito mais frequência pelo lado direito do que pelo esquerdo.

O gráfico abaixo apresenta a estrutura completa dos clusters do Arsenal, com os medóides dos clusters marcados em azul escuro. A diferença real não é tão aparente, pois há dois grupos homogêneos à esquerda, enquanto à direita apenas um grupo foi formado com uma estrutura mais heterogênea. Portanto, o gráfico nos ajuda a levar em consideração a variação dentro do grupo, ao mesmo tempo em que estabelece a direção preferida de formação do Arsenal.

 

 

Parte 2 - Ações modais subsequentes

Na segunda parte de minha análise, eu queria responder a esta pergunta: Como são os acúmulos mais frequentes, quando começam em um determinado cluster de passagem inicial?

Para isso, peguei todas as sequências de jogo que começaram em um determinado cluster e as agrupei usando a propagação de afinidade combinada com uma medida de similaridade apropriada para dados de séries temporais - dynamic time warping (DTW). Essa medida permite a identificação de caminhos com formato semelhante.

Antes de calcular a distância entre duas sequências, o DTW tenta alinhar uma sequência para que ela se assemelhe o máximo possível à referência, de modo que quaisquer diferenças de velocidade e número de passagens em uma sequência são ignoradas, desde que os caminhos gerais sejam semelhantes.

No entanto, uma sequência poderia conter alguns passes iniciais (conforme definido na parte 1). Portanto, para evitar que algumas partes de uma sequência fossem consideradas duas vezes, as sequências eram divididas em duas subsequências se a bola voltasse a entrar no terço defensivo. Como resultado, uma proporção considerável de sequências eram apenas trocas de dois passes, com a bola jogada de um defensor e imediatamente de volta, o que não é suficientemente informativo. No entanto, uma sequência de dois passes ainda pode ser interessante se a bola for jogada por muito tempo.

Por esse motivo, todas as sequências que não cruzaram a linha do meio de campo foram removidas. Como o meu foco principal era a forma como as equipes constroem a partir da defesa e não como atacam, as sequências eram cortadas se a bola entrasse no terço final. Isso foi feito para evitar a correspondência de subsequências usando informações que são irrelevantes nesse contexto.

Por fim, todas as subsequências compostas por passes iniciais malsucedidos foram removidas, pois já haviam sido classificadas no primeiro estágio.

 

 

Figura 4: Um exemplo de saída do estágio dois - os três principais modos de construção após o passe inicial do cluster 1. Uma linha tracejada indica que a bola está sendo carregada. Uma linha sólida indica um passe. A cor indica a ordem da sequência, começando do azul escuro para o azul claro. A largura é medida como a diferença horizontal máxima em metros dentro da sequência. A largura absoluta é medida como a distância máxima em metros de uma linha vertical central dentro da sequência. A direcionalidade é medida como a diferença líquida na distância até a linha do gol do adversário, dividida pela distância total percorrida pela bola durante a sequência.

A Figura 4 apresenta as três formações mais frequentes do Arsenal para um passe inicial do grupo 1. Embora esses resultados devam ser considerados com cautela devido ao pequeno tamanho da amostra, os grupos apresentados podem, às vezes, nos informar, por exemplo, quais passes iniciais tendem a ativar um ataque direto pelo flanco ou uma jogada de formação mais longa pelo meio.

Conclusões

O feedback geral que recebi no Forum foi extremamente positivo. Os analistas de clubes apreciaram particularmente a capacidade de identificar diferenças entre as equipes e detectar possíveis pontos fracos. A detecção desses pontos de interesse foi possível porque não nos concentramos na perspectiva da liga, mas sim na análise dos dados no nível da equipe.

Um aspecto que poderia ser mais desenvolvido é uma medida estatística que permitisse avaliar formalmente a qualidade do agrupamento. Passei um bom tempo estudando diferentes técnicas de validação de cluster e nenhuma delas me pareceu adequada do ponto de vista do futebol.

Portanto, todos os clusters foram validados visualmente e os parâmetros do DBSCAN foram escolhidos de modo que os clusters fossem estáveis nos valores vizinhos. Ter uma estatística de validação de cluster não só reduziria a tendência humana, mas também ajudaria a automatizar o processo.

O aplicativo

Se estiver interessado nos resultados de uma equipe específica, consulte o ShinyApp que o acompanha.

Além disso, não hesite em compartilhar suas ideias ou percepções comigo no Twitter, seja publicamente ou por meio de mensagens diretas.