Qual é o impacto dos passes de quebra de linha?

Pelo segundo ano consecutivo, Kuba Michalczyk teve uma proposta selecionada para apresentação no Forum OptaPro 2020.

O projeto do Forum de Kuba aplicou dados de rastreamento de 2018/19, fornecidos pela Belgian Pro League, para identificar e avaliar passes de quebra de linha, aos quais foi atribuído um valor com base no fato de o passe aumentar a probabilidade de um gol ser marcado ou, no outro extremo da escala, aumentar o risco de uma virada.

Neste blog de convidado, ele descreve a metodologia por trás de seu projeto, juntamente com um resumo das principais descobertas.

Introdução

Os passes de quebra de linha são amplamente discutidos entre analistas, técnicos e especialistas em futebol. Como passes que dissecam uma linha da formação adversária, eles geralmente permitem que uma equipe faça a transição de uma fase de ataque para outra.

Portanto, a capacidade de um jogador de fazer um bom passe de quebra de linha é altamente valorizada. Embora algumas estatísticas existentes, como pacotes ou passes progressivos, possam, às vezes, servir como proxy, apliquei os dados de rastreamento do Stats Perform , extraídos da Belgian Pro League de 2018/19, com o objetivo de criar um novo método para medir diretamente o valor desses passes.

Definição de um passe de quebra de linha

O ponto de partida desta pesquisa foi estabelecer uma abordagem confiável para detectar linhas de formação, levando em consideração que cada jogador pode mudar de uma linha de formação para outra como resultado de seu movimento.

Uma maneira natural de agrupar os jogadores em linhas é aplicar um algoritmo de agrupamento na coordenada x do campo (a coordenada da linha lateral). Depois de testar alguns algoritmos de agrupamento, finalmente decidi usar um dos mais simples - uma otimização de quebras naturais de Jenks - com três agrupamentos formados por jogadores de campo (com os goleiros formando um quarto agrupamento). Esse algoritmo é uma técnica eficiente e altamente compreensível para reduzir o volume de desvio da média do cluster.

Para evitar a troca imediata entre as linhas, a média da coordenada x foi calculada em uma janela de tempo de dois segundos. Além disso, os agrupamentos que duraram menos de um segundo foram removidos e reatribuídos à linha anterior.

Adotar um número definido de grupos pode não ser a abordagem ideal para analisar outras áreas do futebol, mas achei aceitável ao procurar passes de quebra de linha, já que, na maioria das vezes, é assim que uma equipe defensiva normalmente é montada. Além disso, permitir um número variável de grupos provavelmente levaria a grupos compostos por um jogador que não forma realmente uma linha, mas que não pode ser ignorado, pois seu posicionamento pode ser crucial para a configuração defensiva.

Figura 1. Um exemplo de detecção de linha de formação, usando agrupamento 1-D

Para fins desta análise, um passe de quebra de linha é definido como um passe que não apenas cruza pelo menos uma das linhas de oposição em um sentido geométrico, mas também:

- Avança com a bola pelo menos 10 metros;

- Tem um ponto de partida que fica a pelo menos cinco metros de distância do ponto de interseção;

- Tem um ponto final de pelo menos dois metros além do jogador sentado mais profundo na linha.

Essa definição elimina essa possibilidade:

- Quebrem as linhas em um sentido geométrico, mas é improvável que resultem em uma transição para a próxima fase de ataque;

- São extremamente fáceis de completar, devido à sua proximidade com a linha que penetra.

A definição também significa que o receptor de um passe não está sujeito à pressão aplicada por qualquer jogador adversário que fazia parte da linha quebrada.

Todos os passes de jogo aberto foram considerados na análise; no entanto, como as coordenadas Z (altura da bola) não faziam parte da amostra de dados, os resultados não levam em conta se um passe foi jogado por cima ou pelo chão.

Uma consideração final antes de passarmos ao modelo propriamente dito diz respeito aos desafios de definir um passe interceptado. Como as coordenadas finais de uma interceptação apontam para o local no campo em que a interceptação ocorre, não podemos nos basear nelas para determinar se um passe foi feito para quebrar a linha ou não.

No entanto, como temos informações sobre o ângulo do passe e o limite inferior do comprimento de um passe, podemos tentar inferir o destino final pretendido de um passe. Para fazer isso, aplicamos o modelo Weibull Survival, que é uma técnica especificamente adequada para lidar com dados com limites inferiores, para estimar o comprimento adicional esperado de um passe a partir do ponto de interceptação. Dessa forma, mesmo que um passe fosse interceptado, mas seu destino projetado o classificasse como um passe de quebra de linha, ainda poderíamos marcá-lo como um passe de quebra de linha malsucedido.

Estabelecimento de um modelo para atribuir valor aos passes

O objetivo inicial deste projeto era tentar quantificar o valor de diferentes passes de quebra de linha em comparação com aqueles que não o são, comparando passes com características espaciais semelhantes.

Idealmente, teria sido empregado um modelo de Valor Esperado de Posse (EPV), que englobasse a abundância de dados de rastreamento disponíveis. Infelizmente, a criação de um modelo EPV confiável, baseado em dados de rastreamento, é complexa e exigiria um tempo desproporcional em comparação com os benefícios do objetivo final.

No outro extremo da escala, um modelo de gols esperados sem chute, que atribui valores a eventos de áreas mais profundas do campo, provavelmente era muito rígido para a tarefa. Portanto, optei por um modelo de valor de posse de bola esperado semelhante a uma estrutura VAEP, em que os dados do evento são aprimorados pelos seguintes recursos extraídos dos dados de rastreamento:

O "ângulo de visão" máximo, que é definido como o ângulo máximo criado pela bola e por quaisquer dois jogadores adjacentes a partir da primeira linha de oposição na frente de um jogador com a bola;
Figura 2: Um exemplo de "ângulo de visão", mostrando a área em que um jogador com posse de bola pode passar entre dois jogadores adversários dentro de uma linha de defesa. O ângulo entre o jogador um, a bola e o jogador dois, marcado como alfa, é o ângulo máximo nesse cenário. O ângulo entre o jogador três, a bola e o jogador quatro é negativo e, portanto, é ignorado no cálculo da "integridade da linha" definida no ponto 3 abaixo.
A distância máxima entre os jogadores adjacentes na primeira linha de oposição à frente do jogador com a bola;
A "integridade da linha" é definida como uma soma do inverso dos ângulos de visão positivos;
A "compactação da linha" é definida como a soma do inverso das distâncias entre os jogadores adjacentes em uma linha;
Os valores de "controle de inclinação", no início e no final de uma ação, são definidos de acordo com o modelo apresentado nesta seção. white paper, de autoria de Luke Bornn e Javier Fernandez na Sloan 2018.
Figura 3: Um exemplo de saída do modelo de "controle de inclinação

Tanto o recurso um quanto o recurso dois tentam capturar qualquer possível vulnerabilidade na configuração da linha que está mais próxima do jogador com a posse da bola. A premissa por trás do "ângulo de visão" é que é mais fácil passar a bola entre dois jogadores quando o ângulo criado por esses dois jogadores e a bola é maior, seja porque eles estão distantes um do outro, seja porque o jogador com posse de bola está mais próximo da linha adversária.

No entanto, a distância entre os jogadores adjacentes em uma linha é importante, pois é a linguagem que muitos treinadores usam para transmitir sua configuração aos jogadores. Como resultado, os recursos três e quatro visam capturar a preparação do primeiro banco de jogadores como um todo, aplicando os dois conceitos descritos nos pontos um e dois.

Quando aplicamos uma soma de ângulos e distâncias inversos para manter a escala intuitiva para ambas as medidas, os valores baixos indicam um posicionamento ruim e os valores altos demonstram uma configuração sólida.

Um aspecto importante a ser mencionado é que a "integridade da linha" não incorpora ângulos de visão negativos. Voltando à exibição da Figura 2, esse ângulo de visão negativo é criado entre o jogador três, a bola e o jogador quatro, que está efetivamente escondido atrás do resto da linha. Nesse caso, um possível passe só poderia passar por esses dois jogadores do outro lado, rompendo a linha anterior entre os jogadores dois e três. Portanto, embora a posição do jogador quatro não possa ser totalmente ignorada, ela é menos crítica do que as posições dos jogadores um, dois e três. Como resultado, optei por não incorporar os ângulos negativos no cálculo.

Todos os cinco recursos foram processados de acordo com a estrutura VAEP, o que, em resumo, significa que as características dos dois eventos atuais e anteriores em uma cadeia de posse de bola foram inseridas em um modelo XGBoost para prever a probabilidade de a equipe marcar ou sofrer um gol nas próximas dez ações.

Um passe de quebra de linha aumenta a probabilidade de gol?

O gráfico de violino abaixo exibe as probabilidades de previsão para marcar e sofrer um gol durante qualquer um dos dez eventos após um passe, com base no fato de o passe ser ou não de quebra de linha.

Uma área mais ampla em um gráfico de violino representa uma proporção maior de cenários alocados a uma determinada probabilidade. As probabilidades medianas são marcadas por pontos e o intervalo entre o 25º e o 75º percentil é documentado por barras.

Para manter um intervalo prático no eixo y, 1% dos valores de probabilidade mais altos foram removidos.

Embora essa abordagem não tenha rigor estatístico, ela indica que os passes que quebram a linha aumentam a probabilidade de um gol ser marcado, com um valor médio quase duas vezes maior do que os passes que não quebram a linha.

Também é digno de nota que um passe de quebra de linha malsucedido não parece aumentar muito a probabilidade de um gol ser sofrido, conforme destacado abaixo.

Para manter um intervalo prático no eixo y, 1% dos valores de probabilidade mais altos foram removidos.

Quem foram os jogadores mais eficientes na conclusão de passes de quebra de linha?

Em um contexto de recrutamento, uma das vantagens da definição de passes para quebrar linhas é que ela pode ajudar a identificar os candidatos que são bons em quebrar linhas adversárias com um passe.

O gráfico de dispersão abaixo mostra todos os jogadores que atuaram como zagueiro central em pelo menos dez partidas durante a Pro League 2018/19, com o número de passes de quebra de linha que tentaram por 90 e sua taxa de sucesso.

Os jogadores do quadrante superior direito obtiveram pontuação acima da média em ambas as categorias.

Somente jogadores com pelo menos 900 minutos jogados na defesa central foram incluídos.

Assim como acontece com os zagueiros que procuram fazer passes progressivos, ter a capacidade de fazer a transição da bola para a próxima fase de ataque é fundamental para os jogadores de profundidade. Os resultados dos jogadores categorizados como meio-campistas centrais são mostrados abaixo.

Um dos principais jogadores de destaque da última temporada foi Ruslan Malinovskiy, que se transferiu do Genk para a Atalanta no último verão.

Somente jogadores com pelo menos 900 minutos jogados no meio-campo defensivo foram incluídos.

É possível identificar passes de quebra de linha com dados de eventos?

A capacidade de detectar automaticamente os passes com quebra de linha pode resultar em benefícios consideráveis para o fluxo de trabalho de um analista de vídeo, que precisa gastar uma quantidade significativa de tempo procurando por eles manualmente.

Como nota de rodapé, dada a falta de disponibilidade de dados de rastreamento fora de uma competição nacional, como parte desta pesquisa, também procurei criar um modelo que previsse se um passe estava quebrando a linha ou não com base apenas em características derivadas de dados de eventos.

Esse modelo tinha uma precisão de 84% e uma pontuação AUC de 93%, o que significava que o modelo podia prever se um passe estava quebrando a linha ou não em 84 de 100 instâncias.

No entanto, como apenas 8% de todos os passes eram de quebra de linha, o ponto de corte para a atribuição de rótulos foi crucial. Optei por um modelo com uma recuperação de 89% e uma classificação de precisão de 32%, o que significava que o modelo poderia detectar corretamente 89% de todos os passes de quebra de linha, mas ao custo de classificar muitos passes como de quebra de linha, mas que, na realidade, não quebraram a linha. Isso era de se esperar, já que o modelo não consegue ver onde os jogadores de defesa estão no campo sem dados de rastreamento.

Um cenário em que esses falsos positivos podem surgir é quando uma equipe se defende em um bloqueio baixo e a bola é jogada pela equipe com posse de bola do seu próprio terço defensivo para um meio-campista no campo adversário, mas esse jogador ainda está localizado na frente da primeira linha de defesa do adversário.

Embora isso não seja perfeito, do ponto de vista do fluxo de trabalho, ainda assim reduziria o número de passagens a serem revisadas em vídeo, acelerando os processos, e a boa notícia é que, dependendo das preferências de um analista, o corte poderia ser ajustado para nos dar uma classificação ainda mais rigorosa.

A má notícia é que, se você quiser uma classificação quase perfeita dos passes de quebra de linha sem intervenção manual, ainda precisará usar dados de rastreamento.

Gostaria de agradecer a Karun Singh, que leu uma versão preliminar deste artigo e forneceu um feedback inestimável. Além disso, agradeço a Ricardo Tavares, bem como aos autores do pacote Socceraction, cujo código foi estendido para preparar visualizações de campo e pré-processar os dados, respectivamente. Os dados usados na análise foram fornecidos pela Belgian Pro League, capturados pelo Stats Perform.