Qual é o impacto dos passes que rompem a linha defensiva?

Em um artigo publicado como convidado no blog da Stats Perform, o cientista de dados Kuba Michalczyk apresenta as conclusões de um projeto de pesquisa que utiliza dados de rastreamento para determinar se os passes que ultrapassam a linha defensiva aumentam a probabilidade de um gol ser marcado.

Stats Perform

~ 9 minutos de leitura

Pelo segundo ano consecutivo, Kuba Michalczyk teve uma proposta selecionada para apresentação no Fórum OptaPro 2020.

O projeto “Kuba’s Forum” utilizou dados de acompanhamento da temporada 2018/19, fornecidos pela Pro League belga, para identificar e avaliar passes que rompiam a linha defensiva, aos quais foi atribuído um valor com base no fato de o passe aumentar a probabilidade de um gol ser marcado ou, no extremo oposto, aumentar o risco de uma perda de posse de bola.

Neste artigo de convidado, ele descreve a metodologia por trás de seu projeto, juntamente com um resumo das principais conclusões.

Introdução

Os passes que rompem as linhas defensivas são amplamente discutidos entre analistas, treinadores e especialistas em futebol. Por serem passes que cortam uma linha da formação adversária, eles geralmente permitem que uma equipe passe de uma fase de ataque para outra.

Portanto, a capacidade de um jogador de dar um bom passe que rompa a linha defensiva é altamente valorizada. Embora algumas estatísticas existentes, como passes em grupo ou passes progressivos, possam, às vezes, servir como indicador, apliquei os dados Stats Perform , extraídos da Liga Profissional Belga de 2018/19, com o objetivo de criar um novo método para medir diretamente o valor desses passes.

Definindo um passe de quebra de linha

O ponto de partida desta pesquisa foi estabelecer uma abordagem confiável para detectar linhas de formação, levando em consideração que cada jogador pode passar de uma linha de formação para outra em função de seus movimentos.

Uma maneira natural de agrupar os jogadores em linhas é aplicar um algoritmo de agrupamento à coordenada x do campo (a coordenada da linha lateral). Depois de testar alguns algoritmos de agrupamento, acabei optando por usar um dos mais simples – aotimização de intervalos naturais de Jenks– com três grupos formados por jogadores de campo (sendo que os goleiros formam um quarto grupo). Esse algoritmo é uma técnica eficiente e altamente compreensível para reduzir o volume de desvio em relação à média do grupo.

Para evitar a alternância imediata entre linhas, a coordenada x foi calculada como média em um intervalo de dois segundos. Além disso, os agrupamentos com duração inferior a um segundo foram removidos e reatribuídos à linha anterior.

A adoção de um número fixo de agrupamentos pode não ser a abordagem ideal para analisar outras áreas do futebol, mas considerei-a aceitável ao procurar passes que rompem as linhas, já que, na maioria das vezes, é assim que uma equipe defensiva normalmente se posiciona. Além disso, permitir um número variável de agrupamentos provavelmente levaria a agrupamentos compostos por um único jogador que, na verdade, não forma uma linha, mas que não pode ser ignorado, pois seu posicionamento pode ser crucial para a organização defensiva.

Figura 1. Um exemplo de detecção de linhas de formação, utilizando agrupamento unidimensional

Para os fins desta análise, um passe que rompe a linha é definido como um passe que não apenas cruza, em sentido geométrico, pelo menos uma das linhas adversárias, mas também:

– Avança com a bola pelo menos 10 metros;

– Tem um ponto de partida situado a pelo menos cinco metros do ponto de intersecção;

– Tem um ponto final a pelo menos dois metros além do jogador mais recuado da linha.

Essa definição exclui os passes que:

– Rompem as linhas em termos geométricos, mas é improvável que isso resulte em uma transição para a próxima fase de ataque;

– São extremamente fáceis de realizar, devido à sua proximidade com a linha que atravessam.

A definição também implica que o destinatário de um passe não está sujeito à pressão exercida por qualquer jogador adversário que fizesse parte da linha quebrada.

Todos os passes em jogadas abertas foram considerados na análise; no entanto, como as coordenadas Z (altura da bola) não faziam parte da amostra de dados, os resultados não levam em conta se um passe foi dado por cima da defesa ou rasteiro.

Uma última consideração antes de passarmos ao modelo em si diz respeito aos desafios de definir o que é um passe interceptado. Como as coordenadas finais de uma interceptação indicam o local no campo onde ela ocorre, não podemos basear-nos nelas para determinar se um passe tinha como objetivo romper a linha de defesa ou não.

No entanto, como dispomos de informações sobre o ângulo do passe e o limite inferior do comprimento do passe, podemos tentar inferir o destino final pretendido do passe. Para isso, aplicamos o modelode sobrevivência de Weibull, uma técnica especificamente adequada para lidar com dados com limite inferior, a fim de estimar o comprimento adicional esperado do passe a partir do ponto de interceptação. Dessa forma, mesmo que um passe tenha sido interceptado, mas seu destino projetado o tenha classificado como um passe de quebra de linha, ainda poderíamos marcá-lo como um passe de quebra de linha malsucedido.

Estabelecimento de um modelo para atribuir valor aos passes

O objetivo inicial deste projeto era tentar quantificar o valor de diferentes passes com quebra de linha em comparação com aqueles que não apresentam essa característica, por meio da comparação de passes com características espaciais semelhantes.

Idealmente, teria sido utilizado um modelo de Valor Esperado de Posse (EPV), aproveitando a grande quantidade de dados de rastreamento disponíveis. Infelizmente, a construção de um modelo EPV confiável e baseado em dados de rastreamento é complexa e exigiria um tempo desproporcional em relação aos benefícios do objetivo final.

Por outro lado, um modelo de gols esperados que não levasse em conta os chutes a gol, atribuindo valores a eventos ocorridos em áreas mais recuadas do campo, provavelmente era rígido demais para essa tarefa. Por isso, optei por um modelo de valor de posse de bola esperada semelhante a umaestrutura VAEP, no qual os dados de eventos são aprimorados pelas seguintes características extraídas dos dados de rastreamento:

O “ângulo de visão” máximo, definido como o ângulo máximo formado pela bola e quaisquer dois jogadores adjacentes a partir da primeira linha de defesa à frente de um jogador com a bola;
Figura 2: Um exemplo de “ângulo de visão”, mostrando a área em que um jogador com a posse de bola pode passar entre dois jogadores adversários dentro de uma linha defensiva. O ângulo entre o jogador um, a bola e o jogador dois, marcado como alfa, é o ângulo máximo neste cenário. O ângulo entre o jogador três, a bola e o jogador quatro é negativo e, portanto, é ignorado no cálculo da “integridade da linha”, definida no ponto 3 abaixo.
A distância máxima entre jogadores adjacentes na primeira linha de defesa à frente do jogador com a bola;
A “integridade da linha” é definida como a soma dos inversos dos ângulos de visão positivos;
A “compacidade da linha” é definida como a soma dos inversos das distâncias entre jogadores adjacentes em uma linha;
Os valores de “controle de inclinação”, no início e no final de uma ação, são definidos de acordo com o modelo apresentado neste livro branco, de autoria de Luke Bornn e Javier Fernandez, apresentado no Sloan 2018.
Figura 3: Um exemplo de resultado do modelo de “controle de tom”

Tanto a característica 1 quanto a característica 2 buscam identificar qualquer possível vulnerabilidade na disposição da linha mais próxima do jogador com a posse de bola. A premissa por trás do “ângulo de visão” é que é mais fácil passar a bola entre dois jogadores quando o ângulo formado por esses dois jogadores e a bola é maior, seja porque eles estão bem afastados um do outro, seja porque o jogador com a posse de bola está mais próximo da linha adversária.

No entanto, a distância entre os jogadores adjacentes em uma linha é importante, pois é a linguagem que muitos treinadores utilizam para transmitir sua formação aos jogadores. Por isso, os itens três e quatro visam capturar a formação da primeira linha de jogadores como um todo, aplicando os dois conceitos descritos nos itens um e dois.

Quando aplicamos a soma dos ângulos e distâncias inversos para manter a escala intuitiva de ambas as medidas, valores baixos indicam um posicionamento inadequado, enquanto valores altos demonstram uma configuração sólida.

Um ponto importante a ser mencionado é que a “integridade da linha” não leva em conta ângulos de visão negativos. Voltando à imagem da Figura 2, esse ângulo de visão negativo se forma entre o jogador três, a bola e o jogador quatro, que fica efetivamente oculto atrás do restante da linha. Nesse caso, um possível passe só poderia passar por esses dois jogadores pelo lado oposto, rompendo a linha mais cedo, entre os jogadores dois e três. Portanto, embora a posição do jogador quatro não possa ser totalmente ignorada, ela é menos crítica do que as posições dos jogadores um, dois e três. Como resultado, optei por não incluir ângulos negativos no cálculo.

Todas as cinco variáveis foram processadas de acordo com aestrutura VAEP, o que, em resumo, significava que as características do evento atual e dos dois eventos anteriores em uma cadeia de posse de bola foram inseridas em um modeloXGBoostpara prever a probabilidade de a equipe marcar ou sofrer um gol nas dez jogadas seguintes.

Um passe que rompe a linha defensiva aumenta a probabilidade de gol?

O gráfico em forma de violino abaixo mostra as probabilidades de previsão de marcar e sofrer um gol durante qualquer um dos dez eventos que se seguem a um passe, dependendo se o passe rompe a linha de defesa ou não.

Uma área maior no gráfico de violino representa uma proporção maior de cenários aos quais foi atribuída uma determinada probabilidade. As probabilidades medianas são indicadas pelos pontos, e o intervalo entre o 25º e o 75º percentil é representado pelas barras.

Para manter um intervalo prático no eixo y, 1% dos valores com maior probabilidade foram removidos.

Embora essa abordagem careça de rigor estatístico, ela indica que os passes que ultrapassam a linha defensiva aumentam a probabilidade de um gol ser marcado, com um valor mediano quase duas vezes maior do que o dos passes que não ultrapassam a linha.

Também vale a pena notar que um passe de profundidade mal sucedido também não parece aumentar muito a probabilidade de sofrer um gol, conforme destacado a seguir.

Para manter um intervalo prático no eixo y, 1% dos valores com maior probabilidade foram removidos.

Quem foram os jogadores mais eficazes na execução de passes decisivos?

No contexto do recrutamento, uma das vantagens de definir passes que rompem as linhas adversárias é que isso pode ajudar a identificar candidatos que se destacam por romper as linhas adversárias com um passe.

O gráfico de dispersão abaixo apresenta todos os jogadores que atuaram como zagueiros centrais em pelo menos dez partidas durante a Pro League 2018/19, indicando o número de passes que romperam as linhas defensivas que eles tentaram a cada 90 minutos e sua taxa de sucesso.

Os participantes no quadrante superior direito obtiveram pontuação acima da média em ambas as categorias.

Foram incluídos apenas os jogadores que disputaram pelo menos 900 minutos na zaga.

Assim como acontece com os zagueiros centrais que buscam dar passes progressivos, a capacidade de conduzir a bola para a próxima fase de ataque é fundamental para os meias-armadores recuados. Os resultados dos jogadores classificados como meias-armadores defensivos estão apresentados abaixo.

Um dos jogadores que mais se destacou na última temporada foi Ruslan Malinovskiy, que se transferiu do Genk para a Atalanta no verão passado.

Foram incluídos apenas os jogadores com pelo menos 900 minutos disputados na posição de volante.

É possível identificar passes que resultam em quebra de linha usando dados de eventos?

A capacidade de detectar automaticamente passes que resultam em quebra de linha pode trazer benefícios consideráveis ao fluxo de trabalho de um analista de vídeo, que precisa dedicar uma quantidade significativa de tempo à busca manual por esses lances.

Como nota de rodapé, dada a falta de disponibilidade de dados de rastreamento fora de uma competição nacional, como parte desta pesquisa, procurei também construir um modelo que preveja se um passe rompeu a linha ou não, com base apenas em características derivadas dos dados do evento.

Esse modelo apresentou uma precisão de 84% e um valor de AUC de 93%, o que significa que ele era capaz de prever se um passe ultrapassava a linha ou não em 84 de cada 100 casos.

No entanto, considerando que apenas 8% de todos os passes foram de penetração, o ponto de corte para a atribuição de rótulos foi crucial. Optei por um modelo com uma taxa de recall de 89% e uma precisão de 32%, o que significava que o modelo conseguia identificar corretamente 89% de todos os passes que quebravam a linha, mas ao custo de classificar muitos passes como quebrando a linha quando, na realidade, eles não a quebravam. Isso era de se esperar, já que o modelo não consegue ver onde os jogadores da defesa estão em campo sem dados de rastreamento.

Uma situação em que esses falsos positivos podem ocorrer é quando uma equipe se posiciona em um bloqueio baixo e a bola é lançada pela equipe que está com a posse, partindo de seu próprio terço defensivo, para um meio-campista no campo adversário, mas esse jogador ainda se encontra à frente da primeira linha de defesa do adversário.

Embora isso não seja perfeito, do ponto de vista do fluxo de trabalho, ainda assim reduziria o número de jogadas a serem analisadas no vídeo, agilizando os processos; e a boa notícia é que, dependendo das preferências do analista, o limite poderia ser ajustado para nos proporcionar uma classificação ainda mais rigorosa.

A má notícia é que, se você deseja uma classificação quase perfeita dos passes que quebram a linha de defesa sem intervenção manual, ainda precisará usar dados de rastreamento.

Gostaria de agradecer a Karun Singh, que leu uma versão preliminar deste artigo e ofereceu comentários inestimáveis. Além disso, agradeço a Ricardo Tavares, bem como aos autores do pacote Socceraction, cujo código foi adaptado para preparar as visualizações do campo e pré-processar os dados, respectivamente. Os dados utilizados na análise foram fornecidos pela Liga Profissional Belga e coletados pela Stats Perform.