Ir para o conteúdo principal

Contagem entre fronteiras

Por: Stats Perform

Este artigo é uma versão escrita do Forum OptaPro Analytics 2018 de Ben Torvaney, que teve como objetivo fornecer um modelo unificado para o efeito da liga e da idade no rendimento do jogador. Leia a apresentação inicial de Ben aqui.

A mentora analista de Ben nesse projeto foi Lucy Rushton, diretora de recrutamento técnico e análise do Atlanta United.

Para saber mais sobre como enviar uma proposta para apresentação no OptaPro Analytics Forum 2019, clique aqui

Para o fórum OptaPro de 2018, apresentei um modelo simples e extensível para estimar o efeito da liga e da idade na produção do jogador em uma variedade de métricas. No processo, também estimamos o desempenho individual do jogador. Embora seja aplicado somente à liga e à idade aqui, o modelo pode ser facilmente ampliado para incluir outros fatores na produção do jogador, como posição e adversário.

Todos querem reduzir o risco de transferência. Parte desse risco está na incerteza da transferência de habilidades de um ambiente de jogo para outro. Nunca podemos dizer com certeza qual será o desempenho de um jogador da equipe X na equipe Y. Isso dificulta comparações justas de jogadores em ambientes diferentes. Mas e se pudéssemos tentar eliminar alguns desses efeitos? Ou seja, e se pudéssemos colocá-los em uma mesma escala?

Vamos começar pensando na marcação de gols. Essa é, afinal, a única estatística que importa. Os jogadores são transferidos entre as ligas, portanto, podemos observar como a taxa de gols de cada jogador muda à medida que ele passa de uma liga para outra. Ao analisar muitas dessas comparações, podemos ter uma ideia do efeito de cada liga na marcação de gols.

Os resultados estão amplamente de acordo com a intuição e a sabedoria recebida; no entanto, eles têm a vantagem de serem quantificados. Descobri que a Premier League era a mais difícil de marcar gols em uma seleção das principais ligas europeias, e que ela tem se tornado cada vez mais difícil de marcar gols nos últimos anos. Estima-se que os jogadores da Premier Leauge marquem gols a uma taxa de cerca de 80% do que fariam na Serie A ou La Liga. Em outras palavras, se um jogador estivesse marcando 0,5 gol por 90 minutos (um gol a cada dois jogos) na Premier League, esperaríamos que ele marcasse mais perto de 0,6 gol por 90 minutos na Serie A. Da mesma forma, descobri que o pico de gols ocorre por volta dos 23 a 29 anos de idade, com taxas de gols estimadas em cerca de 10 a 15% mais altas do que os jogadores equivalentes por volta dos 20 ou 30 anos de idade.

Qual é a aparência desse modelo?

As variáveis que envolvem o número de eventos em um determinado período de tempo geralmente são modeladas com a distribuição de Poisson. Isso é útil e podemos pensar que a marcação de gols também tem uma distribuição aproximada de Poisson. Simplificando, a distribuição de Poisson nos diz qual é a probabilidade de vermos X eventos em um determinado período de tempo, dado um parâmetro de taxa (o número médio de eventos nesse período de tempo).

Podemos usar isso para criar um modelo que atinja nosso objetivo original de separar a habilidade do jogador dos efeitos externos. Simplesmente modelamos a taxa (gols por 90 minutos jogados) de cada jogador como o produto desses diferentes fatores:

 taxa = habilidade do jogador * efeito da idade * efeito da liga

Em seguida, estimamos cada um desses parâmetros com base nos dados. Nesse caso, a partir de um conjunto de gols marcados e minutos jogados por cada jogador em uma seleção das principais ligas europeias de 2006/07 a 2017/18 (inclusive).

Para tornar as coisas mais concretas, vamos ver um exemplo. Se quisermos fazer uma previsão, podemos simplesmente pegar o produto de cada um desses parâmetros. Assim, para obter uma estimativa de gols de Pierre-Emerick Aubameyang em 2018/19, basta pegar a "estimativa de habilidade do jogador" (0,53), a estimativa da liga (0,84) e o efeito estimado da idade de 29 anos (1,08) e multiplicá-los. Isso nos dá uma taxa de gols estimada de cerca de 0,48 gols por 90 minutos jogados.

Idade

A faixa mostra o intervalo de credibilidade de 95% para cada idade, com a linha escura sendo a mediana. Quanto mais larga a faixa, menor é a certeza do modelo.

Cada parâmetro de idade é estimado independentemente um do outro. Não há nada no modelo que force a forma de U não invertido; a curva limpa e agradável que você vê vem inteiramente dos dados. Embora seja fácil pensar em um punhado de exceções, os dados são claros: a idade de pico para marcar gols é por volta dos 23 a 29 anos.

Há também um pico pequeno, mas significativo, por volta dos 20 anos de idade. Tenho algumas ideias sobre o que pode estar causando isso. Em média, os substitutos pontuam mais do que o jogador titular. Isso se deve a alguns motivos, provavelmente devido à vantagem de jogar contra adversários cansados, bem como aos efeitos do placar (os times que perdem marcam mais do que os que empatam) e aos efeitos táticos. Suspeito que isso possa estar produzindo o pico, pois os jogadores jovens são frequentemente escalados como substitutos e têm maior probabilidade de jogar em funções ofensivas. No entanto, também pode ser ruído ou alguma outra peculiaridade da coleta de dados ou elementos táticos.

Esse gráfico mostra a mudança no efeito relativo de diferentes ligas sobre a pontuação ao longo do tempo. Um valor mais baixo significa que os jogadores tendem a marcar menos gols nessa liga em relação às outras.

Esses dados sugerem que a Premier League está ficando mais difícil de fazer gols ao longo do tempo, enquanto a Ligue Un e a Liga Portuguesa estão ficando mais fáceis de fazer gols.

É importante observar que isso não significa necessariamente que essas ligas sejam piores do que a Premier League. A dificuldade de marcar gols em uma liga é um produto tanto da qualidade da liga quanto do estilo da competição. Ou seja, o número médio de gols por jogo.

Por exemplo, durante esse período, a Bundesliga teve uma média de mais de 3 gols por jogo, mas ainda assim se encontra perto do meio da tabela. Isso se deve ao fato de ser uma liga com muitos jogadores e equipes de alta qualidade. Enquanto isso, a principal liga de Portugal teve uma média de cerca de 2 gols por jogo. No entanto, devido às forças relativas das ligas, os jogadores ainda tendem a marcar mais gols por jogo em Portugal do que nas outras ligas selecionadas.

Jogadores

A lista dos melhores jogadores parece se alinhar mais ou menos com a intuição; ela acerta os dois melhores jogadores (e na ordem certa). É interessante notar que, se você ordenar pela mediana em vez do limite inferior (como mostrado aqui), Gabriel Jesus aparece em quarto lugar (cerca de 0,8). Entretanto, devido à sua idade e ao menor número de jogos disputados (na Europa, pelo menos), a incerteza em torno de sua verdadeira capacidade de marcar gols é muito maior do que, por exemplo, a de Harry Kane.

Também podemos ver que a lista apresenta em grande parte jogadores que continuaram a marcar gols nas fases mais avançadas de suas carreiras. Falarei um pouco mais sobre isso quando chegarmos às outras estatísticas.

Outras estatísticas?

É claro que o futebol é muito mais do que apenas gols. E há um pouco mais nas estatísticas do futebol do que apenas gols. Podemos aplicar a mesma lógica que usamos para comparar as taxas de gols em diferentes épocas e competições a outras métricas. Selecionei chutes, passes-chave (o passe antes do chute, às vezes chamado de assistência de chute), passes no terço final e cobranças concluídas.

Esses dados são provenientes de um conjunto de dados ligeiramente diferente daquele usado para os gols. A OptaPro forneceu dados F9 (estatísticas agregadas) para a Premier League, La Liga, Eredivisie e Football League Championship de 2013/14 a 2016/17 (inclusive).

Novamente, isso parece corresponder à nossa intuição. Estamos acostumados a ver os jogadores assumirem posições mais profundas no final de suas carreiras. Enquanto isso, as tomadas de posição são um jogo de jogadores jovens.

É interessante notar que a taxa de tentativas de tomada de decisões não diminui tão rapidamente quanto a taxa de tomadas de decisões concluídas. Em outras palavras, a porcentagem de conclusão de recepções aumenta com a idade. Isso pode ser uma evidência do aumento da seletividade e do aprimoramento da tomada de decisões à medida que os jogadores amadurecem.

Assim como no caso dos gols, o efeito acima é uma mistura do nível de talento e do estilo da liga. As métricas baseadas em chutes parecem estar mais intimamente relacionadas à qualidade da liga do que os passes no terço final e as cobranças de lateral.

Há alguns nomes mais surpreendentes aqui do que no modelo somente de gols. No entanto, acho que isso pode ser explicado pela curva de idade combinada com a quantidade mais limitada de dados em termos de tempo. Por exemplo, o modelo só "vê" Wes Hoolahan em um estágio relativamente avançado de sua carreira. Como ele apresentou números muito altos em relação a outros jogadores de idade semelhante, o modelo presume que ele foi o melhor do mundo em seu auge.

Ampliação do modelo

A fórmula multiplicativa no centro do modelo simplifica a extensão, simplesmente adicionando fatores extras para estimar. Uma área que poderia ser particularmente proveitosa seria a contabilização dos efeitos no jogo. Por exemplo, o tempo do jogo e o placar. Sabemos que as equipes tendem a marcar mais gols no final dos jogos e quando estão perdendo. Considerar isso poderia ajudar a melhorar a precisão das estimativas de idade e de jogadores individuais.

Outra área de melhoria poderia ser a personalização das curvas de idade. Em outras palavras, tratar a capacidade de atuar mais cedo ou mais tarde na carreira do que um jogador comum como uma habilidade distinta da de marcar gols (ou geração de chutes, passes, etc.). Isso poderia aliviar um pouco o viés de idade que vimos nas listas de melhores jogadores que vimos anteriormente.

Veja os slides da apresentação de Ben

Siga Ben (@Torvaney) no Twitter