Ir para o conteúdo principal

Identificação de arquétipos de batedores

Por: Stats Perform

Principais conclusões

- Mostramos como a análise de agrupamento de progressões de innings pode ser usada para agrupar jogadores com arquétipos de rebatidas semelhantes, como jogadores de baixo risco que aumentam a taxa de corridas no final do turno além do tempo médio.

- A ordem do meio da Inglaterra (posições 3-5) se compara favoravelmente com a da Austrália, com previsões mais altas de corrida e de taxa de controle.

- Nos 10 overs finais dos ODIs, nosso algoritmo agrupa Jos Buttler, da Inglaterra, como tendo uma taxa de pontuação incomparavelmente alta, mas também identifica Glenn Maxwell, da Austrália, no próximo grupo de jogadores mais perigosos.

Enquanto a Austrália, campeã da Copa do Mundo, se prepara para enfrentar a anfitriã Inglaterra, aplicamos duas das novas métricas avançadas da OptaPro para destacar as diferenças nas abordagens de rebatidas entre as duas equipes.

Em nosso blog anterior, apresentamos a modelagem da progressão dos turnos dos jogadores com base em previsões de taxa de corrida e taxa de controle. Esses métodos fornecem um meio de visualizar os dados das partidas em uma escala fina, o que nos permite extrair informações mais detalhadas sobre o desempenho dos jogadores. A próxima etapa na utilização desses métodos é usar os resultados do nosso modelo para identificar arquétipos de jogadores semelhantes, que podem ser usados para entender a composição da equipe.

Agrupamento de tipos de batedores semelhantes

Para recapitular brevemente, as métricas que definimos no blog anterior são:

Runs previstos por entrega: Consideramos corridas por entrega em vez de taxa de strike. Isso é para distinguir entre a taxa de strike, que normalmente considera a taxa de pontuação total do turno, e as corridas previstas por entrega, que é puramente uma previsão da taxa de pontuação para uma entrega específica enfrentada em um turno.

Probabilidade Prevista de Chute Controlado: Essa é a probabilidade de um batedor estar no controle de um lançamento. Definimos arremessos controlados como aqueles em que o resultado do arremesso foi o desejado pelo batedor, variando de um arremesso alto bem cronometrado a uma rebatida bem julgada fora do toco.

Usando essas métricas, podemos atribuir jogadores a vários grupos, com base na similaridade de seus resultados. Por exemplo, poderíamos agrupar jogadores com progressão semelhante de corridas por lançamento ou progressão semelhante da taxa de controle. Também é possível combinar essas métricas para agrupar jogadores que tenham uma evolução semelhante na taxa de corridas e de controle. Por exemplo, poderíamos usar essa ferramenta para identificar jogadores de baixo risco que aumentam a taxa de corridas nos últimos innings além do tempo médio.

Para fazer isso, usamos algoritmos de agrupamento. A ideia básica é que estamos agrupando curvas com base na distância entre elas no período de tempo de interesse. As curvas que normalmente são muito próximas umas das outras provavelmente serão colocadas no mesmo grupo. Mais detalhes sobre esse algoritmo podem ser encontrados no final deste blog.

Comparação entre a sala de máquinas da Inglaterra e da Austrália

Uma das principais diferenças entre a Inglaterra e muitas das outras equipes na Copa do Mundo deste ano é a agressividade consistente em toda a linha de rebatidas, principalmente na "sala de máquinas" (posições 3-5).

Para explorar como os principais jogadores da Inglaterra e da Austrália constroem seus innings, modelamos suas corridas por entrega e a probabilidade de controle de tiro junto com os batedores nas mesmas posições de todas as outras equipes da Copa do Mundo de 2019.

Para identificar os arquétipos de batedores, usamos nosso algoritmo de agrupamento para agrupar os jogadores com base em suas taxas de controle e de corrida simultaneamente. Podemos observar as características exclusivas de cada grupo, sendo que escolhemos o número de grupos aqui (seis) arbitrariamente e isso poderia ser aumentado para obter mais grupos descritivos.

Os gráficos a seguir representam os seis grupos de jogadores da sala de máquinas e mostram suas taxas de corrida e controle previstas, com os jogadores da Austrália e da Inglaterra destacados em dourado e azul, respectivamente. As linhas brancas tracejadas representam o desempenho médio de todos os jogadores.

 

 

Cada grupo nessa análise tem uma característica única. Os grupos cinco e seis são os dois grupos mais cautelosos em termos de acúmulo de corridas, mas com uma taxa de controle relativamente baixa e alta, respectivamente. Observe que nenhum dos jogadores da Austrália ou da Inglaterra aparece nesse grupo, destacando que as salas de máquinas de ambas as equipes são consistentemente proativas.

Os grupos três e quatro são um pouco parecidos, mas o grupo três tem uma taxa de corridas consistentemente mais alta, o que corresponde a uma taxa de controle inicial reduzida em comparação com o grupo quatro, embora isso melhore para igualar a taxa de controle do grupo quatro em 50 entregas enfrentadas. Por fim, os grupos um e dois são os grandes rebatedores.

É interessante observar as semelhanças e diferenças na forma como as salas de máquinas inglesas e australianas tendem a operar. Batendo nas posições três e quatro, Root e Morgan estão agrupados com Smith e Khawaja, respectivamente. Eles operam de maneira muito semelhante, mas a chave para o sucesso de rebatidas da Inglaterra pode ser observada pelas taxas de corrida e controle consistentemente mais altas de cada dupla. Por exemplo, as taxas de corrida e controle consistentemente mais altas de Joe Root correspondem a uma média de rebatidas de 60,39 corridas por rejeição a uma taxa de strike de 91,80 desde a Copa do Mundo de 2015, em comparação com a média de rebatidas de Steve Smith de 43,36 corridas por rejeição a uma taxa de strike de 84,59. Observando suas abordagens semelhantes agrupadas por nosso algoritmo, fica claro que eles são a cola em cada equipe com acúmulo constante de corridas e altas taxas de controle, mas Root tem sido um pouco mais consistente em ambas as áreas.

Da mesma forma, podemos observar a diferença entre os grandes rebatedores (grupos um e dois). Aqui podemos ver que Maxwell, que está agrupado com Hardik Pandya, bate em uma taxa consistentemente alta de corridas por bola. Buttler leva um pouco mais de tempo para começar, mas sua aceleração é maior do que a que Maxwell tende a administrar. Além disso, a taxa de controle de Buttler tem uma previsão mais alta ao longo das primeiras 50 entregas em comparação com Maxwell, cuja probabilidade de controle diminui constantemente ao longo das entradas sem ganho na taxa de corridas.

Os 10 grupos finais de jogadores

Outro exemplo de como podemos usar o agrupamento para separar os tipos de jogadores e entender os pontos fortes da equipe pode ser mostrado ao agrupar os batedores com base no desempenho final de 10 overs, uma métrica analisada em nosso blog anterior, em que, nesse caso, o agrupamento se baseia apenas em corridas por lançamento.

Esse agrupamento reúne jogadores que marcaram pelo menos 400 corridas em ODI desde a Copa do Mundo de 2015 e que têm uma abordagem semelhante em termos de acúmulo de corridas nos últimos 10 overs de um innings. Em destaque estão alguns jogadores importantes da Inglaterra, Austrália e também da Índia.

 

 

Em primeiro lugar, vamos observar o grupo três, que contém Ben Stokes da Inglaterra. Embora a taxa de corridas por lançamento comece alta nos overs 41-46, esse grupo mostra uma queda considerável nos quatro overs finais em comparação com os outros grupos. Esses jogadores parecem atingir um limite na taxa de corridas em torno de 1,00-1,25 corridas por lançamento nesse período do jogo. Essa ainda é uma taxa de pontuação muito rápida, mas eles não parecem atingir consistentemente aquela velocidade extra para elevar suas corridas por lançamento acima de 1,50. Ben Stokes até mostra uma queda na taxa de corridas por bola, possivelmente devido à tentativa de bater demais na bola. Isso poderia ser um ponto fraco para a Inglaterra nos overs finais, mas a previsão no final do turno pode ser incerta para jogadores com poucos pontos de dados, dos quais Stokes é um excelente exemplo. Esse assunto será discutido mais detalhadamente no final desta postagem do blog.

O algoritmo também agrupa Buttler sozinho. Conforme discutido no blog anterior, sua aceleração nos últimos 10 overs não tem paralelo nesse conjunto de jogadores. Portanto, o algoritmo de agrupamento identifica sua curva como única, sem equivalente. Entretanto, os dois grupos restantes mostram algumas comparações interessantes entre os jogadores.

Por um lado, os grupos dois e quatro seguem um padrão de aceleração um tanto semelhante ao longo dos últimos 10 overs. De fato, uma breve olhada pode não revelar nenhuma diferença importante entre eles, já que ambos os grupos têm previsões semelhantes de corridas por entrega em 50 overs de cerca de 1,25-2,00. No entanto, a principal diferença entre esses grupos é o aumento da taxa de pontuação.

O grupo dois, que inclui Moeen Ali da Inglaterra, Virat Kohli da Índia e Glenn Maxwell da Austrália, já está marcando acima da previsão média de corridas no 45º over. Eles tendem a acelerar no início, mas de forma constante nos últimos 10 overs. Entretanto, jogadores como MS Dhoni, da Índia, no grupo quatro, tendem a retardar essa aceleração. Por isso, embora os jogadores do grupo quatro tendam a aumentar para uma taxa de corridas muito respeitável por volta do 50º over, eles aceleram mais no início do turno do que os do grupo dois.

Conclusões

Os dois exemplos deste blog mostram várias maneiras pelas quais o agrupamento de jogadores com base em suas taxas de corrida e controle pode ser usado para entender os pontos fortes da equipe e do jogador.

Ao agrupar os jogadores da sala de máquinas nesta Copa do Mundo por sua composição individual de entradas, fica claro por que a Inglaterra tem pontuado consistentemente a uma taxa inigualável por qualquer outra equipe. Quando comparada com suas contrapartes australianas, a ordem do meio da Inglaterra tem um desempenho favorável tanto em termos de taxa de corridas quanto de taxa de controle.

Além disso, também podemos ver por que a Inglaterra tem sido tão forte durante os últimos 10 overs de um turno, com sua ordem de rebatidas contendo jogadores de última ordem altamente destrutivos que tendem a acelerar mais cedo do que a maioria nesse período do turno.

Esses exemplos estão apenas arranhando a superfície de como a modelagem da taxa de corrida e controle, juntamente com algoritmos de agrupamento, pode identificar arquétipos de jogadores. Observamos categorias específicas de jogadores internacionais em ODIs, mas há uma grande variedade de outras competições internacionais e nacionais às quais nossos modelos e métodos serão aplicáveis.

*Detalhes adicionais do modelo:

Para agrupar curvas semelhantes, usamos o agrupamento hierárquico de ligação completa de distância euclidiana. Os recursos que agrupamos são os valores GAM previstos em cada entrega, portanto, em um segmento de 50 entregas, cada jogador terá 50 recursos. Isso pode ser reduzido com a análise de um subconjunto de entregas para comparar as curvas. Embora não normalizemos os recursos quando agrupamos em uma única medida, quando agrupamos os jogadores com base na taxa de execução e na taxa de controle, a normalização entre as medidas é necessária.

Em termos de incerteza, também podemos estimar os intervalos de confiança correspondentes de nossas taxas de execução e controle, para dar uma ideia da incerteza em torno de nossa previsão da média de execuções por entrega. Esse é apenas um guia aproximado, pois uma das principais suposições necessárias para a estimativa robusta de intervalos usando nossa abordagem não se sustenta (variáveis de resposta gaussianas), mas dá uma ideia de onde temos menos certeza em nossos resultados. Também poderíamos considerar os intervalos de previsão, mas, devido à grande variabilidade nas execuções obtidas por meio de um único disparo, esses intervalos tendem a ser amplos e pouco informativos. Abaixo, mostramos o intervalo de confiança de 95% para Ben Stokes, para mostrar como sua estimativa de diminuição de corridas por lançamento ocorre durante uma seção de maior incerteza no resultado do nosso modelo, portanto, isso pode muito bem ser um artefato da falta de dados nesse período dos innings de Stokes.

 

 

É importante observar que esses intervalos de confiança têm maior probabilidade de aumentar nos extremos de um turno, quando os batedores têm menos oportunidade de enfrentar os lançamentos. É por isso que escolhemos um corte de 400 corridas nesse período do turno para nossos gráficos. Esse corte poderia ser reduzido, mas exigiria cuidado com a contagem de splines e com os valores dos parâmetros de suavidade usados no ajuste do modelo. A incerteza de saída é menos problemática nos gráficos de ordem média da Inglaterra vs. Austrália, pois estamos analisando períodos dos turnos de um jogador individual em vez de uma seção dos turnos de uma equipe.