Ir para o conteúdo principal

Modelagem da composição de entradas de críquete

Por: Stats Perform

Principais conclusões

- A equipe de ciência de dados da OptaPro desenvolveu métodos para descrever como a taxa de pontuação e a probabilidade de chutes controlados mudam para jogadores e equipes ao longo de um turno.

- Entre os batedores de abertura da Copa do Mundo, a dupla da Inglaterra, Jonny Bairstow e Jason Roy, aumenta rapidamente sua taxa de pontuação após alguns overs, em um nível superado apenas por Chris Gayle.

- Nos últimos 10 overs, Jos Buttler, da Inglaterra, acelera mais cedo do que qualquer outro na Copa do Mundo, com um aumento constante, mas consistente, da taxa de pontuação ao longo dos overs 41-50.

É20 de fevereiro de 2019, o primeiro One Day International (ODI) entre as Índias Ocidentais e a Inglaterra em Bridgetown, Barbados. A Inglaterra acabou de atingir uma meta formidável de 361. Uma olhada na tabela de pontuação mostra que Joe Root chegou a cem em 96 bolas e Chris Gayle chegou a cem em 100 bolas.

Suas pontuações finais são Joe Root 102 em 97 bolas. Chris Gayle 135 em 129 bolas.

Para um fã de críquete casual que observa o cartão de pontuação, os verbos usados para descrever os turnos de Root e Gayle podem parecer um pouco estranhos. Para medir a velocidade de um turno no scorecard, normalmente usamos a taxa de strike do turno (corridas por 100 bolas). Nesse caso, ambos têm uma taxa de strike final de 105. Então, por que alguém que assistiu ao jogo estaria inclinado a descrever seus turnos de forma diferente? Vamos dar uma olhada na progressão dos turnos para 100 corridas abaixo para ver o porquê.

 

 

Aqui temos uma ideia melhor de como os innings se desenvolveram. De maneira típica, Root foi a cola na perseguição da Inglaterra e chegou aos 100 pontos em uma taxa consistente de corridas por bola. No entanto, Gayle seguiu um caminho diferente. Suas primeiras 50 corridas ocorreram em 76 bolas e suas segundas 50 em apenas 24. Embora esse seja um exemplo bastante extremo para Gayle, não é incomum que ele comece devagar antes de mudar de marcha e acelerar em uma velocidade que poucos jogadores conseguem igualar. No entanto, no final do dia de jogo, as entradas de cada jogador no cartão de pontuação parecem notavelmente semelhantes em termos de taxa de strike.

Compreensão da progressão de innings

Para entender melhor como um determinado batedor joga, devemos considerar as medidas que evoluem ao longo de um turno. A equipe de ciência de dados da OptaPro desenvolveu métodos para comparar e avaliar o desempenho do jogador com base em como suas métricas mudam ao longo de um turno.

No caso do críquete de 50 overs, isso poderia ser a comparação de como um jogador normalmente pretende construir seus innings em termos de taxa de corridas, mas também por meio de medidas como a proporção de tacadas controladas. Podemos usar isso para comparar a abordagem que os jogadores e as equipes adotam na construção de um turno. Além disso, podemos estender isso ainda mais para observar não apenas como os jogadores constroem seus próprios innings, mas também avaliando os craques em determinados períodos de uma partida. Por exemplo, quem são os jogadores mais perigosos nos últimos 10 overs de um turno e como eles costumam atacar esses últimos lançamentos?

Como quantificar a progressão de innings

Neste blog, vamos nos concentrar em duas métricas, que usamos para modelar a evolução do desempenho do rebatedor ao longo de um turno:

- Runs previstos por entrega: Consideramos corridas por entrega em vez de taxa de strike. Isso é para distinguir entre a taxa de strike, que normalmente considera a taxa de pontuação total do turno, e as corridas previstas por entrega, que é puramente uma previsão da taxa de pontuação para uma entrega específica em um turno.

- Probabilidade Prevista de Chute Controlado: Essa métrica entre 0 e 1 é a probabilidade prevista de um batedor controlar um lançamento. Definimos arremessos controlados como aqueles em que o resultado do arremesso foi o desejado pelo batedor, variando de um arremesso alto bem cronometrado a uma rebatida bem julgada fora do toco.

Nosso objetivo é fornecer uma aproximação para essas medidas em diferentes períodos de um turno.

Para prever nossas métricas, consideramos uma janela móvel em cada entrega que leva em conta todas as entregas que o batedor enfrentou nessa janela no críquete ODI. Por exemplo, para a20ª entregade um turno, podemos considerar uma janela de duas e, portanto, analisar todas as entregas enfrentadas pelo batedor em sua carreira entrea 18ª ea 22ª entregas de um turno. Em seguida, usamos esses dados em seções específicas de um turno para ajustar um Modelo Aditivo Generalizado, permitindo previsões suaves por meio de uma curva spline (mais detalhes podem ser encontrados no final do artigo).

A dupla de abertura da Inglaterra

Para dar um exemplo, vamos considerar todos os batedores de abertura desde a Copa do Mundo de 2015 que marcaram pelo menos 400 corridas nos primeiros 15 overs nesse período. Consideramos os primeiros 15 overs para determinar como os batedores de abertura aproveitam o primeiro powerplay (overs 1-10), no qual somente dois jogadores de campo são permitidos fora do círculo interno, antes da transição para o powerplay 2 (overs 11-15), no qual quatro jogadores são permitidos fora do círculo.

Abaixo, mostramos nossa previsão de corridas por lançamento da dupla de abertura da Copa do Mundo da Inglaterra, Jonny Bairstow e Jason Roy (amarelo), juntamente com o potente rebatedor das Índias Ocidentais, Chris Gayle (azul). Todas as outras linhas (vermelho) são os demais abridores de ODI.

 

 

Essa figura mostra como a dupla de abertura da Inglaterra tem abordagens muito semelhantes nos primeiros 15 overs. Eles tendem a acelerar gradualmente a partir de um início um tanto rápido, até se estabilizarem em pouco mais de uma corrida por bola depois que o primeiro powerplay termina e o número máximo de fielders no limite é aumentado para quatro. Chris Gayle adota uma abordagem um pouco diferente. Seus dois overs iniciais são um pouco calmos em comparação com os abridores da Inglaterra, mas depois seu aumento de corridas por lançamento é significativo em comparação com todos os outros abridores. Embora nenhum dos três abridores tenha a saída inicial mais rápida, no oitavo over eles estão regularmente entre os três primeiros em termos de corridas por lançamento.

Agora vamos analisar a medida de probabilidade de chute controlado no mesmo batedor e período de turno. Aqui podemos ver que Jonny Bairstow tem uma taxa de chutes controlados consistentemente mais alta em comparação com Jason Roy. Esse controle, combinado com altas taxas de strike, mostra por que Bairstow tem tido um pouco mais de sucesso nessa posição (média de rebatidas de 50,41 corridas por turno) em comparação com Jason Roy (média de rebatidas de 40,54 por turno). Em comparação, Chris Gayle é mais vulnerável durante os primeiros 10 overs. No entanto, depois de 15 overs, sua taxa de controle está acima da média, o que, combinado com sua maior taxa de corridas por bola, mostra por que ele pode ser tão destrutivo se não for desalojado cedo.

 

 

Jos Buttler

Um dos jogadores mais destrutivos da Copa do Mundo deste ano é Jos Buttler. Não é preciso ser um especialista para deduzir isso depois de dar uma olhada em seus números desde a Copa do Mundo de 2015. Ele atinge uma taxa de ataque de cerca de 175 nos últimos 10 overs de um turno; poucos outros nesta Copa do Mundo se comparam a ele.

Vamos nos aprofundar nesses números. Será que esses números dos últimos 10 overs se devem exclusivamente à agressividade consistente? Ou Buttler é capaz de mudar de marcha como ninguém? Aqui mostramos nossa taxa prevista de corridas por lançamento nos últimos 10 overs para jogadores com pelo menos 400 corridas nesse período dos innings desde a Copa do Mundo de 2015.

 

 

Ninguém chega perto da previsão de corridas por bola de Buttler em nenhum momento nos últimos 10 overs. O que é interessante aqui é como a curva de Buttler é razoavelmente linear. Sua aceleração já começou no 41º over e é incrivelmente consistente, ao contrário de muitos dos outros jogadores que esperam até o 44º/45º overs.

Conclusão

Os exemplos deste blog destacam como os dados bola a bola podem ser utilizados para desenvolver modelos de identificação de vários arquétipos de batedores, desde abridores agressivos que assumem riscos, como Chris Gayle, até agressores consistentes em finais de turno, como Jos Buttler. Ao analisar o desempenho em uma escala mais fina, podemos extrair informações mais detalhadas sobre o desempenho do jogador. Por exemplo, mostramos como a agressividade sustentada de Jos Buttler, em vez da carga no final do turno, contribui para sua inigualável taxa de acerto nos últimos 10 overs.

Esses métodos podem ser usados para compreender e visualizar o desempenho dos batedores em todas as formas de críquete e são apenas o começo do que é possível fazer com os dados Opta para a análise do desempenho dos jogadores. Outras oportunidades incluem o uso de nossos dados detalhados de eventos, como tipos de tacadas e tendências de boliche, para complementar as informações de taxa de corridas e tacadas controladas.

Em nosso próximo blog, levaremos esses métodos adiante, mostrando como a análise de agrupamento de progressões semelhantes de taxa de corrida e taxa de controle pode ser usada para agrupar jogadores semelhantes com base em suas composições de entradas para identificar tipos de jogadores. Isso permite que nossos métodos sejam usados para identificar jogadores semelhantes, o que pode ser usado para a composição de equipes e a seleção de jogadores.

*Detalhes adicionais do modelo:

Conforme discutido no artigo, para construir os dados para os quais ajustamos nosso modelo, utilizamos uma abordagem de janela móvel.

Vamos dar uma olhada nos últimos 10 overs de ODIs como exemplo. Para os números deste artigo, usamos uma janela de tamanho 2 em cada lado da entrega de interesse, onde estamos interessados nas entregas 241-300. Portanto, para cada lançamento entre as bolas 241 e 300, pegamos o número médio de corridas marcadas em uma janela de 5 lançamentos (máximo de 2 de cada lado + lançamento de interesse) em cada turno. Em muitos casos, haverá 0 entregas enfrentadas em uma janela, portanto, não haverá dados para essa entrega naquele turno específico. Esses pontos de dados são coletados em cada entrega no segmento para cada turno que o batedor jogou.

Assim que tivermos esses pontos de dados, ajustamos um Modelo Aditivo Generalizado (GAM) no segmento de innings. Isso usa uma função suave de todos os nossos valores de corrida entre as entregas, em que usamos um spline de base penalizada para controlar a suavidade da nossa curva e evitar o ajuste excessivo. Também podemos criar intervalos de confiança, já que estamos calculando a média apenas das janelas de 5 entregas dentro dos turnos, e não entre os turnos. Para evitar um problema comum que as splines têm com previsões erráticas em suas bordas, incluímos um buffer de 5 overs para a coleta de dados (se possível). Por exemplo, para os overs 41-50, ajustamos o modelo aos overs 36-50, mas descartamos os overs 36-40 na análise de previsão. Também ignoramos as previsões na janela final (entregas 40.0-40.2 e 49.4-49.6 neste exemplo) para reduzir o impacto dos efeitos de borda em que não podemos incluir mais entregas fora do segmento de interesse.