주요 콘텐츠로 건너뛰기

크리켓 이닝 구성 모델링

기준: Stats Perform

주요 요점

- 옵타프로 데이터 과학팀은 이닝 동안 선수와 팀의 득점률과 컨트롤 샷 확률이 어떻게 변화하는지 설명하는 방법을 개발했습니다.

- 월드컵 개막 타자 중 잉글랜드의 조니 베어스토와 제이슨 로이 두 선수는 몇 번의 오버를 거쳐 크리스 게일만이 넘을 수 있는 수준으로 득점률을 빠르게 높였습니다.

- 마지막 10회 오버에서 잉글랜드의 조스 버틀러는 41~50회 오버 내내 꾸준하면서도 일관되게 득점률을 높이며 월드컵에서 그 누구보다 일찍 속도를 높입니다.

2019년 2월 20일, 바베이도스 브리지타운에서 열린 서인도제도와 잉글랜드의 첫 번째 원데이 인터내셔널(ODI) 경기입니다. 잉글랜드는 한때 막강했던 목표인 361점을 달성했습니다. 스코어카드를 한 눈에 보면 조 루트가 96개의 공으로 100타, 크리스 게일이 100개의 공으로 100타를 날린 것을 알 수 있습니다.

최종 스코어는 조 루트 102타 97공입니다. 크리스 게일 129공 135타.

일반 크리켓 팬이 스코어카드를 보면 루트와 게일의 이닝을 설명하는 데 사용된 동사가 조금 이상하게 보일 수 있습니다. 스코어카드에서 이닝의 속도를 측정하기 위해 일반적으로 이닝 스트라이크율(100구당 실점)을 사용합니다. 이 경우 두 선수의 최종 스트라이크 비율은 모두 105입니다. 그렇다면 경기를 지켜본 사람이 이닝을 다르게 표현하는 이유는 무엇일까요? 아래에서 100점까지의 이닝 진행 상황을 살펴보고 그 이유를 알아봅시다.

 

 

여기서 그들의 이닝이 어떻게 전개되었는지 더 잘 알 수 있습니다. 전형적인 방식으로 루트는 잉글랜드의 추격에 결정적인 역할을 했고, 꾸준한 볼넷 비율로 100이닝을 채웠습니다. 하지만 게일은 다른 길을 택했습니다. 첫 번째 50득점은 76개의 공으로, 두 번째 50득점은 단 24개의 공으로 기록했습니다. 게일에게는 상당히 극단적인 예이긴 하지만, 천천히 출발한 뒤 기어를 바꾸고 다른 선수들이 따라올 수 없는 속도로 가속하는 것은 드문 일이 아닙니다. 하지만 하루의 플레이가 끝나면 스코어카드의 각 선수별 항목은 스트라이크율 측면에서 놀라울 정도로 비슷해 보입니다.

이닝 진행 상황에 대한 이해 구축

특정 타자의 플레이를 더 잘 이해하려면 이닝 내내 변화하는 측정값을 고려해야 합니다. 옵타프로의 데이터 과학 팀은 한 이닝 동안 지표가 어떻게 변화하는지에 따라 선수의 경기력을 비교하고 평가하는 방법을 개발했습니다.

50 오버 크리켓의 경우, 이는 선수가 일반적으로 이닝을 구성하는 방식과 타구 비율을 비교하는 것일 수도 있고, 타구 비율을 조절하는 것과 같은 측정을 통해 비교할 수도 있습니다. 이를 통해 선수와 팀이 이닝을 구성할 때 취하는 접근 방식을 비교할 수 있습니다. 더 나아가 이를 확장하여 선수들이 자신의 이닝을 구축하는 방식뿐만 아니라 경기의 특정 기간에 뛰어난 활약을 펼친 선수를 평가하여 관찰할 수도 있습니다. 예를 들어, 이닝의 마지막 10회말에 가장 위험한 선수는 누구이며, 그들은 일반적으로 이러한 마지막 이닝을 어떻게 공격하는가?

이닝 진행 상황을 정량화하는 방법

이 블로그에서는 한 이닝 동안 타격 성과의 변화를 모델링하는 데 사용하는 두 가지 메트릭에 대해 집중적으로 설명합니다:

- 배달당 예상 실행 횟수: 스트라이크율이 아닌 투구당 실점을 고려합니다. 이는 일반적으로 총 이닝 득점률을 고려하는 스트라이크율과 순전히 이닝의 특정 타구에 대한 득점률 예측인 타구당 예상 실점을 구분하기 위한 것입니다.

- 예측된 제어 타구 확률: 0과 1 사이의 이 지표는 타자가 타구를 제어할 수 있을 것으로 예상되는 확률입니다. 제어된 타구란 타이밍을 잘 맞춘 로프트 샷부터 잘 판단한 스텀프 바깥쪽 레프트 샷에 이르기까지 타자가 원하는 타구 결과가 나온 타구를 말합니다.

저희의 목표는 이닝의 여러 기간에 걸쳐 이러한 측정값에 대한 근사치를 제공하는 것입니다.

지표를 예측하기 위해 각 타자가 ODI 크리켓에서 이 기간 동안 맞닥뜨린 모든 타구를 고려하는 이동 창을 고려합니다. 예를 들어, 한 이닝의 20번째배달의 경우, 두 개의 창으로 간주하여 한 이닝의 18번째부터 22번째 배달 사이에 타자가 커리어에서 직면한 모든 배달을 살펴볼 수 있습니다. 그런 다음 이 데이터를 이닝의 특정 구간에 걸쳐 일반화된 가산 모델을 적용하여 스플라인 곡선을 통해 부드러운 예측을 가능하게 합니다(자세한 내용은 글의 마지막 부분에서 확인할 수 있습니다).

잉글랜드의 개막전

예를 들어, 2015 월드컵 이후 첫 15오버에서 400득점 이상을 기록한 모든 개막전 타자를 고려해 보겠습니다. 첫 15오버를 고려하여 오프닝 타자가 두 명의 야수만 원 안쪽 바깥으로 나가는 첫 번째 파워플레이(1~10오버)를 얼마나 잘 활용했는지 확인한 후, 네 명의 선수가 원 바깥으로 나가는 파워플레이 2(11~15오버)로 전환하는지를 살펴봅니다.

아래는 잉글랜드의 월드컵 개막전 선발 조니 베어스토와 제이슨 로이(노란색)와 서인도제도의 강타자 크리스 게일(파란색)의 타구당 예상 득점을 보여줍니다. 다른 모든 선(빨간색)은 나머지 ODI 개막전 선발 투수입니다.

 

 

이 그림은 잉글랜드의 선발 투수가 첫 15회 동안 매우 유사한 접근 방식을 취하는 것을 보여줍니다. 다소 빠른 초반 시작부터 서서히 속도를 내다가 첫 번째 파워플레이가 끝나고 바운더리에 있는 야수 수가 최대 4명으로 늘어나면 공 한 개당 1런이 조금 넘는 수준에서 평준화되는 경향이 있습니다. 크리스 게일은 약간 다른 접근 방식을 취합니다. 그의 첫 두 오버는 잉글랜드의 오프너들에 비해 다소 차분하지만, 그 이후에는 다른 모든 오프너들에 비해 배달 당 실점이 크게 증가합니다. 세 명의 오프너 중 누구도 초반에 가장 빠른 출발을 보이지는 않지만, 8회 오버가 되면 배달 당 득점 면에서 상위 3위에 랭크됩니다.

이제 동일한 타자와 이닝 기간에 대한 제어구 확률 측정값을 살펴보겠습니다. 여기서 조니 베어스토우가 제이슨 로이에 비해 일관되게 높은 제어구 비율을 보이고 있음을 알 수 있습니다. 높은 스트라이크 비율과 결합된 이러한 제어 능력은 베어스토우가 제이슨 로이(이닝당 타율 40.54)에 비해 이 포지션에서 약간 더 성공적이었던 이유(이닝당 타율 50.41)를 보여줍니다. 이에 비해 크리스 게일은 첫 10회까지는 더 취약합니다. 하지만 15이닝을 넘기면 제구율이 평균 이상으로 높아지는데, 이는 가장 높은 출루율과 함께 그가 일찍 교체되지 않으면 왜 그렇게 파괴력을 발휘할 수 있는지를 보여줍니다.

 

 

조스 버틀러

올해 월드컵에서 가장 파괴적인 선수 중 한 명은 조스 버틀러입니다. 2015 월드컵 이후 그의 수치를 한 눈에 보면 전문가가 아니어도 짐작할 수 있습니다. 그는 이닝 마지막 10회 동안 약 175개의 스트라이크 비율을 기록했는데, 이번 월드컵에서 이에 필적하는 선수는 거의 없습니다.

이 수치를 좀 더 자세히 살펴봅시다. 이 최종 10 오버 수치는 순전히 일관된 공격성 때문일까요? 아니면 버틀러가 다른 선수들처럼 기어를 전환할 수 있었을까요? 2015 월드컵 이후 이 기간 동안 400실점 이상을 기록한 선수들의 최종 10회 동안의 투구당 득점 예상치를 보여드립니다.

 

 

마지막 10회 동안 버틀러의 볼당 득점 예측에 근접한 선수는 아무도 없습니다. 여기서 흥미로운 점은 버틀러의 커브가 상당히 선형적이라는 점입니다. 버틀러의 가속도는 이미 41회부터 시작되었고 44/45회까지 기다리는 다른 많은 선수들과 달리 놀라울 정도로 일관적입니다.

결론

이 블로그의 사례는 크리스 게일과 같이 위험을 감수하고 공격적으로 타석에 들어서는 타자부터 조스 버틀러와 같이 이닝 후반에 꾸준히 공격하는 타자까지 다양한 타자 유형을 식별하는 모델을 개발하는 데 볼 바이 볼 데이터를 활용하는 방법을 보여줍니다. 더 세밀한 규모로 성과를 분석함으로써 선수의 성과에 대한 더 자세한 정보를 추출할 수 있습니다. 예를 들어, 우리는 조스 버틀러가 이닝 후반에 돌격하기보다는 지속적인 공격성을 보인 것이 어떻게 그의 타의 추종을 불허하는 최종 10회 이상 피안타율에 기여했는지 보여주었습니다.

이러한 방법은 모든 형태의 크리켓에서 타자의 경기력을 이해하고 시각화하는 데 사용할 수 있으며, 이는 Opta 데이터를 선수 경기력 분석에 사용할 수 있는 것의 시작에 불과합니다. 샷 유형 및 볼링 성향과 같은 세부적인 이벤트 데이터를 사용하여 출루율 및 제어 샷 정보를 보완하는 등 추가적인 기회가 있습니다.

다음 블로그에서는 이러한 방법을 한 단계 더 발전시켜 유사한 출루율 및 제어율 진행 상황을 클러스터링 분석하여 이닝 구성에 따라 유사한 선수를 그룹화하여 선수 유형을 식별하는 방법을 보여드리겠습니다. 이를 통해 유사한 선수를 식별하여 팀 구성과 선수 스카우트에 활용할 수 있습니다.

*추가 모델 세부 정보:

이 글에서 설명한 것처럼, 모델에 맞는 데이터를 구성하기 위해 움직이는 창 접근 방식을 활용합니다.

예를 들어 지난 10번의 ODI를 살펴보겠습니다. 이 글의 수치에서는 241~300번 구종에 관심이 있는 딜리버리 양쪽의 창 크기를 2로 사용했습니다. 따라서 241~300구 사이의 각 딜리버리에 대해 각 이닝에서 5개의 딜리버리 윈도우(최대 양쪽 2개 + 관심 딜리버리)에서 득점한 평균 실점 수를 취합니다. 대부분의 경우 한 창에서 상대 투수가 0명이었으므로 해당 특정 이닝에는 해당 투수에 대한 데이터가 없습니다. 이러한 데이터 포인트는 타자가 플레이한 각 이닝의 세그먼트에 있는 각 공에 대해 수집됩니다.

이러한 데이터 포인트가 확보되면 이닝 세그먼트 전체에 걸쳐 일반화된 가산 모델(GAM)을 맞춥니다. 여기에는 모든 이닝에 걸쳐 모든 런 값의 평활 함수가 사용되며, 과적합을 방지하기 위해 페널티 기준 스플라인을 사용하여 곡선의 평활도를 제어합니다. 또한 이닝 전체가 아닌 이닝 내 5개의 배달 창에 대해서만 평균을 내기 때문에 신뢰 구간을 구성할 수 있습니다. 스플라인의 가장자리에서 예측이 불규칙해지는 일반적인 문제를 방지하기 위해 데이터 수집에 5 오버 버퍼를 포함시킵니다(가능한 경우). 예를 들어 오버 41-50의 경우 모델을 오버 36-50에 맞추지만 예측 분석에서 오버 36-40은 삭제합니다. 또한 관심 세그먼트 외부의 추가 오버를 포함할 수 없는 에지 효과의 영향을 줄이기 위해 최종 창(이 예에서는 배달 40.0-40.2 및 49.4-49.6)에서 예측을 무시합니다.