주요 콘텐츠로 건너뛰기

배트맨 원형 식별하기

기준: Stats Perform

주요 요점

- 이닝 진행 상황의 클러스터링 분석을 사용하여 다음과 같이 유사한 타격 유형을 가진 선수를 그룹화하는 방법을 보여줍니다. 후반 이닝 출루율이 평균 템포보다 높은 저위험 선수.

- 잉글랜드의 중간 순위(3~5위) 호주와 비교했을 때 실점 및 제어율 예측이 더 높습니다..

- ODI의 마지막 10회 오버에서 알고리즘은 잉글랜드의 조스 버틀러를 비교할 수 없을 정도로 높은 득점률을 기록한 선수로 단독으로 분류하고, 호주의 글렌 맥스웰을 그 다음으로 가장 위험한 선수 그룹으로 분류했습니다.

월드컵 개최국 호주가 개최국 잉글랜드와의 대결을 준비하는 가운데, 옵타프로의 새로운 고급 지표 두 가지를 적용하여 양 팀 간의 타격 접근 방식의 차이를 강조했습니다.

이전 블로그에서는 출루율과 제어율 예측을 기반으로 선수의 이닝 진행 상황을 모델링하는 방법을 소개했습니다. 이러한 방법은 경기 데이터를 세밀하게 시각화할 수 있는 수단을 제공하며, 이를 통해 선수의 경기력에 대한 보다 자세한 정보를 추출할 수 있습니다. 이러한 방법을 활용하는 다음 단계는 모델 결과물을 사용하여 유사한 선수 유형을 식별하고 팀 구성을 이해하는 데 사용하는 것입니다.

비슷한 타자 유형 그룹화

이전 블로그에서 정의한 메트릭을 간단히 요약하면 다음과 같습니다:

배달당 예상 실행 횟수: 스트라이크율이 아닌 투구당 실점을 고려합니다. 이는 일반적으로 총 이닝 득점률을 고려하는 스트라이크율과 순전히 이닝에 직면한 특정 타구에 대한 득점률 예측인 타구당 예상 실점을 구분하기 위한 것입니다.

예상 제어 샷 확률: 타자가 타구를 제어할 확률입니다. 제어된 타구란 타이밍을 잘 맞춘 로프트 타구부터 잘 판단한 스텀프 바깥쪽 레프트 타구까지 타자가 원하는 타구 결과가 나온 타구를 말합니다.

이러한 지표를 사용하면 결과의 유사성에 따라 플레이어를 다양한 그룹에 할당할 수 있습니다. 예를 들어, 딜리버리 진행률 또는 제어율 진행률이 비슷한 플레이어를 함께 그룹화할 수 있습니다. 또한 이러한 지표를 결합하여 달리기 및 제어율 진화가 비슷한 플레이어를 그룹화할 수도 있습니다. 예를 들어, 이 도구를 사용하여 이닝 후반에 평균 템포 이상으로 주루율이 증가하는 저위험 선수를 식별할 수 있습니다.

이를 위해 클러스터링 알고리즘을 사용합니다. 기본 아이디어는 관심 있는 시간대에 걸쳐 커브 사이의 거리를 기준으로 커브를 그룹화하는 것입니다. 일반적으로 서로 매우 가까운 커브는 같은 그룹에 배치될 가능성이 높습니다. 이 알고리즘에 대한 자세한 내용은 이 블로그의 마지막 부분에서 확인할 수 있습니다.

영국과 호주의 엔진룸 비교

올해 월드컵에서 잉글랜드와 다른 팀들의 주요 차이점 중 하나는 타선, 특히 '엔진룸'(3~5번 포지션)에서 일관된 공격력을 보인다는 점입니다.

잉글랜드와 호주의 핵심 엔진룸 선수들이 이닝을 어떻게 구성하는지 살펴보기 위해 다른 모든 2019 월드컵 팀의 같은 포지션 타자들과 함께 이들의 타구당 득점 및 컨트롤 샷 확률을 모델링했습니다.

타자 유형을 파악하기 위해 클러스터링 알고리즘을 사용하여 제어 능력과 출루율을 동시에 기준으로 선수를 그룹화했습니다. 각 그룹의 고유한 특성을 관찰할 수 있는데, 여기서는 임의로 그룹 수(6개)를 선택했으며 이를 늘려 더 많은 설명적 클러스터를 얻을 수 있습니다.

다음 도표는 엔진룸 선수의 6개 그룹을 나타내며, 호주와 잉글랜드 선수는 각각 금색과 파란색으로 강조 표시되어 있으며 예상 런율과 컨트롤 비율을 보여줍니다. 흰색 점선은 모든 선수의 평균 성적을 나타냅니다.

 

 

이 분석의 각 그룹에는 고유한 특성이 있습니다. 5번과 6번 그룹은 실점 누적 측면에서 가장 조심스러운 두 그룹이지만, 각각 상대적으로 낮은 제어율과 높은 제어율을 보였습니다. 이 그룹에 호주나 잉글랜드 선수는 한 명도 포함되어 있지 않아 두 팀의 엔진룸이 일관되게 적극적이라는 것을 알 수 있습니다.

그룹 3과 그룹 4는 다소 비슷하지만, 그룹 3은 그룹 4에 비해 초기 제어율이 감소한 만큼 출루율이 지속적으로 높지만, 이는 50개의 배달이 발생하면 그룹 4의 제어율과 일치하도록 개선됩니다. 마지막으로 그룹 1과 그룹 2가 가장 큰 타격을 입었습니다.

영국과 호주 엔진룸의 운영 방식에 대한 유사점과 차이점에 주목하는 것은 흥미롭습니다. 루트와 모건은 각각 스미스, 카와자와 함께 3번과 4번 타순에 배치되어 있습니다. 두 선수는 매우 비슷한 방식으로 운영되지만, 잉글랜드의 타격 성공의 핵심은 각 선수의 출루율과 제어율이 지속적으로 높다는 데서 찾을 수 있습니다. 예를 들어, 조 루트는 2015 월드컵 이후 타율 91.80에 출루율 60.39를 기록한 반면, 스티브 스미스는 타율 84.59에 출루율 43.36을 기록하는 등 지속적으로 높은 출루율과 제구력을 보여주고 있습니다. 알고리즘에 의해 그룹화된 두 선수의 비슷한 접근 방식을 관찰해보면, 두 선수 모두 꾸준한 출루율과 높은 제어율로 각 팀의 접착제 역할을 하는 것은 분명하지만, 루트가 두 영역 모두에서 약간 더 일관된 모습을 보였습니다.

마찬가지로 거포들(1번과 2번 그룹)의 차이도 관찰할 수 있습니다. 여기서 하딕 판디야와 같은 그룹에 속한 맥스웰이 지속적으로 높은 출루율로 안타를 치는 것을 볼 수 있습니다. 버틀러는 출발하는 데 시간이 조금 더 걸리지만 가속도가 맥스웰보다 더 높습니다. 또한, 버틀러의 컨트롤 확률은 이닝이 거듭될수록 피안타율이 꾸준히 감소하는 맥스웰에 비해 첫 50구 동안 더 높은 예측을 보입니다.

최종 10인 이상 플레이어 그룹

클러스터링을 사용하여 선수 유형을 구분하고 팀의 강점을 파악하는 또 다른 예는 이전 블로그에서 분석한 메트릭인 최종 10오버 성적을 기준으로 타자를 그룹화하여 보여줄 수 있는데, 이 경우 그룹화는 오로지 타석당 출루 수에 따라 이루어집니다.

이 클러스터는 2015 월드컵 이후 400득점 이상을 기록한 선수들 중 이닝의 마지막 10회 동안의 득점 누계가 비슷한 선수들을 그룹으로 묶었습니다. 잉글랜드, 호주, 인도의 주요 선수들도 포함되어 있습니다.

 

 

먼저 잉글랜드의 벤 스톡스가 속한 3조를 살펴봅시다. 이 조는 41~46회까지는 배달 당 실점이 높지만, 마지막 4회까지는 다른 조에 비해 상당히 떨어지는 모습을 보입니다. 이 선수들은 이 구간에서 배달 당 1.00~1.25실점으로 실점률의 한계에 도달하는 것으로 보입니다. 이는 여전히 매우 빠른 득점 속도이지만, 배달 당 득점을 1.50 이상으로 끌어올리기 위한 추가 기어를 꾸준히 치고 있지는 않은 것으로 보입니다. 심지어 벤 스톡스는 공을 과도하게 치려고 해서인지 볼당 출루율도 하락세를 보이고 있습니다. 이는 잠재적으로 잉글랜드의 약점이 될 수 있지만, 데이터 포인트가 거의 없는 선수의 경우 이닝 막판 예측이 불확실할 수 있으며, 스톡스가 대표적인 예입니다. 이에 대해서는 이 블로그 게시물의 마지막 부분에서 자세히 설명합니다.

'알고리즘은 또한 버틀러를 혼자서 그룹화합니다. 이전 블로그에서 설명한 것처럼 버틀러의 마지막 10회 오버에서의 가속도는 다른 선수들과 비교할 수 없을 정도로 뛰어납니다. 따라서 클러스터링 알고리즘은 버틀러의 곡선을 유사한 곡선이 없는 고유한 것으로 식별합니다. 그러나 나머지 두 그룹은 선수들 간에 흥미로운 비교를 보여줍니다.

한편으로 2번과 4번 그룹은 마지막 10오버 동안 다소 유사한 가속 패턴을 따릅니다. 사실 두 그룹 모두 50구당 득점 예측치가 1.25~2.00 정도로 비슷하기 때문에 잠깐만 보면 큰 차이를 발견하기 어려울 수도 있습니다. 그러나 이 두 그룹 간의 주요 차이점은 득점률의 누적입니다.

영국의 모인 알리, 인도의 비랏 콜리, 호주의 글렌 맥스웰이 속한 2조는 45번째 오버까지 이미 평균 득점 예측을 뛰어넘는 스코어를 기록하고 있습니다. 이들은 초반부터 가속도가 붙기 시작하지만 마지막 10오버 동안 꾸준히 득점하는 경향이 있습니다. 그러나 4조에 속한 인도의 MS 도니 같은 선수들은 가속이 늦어지는 경향이 있습니다. 따라서 4조 선수들은 50회 오버에 이르러서는 매우 높은 주루율을 기록하는 경향이 있지만, 2조 선수들보다 이닝이 깊어질수록 가속도가 더 빨라집니다.

결론

이 블로그의 두 가지 예는 런율과 컨트롤 비율을 기준으로 선수를 그룹화하여 팀과 선수의 강점을 파악하는 다양한 방법을 보여줍니다.

이번 월드컵에서 엔진룸 선수들의 개별 이닝 구성을 기준으로 그룹화하면 잉글랜드가 다른 어떤 팀과도 비교할 수 없을 정도로 꾸준히 득점하는 이유를 알 수 있습니다. 호주와 비교했을 때 잉글랜드의 중간 계투진은 출루율과 제어율 모두에서 유리한 성적을 거두고 있습니다.

또한, 잉글랜드가 이닝의 마지막 10회말에 강세를 보이는 이유를 타순에서 확인할 수 있는데, 타순에는 이 기간 동안 다른 팀들보다 일찍 가속하는 경향이 있는 파괴력 높은 후순 타자들이 포함되어 있습니다.

이러한 예는 클러스터링 알고리즘과 함께 런율 및 제어율 모델링으로 선수 유형을 식별하는 방법의 표면적인 예시일 뿐입니다. 저희는 ODI에서 특정 카테고리의 국제 선수들을 관찰했지만, 이 모델과 방법을 적용할 수 있는 다양한 국제 및 국내 대회가 많습니다.

*추가 모델 세부 정보:

유사한 곡선을 그룹화하기 위해 유클리드 거리 완전 연결 계층적 클러스터링을 사용합니다. 클러스터링하는 피처는 각 배달에서 예측된 GAM 값이므로 50개의 배달 세그먼트에 걸쳐 각 플레이어는 50개의 피처를 갖게 됩니다. 커브를 비교할 배달의 하위 집합을 보면 이 수를 줄일 수 있습니다. 단일 측정값을 기준으로 클러스터링할 때는 피처를 정규화하지 않지만, 실행률과 제어율을 모두 기준으로 플레이어를 클러스터링할 때는 측정값 전반에 걸쳐 정규화가 필요합니다.

불확실성 측면에서, 배송당 평균 배송 횟수 예측을 둘러싼 불확실성에 대한 아이디어를 제공하기 위해 실행률과 통제율의 해당 신뢰 구간을 추정할 수도 있습니다. 이러한 접근 방식을 사용한 강력한 구간 추정에 필요한 주요 가정(가우스 응답 변수)이 충족되지 않기 때문에 대략적인 가이드일 뿐이지만, 결과의 불확실성이 어느 정도인지 파악할 수 있습니다. 예측 구간을 고려할 수도 있지만, 한 번의 촬영으로 얻을 수 있는 실행의 변동성이 크기 때문에 이러한 구간은 넓고 정보가 부족한 경향이 있습니다. 아래에는 벤 스톡스의 95% 신뢰 구간이 표시되어 있는데, 이는 모델 결과의 불확실성이 큰 구간에서 스톡스의 이닝당 실점 예측치가 얼마나 감소했는지 보여 주므로 이 기간의 데이터 부족으로 인한 인공적인 현상일 수 있습니다.

 

 

이러한 신뢰 구간은 이닝이 끝날 무렵, 즉 타자가 타구를 맞닥뜨릴 기회가 적을 때 증가할 가능성이 가장 높다는 점에 유의해야 합니다. 이 때문에 플롯의 이닝 구간에서 400실점을 컷오프로 선택한 것입니다. 이 컷오프는 줄일 수 있지만 모델 피팅에 사용되는 스플라인 수와 평활도 매개변수 값에 주의해야 합니다. 잉글랜드 대 호주의 중간 순위 플롯에서는 팀 이닝의 구간이 아닌 개별 선수의 이닝 기간을 살펴보기 때문에 출력 불확실성이 덜 문제가 됩니다.