주요 콘텐츠로 건너뛰기

클러스터링을 사용하여 빌드업 플레이의 패턴 파악하기

기준: Stats Perform

쿠바 미칼치크는 2017/18 시즌 동안 각 프리미어 리그 팀의 빌드업 플레이를 시각화하기 위해 클러스터링 기법을 적용한 포스터 발표를 2019 OptaPro 애널리틱스 Forum 선보였습니다.

이 게스트 블로그에서 그는 프레젠테이션의 방법론에 대한 개요와 주요 결과를 요약하여 설명합니다.

쿠바의 포스터를 보려면 여기를 클릭하세요.

소개

수년 전 축구 분석의 선구자인 찰스 리프는 짧은 플레이 시퀀스가 더 성공적이라는 결론에 도달했습니다. 이 잘못된 해석은 영국에 기반을 둔 몇몇 팀을 포함하여 많은 팀에서 비슷한 접근 방식을 채택하는 시기와 일치했습니다.

그러나 최근 몇 년 동안 후방에서 빌드업을 시도하는 팀이 늘어나면서 이러한 추세는 역전된 것으로 보입니다. 이를 위해서는 수비수와 골키퍼가 더 나은 패스 기술을 갖추고 빌드업 초기 단계에 많이 관여해야 합니다. 하지만 수비 지역에서 공을 잃을 때마다 팀이 취약해지기 때문에 추가적인 위험이 따릅니다.

코치들은 상대가 후방에서 빌드아웃을 시도하는 기본 패턴을 파악함으로써 선호하는 패스 위치와 플레이 스타일을 빠르게 파악할 수 있습니다. 이러한 결과는 전술 분석을 뒷받침하여 팀이 초기 단계에서 상대의 공격을 막거나 단순히 팀 포지셔닝을 통해 상대가 훈련되지 않았거나 비효율적인 방식으로 공을 플레이하도록 강요하는 전략을 고안할 수 있습니다.

따라서 저는 옵타프로 Forum 프로젝트에서 2017/18 프리미어리그 시즌의 이벤트 데이터를 사용하여 각 팀이 후방에서 구축하는 방식에서 근본적인 패턴을 발견할 수 있는 프레임워크를 준비했습니다. 이 분석은 두 부분 모두에 클러스터 분석을 사용하는 2단계 분석이었습니다.

클러스터 분석은 감독되지 않은 설정, 즉 미리 알려진 레이블 없이 관측값을 분류하는 데이터 마이닝 접근 방식입니다. 클러스터링의 결과로 형성된 그룹은 서로 유사한 관측값을 포함해야 하며, 개별 그룹의 관측값은 유사하지 않아야 합니다.

1부 - 시작 패스의 클러스터링

이 분석의 첫 번째 부분에서는 이러한 관찰이 패스를 시작하는 것으로 정의되었습니다:

- 공이 피치 위로 상당히 높이 올라간 경우(골라인에서 측정한 각도가 15도 미만인 패스는 제외);

- 는 수비 3번째 구역 내에서 출발점을 가졌습니다;

- 는 골키퍼나 수비수에 의해 만들어졌습니다;

- 헤딩 패스나 골키퍼의 슛이 아니었습니다.

이 정의에는 몇 가지 한계가 있다는 점을 강조해야 합니다. 첫째, 빌드업 단계에서 종종 센터백을 지원하는 수비형 미드필더의 패스는 고려되지 않았습니다. 이는 데이터 샘플에 세부적인 포지션이 없기 때문입니다.

한 가지 잠재적인 해결책은 선수와 관련된 이벤트의 평균 위치를 추정하는 것이었지만, 이러한 접근 방식은 평균의 단점에 영향을 받을 수 있습니다. 선수들이 경기 중에 포지션을 변경하는 경우가 있기 때문에 평균 위치가 오해의 소지가 있을 수 있습니다. 따라서 이 분석에서는 모든 미드필더의 패스는 제외했습니다. 하지만 특정 팀을 분석할 때 분석가는 홀딩 미드필더로 뛰는 선수를 결정하여 입력 데이터 세트에 포함시킬 수 있습니다.

또 다른 한계는 이 분석이 전체 시즌의 데이터를 기반으로 하므로 팀의 플레이 스타일에 영향을 줄 수 있는 감독이나 선수의 변화를 고려하지 않는다는 사실입니다. 그러나 전체 시즌의 데이터가 있으면 각 팀에 대해 일관성 있는 분석을 할 수 있고 비교 가능한 샘플 크기를 확보할 수 있습니다.

나중에 설명할 알고리즘을 선택하면 패스를 클러스터로 분류하는 데 필요한 최소 유사 패스 수를 지정할 수 있으므로 이 매개변수를 줄이고 훨씬 적은 수의 게임에서 분석을 수행할 수 있습니다. 이렇게 하면 변화를 고려한 최근 경기 또는 경기를 기반으로 상대팀 분석을 수행할 수 있습니다.

이 정의를 통해 팀당 평균 1,527개의 패스가 포함된 패스 공간 좌표 데이터 세트가 생성되었으며, 이는 1단계의 입력 데이터를 구성합니다.

클러스터링 알고리즘에 데이터를 넣기 전에 데이터가 어떻게 흩어져 있는지 파악하는 것이 좋습니다. 여기에는 일반적으로 주성분 분석(PCA)이 도움이 됩니다. PCA는 차원 축소 기법으로, 2차원 공간에서 단일 지점의 통과를 표현할 때 원래 좌표(시작 x, y 및 끝 x, y 좌표)의 가변성을 최대한 보존할 수 있게 해줍니다.

맨체스터 유나이티드의 시작 패스를 보여주는 PCA의 출력 예시는 아래에서 확인할 수 있습니다.

 

그림 1: 맨체스터 유나이티드 시작 패스에 대한 PCA 출력. 색상이 밝을수록 해당 영역에서 패스가 더 많이 발생합니다.

 

이 결과에서 우리는 외부에 6개의 작은 원형 영역과 중앙에 하나의 큰 영역으로 이루어진 7개의 밀집된 영역을 관찰할 수 있으며, 모두 다양한 수의 브리지 포인트로 연결되어 있습니다. 이러한 브리지 포인트는 데이터를 분리하기 어렵게 만들며, 특히 널리 알려진 k-평균 알고리즘과 같은 최적화 기반 클러스터링 방법으로는 클러스터링하기 어렵습니다.

하지만 클러스터에 대한 저의 직관은 K-평균 가정과는 달랐습니다. 반복적인 패턴을 감지하고 싶었기 때문에 브리지 포인트와 다른 형태의 노이즈를 무시하고 밀집된 영역을 포착하는 것이 목표였습니다. 따라서 DBSCAN(노이즈가 있는 애플리케이션에 대한 밀도 기반 공간 클러스터링) 알고리즘을 사용했습니다. 여기서 노이즈는 정상적인 빌드업 설정에서 만들어지지 않은 패스(예: 압력을 받거나 위치를 벗어난 패스 등)로 해석할 수 있습니다. 팀에 따라 패스의 53~80%가 노이즈로 분류되어 유의미한 플레이 패턴만 남았습니다.

또 다른 필수적인 선택은 일종의 이질성 측정이었습니다. 제 1차 목표는 플레이 방향을 설정하는 것이었고 패스의 전진 진행은 부차적인 문제였기 때문에 Y 좌표에 더 많은 가중치를 두기로 결정했습니다. 이렇게 가중치를 선택한 이유는 피치 길이보다는 피치 폭과 관련된 패스 방향에 더 신경을 썼기 때문입니다.

 

 

그림 2는 각 프리미어 리그 팀의 메도이드 패스를 보여줍니다. 메도이드는 클러스터 내의 다른 모든 패스와 가장 유사한 클러스터 대표 패스입니다. 일부 팀은 중앙 미드필더로 패스하는 것을 피하고 공을 넓게(본머스 등) 또는 길게(웨스트 브롬) 분배하는 것을 선호하는 반면, 맨체스터 시티는 당연히 짧은 중앙 패스를 많이 하는 것을 알 수 있습니다. 또 다른 좋은 예는 레스터 시티로, 다른 팀에서는 볼 수 없었던 패스 유형인 하프라인을 겨냥한 대각선 패스를 주로 사용합니다.

허더즈필드 타운과 리버풀의 유사점도 발견할 수 있지만, 테리어스는 짧은 중앙 패스를 사용하지 않고 대신 롱볼 클러스터를 선보였습니다.

그림 2는 포지션별 빌드업 참여도를 분석하는 데에도 사용할 수 있습니다. 예를 들어, 크리스탈 팰리스의 왼쪽 백은 오른쪽 백보다 빌드업 플레이에 훨씬 더 많이 관여할 수 있습니다. 그러나 이러한 결론은 클러스터 동질성을 통해 반증해야 합니다.

이제 아스날로 시선을 돌려보겠습니다. 그림 2를 보면 아스널이 왼쪽보다 오른쪽에서 훨씬 더 자주 공격을 시작했다는 결론을 내리고 싶을 수 있습니다.

아래 그래픽은 아스날 클러스터의 전체 구조를 나타내며, 클러스터 메도이드는 진한 파란색으로 표시되어 있습니다. 왼쪽에는 두 개의 동질적인 클러스터가 있는 반면 오른쪽에는 보다 이질적인 구조의 클러스터가 하나만 형성되어 있기 때문에 실제 차이는 그다지 분명하지 않습니다. 따라서 이 그래픽은 클러스터 내 변화를 고려하는 동시에 아스날이 선호하는 빌드업 방향을 설정하는 데 도움이 됩니다.

 

 

2부 - 모달 후속 작업

분석의 두 번째 부분에서는 이 질문에 답하고 싶었습니다: 가장 빈번한 빌드업이 특정 시작 패스 클러스터에서 시작될 때 어떤 양상을 보이는가?

이를 위해 특정 클러스터에서 시작된 모든 플레이 시퀀스를 가져와 시계열 데이터에 적합한 유사성 측정값인 동적 시간 왜곡(DTW)과 결합된 선호도 전파를 사용하여 클러스터를 만들었습니다. 이 측정법을 사용하면 비슷한 형태의 경로를 식별할 수 있습니다.

두 시퀀스 간의 거리를 계산하기 전에 DTW는 하나의 시퀀스를 최대한 기준과 유사하게 정렬하려고 시도하므로 전체 경로가 비슷하다면 시퀀스 내의 속도와 패스 횟수 차이는 무시됩니다.

그러나 하나의 시퀀스에는 몇 개의 시작 패스가 포함될 수 있습니다(1부에서 정의한 대로). 따라서 한 시퀀스의 일부가 두 번 간주되는 것을 방지하기 위해 공이 수비 3진에 다시 들어가면 시퀀스를 두 개의 시퀀스로 나누었습니다. 그 결과 상당수의 시퀀스가 수비수에게서 공을 빼앗았다가 바로 다시 되돌아오는 2패스 교환에 불과해 충분한 정보를 제공하지 못했습니다. 그러나 공이 길게 플레이된 경우 투 패스 시퀀스는 여전히 흥미로울 수 있습니다.

이러한 이유로 하프라인을 넘지 않은 모든 장면은 삭제되었습니다. 팀이 공격하는 방식이 아니라 후방에서 빌드 아웃하는 방식에 중점을 두었기 때문에 공이 마지막 3분의 1에 들어간 경우 시퀀스를 잘라냈습니다. 이는 맥락과 무관한 정보를 사용하여 시퀀스를 매칭하는 것을 피하기 위한 조치였습니다.

마지막으로, 실패한 시작 패스로 구성된 모든 시퀀스는 이미 1단계에서 분류되었으므로 제거되었습니다.

 

 

그림 4: 2단계의 출력 예시 - 클러스터 1에서 패스를 시작한 후 상위 3개 모드 빌드업. 점선은 공을 운반 중임을 나타냅니다. 실선은 패스를 나타냅니다. 색상은 진한 파란색에서 연한 파란색으로 시작하여 순서 순서를 나타냅니다. 폭은 시퀀스 내 최대 수평 차이( 미터) 로 측정됩니다 . 절대 너비는 시퀀스 내 중앙 수직선으로부터의 최대 거리( 미터) 로 측정됩니다 . 직접성은 상대 골라인까지의 순 거리 차이를 시퀀스 동안 공이 이동한 총 거리로 나눈 값으로 측정합니다 .

그림 4는 아스널에서 가장 빈번하게 발생하는 클러스터 1의 시작 패스에 대한 세 가지 빌드업을 보여줍니다. 표본 크기가 작기 때문에 이러한 결과는 신중하게 받아들여야 하지만, 제시된 클러스터를 통해 어떤 시작 패스가 측면에서의 직접 공격 또는 중원을 통한 긴 빌드업 플레이를 활성화하는 경향이 있는지 등을 알 수 있습니다.

결론

Forum 받은 전반적인 피드백은 압도적으로 긍정적이었습니다. 클럽 분석가들은 특히 팀 간의 차이점을 찾아내고 잠재적인 약점을 감지할 수 있는 기능을 높이 평가했습니다. 이러한 관심 지점을 발견하는 것은 리그 관점이 아니라 팀 수준에서 데이터를 분석하는 데 초점을 맞추었기 때문에 가능했습니다.

한 가지 더 개발할 수 있는 것은 클러스터링의 품질을 공식적으로 평가할 수 있는 통계적 척도입니다. 저는 다양한 클러스터 검증 기법에 대해 꽤 많은 시간을 들여 공부했지만, 축구의 관점에서 볼 때 적절한 방법은 없었습니다.

따라서 모든 클러스터를 시각적으로 검증하고 인접한 값에 걸쳐 클러스터가 안정적으로 유지되도록 DBSCAN 파라미터를 선택했습니다. 클러스터 검증 통계가 있으면 사람의 편견을 줄일 수 있을 뿐만 아니라 프로세스를 자동화하는 데도 도움이 됩니다.

특정 팀의 결과가 궁금하다면 함께 제공되는 ShinyApp을 살펴보세요.

또한 트위터에서 공개적으로 또는 쪽지를 통해 여러분의 생각이나 인사이트를 주저하지 마시고 저와 공유해 주세요.