라인을 뚫는 패스는 얼마나 큰 영향을 미칠까?

데이터 과학자 쿠바 미할치크(Kuba Michalczyk)는 Stats Perform 기고한 블로그 글에서, 트래킹 데이터를 활용해 라인을 뚫는 패스가 득점 확률을 높이는지 여부를 규명하기 위한 연구 프로젝트의 결과를 소개합니다.

Stats Perform

~ 9분 소요

쿠바 미할치크는 2년 연속으로 2020 옵타프로 포럼(OptaPro Forum) 발표 후보에 선정되었습니다.

쿠바의 ‘포럼’ 프로젝트는 벨기에 프로리그에서 제공한 2018/19 시즌 추적 데이터를 활용해 수비 라인을 뚫는 패스를 식별하고 평가했으며, 이후 해당 패스가 득점 확률을 높였는지, 혹은 반대로 볼을 빼앗길 위험을 높였는지에 따라 점수를 매겼습니다.

이 게스트 블로그에서 그는 자신의 프로젝트에 적용된 방법론을 설명하고, 주요 연구 결과를 요약하여 소개합니다.

서론

라인을 뚫는 패스는 축구 해설가, 감독, 전문가들 사이에서 널리 논의되는 주제입니다. 상대 팀의 포메이션 라인을 가르는 이러한 패스는 대개 팀이 한 공격 단계에서 다음 단계로 전환할 수 있게 해줍니다.

따라서 선수의 수비 라인을 뚫는 좋은 패스를 구사하는 능력은 매우 높이 평가됩니다. ‘패킹(packing)’이나 ‘프로그레시브 패스(progressive passes)’와 같은 기존 통계 지표가 때로는 이를 간접적으로 나타내는 지표로 활용될 수 있지만, 저는 이러한 패스의 가치를 직접 측정할 수 있는 새로운 방법을 마련하기 위해 2018/19 시즌 벨기에 프로 리그의 Stats Perform 데이터를 활용했습니다.

줄 바꿈 패스 정의

이 연구의 출발점은 각 플레이어가 움직임을 통해 한 포메이션 라인에서 다른 포메이션 라인으로 전환할 수 있다는 점을 고려하여, 포메이션 라인을 탐지하기 위한 신뢰할 수 있는 접근 방식을 확립하는 것이었습니다.

선수들을 라인별로 묶는 가장 자연스러운 방법은 경기장의 x좌표(터치라인 좌표)에 클러스터링 알고리즘을 적용하는 것입니다. 몇 가지 클러스터링 알고리즘을 테스트한 끝에, 저는 가장 간단한 알고리즘 중 하나인'젠크스 자연 분할 최적화(Jenks natural breaks optimisation)'를 사용하기로 결정했습니다. 이 알고리즘을 통해 필드 플레이어들로 구성된 세 개의 클러스터가 형성되고(골키퍼들은 네 번째 클러스터를 형성합니다), 클러스터 평균으로부터의 편차를 줄이는 데 있어 효율적이고 이해하기 쉬운 기법입니다.

행 간 급격한 전환을 방지하기 위해 x 좌표 값을 2초 간격으로 평균화했습니다. 또한 1초 미만 지속된 구간은 제거하고 이전 행에 재할당했습니다.

정해진 수의 클러스터를 적용하는 것이 축구의 다른 측면을 분석하는 데 있어 최적의 접근 방식은 아닐 수 있지만, 수비 라인을 뚫는 패스를 분석할 때는 이 방법이 타당하다고 판단했습니다. 왜냐하면 대부분의 경우 수비 팀이 일반적으로 이러한 방식으로 포메이션을 구성하기 때문입니다. 또한, 클러스터 수를 가변적으로 허용할 경우, 실제로는 수비 라인을 형성하지는 않지만 수비 포메이션에 있어 위치 선정이 결정적일 수 있어 무시할 수 없는 선수 한 명으로만 구성된 클러스터가 발생할 가능성이 높기 때문입니다.

그림 1. 1차원 클러스터링을 이용한 형성선 탐지 예시

이 분석의 목적상, ‘라인 돌파 패스’란 기하학적 의미에서 상대 진영의 라인 중 적어도 하나와 교차할 뿐만 아니라 다음 조건을 모두 충족하는 패스로 정의된다:

– 공을 최소 10미터 이상 전진시킨다;

– 교차점으로부터 최소 5미터 이상 떨어진 지점을 기점으로 하며;

– 라인에서 가장 안쪽에 위치한 선수의 뒤쪽 최소 2미터 지점을 종착점으로 한다.

이 정의는 다음과 같은 패스를 제외합니다:

– 기하학적 관점에서 볼 때 라인을 뚫지만, 다음 공격 단계로 이어지기는 어려울 것으로 보인다;

– 관통하는 선과 매우 가까워 시공이 매우 간편합니다.

또한 이 정의에 따르면, 패스를 받는 선수는 깨진 라인에 속해 있던 상대 선수로부터 압박을 받지 않는다.

분석에는 모든 오픈 플레이 패스가 포함되었으나, Z 좌표(공의 높이)가 데이터 표본에 포함되지 않았기 때문에, 이번 분석 결과에는 패스가 공중으로 넘겨졌는지 지면을 따라 전달되었는지는 반영되지 않았다.

모델 자체로 넘어가기 전에 마지막으로 고려해야 할 점은 ‘인터셉트된 패스’를 정의하는 데 따르는 어려움입니다. 인터셉트의 종료 좌표는 필드상에서 인터셉트가 발생한 위치를 나타낼 뿐이므로, 이를 바탕으로 해당 패스가 라인을 뚫기 위한 것이었는지 여부를 판단할 수는 없습니다.

그러나 패스의 각도와 패스 거리의 하한값에 대한 정보가 있으므로, 패스의 의도된 최종 목적지를 추론해 볼 수 있습니다. 이를 위해, 하한값이 있는 데이터를 다루는 데 특히 적합한 기법인와이불 생존(Weibull Survival) 모델을 적용하여, 가로채기 지점으로부터의 예상 추가 패스 거리를 추정합니다. 이러한 방식으로, 패스가 차단되었더라도 예측된 목적지가 라인 돌파로 분류된 경우, 해당 패스를 실패한 라인 돌파 패스로 표시할 수 있습니다.

패스에 가치를 부여하는 모델 구축

이 프로젝트의 초기 목표는 공간적 특성이 유사한 패스를 비교함으로써, 줄 바꿈이 포함된 패스와 그렇지 않은 패스의 가치를 정량화해 보는 것이었습니다.

이상적으로는, 이용 가능한 방대한 추적 데이터를 반영한 기대 점유 가치(EPV) 모델을 적용했어야 했다. 하지만 안타깝게도, 신뢰할 수 있는 추적 데이터 기반 EPV 모델을 구축하는 것은 복잡한 작업이며, 최종 목표가 가져다줄 이점에 비해 지나치게 많은 시간이 소요될 것이다.

반대로, 슈팅이 아닌 상황까지 포함하는 기대 득점 모델은 경기장 후방 지역에서의 이벤트에 가중치를 부여하는 방식이라 이 작업에는 지나치게 경직된 접근 방식이었을 것입니다. 따라서 저는VAEP 프레임워크와 유사한 기대 점유율 모델을 채택했는데, 이 모델에서는 트래킹 데이터에서 추출한 다음 특징들을 활용하여 이벤트 데이터를 보강합니다:

최대 “시야각”이란, 공을 가진 선수 앞의 첫 번째 상대 수비 라인에서 볼과 인접한 두 선수 사이에 형성되는 최대 각도를 말한다;
그림 2: “시야각”의 예시. 공을 소유한 선수가 수비 라인 내의 두 상대 선수 사이로 패스할 수 있는 영역을 보여준다. 알파(alpha)로 표시된 선수 1, 공, 선수 2 사이의 각도가 이 시나리오에서 허용되는 최대 각도이다. 선수 3, 공, 선수 4 사이의 각도는 음수이므로, 아래 3번 항목에서 정의된 ‘라인 무결성’을 계산할 때는 무시된다.
공을 가진 선수 바로 앞의 첫 번째 수비 라인에 있는 인접한 선수들 간의 최대 거리;
‘선 무결성’은 양의 시야각의 역수의 합으로 정의된다;
‘라인 밀집도’는 일렬로 서 있는 인접한 선수들 간의 거리의 역수의 합으로 정의된다;
동작의 시작과 끝에서 ‘피치 제어’ 값은 본 문서에서 소개한 모델에 따라 정의됩니다. 2018년 슬론 컨퍼런스에서 루크 본(Luke Bornn)과 하비에르 페르난데스(Javier Fernandez)가 집필한 백서.
그림 3: ‘피치 제어’ 모델의 출력 예시

첫 번째 전술과 두 번째 전술 모두, 볼을 소유한 선수에게 가장 가까운 수비 라인의 배치에서 발생할 수 있는 취약점을 공략하려 한다. ‘시야각’의 기본 전제는, 두 선수와 공이 이루는 각도가 넓을수록 패스가 더 수월하다는 것이다. 이는 두 선수가 서로 멀리 떨어져 있거나, 볼을 소유한 선수가 상대 수비 라인에 더 가까이 위치해 있기 때문일 수 있다.

그러나 일렬로 선 선수들 간의 간격은 많은 코치들이 선수들에게 포지션 배치를 전달할 때 사용하는 핵심적인 지표이므로 매우 중요합니다. 따라서 세 번째와 네 번째 항목은 첫 번째 선수 그룹의 전체적인 포지션 배치를 파악하는 것을 목표로 하며, 여기서 1번과 2번 항목에서 설명한 두 가지 개념을 모두 적용합니다.

두 측정값 모두에 대한 직관적인 비율을 유지하기 위해 각도와 거리의 역수를 합산하여 적용할 때, 낮은 값은 위치 선정이 좋지 않음을 나타내고 높은 값은 안정적인 설정을 보여줍니다.

한 가지 중요한 점은 ‘라인의 견고성’이 음의 시야각을 고려하지 않는다는 것입니다. 그림 2의 상황을 다시 살펴보면, 이 음의 시야각은 3번 선수, 공, 그리고 나머지 라인 뒤에 사실상 가려져 있는 4번 선수 사이에서 발생합니다. 이 경우, 잠재적인 패스는 반대편에서 이 두 선수를 통과할 수밖에 없으며, 이로 인해 2번과 3번 선수 사이의 라인이 더 일찍 뚫리게 됩니다. 따라서 4번 선수의 위치를 완전히 무시할 수는 없으나, 1, 2, 3번 선수의 위치에 비해 그 중요도는 낮습니다. 결과적으로 저는 계산에 음의 시야각을 포함하지 않기로 결정했습니다.

다섯 가지 특징 모두VAEP 프레임워크에 따라 처리되었는데, 간단히 말해 점유 체인 내의 현재 이벤트와 그 이전 두 이벤트의 특성을XGBoost모델에 입력하여, 향후 10번의 플레이에서 해당 팀이 득점하거나 실점할 확률을 예측하는 방식이었다.

라인을 뚫는 패스가 득점 확률을 높여주나요?

아래 바이올린 플롯은 패스가 라인을 뚫는 패스인지 여부에 따라, 패스 이후 발생하는 10개의 이벤트 중 어느 하나에서 득점하거나 실점할 확률을 보여줍니다.

바이올린 플롯에서 면적이 넓을수록, 해당 확률이 할당된 시나리오의 비중이 더 크다는 것을 의미합니다. 점들은 확률의 중앙값을 나타내며, 막대는 25분위수와 75분위수 사이의 범위를 보여줍니다.

실용적인 y축 범위를 유지하기 위해, 확률이 가장 높은 값 중 1%를 제외했습니다.

비록 이 접근 방식이 통계적 엄밀성이 부족하긴 하지만, 라인을 뚫는 패스가 득점 확률을 높여준다는 점을 보여주며, 그 중앙값은 라인을 뚫지 않는 패스에 비해 거의 두 배에 달한다.

또한 아래에서 강조된 바와 같이, 라인을 뚫지 못한 패스가 실점 확률을 그다지 높이지 않는 것으로 보인다는 점도 주목할 만하다.

실용적인 y축 범위를 유지하기 위해, 확률이 가장 높은 값 중 1%를 제외했습니다.

라인을 뚫는 패스를 가장 효과적으로 성공시킨 선수는 누구였을까?

선수 선발 과정에서 패스로 상대 수비 라인을 뚫는 능력을 평가하는 것의 장점 중 하나는, 패스를 통해 상대 수비 라인을 효과적으로 뚫어내는 데 능한 유망주를 발굴하는 데 도움이 된다는 점이다.

아래 산점도는 2018/19 프로 리그에서 최소 10경기 이상 중앙 수비수로 출전한 모든 선수를 대상으로, 90분당 시도한 라인 돌파 패스 횟수와 성공률을 나타낸 것입니다.

우측 상단 사분면에 속한 선수들은 두 항목 모두에서 평균 이상의 점수를 기록했다.

중앙 수비수로 최소 900분 이상 출전한 선수들만 포함되었습니다.

진격적인 패스를 시도하는 센터백들과 마찬가지로, 수비형 미드필더에게도 공을 다음 공격 단계로 연결하는 능력이 매우 중요합니다. 수비형 중앙 미드필더로 분류된 선수들의 기록은 아래 그래프에 표시되어 있습니다.

지난 시즌 가장 눈에 띄는 선수 중 한 명은 지난 여름 겐크에서 아탈란타로 이적한 루슬란 말리노프스키였다.

수비형 미드필더로 최소 900분 이상 출전한 선수들만 포함되었습니다.

이벤트 데이터를 통해 라인을 뚫는 패스를 식별할 수 있습니까?

줄 바꿈 패스를 자동으로 감지할 수 있는 기능은, 이를 수동으로 찾아내는 데 상당한 시간을 할애해야 하는 영상 분석가에게 상당한 업무 효율 향상을 가져다줄 수 있습니다.

참고로, 국내 대회 외에는 추적 데이터를 확보하기 어렵다는 점을 감안하여, 본 연구의 일환으로 이벤트 데이터에서 추출한 특징량만을 바탕으로 패스가 라인을 뚫었는지 여부를 예측하는 모델을 구축하는 방안도 모색했다.

이 모델은 84%의 정확도와 93%의 AUC 점수를 기록했는데, 이는 100번 중 84번의 경우 패스가 라인을 뚫는 것인지 아닌지를 예측할 수 있었음을 의미합니다.

하지만 전체 패스 중 라인을 뚫는 패스가 8%에 불과했기 때문에, 라벨을 할당할 때의 기준점을 정하는 것이 매우 중요했습니다. 저는 리콜 89%, 정밀도 32%인 모델을 채택했습니다. 이는 모델이 모든 라인 돌파 패스의 89%를 정확히 포착할 수 있지만, 실제로는 라인을 돌파하지 않은 많은 패스를 라인 돌파로 분류하는 대가를 치러야 함을 의미했습니다. 트래킹 데이터 없이는 모델이 수비수들의 위치를 파악할 수 없다는 점을 고려하면 이는 예상된 결과였습니다.

이러한 오판이 발생할 수 있는 상황은, 한 팀이 로우 블록으로 수비하고 있는 가운데, 공을 소유한 팀이 자팀의 수비 지역에서 상대 진영의 미드필더에게 공을 내보냈으나, 해당 선수가 여전히 상대팀의 첫 번째 수비 라인 앞에 위치해 있는 경우입니다.

비록 완벽하지는 않지만, 워크플로우 측면에서 볼 때 영상 검토가 필요한 장면의 수를 줄여주어 작업 속도를 높일 수 있습니다. 또한 좋은 소식은 분석가의 선호도에 따라 기준을 조정하여 더욱 엄격한 분류가 가능하다는 점입니다.

안 좋은 소식은, 수동 개입 없이 줄 바꿈 패스를 거의 완벽하게 분류하려면 여전히 추적 데이터를 사용해야 한다는 점입니다.

이 글의 초안을 읽어보고 귀중한 피드백을 제공해 주신 카룬 싱(Karun Singh) 님께 감사의 말씀을 전합니다. 또한, 경기장 시각화 자료를 제작하는 데 사용된 코드를 확장해 주신 리카르도 타바레스(Ricardo Tavares) 님과, 데이터 전처리에 사용된 코드를 제공해 주신 Socceraction 패키지 개발자 분들께도 감사를 드립니다. 분석에 사용된 데이터는 벨기에 프로 리그( Stats Perform Pro League)에서 제공했으며, Stats Perform 수집했습니다.