주요 콘텐츠로 건너뛰기

라인 브레이킹 패스는 얼마나 영향력이 있나요?

 

Stats Perform 게스트 블로그에서 데이터 과학자 쿠바 미칼치크는 추적 데이터를 적용하여 라인 브레이킹 패스가 득점 확률을 높이는지 확인하는 연구 프로젝트의 결과를 소개합니다.

 

기준: Stats Perform

쿠바 미칼치크는 2년 연속으로 2020 옵타프로 Forum 발표할 제안서 최종 후보에 올랐습니다.

쿠바의 Forum 프로젝트는 벨기에 프로리그에서 제공한 2018/19 시즌 추적 데이터를 적용해 라인 브레이킹 패스를 식별하고 평가한 다음, 해당 패스가 득점 확률을 높이는지, 반대로 턴오버 위험을 증가시키는지에 따라 값을 부여했습니다.

이 게스트 블로그에서 그는 프로젝트의 방법론과 주요 결과의 요약에 대해 설명합니다.

소개

라인 브레이킹 패스는 축구 분석가, 코치, 전문가들 사이에서 널리 논의되고 있습니다. 상대 진영의 라인을 무너뜨리는 패스로, 일반적으로 팀이 한 공격 단계에서 다른 공격 단계로 전환할 수 있게 해줍니다.

따라서 선수의 라인 브레이킹 패스 능력은 매우 중요하게 평가됩니다. 패킹이나 프로그레시브 패스와 같은 기존의 일부 통계가 때때로 대리 역할을 할 수 있지만, 저는 이러한 패스의 가치를 직접 측정하는 새로운 방법을 만들기 위해 2018/19 벨기에 프로 리그에서 가져온 Stats Perform 추적 데이터를 적용했습니다.

라인 브레이킹 패스 정의

이 연구의 출발점은 각 선수가 움직임에 따라 포메이션 라인에서 다른 포메이션 라인으로 전환할 수 있다는 점을 고려하여 포메이션 라인을 감지하는 신뢰할 수 있는 접근 방식을 확립하는 것이었습니다.

선수들을 자연스럽게 라인으로 묶는 방법은 경기장의 X 좌표(터치라인 좌표)에 클러스터링 알고리즘을 적용하는 것입니다. 몇 가지 클러스터링 알고리즘을 테스트한 결과, 가장 간단한 방법 중 하나인 Jenks 자연 휴식 최적화를 사용하여 외야 선수로 세 개의 클러스터를 형성하고 골키퍼가 네 번째 클러스터를 형성하는 방법을 사용하기로 결정했습니다. 이 알고리즘은 효율적이고 이해하기 쉬운 기법으로 클러스터 평균의 편차를 줄이는 데 효과적입니다.

라인 간 즉각적인 전환을 방지하기 위해 2초 동안의 평균 X 좌표를 구했습니다. 또한 1초 미만으로 지속된 그룹은 제거되고 이전 라인에 다시 할당되었습니다.

정해진 수의 클러스터를 채택하는 것이 축구의 다른 영역을 분석하는 데는 최적의 접근 방식이 아닐 수 있지만, 대부분의 경우 수비팀이 일반적으로 이렇게 구성되기 때문에 라인 브레이킹 패스를 찾을 때는 이 방식이 적합하다는 것을 알았습니다. 또한 다양한 수의 클러스터를 허용하면 실제로 라인을 형성하지 않는 한 명의 선수로 구성된 클러스터가 발생할 가능성이 있지만, 이들의 위치가 수비 셋업에 중요할 수 있으므로 무시할 수 없습니다.

그림 1. 1-D 클러스터링을 사용한 포메이션 라인 탐지 예시

 

이 분석의 목적상 라인 브레이킹 패스는 기하학적 의미에서 반대편 라인 중 하나 이상과 교차하는 패스로 정의됩니다:

- 공을 10미터 이상 앞으로 전진시킵니다;

- 교차 지점에서 최소 5미터 이상 떨어진 출발점이 있어야 합니다;

- 라인에서 가장 깊숙이 앉은 플레이어로부터 2미터 이상 떨어진 곳에 끝 지점이 있습니다.

이 정의는 패스를 제거합니다:

- 기하학적인 의미에서 선을 끊지만 다음 공격 단계로 전환할 가능성은 낮습니다;

- 관통하는 선에 근접하기 때문에 매우 쉽게 완성할 수 있습니다.

이 정의는 또한 패스를 받는 선수가 차단선 안에 있던 상대 선수의 압박을 받지 않는다는 의미이기도 합니다.

모든 오픈 플레이 패스는 분석에 고려되었지만, Z 좌표(공 높이)는 데이터 샘플에 포함되지 않았기 때문에 패스가 상단 또는 지면을 따라 플레이되었는지 여부는 고려되지 않았습니다.

모델 자체로 넘어가기 전에 마지막으로 고려해야 할 사항은 인터셉트된 패스를 정의하는 데 따르는 어려움입니다. 가로채기의 끝 좌표는 가로채기가 발생한 경기장의 위치를 가리키기 때문에 패스가 라인 브레이킹을 의도했는지 여부를 판단할 때 이 좌표에 의존할 수 없습니다.

그러나 패스의 각도와 패스 길이의 하한에 대한 정보가 있다면 패스의 최종 목적지를 유추해 볼 수 있습니다. 이를 위해 하한 데이터를 처리하는 데 특히 적합한 기법인 와이블 생존 모델을 적용하여 가로채기 지점에서 패스의 예상 추가 길이를 추정합니다. 이렇게 하면 패스가 차단되었지만 예상 목적지가 라인 브레이킹으로 분류된 경우에도 실패한 라인 브레이킹 패스로 표시할 수 있습니다.

패스에 가치를 부여하는 모델 설정하기

이 프로젝트의 초기 목표는 비슷한 공간적 특성을 가진 패스를 비교하여 서로 다른 라인 브레이킹 패스의 가치를 그렇지 않은 패스와 비교하여 정량화하는 것이었습니다.

이상적으로는 사용 가능한 풍부한 추적 데이터를 포괄하는 EPV(기대 보유 가치) 모델을 사용했을 것입니다. 안타깝게도 신뢰할 수 있는 추적 데이터 기반 EPV 모델을 구축하는 것은 복잡하고 최종 목표의 이점에 비해 지나치게 많은 시간이 소요될 수 있습니다.

다른 한편으로, 경기장의 더 깊은 영역에서 발생한 이벤트에 값을 할당하는 비슛 예상 목표 모델은 작업에 너무 엄격할 수 있습니다. 따라서 저는 추적 데이터에서 추출한 다음 기능으로 이벤트 데이터를 향상시키는 VAEP 프레임워크와 유사한 예상 소유권 가치 모델을 사용하기로 결정했습니다:

  1. 최대 '시야각'은 공을 가진 선수 앞의 첫 번째 상대 라인에서 공과 인접한 두 선수가 만들어내는 최대 각도로 정의됩니다;

    그림 2: 수비 라인 내에서 공을 소유한 선수가 두 명의 상대 선수 사이로 패스할 수 있는 영역을 표시한 '시야각'의 예시입니다. 알파로 표시된 플레이어 1, 공, 플레이어 2 사이의 각도가 이 시나리오에서 최대 각도입니다. 선수 3, 공, 선수 4 사이의 각도는 음수이므로 아래 포인트 3에 정의된 '라인 무결성'을 계산할 때 무시됩니다.

  2. 공을 가진 선수 앞의 첫 번째 상대 라인에서 인접한 선수 사이의 최대 거리입니다;
  3. '라인 무결성'은 양수 화각의 역의 합으로 정의됩니다;
  4. '라인 밀집도'는 라인에 인접한 플레이어 사이의 거리를 역으로 합한 값으로 정의됩니다;
  5. 액션의 시작과 끝에서 '피치 제어' 값은 이 문서에서 소개한 모델에 따라 정의됩니다. 슬론 2018의 루크 본과 하비에르 페르난데스가 저술한 백서.

    그림 3: '피치 제어' 모델의 출력 예시

기능 1과 기능 2는 모두 공을 소유한 선수와 가장 가까운 라인의 설정에서 가능한 취약점을 포착하려고 시도합니다. '시야각'의 전제는 두 선수가 서로 멀리 떨어져 있거나 공을 소유한 선수가 상대 라인에 더 가깝기 때문에 두 선수와 공이 이루는 각도가 클수록 패스하기가 더 쉽다는 것입니다.

그러나 많은 코치들이 선수들에게 자신의 셋업을 전달할 때 사용하는 언어이기 때문에 한 라인에서 인접한 선수들 사이의 거리는 중요합니다. 따라서 기능 3과 4는 1번과 2번에서 설명한 두 가지 개념을 모두 적용하여 첫 번째 플레이어 뱅크의 셋업을 전체적으로 포착하는 것을 목표로 합니다.

두 측정값에 대한 직관적인 척도를 유지하기 위해 역각과 거리의 합을 적용하면 낮은 값은 위치가 잘못되었음을 나타내고 높은 값은 견고한 설정을 나타냅니다.

한 가지 중요한 점은 '라인 무결성'에는 음의 화각이 포함되지 않는다는 것입니다. 그림 2의 화면으로 돌아가서, 이 마이너스 화각은 공을 가진 3번 선수와 나머지 라인 뒤에 숨어 있는 4번 선수 사이에 만들어집니다. 이 경우 잠재적인 패스는 반대편에서 두 선수만 통과할 수 있으므로 선수 2와 3 사이의 라인이 더 일찍 끊어집니다. 따라서 4번 선수의 위치를 완전히 무시할 수는 없지만 1번, 2번, 3번 선수의 위치보다는 덜 중요합니다. 그래서 저는 계산에 음의 각도를 포함하지 않기로 했습니다.

이 다섯 가지 기능은 모두 VAEP 프레임워크에 따라 처리되었는데, 간단히 말해 소유권 체인에서 현재와 이전 두 이벤트의 특성을 XGBoost 모델에 입력하여 팀이 다음 10개의 동작에서 득점 또는 실점할 확률을 예측하는 것입니다.

라인 브레이킹 패스가 골 확률을 높여주나요?

아래의 바이올린 플롯은 패스가 라인 브레이킹인지 여부에 따라 패스 후 10가지 이벤트 중 득점 및 실점에 대한 예측 확률을 표시합니다.

바이올린 플롯의 영역이 넓을수록 주어진 확률이 할당된 시나리오의 비율이 높다는 것을 나타냅니다. 중앙값 확률은 점으로 표시되며 25번째 백분위수와 75번째 백분위수 사이의 범위는 막대로 표시됩니다.

실제 Y축 범위를 유지하기 위해 가장 높은 확률 값의 1%가 제거되었습니다.

이 접근 방식은 통계적 엄밀성이 부족하지만, 라인 브레이킹 패스가 득점 확률을 높이며, 중앙값이 라인 브레이킹 패스가 아닌 패스보다 거의 두 배나 높다는 것을 나타냅니다.

또한 아래에서 강조한 것처럼 라인 브레이킹 패스에 실패해도 골을 허용할 확률이 그다지 높아지지 않는다는 점도 주목할 만합니다.

실제 Y축 범위를 유지하기 위해 가장 높은 확률 값의 1%가 제거되었습니다.

라인 브레이킹 패스를 가장 효과적으로 완료한 선수는 누구였나요?

채용 맥락에서 라인 브레이킹 패스를 정의하면 패스로 상대 라인을 무너뜨리는 데 능숙한 유망주를 식별하는 데 도움이 된다는 장점이 있습니다.

아래 분산형 차트는 2018/19 프로 리그에서 최소 10경기 이상 중앙 수비수로 출전한 모든 선수의 90당 라인 브레이킹 패스 시도 횟수 및 성공률을 보여줍니다.

오른쪽 상위 4분위에 속한 선수들은 두 부문 모두에서 평균 이상의 점수를 받았습니다.

중앙 수비에서 900분 이상 출전한 선수들만 포함되었습니다.

프로그레시브 패스를 추구하는 센터백과 마찬가지로, 공을 다음 공격 단계로 전환할 수 있는 능력은 딥 리딩 플레이메이커에게 매우 중요합니다. 중앙 미드필더로 분류된 선수의 능력치는 아래 그림과 같습니다.

지난 시즌 눈에 띄는 선수 중 한 명은 지난 여름 젠크에서 아탈란타로 이적한 루슬란 말리노프스키입니다.

수비형 미드필더로 900분 이상 출전한 선수들만 포함되었습니다.

이벤트 데이터로 줄서기 패스를 식별할 수 있나요?

라인 브레이킹 패스를 자동으로 감지할 수 있는 기능이 있으면 수동으로 검색하는 데 상당한 시간을 소비해야 하는 비디오 분석가에게 상당한 워크플로우 이점을 제공할 수 있습니다.

참고로, 국내 대회 외에는 추적 데이터를 사용할 수 없기 때문에 이 연구의 일환으로 이벤트 데이터에서 파생된 특징만을 기반으로 패스가 라인 브레이킹인지 아닌지를 예측하는 모델을 구축하고자 했습니다.

이 모델은 84%의 정확도와 93%의 AUC 점수를 기록했는데, 이는 100개 사례 중 84개 사례에서 패스가 라인 브레이킹인지 아닌지를 예측할 수 있다는 의미입니다.

그러나 전체 패스의 8%만이 라인 브레이킹 패스라는 점을 고려할 때 라벨을 할당하기 위한 컷오프 포인트가 매우 중요했습니다. 저는 정확도 89%, 재현율 32%의 모델을 선택했는데, 이는 모델이 모든 라인 브레이킹 패스의 89%를 정확하게 포착할 수 있지만 실제로는 라인 브레이킹이 아닌 패스를 라인 브레이킹으로 분류하는 대가를 치러야 한다는 의미였습니다. 이는 추적 데이터 없이는 모델이 경기장에서 수비하는 선수의 위치를 파악할 수 없다는 점을 고려할 때 예상되는 결과였습니다.

이러한 오심이 발생할 수 있는 시나리오는 한 팀이 로우 블록으로 수비하는 상황에서 공을 소유한 팀이 자기 진영 수비 3선에서 상대 진영의 미드필더에게 공을 패스했지만 해당 선수가 여전히 상대 수비 1선 앞에 있는 경우입니다.

이 방법이 완벽하지는 않지만, 워크플로우 관점에서 보면 비디오에서 검토할 수 있는 통과 횟수를 줄여 프로세스 속도를 높일 수 있으며, 분석가의 선호도에 따라 컷오프를 조정하여 더욱 엄격하게 분류할 수 있다는 좋은 소식도 있습니다.

나쁜 소식은 수동 개입 없이 라인 브레이킹 패스를 완벽에 가깝게 분류하려면 여전히 추적 데이터를 사용해야 한다는 것입니다.

이 글의 초안을 읽고 귀중한 피드백을 제공해주신 카룬 싱에게 감사의 말씀을 전하고 싶습니다. 또한, 경기장 시각화를 준비하고 데이터를 사전 처리하기 위해 코드를 확장한 Socceraction 패키지의 작성자와 Ricardo Tavares에게도 감사의 말씀을 전합니다. 분석에 사용된 데이터는 벨기에 프로 리그에서 제공한 것으로 Stats Perform 수집했습니다.