주요 콘텐츠로 건너뛰기

국경을 넘나드는 계산

기준: Stats Perform

이 글은 리그와 연령이 선수의 성과에 미치는 영향에 대한 통합 모델을 제공하기 위해 벤 토바니가 진행한 2018 옵타프로 애널리틱스 Forum 서면 버전입니다. 여기에서 Ben의 첫 번째 발표문을 읽어보세요.

이 프로젝트에서 벤의 애널리스트 멘토는 애틀랜타 유나이티드의 기술 채용 및 분석 책임자인 루시 러쉬튼이었습니다.

2019 옵타프로 애널리틱스 Forum 발표할 제안서를 제출하는 방법에 대해 자세히 알아보려면 여기를 클릭하세요.

2018년 옵타프로 포럼에서 저는 리그와 나이가 선수의 성과에 미치는 영향을 다양한 지표로 추정할 수 있는 간단하고 확장 가능한 모델을 발표했습니다. 이 과정에서 개별 선수의 성과도 추정했습니다. 여기서는 리그와 나이에만 적용했지만, 이 모델은 포지션과 상대 등 선수의 성과에 영향을 미치는 다른 요소들을 포함하도록 쉽게 확장할 수 있습니다.

누구나 이적 위험을 줄이고 싶어 합니다. 이러한 위험의 일부는 한 환경에서 다른 환경으로 기술을 이전할 때의 불확실성에 있습니다. X팀의 선수가 Y팀에서 얼마나 잘할지 확신할 수 없기 때문에 서로 다른 환경에 있는 선수들을 공정하게 비교하는 것이 어렵습니다. 하지만 이러한 영향을 일부 제거할 수 있다면 어떨까요? 즉, 동일한 척도로 평가할 수 있다면 어떨까요?

먼저 골 득점에 대해 생각해 봅시다. 골 득점은 결국 중요한 유일한 스탯입니다. 선수들은 리그를 옮겨 다니기 때문에 각 선수의 득점률이 한 리그에서 다음 리그로 이동하면서 어떻게 변하는지 살펴볼 수 있습니다. 이러한 많은 비교를 통해 각 리그가 골 득점에 미치는 영향에 대한 아이디어를 쌓을 수 있습니다.

결과는 대체로 직관과 통념에 부합하지만 정량화할 수 있다는 장점이 있습니다. 저는 프리미어 리그가 유럽 최고의 리그 중 득점하기 가장 어려운 리그이며, 지난 몇 년 동안 득점하기가 점점 더 어려워지고 있다는 사실을 발견했습니다. 프리미어 리그의 선수들은 세리에 A나 라 리가에 비해 약 80%의 확률로 골을 넣는 것으로 추정됩니다. 즉, 프리미어리그에서 90분당 0.5골(매 경기 1골)을 넣는 선수라면 세리에 A에서는 90분당 0.6골에 가까운 골을 넣을 것으로 예상됩니다. 또한 23세에서 29세 사이에 골 득점력이 최고조에 달하며, 20세 또는 30세 전후의 선수보다 약 10-15% 높은 것으로 추정되는 골 득점률을 기록하는 것으로 나타났습니다.

이 모델은 어떻게 생겼나요?

주어진 기간 동안의 이벤트 수와 관련된 변수는 푸아송 분포로 모델링하는 경우가 많습니다. 이는 유용하며 골 득점도 대략 푸아송 분포로 생각할 수 있습니다. 간단히 말해, 푸아송 분포는 비율 매개변수(해당 기간의 평균 이벤트 수)가 주어졌을 때 특정 기간에 X개의 이벤트가 발생할 확률을 알려줍니다.

이를 사용하여 선수의 실력과 외부 효과를 분리하려는 원래의 목표를 달성하기 위한 모델을 만들 수 있습니다. 각 선수의 득점률(90분 플레이당 득점)을 이러한 다양한 요소의 곱으로 모델링하기만 하면 됩니다:

 비율 = 선수 실력 * 연령 효과 * 리그 효과

그런 다음 데이터에서 이러한 각 매개변수를 추정합니다. 이 경우 2006/07년부터 2017/18 시즌까지 유럽 상위 리그에서 각 선수가 득점한 골과 출전한 시간을 기준으로 합니다.

좀 더 구체적으로 설명하기 위해 예를 들어보겠습니다. 예측을 하려면 각 파라미터의 곱을 구하면 됩니다. 따라서 2018/19 시즌 피에르 에메릭 오바메양의 골 득점 추정치를 구하려면 '선수 기술 추정치'(0.53), 리그 추정치(0.84), 29세의 예상 연령 효과(1.08)를 모두 곱하면 됩니다. 이렇게 하면 90분 경기당 약 0.48골의 예상 득점률이 나옵니다.

나이

밴드는 각 연령에 대한 95% 신뢰 구간을 나타내며, 어두운 선이 중앙값입니다. 밴드가 넓을수록 모델의 신뢰도가 떨어집니다.

각 연령 매개변수는 서로 독립적으로 추정됩니다. 이 모델에는 반전된 U자 모양을 강요하는 어떤 요소도 없으며, 여러분이 보는 멋지고 깔끔한 곡선은 전적으로 데이터에서 비롯된 것입니다. 몇 가지 예외를 생각하기는 쉽지만, 데이터는 분명합니다. 골 득점 최고 연령은 23세에서 29세 사이입니다.

또한 20세 전후로 작지만 중요한 정점을 찍습니다. 그 원인에 대한 몇 가지 아이디어가 있습니다. 평균적으로 교체 선수가 선발 선수보다 더 높은 비율로 득점합니다. 이는 몇 가지 이유 때문인데, 지친 상대를 상대로 경기할 때의 이점, 스코어 라인 효과(지는 팀이 이기는 팀보다 더 높은 비율로 득점), 전술적 효과 등이 가장 큰 원인으로 보입니다. 젊은 선수들이 교체 선수로 자주 투입되고 공격적인 역할을 맡을 가능성이 높기 때문에 이런 현상이 나타나고 있는 것으로 생각됩니다. 그러나 노이즈나 데이터 수집의 다른 특이점 또는 전술적 요소일 수도 있습니다.

이 그래프는 시간에 따른 리그별 득점에 대한 상대적 효과의 변화를 보여줍니다. 값이 낮을수록 해당 리그에서 플레이어가 다른 리그에 비해 골을 적게 넣는 경향이 있음을 의미합니다.

이 데이터에 따르면 프리미어리그는 시간이 지날수록 득점하기가 더 어려워지는 반면, 리그앙과 포르투갈 리그는 득점하기가 더 쉬워지고 있습니다.

그렇다고 해서 이 리그들이 프리미어 리그보다 더 나쁘다는 의미는 아닙니다. 리그에서 득점하기 어려운 정도는 리그의 수준과 경기 스타일 모두의 산물입니다. 즉, 경기당 평균 골 수입니다.

예를 들어, 이 기간 동안 분데스리가는 경기당 평균 3골 이상을 기록했지만 여전히 차트 중간 정도에 머물러 있습니다. 이는 수준 높은 선수와 팀이 많은 리그이기 때문입니다. 반면 포르투갈의 상위 리그는 경기당 평균 2골 정도입니다. 그러나 리그의 상대적인 강점 때문에 포르투갈에서는 여전히 다른 리그보다 경기당 더 많은 골을 넣는 경향이 있습니다.

플레이어

상위 플레이어 목록은 직관에 따라 어느 정도 일치하는 것처럼 보이며, 상위 두 명의 플레이어가 올바른 순서로 정렬되어 있습니다. 흥미롭게도 하한선이 아닌 중앙값을 기준으로 순위를 매기면(여기에 표시된 것처럼) 가브리엘 제수스가 4위(약 0.8점)에 올랐습니다. 그러나 그의 나이와 (적어도 유럽에서는) 적은 경기 수로 인해 그의 실제 득점 능력에 대한 불확실성은 예를 들어 해리 케인보다 훨씬 높습니다.

또한 이 명단에는 커리어 후반부에도 계속해서 득점을 기록한 선수들이 많이 포함되어 있음을 알 수 있습니다. 이에 대해서는 다른 통계를 살펴보면서 좀 더 자세히 설명하겠습니다.

다른 통계는?

물론 축구에는 골보다 훨씬 더 많은 것이 있습니다. 그리고 축구 통계에는 득점보다 더 많은 것이 있습니다. 다양한 연령과 대회에서 골 득점률을 비교할 때 생각했던 것과 동일한 논리를 다른 지표에도 적용할 수 있습니다. 저는 슛, 키 패스(슛을 하기 전 패스, 슛 어시스트라고도 함), 마지막 세 번째 패스, 완료된 테이크온을 선택했습니다.

이는 골에 사용된 데이터와 약간 다른 데이터 세트에서 가져온 것입니다. 옵타프로는 2013/14 시즌부터 2016/17 시즌까지 프리미어 리그, 라리가, 에레디비시, 풋볼 리그 챔피언십에 대한 F9 데이터(집계된 통계)를 제공했습니다(모두 포함).

다시 말하지만, 이는 저희의 직관과 일치하는 것 같습니다. 우리는 선수들이 커리어 후반부로 갈수록 더 깊은 포지션으로 이동하는 것을 잘 알고 있습니다. 한편, 테이크온은 젊은 선수들이 주로 하는 게임입니다.

흥미롭게도 테이크인 시도 비율은 완료 비율만큼 빠르게 감소하지 않습니다. 즉, 테이크온의 완료율은 나이가 들수록 증가합니다. 이는 플레이어가 성숙해짐에 따라 선택의 폭이 넓어지고 의사 결정 능력이 향상되었다는 증거일 수 있습니다.

위의 효과는 골과 마찬가지로 리그의 재능 수준과 리그 스타일이 혼합된 결과입니다. 슛 기반 지표는 최종 세 번째 패스 및 테이크오프보다 리그 수준과 더 밀접한 관련이 있는 것으로 보입니다.

여기에는 목표 전용 모델에서보다 몇 가지 놀라운 이름이 더 있습니다. 하지만 이는 연령 곡선과 시간적으로 더 제한된 데이터 양이 결합되어 설명할 수 있다고 생각합니다. 예를 들어, 이 모델은 웨스 훌라한을 비교적 늦은 시기에만 '보고' 있습니다. 비슷한 나이의 다른 선수들에 비해 매우 높은 수치를 기록했기 때문에 이 모델은 그가 전성기 시절에 세계를 제패했다고 가정합니다.

모델 확장

모델의 핵심인 곱셈 공식은 추정 요소를 추가하기만 하면 간단하게 확장할 수 있습니다. 특히 유용할 수 있는 한 가지 영역은 게임 내 효과를 설명하는 것입니다. 예를 들어, 경기 시간과 스코어 라인이 있습니다. 우리는 팀이 경기가 끝날 때와 지고 있을 때 더 높은 비율로 득점하는 경향이 있다는 것을 알고 있습니다. 이를 고려하면 연령과 개별 선수의 예상 득점 정확도를 개선하는 데 도움이 될 수 있습니다.

개선할 수 있는 또 다른 영역은 연령 곡선을 개인화하는 것입니다. 즉, 평균적인 선수보다 커리어 초반 또는 후반에 활약하는 능력을 골 득점(또는 슛 생성, 패스 등)과는 별개의 기술로 취급하는 것입니다. 이렇게 하면 앞서 살펴본 상위 선수 목록에서 보았던 연령 편향이 일부 완화될 수 있습니다.

Ben의 프레젠테이션 슬라이드 보기

트위터에서 Ben(@Torvaney) 팔로우하기