주요 콘텐츠로 건너뛰기

데이터를 통한 더 나은 Stories

작성자: 작성자: 앤디 쿠퍼

"숫자는 거짓말을 하지 않는다"는 속담이 있죠? 특히 스포츠에 관한 이야기를 들려줄 때는 이 말이 전적으로 사실이 아니라는 것이 밝혀졌습니다.

2014 FIFA 월드컵 독일과 브라질의 경기를 예로 들어보겠습니다. 독일이 우승을 차지했지만 브라질은 총 슈팅 수, 유효 슈팅 수, 세이브 수, 위험한 공격, 페널티 지역에서의 슈팅 수 등 높은 승리 확률을 나타내는 일반적인 지표에서 독일을 훨씬 앞섰습니다. 브라질의 승리 가능성이 더 높게 나타난 이유는 이러한 수치에서 한 가지 중요한 요소, 즉 맥락이 빠져 있기 때문입니다.

이 경기 이야기의 중요한 부분은 바로 이러한 숫자의 맥락에 있습니다. STATS는 경기장에서 무슨 일이 일어났는지, 왜 이 경기가 결국 그렇게 되었는지에 대한 더 큰 그림을 살펴보기 위해 예상 골 가치(EGV)를 만들었습니다. 최근 축구 시즌에 걸쳐 약 10,000개의 슈팅을 검토하고 각 슈팅 전 10초를 분석하여 총 슈팅, 세이브, 패스 등 대량의 데이터를 상황별 분류자로 분류할 수 있는 알고리즘을 만들었습니다.

이러한 분류를 통해 어떤 일이 일어났는지 자세히 이해할 수 있습니다. 브라질이 독일보다 총 슈팅 수가 많았지만 독일 수비수가 브라질의 슈터와 근접한 위치는 어디였나요? 슈팅한 선수는 경기장의 어느 위치에 있었나요? 오픈 플레이 포메이션이었나요, 아니면 역습이었나요? 상황을 정확하게 이해하려면 이러한 모든 요소를 고려해야 합니다.

EGV는 일어난 일을 이해하는 데만 유용한 것이 아니라, 향후 경기의 보다 현실적인 확률과 팀의 효율성을 판단하는 데에도 사용할 수 있습니다. 이러한 컨텍스트화된 데이터 포인트를 클러스터로 매핑하여 STATS는 드릴다운하고 포메이션을 생성하여 상당히 개선된 방식으로 행동을 모델링할 수 있습니다. 목표는 포메이션 데이터를 찾아내어 시간이 지남에 따라 팀이 어떻게 상호 작용했는지, 홈 또는 원정 경기에서 한 팀이 가장 많이 사용하는 포메이션은 무엇인지, '홈 필드 어드밴티지'가 실제로 존재하는지(실제로 존재합니다!) 등의 결과를 도출하는 것입니다.

컨텍스트와 여러 수준의 데이터 포인트를 다루는 알고리즘을 통해 팀의 성공을 보다 정확하게 예측할 수 있는 지표를 개발하게 된 것을 자랑스럽게 생각합니다. EGV에 대한 자세한 내용은 여기에서 백서를 읽어보거나 여기에서 웨비나를 시청할 수 있습니다.