주요 콘텐츠로 건너뛰기
스포츠, 방송사 및 커넥티드 TV, 연맹 및 권리 보유자, 프로 클럽 및 대학에서의 AI

스포츠에서 제너레이티브 AI의 활용: 2분기 업데이트, 1부

작성자: 작성자: 패트릭 루시

최신 스포츠 AI 트렌드 시리즈의 최신 편으로 돌아왔습니다, 패트릭 루시 수석 과학자의 글입니다. 1부에서는 컴퓨터 비전과 제너레이티브 AI의 결합으로 가능해진 선수 추적 데이터에서 얻을 수 있는 획기적인 최신 인사이트에 대해 살펴봅니다.


OpenAI의 GPT-4o 출시와 이번 주 Google의 연례 I/O 컨퍼런스 등 AI 분야의 혁신 속도는 줄어들 기미가 보이지 않습니다. 스포츠 관점에서 두 가지가 눈에 띄었습니다:

  1. OpenAI의 CTO는 GPT-4o의 다음 단계는 라이브 스포츠 경기를 "시청"하고 "규칙을 설명"하는 것이 될 수 있다고 언급했습니다.
  2. Google의 AI 기반 검색, 특히 '시각적 검색 '을 통해 얻을 수 있는 이점을 알아보세요.

"축구와 같은 스포츠 경기를 보고 검색한다는 것은 무엇을 의미할까?"라는 생각이 들었습니다. 축구 경기를 시청할 때 경기장에 있는 팀을 강조 표시한 다음 Wikipedia에서 규칙을 찾아보고 요약을 제공하는 것으로 충분할까요? 어린이나 축구를 처음 보는 사람에게는 그 정도면 충분할 수 있습니다.

하지만 전 세계 대부분의 팬들은 축구에 진정으로 몰입하고 있으며 세분화된 수준에서 더 많은 정보를 원합니다. 예를 들어, 선수가 올바른 패스를 했는가, 수비수가 올바른 위치에 있는가, 팀이 지치고 있지는 않은가, 특정 플레이를 실행했을 때 팀이 얼마나 성공했는가 등의 질문이 있습니다.

AI 에이전트의 약속은 단순히 초보자처럼 경기를 보는 것이 아니라 전문가처럼 경기를 보는 것입니다. 하지만 전문가처럼 경기를 이해하려면 매일 수집하는 데이터(이벤트 데이터와 트래킹 데이터 모두)를 기반으로 스포츠의 특정 언어에 대해 AI 시스템을 학습시켜야 합니다.

추적 데이터(즉, 선수 움직임의 시각적 'X와 O')는 특히 이벤트 데이터(즉, 발생한 이벤트와 함께 발생한 상대)와 결합하면 AI 시스템이 전문가처럼 스포츠 경기를 '시청'하고 플레이를 자세히 분석하여 코치와 팬들에게 구체적이고 가치 있는 인사이트를 제공할 수 있게 됩니다. 또한 실시간 스포츠 경기를 시각적으로 검색할 수 있어 분석 및 예측 애플리케이션을 더욱 확장할 수 있습니다.

다음 글에서는 이를 수행하는 방법에 대해 자세히 살펴보겠지만, 먼저 이 중요한 정보인 대규모 플레이어 추적 데이터가 실제로 어떻게 수집되는지 이해할 필요가 있습니다. 이 글에서는 이 주제에 대해 자세히 살펴보겠습니다.

자세히 알아보기 전에 먼저 컴퓨터 비전 트래킹 데이터가 무엇이고, 어떻게 발전하고 있으며, 팀과 선수가 최고의 경기력을 발휘하는 데 어떻게 적용되고 있는지 살펴봅시다.

컴퓨터 비전(CV)을 사용한 선수(및 공) 추적 - 빠른 초기 기록

스포츠에 컴퓨터 비전(CV) 시스템을 통합하는 것은 잘 알려지지 않은 사실입니다. 모든 분야 중 가장 성공적인 사례 중 하나라는 사실은 잘 알려져 있지 않습니다. 스포츠 팬과 코치들이 경기에 대해 얼마나 많은 것을 알고 싶어 하는지에 대한 증거입니다!

스포츠에서 CV 트래킹이 사용된 것은 1996년으로 거슬러 올라가는데, 처음에는'글로우 퍽'으로 알려진 적외선 추적 시스템을 사용하여 NHL 경기에서 실시간으로 퍽을 추적하는 데 사용되었습니다( 야구 중계에 가상 광고가 등장한 시기와 거의 같은 시기). 곧이어 1997년 미식축구의 '노란색' 퍼스트 앤 텐 라인이 등장했고, 2000년 시드니 올림픽에서는 수영과 단거리 등 올림픽 종목의 '세계 기록 라인' 이 등장했습니다. 최초의 볼 트래킹 기술은 2000년에 Hawk-Eye가 개발하여 2001년 크리켓 경기 중계에 사용되었습니다.

영국 프리미어 리그에서 최초로 사용된 선수 추적 시스템은 1998년으로 거슬러 올라갑니다. 이 시스템은 멀티 카메라를 설치하여 모든 각도에서 경기 영상을 캡처한 다음 사람이 직접 선수의 위치에 주석을 달았습니다.

10년 후, 선수 추적을 위한 완전 자동화된 카메라 기반 CV 시스템이 배포되었습니다. 얼마 지나지 않아 낮은 수준의 스포츠 경기 중계를 자동으로 생성하는 시스템이 등장했습니다. 온라인에서 즐길 수 있는 많은 스포츠 하이라이트 클립도 10년 넘게 자동화되어 왔지만, 이러한 방식은 선수 추적 데이터를 사용하지 않고 대부분 사람이 수집한 이벤트 데이터, 오디오(예: 시끄러운 관중 소음), CV 기반 장면 감지 변경(예: 선수를 확대한 다음 관중, 코치, 다시 선수를 클로즈업한 다음 메인 카메라 뷰로 되돌림)을 혼합하여 사용하는 경향이 있습니다.

2000년대 초반에는 GPS와 RFID와 같은 웨어러블도 등장했습니다. 많은 팬들은 이러한 기술이 라이브 축구에서 선수 추적 데이터의 주요 출처라고 생각할 수 있습니다. 실제로 CV는 눈에 잘 띄지 않고 확장성이 뛰어나기 때문에 엘리트 라이브 축구 경기에서 선수 추적 데이터를 수집하는 데 선호되는 방법으로 남아 있습니다.

컴퓨터 비전(CV) 시스템은 어떻게 작동하나요?

먼저 컴퓨터 비전(CV)과 AI에서 CV가 차지하는 위치를 정의해 보겠습니다.

CV는 컴퓨터가 디지털 이미지 및/또는 동영상을 이해할 수 있도록 하는 과학입니다. 따라서 CV 시스템을 언급할 때는 기본적으로 AI 시스템을 의미합니다.

축구 경기와 같은 엘리트 수준의 스포츠 이벤트에서 추적 데이터를 수집하기 위해 CV 시스템을 사용하려면 기존에는 고화질 비디오 캡처 시스템으로 프로세스가 시작되었습니다.

이 시스템은 경기장 곳곳에 전략적으로 배치된 카메라로 구성되며, 현장의 움직임을 포착하는 '눈' 역할을 합니다.

이러한 고화질 카메라는 하드웨어 설치 공간을 최소화하고 설치/해체가 용이하도록 단일 뷰포인트에 설치하거나 경기장 내 여러 위치에 분산 배치할 수 있습니다.

비디오 캡처 시스템을 설정하면 이러한 '눈'이 시각 데이터를 컴퓨터로 전송하고, 컴퓨터는 원시 시각 정보를 컴퓨터가 이해할 수 있는 형식으로 변환합니다. 이 형식은 2D '점' 또는 3D '골격'으로 나타날 수 있습니다.

이 변환에는 다음과 같은 단계가 포함됩니다:

  • 선수 및 공 감지: 여기에는 각 이미지에서 선수와 공의 위치를 식별하는 것이 포함됩니다. 선수 감지의 경우, 필요한 측정 단위와 입력 이미지의 픽셀 밀도에 따라 이미지에서 선수 주변의 바운딩 박스를 감지하거나 각 선수의 골격 또는 실루엣을 감지하는 방식으로 수행할 수 있습니다. 공 감지의 경우 일반적으로 바운딩 박스를 활용합니다.
  • 팀 및 선수 신원: 감지 단계에 이어 다음 단계는 각 선수가 소속된 팀(일반적으로 유니폼 색상을 기준으로)과 선수의 신원(일반적으로 선수의 유니폼 번호를 식별하여 결정)을 식별하는 것입니다. 선수가 일정 시간 동안 가려진 경우(즉, 보이지 않는 경우) 이 작업을 흔히 "재식별"이라고 합니다.
  • 카메라 보정: 이 단계에서는 경기장의 선과 모서리를 감지한 다음 선수와 공의 위치를 실제 좌표에 매핑하는 데 사용합니다.
  • 추적: 마지막으로, 경기 진행 과정에서 탐지된 항목은 단일 ID와 연관됩니다. 이는 이미지 평면(즉, 우리가 보는 픽셀)과 피치 평면(즉, 경기장의 하향식 뷰)에서 모두 수행될 수 있습니다. 일반적으로 스포츠에서는 '감지를 통한 추적' 방식을 사용하지만, 놓치거나 잘못 감지하는 경우가 많기 때문에 트래커가 필요합니다. 경기장에는 많은 선수가 있기 때문에 이를 "다중 객체 추적"이라고 부릅니다.

이러한 각 단계에는 일반적으로 딥러닝 방법이 사용됩니다. 예를 들어, 컨볼루션 신경망(CNN)은 일반적으로 선수/공 감지에 활용될 뿐만 아니라 팀 및 선수 식별을 위한 입력 표현을 형성하는 데에도 사용됩니다. 세분화 모델은 종종 보정을 위해 라인/코너 감지기와 함께 사용됩니다. 이러한 모델을 훈련하려면 관련 바운딩 박스(또는 스켈레톤), 팀 ID 및 선수 ID, 가장자리/모서리 위치가 포함된 원시 이미지의 방대한 양의 훈련 예제가 필요합니다. 경우에 따라서는 광학 문자 인식(OCR)을 통해 점수 판을 자동으로 이해하는 것도 필요합니다. 이러한 모든 단계의 예는 아래에 나와 있습니다.

이 글의 뒷부분에서 이러한 딥러닝 방법이 GenAI 방법을 활용하는 추세와 어떻게 연관되는지 살펴보겠지만, 높은 수준에서 이 과정을 스포츠의 시각 언어(즉, X와 O)를 만드는 것으로 생각할 수 있으며, 이는 다운스트림 언어 모델링에 적합할 것입니다.

CV 시스템이 플레이어를 감지하고 추적하기 위해 '도트' 또는 '스켈레톤'을 사용하는 이유와 시기는 언제인가요?

CV 시스템을 감지 또는 측정 도구로 개념화하는 것이 도움이 됩니다. 측정에 필요한 정밀도(밀리미터 또는 센티미터)에 따라 필요한 추적 출력의 유형이 결정됩니다. 이는 다음과 같이 분류할 수 있습니다:

  1. 세밀한 측정(밀리미터 단위의 정확도): 여기에는 심판 작업(예: 축구의 반자동 오프사이드 감지, 야구의 투수 분석, 농구의 심판)과 방송 그래픽(예: 선수의 사실적인 아바타 생성증강 방송의 세분화 )이 포함됩니다.
  2. 세분화된 측정(센티미터 단위의 정확도): 이는 경기 중 선수의 체력 측정(예: 얼마나 멀리 뛰었는지, 고강도 스프린트를 몇 번 했는지)과 전술적 측정(예: 팀이 어떤 포메이션을 사용했는지, 선수가 패스를 얼마나 잘 실행했는지, 농구에서 팀이 픽앤롤을 활용했는지)과 관련되어 있습니다.

반자동 오프사이드 감지 및 포토리얼한 아바타와 같은 세밀한 측정의 경우, 골격 추적은 이러한 사용 사례에 상세한 3D 정보를 제공하기 때문에 필수적입니다.

반면, 바운딩 박스 감지는 거친 입자 측정에 충분하므로 플레이어의 '질량 중심'을 추정하여 2D '점'을 생성할 수 있습니다. 질량 중심 추적(위)과 신체 자세 추적(아래)의 차이를 보여주는 예는 이 주제에 대해 작성한 논문에서 가져온 것입니다.

원시 시각적 정보는 어떻게 유용한 데이터와 그렇지 않은 데이터로 구분되나요?

지금까지 추적 데이터라고 하면 필드/코트 곳곳에서 움직이는 선수를 나타내는 2D 점을 활용했습니다. 사람들은 흔히 이러한 유형의 트래킹 데이터를 '빅' 데이터라고 생각합니다. 그러나 트래킹 시스템은 잔디, 관중, 광고와 같은 불필요한 세부 정보는 버리고 선수와 공의 위치, 움직임 등 원시 비디오 픽셀에서 필수 정보만 추출하는 압축 도구의 역할을 합니다.

이 압축률은 1,000,000:1까지 높을 수 있습니다. 따라서 스포츠의 트래킹 데이터는 궁극의 비디오 압축 알고리즘 또는 스포츠 전용 코덱에 비유할 수 있으며, 다양한 다운스트림 애플리케이션을 구현할 수 있습니다.

이러한 측정값을 통해 추적 데이터를 다양한 방식으로 활용할 수 있으며, 추적 데이터를 이벤트 데이터와 결합하여 플레이어가 어디에 있는지뿐만 아니라 무엇을 하고 있는지도 보여줄 수 있다면 그 활용도는 기하급수적으로 늘어납니다. 여기에는 대화형 검색, 시뮬레이션, 전략 분석, 혼합 현실 애플리케이션 등이 포함됩니다. 향후 기사에서는 이러한 애플리케이션에 대해 자세히 살펴보겠지만, 여기서는 기본 컴퓨터 비전 기술에 초점을 맞추겠습니다.

컴퓨터 비전 트래킹이 그토록 오랫동안 사용되어 왔다면 왜 아직 모든 곳에서 사용되지 않고 있을까요?

일부 최고 수준의 스포츠 리그는 경기장 내 컴퓨터 비전 추적 하드웨어 및 시스템을 사용하여 경기장 주변에 설치된 여러 대의 전문 고정 카메라를 활용하며, Stats Perform SportVU와 같은 시스템을 사용합니다.

이러한 시스템은 일반적으로 세분화된 위치 및 이동 데이터 출력을 제공합니다. 이러한 출력도 그림의 일부만 제공하므로 위에서 언급한 대로 '이벤트 데이터'와 병합해야 합니다. 또한, 경기장을 소유한 팀으로 액세스가 제한되거나 전술 분석을 위해 특정 리그의 팀 간에 공유됩니다. 데이터가 해당 리그 외부로 공유되는 경우는 매우 드뭅니다. 도출된 인사이트는 때때로 TV를 통한 분석에서도 볼 수 있습니다.

하드웨어 비용, 추적 및 이벤트 데이터를 병합하는 복잡한 프로세스, 카메라 추적 데이터에서 실행 가능한 인사이트를 추출하는 데 필요한 분석가 리소스는 메이저 리그 외에는 고정형 CV 카메라 시스템의 적용이 매우 제한적이라는 것을 의미합니다.

이는 또한 대형 팀/리그가 자체 리그 내에서 추적 데이터에 액세스할 수 있더라도 여전히 중요한 사각지대가 존재한다는 의미이기도 합니다. 다른 리그와 대회의 데이터에 접근할 수 없기 때문입니다. 따라서 이러한 리그에서 선수를 스카우트하거나 컵 대회에서 다른 리그의 팀과 경기를 준비하거나 다른 리그의 새로운 선수나 코치와 경기를 할 때 큰 제약이 발생합니다.

또한 단일 경기 추적 데이터 액세스는 팀의 데이터 분석가가 경기 스타일과 패턴을 구체적으로 예측하고 다양한 전술을 시뮬레이션하기 위해 모델을 개발하고 훈련해야 하는 데이터의 양을 제한합니다. 즉, 이러한 예측과 시뮬레이션은 그 규모와 가치가 제한적입니다.

밀리미터 단위의 정밀도가 요구되는 '사회'의 경우, 고해상도 카메라와 같은 훨씬 더 많은 양의 하드웨어가 행사장 내에 필요합니다. 이는 상당한 추가 비용을 발생시킬 뿐만 아니라 모든 행사장에서 사용할 수 없는 안정적인 고사양 인터넷 연결이 필수적이기 때문에 운영상의 문제도 발생합니다.

경기장에 하드웨어를 광범위하게 설치했더라도 추가적인 조치가 필요한 경우가 있습니다. 예를 들어, 2022 FIFA 월드컵에서는 반자동 오프사이드 감지 기술이 공에 RFID 칩을 통합하여 컴퓨터 비전 기반 선수 추적 데이터를 보완했습니다. 마찬가지로 크리켓과 같은 스포츠에서는 드론 영상이 기존 시스템을 보완하여 수비 위치를 포착하고, NFL과 NHL에서는 선수들에게 웨어러블 RFID 칩 착용을 의무화하여 하드웨어 사용 공간을 더욱 확장하고 있습니다.

좋은 소식은 피트니스 트래킹이나 전술적 인사이트와 같은 세분화된 측정의 경우, 이제 더 이상 광범위한 하드웨어 인프라가 필수 조건이 아니라는 점입니다. 제너레이티브 AI와 딥 데이터를 사용하면 추가 하드웨어 없이도 추적 및 이벤트 데이터를 모두 포함하는 확장 가능한 솔루션을 구현할 수 있으므로 이전 버전과의 호환성, 광범위한 커버리지, 비용 효율성을 실현할 수 있습니다. 널리 사용 가능한 원격 비디오를 사용합니다.

원격 비디오를 사용하여 하드웨어 시스템을 뛰어넘어 세분화된 인사이트를 얻으세요.

인간은 원격 비디오(즉, 경기장 밖에서 소비되는 비디오)를 통해 경기 중 일어나는 상황을 이해할 수 있으므로 CV 시스템도 마찬가지로 확장하는 것이 논리적으로 보입니다.

특히 여러 엘리트 대회가 열리는 글로벌 스포츠의 경우 그 잠재력은 엄청납니다. 수천 개의 글로벌 프로 남녀 축구팀과 350개 이상의 농구 디비전 1 학교 및 수많은 국제 농구 리그에 대한 추적 데이터를 수집할 수 있습니다.

심지어 CV 카메라가 설치되지 않은 장소에서도 과거로 돌아가 역사적인 영상을 수집할 수 있다는 의미이기도 합니다.

Stats Perform 전문 AI 팀은 지난 8년 이상 원격 추적 기술 개발을 선도해 왔으며, SportVU를 통해 경기장 내 선수 및 공 추적 데이터 수집을 선도한 것과 마찬가지로 원격 추적 기술 개발에도 앞장서 왔습니다.

유니티의 원격 트래킹 여정은 2019년에 출시된 특허받은 자동 통계 시스템으로 농구에서 시작되었습니다. 농구 원격 비디오에서 트래킹 데이터를 캡처할 때 가장 중요한 과제는 움직이는 카메라를 보정하고 시야에 들어오고 나가는 선수를 다시 식별하는 것입니다.

AutoStats 농구 결과물은 현재 올랜도 매직과 같은 팀의 드래프트 유망주 분석과 전술에 사용되고 있으며, 2023 FIBA 농구 월드컵과 같이 미디어와 TV에서 새로운 스토리텔링 각도를 제공하는 데 활용되고 있습니다.

오토스탯과 함께 저희는 축구에 집중해 왔습니다. Opta Vision 제품에 집중해 왔습니다. 모든 축구 경기에서 경기장 내 추적에 필적하는 '완전한 추적 데이터'를 생성하는 것이 Opta Vision 목표였습니다. 그리고 이를 이벤트 데이터와 결합하여 분석가에게 더욱 가치 있는 정보를 제공하는 것입니다.


에서 파트 2 에서는 경기 중 모든 축구 선수의 필드 위치를 카메라 촬영이 아닌 방식으로 '추론'하여 분석가에게 첫 휘슬부터 풀타임까지 모든 선수에 대한 완벽한 추적 데이터를 제공하는 제너레이티브 AI의 적용 방법에 대해 자세히 설명합니다.