주요 콘텐츠로 건너뛰기
방송사 및 커넥티드 TV, 연맹 및 권리 보유자, 프로 클럽 및 대학

스포츠에서 제너레이티브 AI 활용: 2분기 업데이트, 2부

작성자: 작성자: 패트릭 루시

최신 스포츠AI 트렌드 특집의 2부에서는 수석 과학자 패트릭 루시가 다음과 같은 방법을 설명합니다. Opta Vision 이 지난 25년간 축구 분석의 발목을 잡았던 핵심 과제를 컴퓨터 vision 생성 AI 조합을 통해 어떻게 해결했는지 설명합니다. 

지난주에 1부를 놓치셨다면 여기에서 확인하실 수 있습니다. 


축구 경기에서 비디오에서 선수의 위치와 움직임 데이터를 캡처하는 데 있어 가장 큰 어려움은 원격 비디오가 경기를 균일하게 보여주지 못한다는 점입니다.

원격 비디오에서 경기를 추적할 때는 하나의 카메라 앵글만 사용합니다. 메인/게임 카메라 뷰는 일반적으로 중간 라인에 상당히 높은 각도로 위치합니다. 이 앵글이 유일하게 사용되는 이유는 사이드 라인, 센터 서클, 18야드 박스 등 카메라를 보정하는 데 필요한 정보가 포함되어 있기 때문입니다. 다른 뷰에는 이러한 정보가 포함되어 있지 않으므로 카메라 보정이 사실상 불가능합니다.

하지만 하이앵글 게임 카메라 뷰를 사용하더라도 평균적으로 22명의 플레이어 중 11명만 시야에 들어오는 경우가 많습니다. 그리고 이전에는 플레이어 트래킹 데이터를 캡처할 수 없었던 클로즈업과 리플레이가 자주 발생합니다.

리플레이/클로즈업이 사용되는 시간은 게임마다 다르며, 어떤 게임은 클로즈업이 최소화되는 반면, 어떤 게임은 게임의 20%에 달할 정도로 많이 사용됩니다.

축구와 같은 팀 경기의 경우, 경기 이벤트의 20%, 선수들의 오프볼 러닝의 50%가 포착되지 않는다면 의미 있는 분석에 상당한 한계가 있을 수밖에 없습니다.

다음 두 가지 예를 살펴보세요. 첫 번째 예시(위)는 22명의 플레이어 중 11명이 시야에서 벗어난 경우이고, 두 번째 예시(아래)는 클로즈업으로 인해 모든 플레이어가 시야에서 벗어난 경우를 보여줍니다.

이 두 가지 예는 동일한 플레이 구간에서 가져온 것입니다. 먼저 게임 카메라가 일정 시간 동안 각 팀의 선수 절반을 놓치고 있습니다. 그런 다음 약 8초 동안 20명의 선수가 누락된 클로즈업 장면을 보여줍니다. 이 클로즈업에는 경기장 오른쪽에서 스루패스가 이루어지기 전 세 번의 패스가 포함됩니다.

클로즈업 중에 트래킹 데이터를 캡처하지 않는 일반적인 원격 트래킹을 사용하면 대부분의 선수의 위치와 움직임, 그리고 더 중요하게는 공격 플레이로 이어지는 마지막 패스 3개를 놓칠 수 있습니다.

키 패스는 드물지만 매우 중요합니다. 따라서 키 패스와 키 패스로 이어지는 패스, 그리고 다른 선수들의 영향력과 결정이 누락되면 분석에 큰 공백이 생깁니다.

따라서 완전한 추적 데이터를 확보하여 그 간극을 메울 수 있다면 완벽한 분석이 가능합니다. 하지만 어떻게 할까요?

제너레이티브 AI Opta Vision 시작하기

인간 전문가들은 과거에 본 것과 여러 팀, 선수, 코치들이 다양한 상황에서 어떻게 플레이하는지에 대한 지식을 바탕으로 스포츠에서 보이지 않는 상황을 예측하는 데 꽤 능숙합니다. 문제는 어떻게 하면 컴퓨터가 이를 학습하여 누락된 세부 정보를 '추론'하게 할 수 있을까요?

이 시리즈의 이전 글에서 설명했듯이, 텍스트로 학습된 생성 AI 모델은 잘못된 문장을 수정하거나 누락된 단어를 채울 수 있습니다. 이미지에 대해 학습된 모델은 채우기 및 확장(인페인팅 및 아웃페인팅)을 사용하여 이미지를 완성할 수 있습니다. OpenAI의 텍스트-비디오 기술인 'Sora'처럼 텍스트, 이미지, 비디오에 대해 학습된 멀티모달 모델은 텍스트 설명만으로 완전한 비디오를 생성할 수 있습니다.

축구의 경우, 우리가 만든 언어는 이벤트 데이터(공에서 일어난 일과 관련된 사람)와 추적 데이터(선수 위치 및 동작)를 모두 활용합니다. Sora가 텍스트와 비디오 간의 매핑을 학습한 것과 유사한 방식으로, Stats Perform 이벤트와 추적 데이터 간의 매핑을 학습하여 이 문제를 해결할 수 있게 되었습니다.

온볼 이벤트 전후의 원격 추적 데이터를 확보한 다음, 어떤 온볼 이벤트/행동이 어떤 선수를 통해 발생했는지에 대한 정보를 확보함으로써 (방대한 양의 독점적인 Opta 데이터로 학습된) 저희 모델은 해당 선수가 어디에 있는지 정확하게 추정(또는 '추정')할 수 있는 충분한 컨텍스트를 확보하게 됩니다. 아래에서 결과를 확인하세요. 제 생각에는 마법과도 같습니다!

이 작업을 위해 저희는 지도를 '텍스트 등가물'로 사용한 다음 컴퓨터 vision 사용하여 이 '지도 공간'에 세상의 물체를 매핑하는 자율 주행 차량 분야의 최근 작업에서 영감을 받았습니다.

시각적 데이터를 다루기 때문에 이미지나 궤적 생성과 같은 시각적 작업에는 디퓨전 모델이 선호되는데, 이는 세밀한 디테일을 포착하고 고품질의 결과물을 생성하는 데 탁월하기 때문입니다. 텍스트 및 텍스트 기반 작업(예: ChatGPT 및 Gemini)과 같은 순차적 데이터의 경우 트랜스포머 신경망이 더 적합합니다. 확산은 트랜스포머와는 다른 접근 방식이지만, 새롭고 사실적인 이미지를 생성할 수 있으므로(또는 이 경우 실종된 플레이어의 사실적인 궤적을 생성할 수 있으므로) 여전히 생성형 AI 범주에 속합니다.

앞서 언급했듯이 결과는 매우 "마법적"입니다. 하지만 더 중요한 것은 이제 모든 패스를 다른 선수의 위치와 움직임의 맥락에서 분석할 수 있게 되어 축구의 핵심 문제가 해결되었다는 점, 즉 '완전한 분석'이 가능해졌다는 점입니다.

따라서 경기장 내에서 할 수 있는 것과 동일한 유형의 분석을 원격 비디오에서도 수행할 수 있으며, 이는 더 많은 선수, 팀, 리그에서 인사이트를 확보하는 데 있어 엄청난 패러다임의 전환입니다.

또한 과거 게임에서 완전한 데이터를 생성할 수 있습니다. 이 여정이 진행됨에 따라 이에 대해 더 많은 소식을 전해드리겠습니다. 최근 MIT 슬론 스포츠 분석 컨퍼런스에서 Stats Perform AI 팀의 해리 휴즈가 이 작업을 훌륭하게 발표했는데, 자세한 내용과 프레젠테이션 동영상 링크는 여기를 참조하세요.

클로즈업 중에 CV 시스템을 추적할 수 없는 이유는 무엇인가요?

왼쪽 하단의 예에서 볼 수 있듯이 흰색 유니폼을 입은 선수를 명확하게 볼 수 있으므로 이력 시스템을 통해 이러한 선수를 쉽게 검색할 수 있습니다.

그러나 이것은 그라운드 수준에서 이루어지기 때문에 다른 선수 및 경기장과 관련하여 해당 선수가 '픽셀 공간'(즉, 이미지)에서 어디에 있는지 추정하는 것은 사실상 불가능합니다. 위치 및 움직임 감지를 위한 이러한 종류의 추론은 '추적 공간'(즉, 하향식 피치 뷰)에서 훨씬 더 쉽게 수행할 수 있습니다.

AI 분야의 선도적인 인물인 얀 르쿤은 최근 '픽셀 공간'에서 세계를 모델링하는 것은 비효율적이며 해결이 불가능하다고 언급했습니다. 유니티도 이에 동의하며, 인사이트가 원격 비디오에서 완전한 추적 데이터를 생성하는 이 과제를 해결하는 열쇠라고 생각합니다. 추적 데이터를 생성하는 저희의 접근 방식은 기본적으로 '추적 데이터 공간'을 픽셀 공간에서 1,000,000:1로 압축하여 처리합니다.

추적 데이터 공간 내에서 운영할 때의 장점은 경기장 크기(축구의 경우 평균 105x68m)로 가능성을 제한하고 이벤트의 추가 컨텍스트가 이를 더욱 제약하기 때문에 "현실 세계에 우리를 묶어둔다"는 것입니다.

왜 플레이어 추적 데이터에서 멈출까요? CV 시스템이 비디오에서 바로 '이벤트 데이터'를 감지할 수 있을까요?

먼저 '이벤트 데이터'가 무엇인지 정의해 보겠습니다. 축구를 예로 들어 설명하자면, 이벤트 데이터는 경기 중 플레이어가 수행하는 행동과 심판이 내리는 결정을 말합니다. 여기에는 프리킥, 골킥, 코너킥, 스로인, 터치, 패스, 드리블, 슈팅, 골, 자책골, 세이브, 헤딩, 태클, 인터셉트, 파울, 페널티, 옐로카드, 레드카드 등이 포함됩니다.

위치 및 움직임 데이터와 이벤트 데이터를 결합하면 경기를 전체적으로 파악할 수 있습니다. 이 두 가지가 없으면 특정 상황에서 플레이어의 결정과 능력을 분석하고 예측하는 것은 불가능합니다.

'이벤트'에 대해 주목해야 할 몇 가지 주요 사항은 다음과 같습니다:

  1. 많은 이벤트는 실제로 시각과 청각(예: 심판의 호루라기) 모두에 의존하기 때문에 본질적으로 멀티 모달입니다. 파울, 페널티, 오프사이드, 옐로카드, 레드카드, 코너킥, 골은 인간 심판이 해당 이벤트라고 결정한 경우에만 발생합니다. 골키퍼가 슛을 골대 위로 건드린 경우에도 심판이 코너킥을 선언한 경우에만 세이브가 될 수 있습니다.
  2. 일부 이벤트에는 지속 시간이 있습니다. 패스는 플레이어가 성공적으로 수신한 경우 시작 위치와 종료 위치가 있습니다.
  3. 일부 경기는 VAR 또는 부심의 개입으로 인해 사후에 판정이 변경될 수 있습니다.
  4. 많은 이벤트는 여러 플레이어가 근접한 상태에서 발생하며, 규정된 정의에 따라 정확하고 일관되게 감지하고 분류하려면 면밀한 평가가 필요합니다.

전 세계 수백 개의 엘리트 남녀 축구 대회에서 팀과 미디어가 이벤트 데이터를 실시간으로 일관되고 정확하게 수집해야 유용하게 사용할 수 있다는 점을 고려하면, 다양한 견해가 충돌하는 상황뿐만 아니라 심판 판정(또는 판정 변경)을 해석하는 데에도 전문 인력이 필요하다는 것을 알 수 있습니다. 또한 2022년 FIFA 남자 월드컵에서 사용된 반자동 오프사이드 판독 시스템에서 볼 수 있듯이 10~12대의 카메라와 공에 칩이 장착된 경우에도 사람의 개입이 필요합니다.

따라서 스포츠 데이터의 입력 소스는 컴퓨터 vision 아니라 사람이 직접 수집한 데이터를 통합하는 멀티모달로 생각할 수 있습니다. 입력 데이터의 상호 보완적인 특성과 이 프로세스에 적용된 중복성은 경기 중 어떤 일이 발생하든, 입력 비디오나 심판의 의사 결정에 관계없이 완전하고 정확한 데이터를 캡처할 수 있도록 보장합니다.

GPT-4o 또는 Gemini는 멀티모달이기 때문에 스포츠용 이미지/비디오 처리를 할 수 없나요? 이를 사용하여 선수 추적 데이터를 생성할 수 없는 이유는 무엇인가요?

상용 API를 사용하여 이미지와 비디오 데이터를 처리하는 데 드는 높은 비용과 지연 시간 외에도, 기성 모델을 사용하면 눈에 잘 띄는 일부 선수만 포착할 수 있어 스포츠의 다양한 미묘한 차이와 수많은 변수로 인해 경기의 주요 격차를 비롯한 중요한 '라스트 마일' 디테일이 부족해집니다.

그 이유는 다음과 같습니다:

  1. 훈련 데이터: GPT-4o 및 Gemini와 같은 모델은 관련 추적 및 이벤트 데이터가 포함된 스포츠 데이터의 도메인별 세부 시퀀스가 아닌 이미지 및 캡션 페어링을 기반으로 하는 공개적으로 사용 가능한 데이터로 학습됩니다.
  2. 언어: GPT-4o 및 Gemini와 같은 모델은 이미지/동영상과 텍스트 간의 상관관계를 학습하고 있습니다. 앞서 언급했듯이, 우리는 추적 데이터와 이미지/비디오 및 텍스트에 해당하는 이벤트 데이터 간의 상관관계를 학습하고자 합니다.

이를 다른 방식으로 생각하면 스포츠 데이터(추적 및 이벤트)는 그 자체로 '언어'이며, GPT-4o와 Gemini는 자연어(이미지 및 캡션)에 최적화되어 있으므로 Stats Perform기본 모델은 세부 스포츠 데이터로 훈련되지 않은 모델과는 말 그대로 다른 언어를 사용하고 있습니다.

이론적으로는 이미지/비디오와 이벤트 데이터를 페어링하여 모델을 학습하는 것이 가능하지만, 비디오와 추적 데이터의 압축률(즉, 1,000,000:1)로 인해 실용적이지 않지만, 추적 데이터는 데이터를 스포츠의 현실에 근거하며 추적 데이터는 시각화, 상호작용 및 해석 가능성을 위해 그 자체로 매우 유용한 결과물입니다(다음 글에서 설명할 예정임).

AI 에이전트가 라이브 스포츠 경기를 보고 규칙을 설명하는 것은 경기 분석과 같은 것일까요?

이것은 좋은 질문이며, 언어를 이해하는 것(또는 초보자나 전문가처럼 주제를 이해하는 것)의 차이에 대한 핵심을 짚어줍니다. 현재 자연어 기반 다중 모드 LLM은 동영상을 인식하여 축구 경기로 식별할 수 있으며, 화면의 스코어 '버그'를 통해 일부 팀과 선수, 그리고 경기의 스코어와 시간을 식별할 수도 있습니다. 이를 통해 축구 규칙과 관련 클럽의 역사를 설명할 수 있으며, 이는 위키피디아(인터넷에서 공개적으로 찾을 수 있는 높은 수준의 텍스트 정보)에서 검색하여 빠르게 얻을 수 있는 정보일 수도 있습니다.

그러나 어떤 스포츠가 진행되고 있는지 파악하는 것과 게임에서 일어나는 일에 대한 세부 사항을 감지하는 것은 매우 다른 문제입니다. GenAI의 다음 물결은 초보자처럼 단순히 어떤 스포츠가 진행되고 있는지 식별하는 것이 아니라 '전문가'처럼 경기를 지켜보는 것입니다. 그러기 위해서는 전문가의 언어가 필요합니다. 축구의 경우 팀이 어떤 포메이션을 취하고 있는지, 특정 상황에서 수비수가 '있어야 할' 위치는 어디인지, 어떤 선수가 '했어야 할' 패스는 무엇인지, 잘못된 패스가 역습으로 이어져 얼마나 큰 대가를 치렀는지 파악하는 것이 중요합니다. 또한 이를 '라이브' 요소와 연결하는 것이 중요한데, 현재의 상용 LLM은 지식 단절이 있기 때문에 이 작업을 수행할 수 없습니다. 따라서 이벤트 및 추적 데이터뿐만 아니라 '실시간 및 최신' 스포츠 데이터베이스를 보유하는 것은 매우 중요하며, 전문가처럼 경기를 '시청'하기 위해서는 반드시 필요합니다.

다음 글에서는 이벤트와 트래킹을 스포츠의 원시 언어로 사용하고 이를 전문가처럼 경기를 '시청'할 수 있는 방식으로 변환하는 방법에 대해 설명하겠습니다. 본질적으로 이벤트 및 추적 데이터는 텍스트와 시각 모두에서 단어 역할을 하지만, 문장, 단락, 장(또는 책 전체)을 구성해야 하므로 아직 구조화되지 않은 상태입니다.

스포츠 데이터는 정형화된 데이터인가요, 아니면 비정형화된 데이터인가요?

패스나 슛과 같은 별개의 이벤트 측면에서 데이터는 구조화됩니다. 데이터베이스에 저장하고 검색할 수 있습니다. 또한 액션 프레임당 행으로 추적 데이터를 저장할 수도 있습니다.

문제는 축구와 같은 스포츠는 연속적인 경기이며, 22명의 선수가 움직이고 이벤트가 발생하는 전체 그림을 모델링하려면 이를 독립적으로가 아니라 순차적으로 함께 구성해야 한다는 것입니다. 여기서 비유하자면 책의 각 단어나 문장을 개별적으로 저장하는 것과 같으며, 저장할 수는 있지만 문맥을 잃게 됩니다.

각 이벤트와 관련된 추적 및 이벤트 데이터는 책 속의 한 문장으로 생각할 수 있습니다(게임이 책인 경우). 수집한 추적 및 이벤트 데이터를 일관된 구조로 통합해야 하는 원자라고 생각하는 또 다른 방법은 원자로 생각하는 것입니다.

그러나 원자(즉, 이벤트와 플레이어)의 수는 우주의 원자 수보다 더 많은 순열을 포함하고 있습니다!

제너레이티브 AI 모델을 사용하면 이러한 비정형 원자로부터 올바른 구조를 학습할 수 있습니다.

기본적으로 AI 하는 모든 작업은 컴퓨터가 학습할 수 있는 올바른 입력 구조 또는 표현에 관한 것입니다.

트래킹 데이터와 이벤트를 함께 생성하려면 모든 플레이어의 위치, 속도, 가속도뿐만 아니라 이전 이벤트도 고려해야 합니다. 이 모든 것은 시간에 따라 달라집니다. 위와 같이 이 데이터는 우주의 원자 수보다 더 많은 순열을 가지고 있으므로 원시 데이터를 사용한 모델을 통해 올바른 구조(임베딩이라고도 함)를 학습할 수 있습니다.

다음 글에서는 추적 데이터를 다양한 방법으로 활용하는 방법, 특히 전문가처럼 경기를 시청하는 방법과 시각적으로 대화형 검색을 수행하는 방법에 대해 자세히 알아보겠습니다.

지난 기사에서 로보소커에 대해 잠깐 언급하셨는데, 이것과 관련이 있나요?

이 글에서는 스포츠에서의 컴퓨터 vision 역사에 대해 이야기하면서 1990년대 스포츠에서 컴퓨터 vision 처음으로 활발하게 사용된 분야 중 하나인 로보축구에 대해서는 언급하지 않았습니다. 이 분야는 머니볼 혁명으로 실제 스포츠에 대한 관심이 높아지기 전까지 가장 활발하게 연구된 분야 중 하나였습니다.

2050년까지 완전 자율 휴머노이드 로봇으로 구성된 팀이 실제 경기장에서 세계 최고의 인간 축구팀을 이기는 것이 로보사커 또는 로보컵의 목표였습니다. 이 목표를 달성하려면 두 가지가 필요합니다:

  1. 최근 출시된 보스턴 다이나믹스 로봇을 기반으로 점점 더 가까워지고 있는 사람처럼 움직일 수 있는 로봇을 만들어보세요.
  2. 로봇이 인간 선수처럼 세상을 '인식'할 수 있도록 해야 합니다. 그러기 위해서는 로봇이 축구의 움직임과 구조를 학습할 수 있는 충분한 사례를 생성해야 합니다.

Opta Vision 수행해온 작업을 통해 지금까지 플레이한 모든 게임을 '완전히' 분석하고, 로봇이 인간 전문가처럼 게임을 읽도록 훈련하는 데 필요한 완전한 데이터를 제공할 수 있을 것으로 믿습니다.

하지만 스포츠의 매력은 사람이 하는 것이기 때문에 예측할 수 없고 유동적이며 사람들이 함께 즐길 수 있는 생생하고 독특한 경험을 제공한다는 점입니다. 컴퓨터에게 체스, 제퍼디, 바둑을 가르치는 것과 비슷하지만 훨씬 더 어려운 목표이기는 하지만, 저는 오히려 RoboCup과 같은 도전이 인간이 얼마나 놀라운 존재인지, 최고 수준의 인지적, 육체적 능력을 발휘하는 데 필요한 준비, 연습, 코칭의 수준을 보여줄 것이라고 생각합니다.


다음 글에서는 컴퓨터 vision 추적 데이터를 사용하여 축구, 농구, 테니스와 같은 스포츠를 이해하는 방법을 소개합니다. 또한 예측에서 제너레이티브 AI 하는 역할에 대해서도 집중 조명할 예정입니다.