슬론 요약: 머니볼, 기계 학습 및 대규모 언어 모델

2011년부터 보스턴에서 열리는 MIT 슬론 스포츠 애널리틱스 컨퍼런스(2021년 원격 버전 포함)에 참석해 왔으며, 주로 업계 친구들을 만나고 스포츠 분석 분야의 새로운 혁신에 대해 듣고 토론하며(때로는 발표도 하고) 항상 즐거운 시간을 보냈습니다. 올해도 예외는 아니어서 재미있는 패널과 흥미로운 강연, 연구 논문이 많이 발표되었습니다. 하지만 올해는 조금 다른 점이 있었는데, 바로 AI 스포츠 산업에 어떤 영향을 미칠지, 그리고 인간의 일자리를 어떻게 빼앗을지에 대한 불확실성과 주저함이 있었습니다. MIT SSAC 컨퍼런스가 끝난 지 일주일이 지난 지금, 저는 이번 컨퍼런스에서 얻은 5가지 주요 시사점을 정리해 보았는데, 마지막 두 가지는 이 이슈에 관한 것입니다(제가 발표하고 패널로 참여했던 주제이기도 하지만, 컨퍼런스에서 대부분의 시간을 이 주제에 대해 논의한 만큼 이 두 가지를 중심으로 자세한 내용을 설명하겠습니다).

머니볼 개봉 20년이 지났습니다: 믿기 어렵겠지만 마이클 루이스의 "머니볼"이 개봉한 지 20년이 지났습니다. 이를 기념하기 위해 마이클 루이스와 함께 셰인 배티어, 빌 제임스, 대릴 모레이가 참여한 패널이 열렸고, 잭키 맥컬럼이 사회를 맡았는데, 매우 재미있는 패널이었습니다. 핵심 주제는 (그리고 사람들이 종종 놓치는 것 같지만) 머니볼은 단순한 스포츠 이야기가 아니라, 데이터와 분석을 보조 도구로 사용하여 프로세스와 가치 자원을 측정하는 것이 어떻게 비즈니스 운영 방식을 최적화할 수 있는지, 특히 경쟁자가 그렇게 하지 않는다면 이는 엄청난 경쟁 우위가 될 수 있다는 것을 스포츠(특히 야구의 오클랜드 A's)를 예로 들어 설명합니다.
최고의 투자는 여자 스포츠입니다: 여러 패널에서 많은 사람들이 강조한 것처럼, 현재 최고의 투자는 여자 스포츠입니다. 이러한 견해는 WNBA, 유럽 여자 축구 리그, 최근 인도에서 시작된 T20 크리켓 여자 프리미어 리그의 인기 상승, 프랜차이즈 가치, 중계권 등에서 비롯된 것입니다. 또한, 여자 스포츠는 훌륭한 WTA 파트너와 수많은 축구, 농구, 크리켓 대회와 함께 새로운 것을 보여줄 수 있는 좋은 기회라는 것을 알게 되었습니다.
라이브 플레이어 소품: 미국에서의 베팅 증가도 이번 컨퍼런스에서 주목할 만한 주제였습니다. 각 주에서 도박을 허용하기 위한 물류 및 장애물 외에도 라이브 플레이어 소품의 필요성과 잠재 데이터 및 모델 업데이트의 필요성에 대한 논의가 이어졌습니다. 유니티의 관점에서 볼 때, 이는 미국뿐만 아니라 전 세계적으로 공통적으로 제기되는 문제이며 유니티는 이미 이를 해결하기 위해 앞장서고 있습니다. 최근 스포츠 솔루션과의 베팅 혁신 센터 파트너십이 그 예입니다. 이 공간에서 더 많은 소식을 확인하세요...
ChatGPT와 스포츠에 적용하는 방법: 지난 3개월 동안 ChatGPT가 도입되면서 많은 언론과 관심이 생성형 AI 대규모 언어 모델 사용에 집중되었습니다(자세한 내용은 여기에서 두 개의 기사를 참조하세요): 파트 1 & 파트 2). 저는 금요일 오후 컨퍼런스에서 이 주제에 대해 강연했습니다. 제가 전달하고자 했던 핵심 사항은 다음과 같습니다:
1. ChatGPT와 같은 현재의 대규모 언어 모델(LLM)은 사실을 왜곡하는데, 이는 스포츠에서 매우 문제가 됩니다,
2. 스포츠에서 챗봇을 활용하려면 사실 우선 접근 방식을 활용하고, Stats Perform 같이 모든 스포츠 종목에 걸쳐 신뢰할 수 있는 실시간 스포츠 데이터를 활용해야 합니다,
3. 스포츠 언어는 대규모 언어 모델에서 사용되는 자연어 텍스트가 아닌 자체 언어(샷, 태클, 패스 등의 통계로 구성된 스포츠 텍스트와 선수의 위치와 움직임을 보여주는 위치 데이터를 사용하는 시각적 모드로 구성됨)입니다,
4. 시각적 언어를 사용하여 스포츠의 언어를 확장하고 확장하여 팀과 미디어가 더 나은 스토리를 분석하고 전달하는 데 도움이 되는 새로운 패턴을 찾을 수 있습니다. Opta Vision 세트의 일부인 라인 브레이킹 패스 및 압박과 같은 새로운 Opta Vision 축구 지표는 이전에는 볼 수 없었던 디테일 층을 드러내어 경기를 더욱 흥미롭게 만들고, 팀이 숨겨진 선수의 강점을 찾고, 전술과 전략을 더 잘 예측할 수 있도록 도와주는 좋은 예입니다.
5. 스포츠 분석의 미래는 이러한 데이터를 활용하여 파생된 이산 통계와 시각적 언어 모델을 사용하여 스포츠 전반에 걸쳐 더욱 다양하고 포괄적인 예측에 사용할 수 있는 대규모 언어 모델을 형성함으로써 팀이 경기 전과 경기 중에 더 나은 결정을 내리고 미디어 보도가 더욱 설득력 있고 유용하게 활용되어 팬의 성장과 관심을 유도하도록 돕는 것입니다.

프레젠테이션에서 큰 피드백을 받았습니다. 스포츠를 고유한 언어로 공식화하고 이러한 특정 데이터 세트에 대한 언어 모델을 만드는 것은 정말 공감을 불러일으키는 것 같았습니다. 또한, 언어 모델을 사용하는 이러한 추세는 몇 개의 연구 논문에서도 발견할 수 있었는데, 이는 지난 몇 년 동안 위에서 언급한 대로 Stats Perform 새로운 제품을 생성할 때 취해온 접근 방식과도 일치합니다.

"기계의 부상"에 대한 우려: 제가 참여한 토요일 오후 패널 토론에서는 스포츠에서 AI 잠재적인 부작용과 한계에 대한 흥미로운 대화가 이어졌습니다. 제가 제기한 핵심 사항은 다음과 같습니다:

1. 전 세계의 많은 데이터가 디지털화되어 있지 않거나 이용 가능하지 않습니다. 이는 스포츠에서도 마찬가지입니다. 모든 선수의 공-수 위치 데이터는 경기 상황을 분석하고 예측하는 능력을 크게 확장하지만, 모델에 반영되지 않는 다른 많은 요소들이 있습니다. 여기에는 건강 데이터, 수면 데이터, 영양 데이터, 심지어 같은 팀에 속한 두 선수가 그날 서로 싫어하는지 여부와 같은 개인 데이터도 포함됩니다. 이는 한계로 보일 수 있습니다. 저는 이것이 스포츠, 적어도 인간 스포츠의 아름다움의 근본적인 부분이라고 생각합니다. 스포츠 분석은 특히 최근의 발전으로 경기 내 성과를 포착하고 분석하는 성숙한 단계에 이르렀습니다. 그러나 CBA 및 기타 규정을 통해 개인 데이터의 가용성을 제한하는 등 자연스럽고 부과된 보호 장치가 마련되어 있어 최종 결정은 사람이 내릴 수 있습니다(비행기의 조종사처럼 대부분의 경우 자동 조종에 의존하지만 필요할 때 개입할 수 있지만 항상 비행기에서 필요함). 인간 영역 전문가가 업무를 더 잘 수행할 수 있도록 돕는 보조 도구를 만드는 것, 이것이 바로 AI 기술의 핵심이라고 생각합니다. 조만간 이 점이 바뀔 것 같지는 않습니다.
2. 저는 스포츠 분야에서 AI 창출하는 기회가 인적 자본 비용보다 훨씬 더 크다고 굳게 믿습니다. "기계가 부상하고 있다"는 것은 반복적이고 시간이 많이 소요되는 작업을 수행하거나 분석 결과물을 확장하는 데 도움이 된다는 뜻이지만, 오히려 인간이 할 수 있는 일이 더 많아지고 있다는 뜻이기도 합니다. 예를 들어, AI 잠재적인 데이터 수집 이상 징후를 조기에 발견하는 데 도움을 주므로 게임 내 실시간 통계가 더 정확해져 분석가들이 더 많은 게임에 대해 더 많은 통계를 자신 있게 수집할 수 있습니다. 이는 새로운 스토리를 만들 수 있다는 뜻입니다. 이처럼 AI 고객과 유니티가 더 많은 일을 할 수 있도록 지원하고 궁극적으로 스포츠를 더욱 매력적으로 만들 수 있는 또 다른 도구입니다. 아직 알려지지 않은 수많은 이야기가 있지만, AI 더 많은 이야기를 들려줄 수 있도록 도와주고 있습니다. 예를 들어 여자 스포츠에 대한 저의 이전 언급을 참고하세요.
3. 신뢰, 신뢰성 및 AI 보안: 그러나 AI 기술이 발전함에 따라 스포츠 데이터의 출처와 최신 상태인지에 대해 염두에 두어야 합니다(ChatGPT의 예에서 강조한 바 있습니다). 또한 음성 및 동영상에 대한 딥페이크가 증가함에 따라 모든 스포츠 데이터의 진위 여부를 확인할 필요가 있습니다. 제가 패널에서 사용한 예는 누군가 '딥페이크' 기술을 사용하여 지아니스나 다른 농구계의 떠오르는 스타들의 과거 영상을 이용해 그들의 경기 하이라이트를 생성하는 경우를 상상해보는 것이었습니다. 한 가지 전략은 '제로 트러스트'를 통해 해당 인물이 실제로 관심 대상자인지 확인할 수 있는 사람이 있는지 확인하는 것입니다. 또 다른 대안은 신뢰할 수 있는 데이터 및 분석 제공업체를 활용하여 직접 검증하는 것입니다. 이는 이미 스포츠 이외의 분야에서도 진행되고 있지만, AI 보안 분야에서는 콘텐츠가 실제인지 또는 생성된 것인지 검증하는 데 사용할 수 있는 AI 보안이 필수적인 요소가 되고 있습니다. 따라서 모든 데이터(및 그 데이터를 기반으로 한 AI 결과물)가 어디서 어떻게 생성되는지 파악하고 그 출처를 신뢰하는 것이 데이터 및 AI 거버넌스 전략을 수립할 때 중심축이 되는 이유입니다.

전반적으로 컨퍼런스는 매우 즐거운 시간이었습니다. 수년간의 사회적 거리두기와 화상 회의 끝에 한 장소에서 한 커뮤니티로 모일 수 있다는 것은 정말 즐거운 경험이었습니다. 곧 런던에서 Opta Forum 열릴 예정인데, 연사, 연구 논문, 혁신이 소개될 예정이라 기대가 됩니다. 그곳에서 여러분을 만나 뵙기를 기대합니다!

패트릭 루시 박사는 스포츠 데이터 대기업인 Stats Perform 수석 과학자로, 회사의 방대한 스포츠 데이터의 가치를 극대화하는 것을 목표로 AI 팀을 이끌고 있습니다. Patrick은 지난 20년간 AI 분야에서 연구하고 일해 왔으며, 디즈니 리서치와 카네기멜론대학교 로봇공학연구소에서 연구직을 맡았고, 박사 학위를 취득하는 동안 IBM의 TJ 왓슨 연구 센터에서 시간을 보냈습니다. Patrick은 호주 출신으로 서던퀸즐랜드대학교에서 공학사(EE) 학위를, 퀸즐랜드공과대학에서 박사 학위를 받았습니다. 그는 100편 이상의 동료 심사 논문을 저술했으며 MIT 슬론 최우수 연구 논문 트랙의 공동 저자로 2016년 최우수 논문, 2017년과 2018년에는 준우승을 차지한 바 있습니다.

슬론 요약: 머니볼, 머신 러닝, 대규모 언어 모델

우리는 또한 추천합니다

스코어보드에 가입하기