주요 콘텐츠로 건너뛰기

'숫자를 넣을 수 있을까? 야구 분석 전문가 에노 사리스와의 인터뷰

작성자: 작성자: 케빈 크로스트

에노 사리스는 야구계의 저명한 분석 작가 중 한 명입니다. 저는 아닙니다.

하지만 저는 스포츠 저널리스트 출신으로 전 세계에서 데이터를 활용하는 사람들과 미디어 관점과 팀 성과 관점에서 스포츠에서의 데이터 활용에 대해 논의하는 데 많은 시간을 할애합니다.

Eno와 저는 그의 경력, 분석이 야구 글쓰기에 어떤 변화를 가져왔는지, 그리고 기술이 게임의 일부가 되어감에 따라 업계가 나아갈 방향에 대해 논의하기 위해 만났습니다.

대화 전문은 다음과 같습니다:

케빈 크로스트: 이메일 서명란에 '야구 분석'이라는 문구가 바로 거기에 나와 있습니다. 어떻게 야구 작가가 되셨고, 야구에서 파생된 고급 주제에 집중하기까지 어떤 과정을 거쳤나요? 

에노 사리스: 저는 사실 이민자입니다. 부모님이 독일인이고 1986년에 이 나라에 왔는데, 제가 힘들어했던 것 중 하나는 아이들을 만나고 새로운 사람들을 만나는 것이었습니다. 제가 한 일 중 하나는 야구를 통해 새로운 사람들을 만나는 것이었습니다. 저는 실제로 다른 아이들을 통해 정말 많은 인연을 맺었습니다. 그게 정말 중요했어요. 다른 사람들에게는 야구가 아이들을 (연결) 시켜주기도 하지만, 저에게는 이 나라와 사람들, 문화와의 연결과도 같아서 정말 중요했습니다.

제 양아버지도 야구를 좋아하셨어요. 양아버지와 함께 경기를 보러 다니고 야구 카드 거래도 하면서 저는 야구 선수들의 평가에 본격적으로 관심을 갖기 시작했어요. 단순히 게리 셰필드인 척 흔들며 위플볼 같은 것을 하는 것이 아니었죠. 그것도 마찬가지였죠: 어떻게 하면 최고의 야구 카드를 가장 잘 얻을 수 있을까, 어떻게 하면 친구들에게 최고의 야구 카드를 받고 최악의 야구 카드를 줄 수 있을까? 그래서 처음부터 야구에 대한 분석도 어느 정도 포함되어 있었어요. 제가 프로야구 선수가 될 줄은 정말 몰랐던 것 같아요. 그래서 처음부터 분석이 조금 더 중요했죠.

KC: 야구의 고급 분석을 본격적으로 받아들이기 시작하고 이를 글쓰기의 일관된 부분으로 삼은 특별한 시점을 기억하시나요? 

ES: 분석이 저에게 처음으로 구체화된 것은 제가 한 야구 카드 거래였던 것 같아요. 제가 8살 때였는데 정말 갖고 싶었던 배리 본즈의 신인 카드가 있었어요. 다른 친구는 브레이브스의 열렬한 팬이었고 우리는 애틀랜타에 살고 있었기 때문에 저는 "좋아, 여기서 뭘 할까?"라고 생각했죠. 저는 마크 렘케 신인 카드, 제프 블라우저 신인 카드, 스티브 에이버리 일반 스티브 에이버리 카드를 줬어요. 저는 이렇게 말했죠. "이봐요, 전 이 신인 카드를 포기하고 싶지 않아요. 마크 렘케, 전 그 선수를 좋아하지만 배리 본즈를 싫어하는 건 알아요. 화려해서 싫어하는 건 이해해요. 그냥 그 배리 본즈 신인 카드를 주세요. 그 대신 이 멋진 카드 세 장을 드릴게요."

제가 야구를 좋아하는 이유 중 하나가 분석이라는 점에서 그 순간이 저에게 딱 들어맞았던 것 같아요. 그래서 판타지 야구를 시작했고, 글을 쓰기 전부터 오랫동안 판타지 야구를 했어요. 판타지 리그에서 우승하기 위해 하고 싶었던 것 중 하나는 시중에 나와 있는 모든 분석 자료를 읽는 것이었습니다. 모든 판타지 리그에서 우승하기 위해 저는 베이스볼 프로스펙튜스를 읽었습니다. 팬그래프도 읽고, 롭 네이어도 읽고, 야구에 관한 책을 읽으면서도 어떻게 하면 내 판타지 리그에서 우승할 수 있을지 고민했습니다. 일부 사람들이 모르는 사실이 하나 있는데, 팬그래프는 사실 데이비드 아펠만이 자신의 판타지 리그 우승을 위해 만들었다는 사실입니다.

그래서 저는 가끔 야구에서 읽게 되는 장면의 이면에 진짜 이유가 있다고 생각합니다. 여러분이 보는 분석은 사람들이 자신의 판타지 리그에서 우승하기 위해 노력하는 것일 뿐입니다.

KC: 가끔 모든 데이터가 야구를 망치고 있다는 이야기를 듣곤 합니다. 이에 대해 어떻게 생각하시나요? 

ES: 데이터에 대해 읽고 싶지 않은 사람은 데이터가 너무 많다고 느끼는 것 같다는 생각에 공감하며, 데이터가 더 널리 퍼져 있다는 것을 알 수 있습니다. 점점 더 많은 사람들이 글쓰기에 데이터를 사용하고 있습니다. 그런 사람들에게는 여전히 훌륭한 분석과 훌륭한 오피니언 글쓰기가 있다고 말하고 싶습니다. 여전히 좋은 글을 쓰는 훌륭한 칼럼니스트들이 있고, 그런 분들의 글을 읽을 수 있습니다.

제가 야구를 감상하는 방식은 숫자가 더해질 뿐이라고 생각합니다. ("오, 마이크 트라웃, 그는 놀라운 선수이고 이 모든 것을 잘 조합한 선수입니다."라고 말할 수 있죠. 하지만 숫자를 조합해서 27세까지 역대 최고라고 말할 수 있다면 더 설득력이 있을 것 같습니다. "어젯밤 경기에서 누군가가 벽으로 달려가는 멋진 캐치를 했는데, 내가 본 캐치 중 최고였어요."라고 말할 수 있죠. 글쎄요, 그건 그냥 여러분의 말일 뿐입니다. "오, 그건 내가 본 최고의 캐치 중 하나였어요."라고 말하는 것이죠.

올해 그 누구보다 빨리 달렸고, 캐치 확률은 가장 낮았지만 가장 높이 뛰어올랐다고 말할 수 있다면 어떨까요? 이제 그렇게 할 수 있습니다. 그가 공을 잡기 위해 가장 높이 뛰어올랐다고 말할 수 있습니다. 저는 그게 더 설득력이 있다고 생각합니다. 이렇게 하면 맥락을 파악하고 역사에서 어떤 위치에 있는지 알 수 있으며 스토리텔링에 도움이 된다고 생각합니다. 스토리를 훼손하지 않죠. 전체 스토리를 전달하기 위한 일부분입니다. 지금은 숫자가 전체 이야기를 전달하는 일부라고 생각합니다.

KC: 스포츠 저널리즘은 물론 저널리즘 전반이 한동안 재발견의 시기를 맞고 있습니다. 개인적으로는 어떻게 받아들이고 있나요? 

ES: 저는 사실 어렸을 때 제가 스포츠 저널리스트가 될 것이라고는 생각하지 못했습니다. 따라서 모든 저널리스트와 저널리즘이 어디까지 왔고 어디로 가고 있는지에 대해 말할 수 있을지는 잘 모르겠습니다. 하지만 저에게 저널리즘은 질문을 찾고 그 질문에 답하는 것입니다. 데이터를 사용하지 않는다면 무엇을 하고 있을까요? 그러면 입소문에만 의존하게 됩니다. 그것이 바로 데이터의 좋은 점입니다. 데이터는 또 다른 목소리를 제공합니다. 저는 설득력 있는 질문이 모든 좋은 작품의 주요 특징이라고 생각합니다. 이 선수는 왜 그렇게 좋은가? 이 선수는 계속 잘할 것인가? 이 야구 경기에서 이것이 중요한가? 이러한 질문이 좋은 스토리의 핵심이라고 생각합니다.

이러한 질문에 답하기 위해서는 사실 데이터만이 전부는 아니라고 생각합니다. 선수들은 자신만의 관점을 가지고 있고 때로는 데이터가 선수들의 관점을 따라잡아야 하기 때문에 선수들과 이야기를 나눠야 한다고 생각합니다. 경영진과 이야기하고 싶을 것 같아요. 1만 피트 상공에서 무슨 일이 일어나고 있는지 파악하고 싶겠지만, 데이터에 물어보지 않으면 보다 객관적인 분석과 해답을 얻을 수 있는 방법을 놓치게 됩니다. 예, 여전히 캐릭터가 필요하고 무엇이 이 사람들을 어떤 사람으로 만드는지 깊이 파고들어야 한다고 생각합니다.

KC: 저널리즘에서 '액세스'는 주로 취재원에 대한 접근을 위한 현장 보도를 의미해 왔습니다. 데이터에 대한 일관된 액세스는 여기에 한 층 더 추가됩니다. 액세스의 중요성을 어떻게 평가하시나요?

ES: 저에게 어려운 점 중 하나는 저와 대화하는 팀들이 제가 접근하지 못하는 데이터에 접근할 수 있다는 점입니다. 그들이 게임을 바라보는 시각이 약간 다르다는 것을 알기 때문에 가끔은 그것이 저에게 어려움을 줍니다. 그들은 저보다 더 많은 분석가를 보유하고 있고 저보다 더 많은 데이터와 다른 데이터를 가지고 있기 때문에 때때로 저를 좌절시키는 액세스 권한의 일부입니다.

KC: 데이터 쿼리 이전 스포츠 기사를 쓰던 시절을 떠올려보면, 지금 생각해보면 그 글쓰기 과정이나 세부 수준이 너무 초보적인 것 같습니다. 관련 데이터가 프로세스에 얼마나 중요한 역할을 하는지 새삼 깨닫게 됩니다. 이러한 내용을 앞뒤로 배웠을 때의 이점을 어떻게 설명할 수 있을까요? 

ES: 운이 좋았죠. 제가 야구를 보는 방식, 야구를 소화하는 방식이 수년에 걸쳐 대중화되었다고 생각합니다. 저는 숫자를 우선시하는 사람이었죠. 저는 판타지를 좋아했죠. 판타지의 인기가 높아지면서 숫자도 더 흥미로워졌죠. 초창기에는 야구 카드의 뒷면에 적힌 숫자들이 그다지 매력적이지 않았던 것 같아요. 타점, 득점만 있었을 뿐, 그 외에는 얼마나 더 많은 숫자가 있었을까요? 이제 우리는 스탯캐스트와 함께 사람들이 경기장에서 보고 있는 것을 Stats Perform 마찬가지로 숫자로 변환할 수 있게 되면서 그 문을 열었습니다. 이제 더 많은 질문에 답할 수 있게 되었습니다. 이제 데이터로 훨씬 더 많은 것을 할 수 있으며, 이를 글에 포함시키는 것이 훨씬 더 중요해졌습니다.

첫 번째 큰 발전 중 하나는 교체 선수 이상의 승리였습니다. 한 선수가 경기장에서 하는 이질적인 일들을 한데 모아 하나의 숫자로 만들 수 있다는 점에서 흥미로운 기능이었지만, 제가 마음에 들지 않는 점 중 하나는 그것이 하나의 숫자가 된다는 점입니다.

제 지난 기사의 클릭 수로 저를 평가할 수 없는 것처럼, 사람을 하나의 숫자로 요약할 수 있는 방법은 없다고 생각합니다. 저 역시 하나의 숫자로 평가받고 싶지 않습니다. 하나의 숫자가 항상 모든 것을 말해주지는 않는다고 생각합니다. 그래서 저희는 분석 커뮤니티답게 WAR에서 벗어나 더 작은 질문과 더 작은 답변, 더 다양한 통계로 나눠서 다른 이야기를 들려주기 시작했습니다. 이제 조금 더 자세히 살펴봅시다: 그의 전력 질주 속도는 얼마나 빠르며 그것이 얼마나 중요한가? 그의 캐치 점프는 얼마나 빠르며 얼마나 중요한가?

KC: 최근에 수행한 흥미로운 작업 중 몇 가지에 대해 이야기해 보겠습니다. 가장 먼저 떠오르는 것은 무엇이며, 작업한 지표 중 더 의미 있는 것은 무엇인가요? 

ES: 최근에 제가 가장 좋아하는 통계 중 하나는 Stats Perform 만든 command+라는 통계입니다. 이 통계는 기존의 메트릭으로는 결코 답할 수 없었던 질문에 대한 답을 제공합니다. 이 통계에는 다양한 분석가들이 경기를 지켜봐야 합니다. 모든 경기에서 일어나는 일을 코딩하고 기본적으로 "저 투수가 그 공으로 원하는 것을 정확히 했습니까?"라고 말하기 위해 경기 뒤에 있는 수많은 연구를 돌릴 수 있는 능력이 필요합니다. 이는 대답하기 매우 어려운 질문입니다.

대부분의 분석가들은 "나는 투수의 머릿속으로 들어갈 수 없다"고 말하며 이 질문에서 한 발짝도 벗어나지 못했습니다. Stats Perform 찬사를 보내는 한 가지 이유는 아무도 답할 수 없다고 생각했던 질문을 가지고 다른 접근 방식을 시도하고, 투수의 머릿속에 들어가서 커브볼의 형태를 만들어내려고 노력했다는 점입니다. 공일 수도 있지만, 투수가 원하는 모양과 일반적인 위치로 던지는 것, 이것이 바로 진정한 커맨드의 정의라고 생각합니다.

KC: 말린스의 잭 갈렌에 대한 심층 분석 기사를 쓰셨죠. 슬라이더의 효과를 측정하는 방법도 소개했습니다. 그런 아이디어는 어디서 나오나요? 

ES: 경기를 볼 때면 궁금한 점이 생깁니다. 제가 이 나라에 온 방식 때문인지 모르겠지만 이 나라에 대해 궁금한 점이 많았어요. 저는 이런 생각을 했어요: "이 새로운 곳은 뭐지? 이 새로운 게임은 뭐지? 정말 멋진 새 게임이에요. 정말 마음에 들어요." 그래서 경기를 볼 때 종종 아나운서가 (이 투수의) 체인지업이 좋다거나 나쁘다고 말하면 저는 이렇게 말하곤 합니다: "왜요? 체인지업이 좋은 이유는 무엇인가요? 이 체인지업이 나쁜 이유는 무엇인가요? 그것에 숫자를 붙일 수 있을까요? 무엇이 선수를 좋고 나쁘게 만드는지 몇 가지 범주를 관찰할 수 있을까요?"라고 묻습니다.

이것이 제가 글을 쓰는 많은 원동력이라고 생각합니다. 제가 통계를 보는 방식은 게임에 대한 질문에 답하려고 노력하는 것입니다. 잭 갤런에 대해 말씀드리자면, 그는 다가오는 선수입니다. 그는 최고의 타격 유망주로 트레이드되었죠. 젊은 선수가 필요한 팀에서 트레이드를 당했죠. 왜 그가 트레이드를 당했고, 마이애미에서 보는 선수와 애리조나에서 보는 선수는 어떤 점이 다를까요? 저는 여러 가지 조각을 조합하여 그 질문에 답하려고 노력합니다.

KC: 야구 글쓰기에서 의견과 개성은 처음부터 중요한 부분을 차지해 왔습니다. 스포츠 글쓰기에서 개성은 항상 그 자리를 지키고 있지만, 이제 미디어가 한 걸음 더 나아가서 그들의 작업을 더 잘 지원하려면 어떻게 해야 할까요? 

ES: 일반적으로 독자들은 학교를 다녔거나 비슷한 상황에서 누군가가 논문이나 데이터를 통해 답을 증명하는 것을 본 적이 있거나 직장 환경에서 자신이 알고 있는 방식으로 질문에 답하는 것을 선호한다고 생각합니다. 직장 환경에서 프레젠테이션을 하는데 관련 데이터가 없다면 어떻게 해야 할까요? 답을 하려는 질문에 대한 답을 하지 못하는 것입니다. 아무도 설득할 수 없습니다.

누군가를 설득하려고 할 때 저는 보통 데이터부터 시작합니다. 매니 마차도의 계약이 얼마나 좋은지 나쁜지에 대해 글을 쓰려고 하는데, 그냥 그가 일반적으로 나쁜 선수이고 따라서 계약이 나쁘다고 생각한다고 말하면 오늘의 독자들에게 설득력이 부족할 것 같습니다. 독자들은 이런 글은 일종의 의견에 불과하고 우리가 원하는 만큼 객관적이지 않다고 말할 것입니다. 이것이 바로 우리가 오랫동안 추구해온 저널리즘에서 사람들이 원하는 것 중 하나인 객관성입니다. 데이터를 기사에서 객관적인 소스로 사용하기 때문에 데이터는 객관적인 저널리스트가 될 수 있는 기회를 제공한다고 생각합니다.

KC: 글에서 데이터를 적절히 사용하는 것이 독자들의 참여도에 어떤 영향을 미친다고 생각하시나요? 독자들 사이의 신뢰도에도 영향을 미친다고 보시나요? 

ES: 흥미롭네요. 가끔 숫자를 많이 쓴다는 이유로 야단을 맞기도 합니다. 하지만 대부분의 경우 그 덕분에 독자들이 제 글에 더 몰입할 수 있는 것 같아요. 독자들로부터 "이 숫자를 보지 않았군요. 이 숫자를 보지 않았군요."라고 말하곤 합니다. "넌 매니 마차도를 싫어하고 내가 제일 좋아하는 선수인데 저리 꺼져."라고 말하는 것보다 더 수준 높은 대화라고 생각합니다. 좀 더 객관적인 대화를 할 수 있게 하는 것, 그것이 바로 야구에서도 일어나고 있는 일이라고 생각합니다.

오늘날의 플레이어는 통계에 대해 훨씬 더 개방적입니다. 그 이유 중 하나는 더 나아지기를 원하고, 이제 통계를 통해 더 나아질 수 있다는 것을 알기 때문입니다. 이제 대화는 "야, 너 슬라이더가 정말 안 좋구나, 더 좋게 만들어봐"가 아닙니다. 이제 대화는 "이봐, 그 슬라이더의 스핀 축을 바꿀 수 있겠어?"가 됩니다. 손가락을 이쪽으로 넣을 수 있나요? 기계가 말하는 것을 읽어 봅시다. 기계가 좋은지 나쁜지 알려줄 테니 서로 소리 지를 필요는 없죠." 일반적으로 스포츠 글쓰기와 독서를 할 때 숫자를 통해 보다 객관적이면서도 우리 사이에 주관적이지 않은 논쟁의 여지를 제공할 수 있다고 생각합니다.

KC: 카메라 밖에서 우리 둘 다 축구에 대해 어느 정도는 알고 있다고 이야기한 적이 있습니다. 축구는 야구와 같은 스포츠보다 의미 있고 객관적으로 세분화하기 어렵기 때문에 전통적으로 데이터를 적절히 활용하는 측면에서 미국 스포츠에 비해 뒤쳐져 있었습니다. 하지만 머신 러닝과 인공지능을 구현하여 인간이 직접 구성할 수 없는 방대한 데이터 세트를 분석할 수 있게 되면서 상황이 바뀌기 시작했습니다. 그 결과 이전보다 더 예측력이 뛰어난 '예상 지표'가 탄생했습니다. 앞으로 AI 야구에도 비슷한 영향을 미칠 것으로 보시나요? 

ES: 야구는 매우 세분화된 스포츠이기 때문에 언제든지 경기를 멈추고 "아웃이 몇 개인지, 주자는 어디에 있는지, 주자가 1루에 있는지, 2루에 있는지"라고 말할 수 있습니다. 이를 통해 많은 세미 프로 수준의 연구가 가능합니다. 데이터 세트만 다운로드할 수 있는 사람들도 자체적인 연구를 할 수 있게 되었고, 이는 실제로 야구에 대한 많은 관심을 불러일으켰습니다. 세이버메트릭스는 이러한 아이디어를 기반으로 합니다. SABR은 미국 야구 연구 협회입니다. 이들은 스스로 연구를 하는 세미프로 연구자들로, 현재 많은 사람들이 민간 영역으로 진출하여 야구팀에서 일하고 있습니다.

컴퓨팅 성능이 혼자서 할 수 있는 수준을 넘어서면 변화가 일어날 것이라고 생각합니다. 컴퓨팅 성능이 부족해 축구 분석을 직접 하려는 축구 팬이 많지 않을 수 있기 때문입니다. 여러분에게 필요한 것은 프론트 오피스에만 제공하는 것이 아니라 여러분을 대신하여 이러한 분석을 도와줄 수 있는 제공업체입니다. 독자들에게도 이러한 전문적인 데이터 소스가 필요합니다. 과거에 있었던 준프로급 연구원을 대신해 팀을 위해 일하는 것이 아닌, 이러한 전문적인 데이터 소스가 필요합니다.

현재 야구에서 매우 흥미로운 점 중 하나는 레이더 기술을 사용하는 것에서 광학 기술을 사용하여 팔다리에서 일어나는 일을 설명하는 데 사용하고 있다는 것입니다. 레이더 기술은 공과 배트, 팔의 차이를 구분할 수 없었습니다. 이제 우리는 광학 기술을 통해 팔이 무엇을 하고 있는지, 다리가 무엇을 하고 있는지, 몸이 무엇을 하고 있는지 알려줄 수 있게 될 것입니다. 이제 우리가 이해해야 할 것은 조금 더 생체 역학이라고 생각합니다.

이걸 하려고 노력 중입니다. 이미 생체 역학에 대해 읽으려고 노력하고 있고, 신체의 최적 사용에 대해 배우려고 하기 때문에 생체 역학에 대해 배우려고 노력하고 있습니다. 그러면 팔이 어디에 있어야 하는지, 배트가 스윙의 특정 순간에 어디에 있어야 하는지에 대해 더 확실하게 말할 수 있고, 공적인 영역과 사적인 영역에서 그런 종류의 데이터와 관련된 더 많은 데이터를 확보할 수 있을 것입니다. 앞으로는 공간에서 몸이 어떻게 움직이는지에 대해 더 많이 이야기하게 될 것 같습니다.