Sunday, November 9, 2014

근거없는 열 가지의 가설

오늘 River Avenue Blues에도 언급된 10 THINGS I BELIEVE ABOUT BASEBALL WITHOUT EVIDENCE라는 글이 있습니다. Ken Arneson이라는 분이 쓴 조금은 긴 글인데요, 굉장히 재밌게 읽었기 때문에 간단히라도 소개하려고 합니다. 원문은 이 곳에서 보실 수 있습니다.


자이언츠는 또 월드시리즈를 이겼고, A's는 포스트시즌에서 또 떨어졌습니다. 왜 자이언츠는 늘 포스트시즌에서 성공하고 A's는 늘 포스트시즌에서 실패하는 걸까요?

A's는 지난 14년간 1승만 더 하면 시리즈를 끝낼 수 있는 상황이 열네번 있었는데요, 그 중 열세번을 졌습니다. 만일 포스트시즌이 단순한 복불복이라면, 이런 일이 일어날 확률은 대략 1170분의 1입니다. 반면 자이언츠가 지난 열번의 시리즈를 모두 이길 확률은 1024분의 1입니다.

만일 당신이 A's의 팬이면서 자이언츠를 싫어한다면, 그리고 플레이오프를 그냥 동전던지기라고 생각한다면, 백만분의 1의 확률에 해당할만큼 더럽게 운이 없는거겠죠.

운이 없다고만 얘기하는 것은 충분히 만족스런 답이 되지 못할 것입니다. 세이버매트리션은 이런 질문에 답하기 위해 스탯을 뒤지고, 숫자를 제시합니다. 적당한 숫자를 제시할 수 없다면, 그냥 이렇게 말할 수 밖에 없죠: 운이 없군요.

거기서 제 가설은 시작합니다. 만일 적당한 숫자를 제시할 수 없는 이유가, 스탯을 뒤지는 방법 그 자체에 있는 것이라면?

증거는 없습니다. 하지만 증명할 수는 없어도 전 그렇게 믿고 있습니다.

#1. 사피어 - 워프 가설.
사피어-워프 가설은 어떤 사람이 세상을 이해하는 데에 그 사람이 쓰는 언어가 영향을 끼친다는 언어학적인 가설입니다. 예를 들어 어떤 언어에 다홍색을 나타내는 단어가 없다면, 그 언어를 쓰는 사람은 다홍색과 빨간색을 구별하는데에 애를 먹을 것입니다.

야구도 이와 비슷합니다. 1990년대에 스탯분석이 갑자기 발달하게 된 이유도, 사람들이 갑자기 똑똑해졌기 때문이 아니라 그걸 뒷받침할 수 있는 기술이 발전했기 때문입니다. 데이터베이스를 다루는 메인 언어는 SQL인데요, SQL은 집합론에 기반을 두고 만들어졌습니다. 집합은 간단히 얘기하면 서로 구별되는 대상을 순서없이 모은 것입니다.

그래서 제가 야구에도 사피어 - 워프 가설이 적용된다고 생각하는 것입니다. 우리가 분석하는 데이터는, 야구경기에서 일어나는 일들을 집합처럼 순서없이 모은 것입니다. 투구, 타석, 경기, 시리즈, ... 이는 SQL이 데이터를 처리하는 방법이, 우리가 데이터를 분석하는 방법에 영향을 끼치는 것입니다. 이 사실은 다음 가설로 이어집니다.

#2. 야구에서 일어나는 일들은 순서가 중요하다.
타자가 공을 치는데는, 그 전에 어떤 공이 들어왔는지 예측을 해야합니다. 미리 마음을 먹고 골라칠 수도 있겠지만, 공은 엄청 빨리 오기 때문에, 반사적으로 스윙을 합니다. 따라서 볼배합을 어떤 순서로 가져갔는지는 엄청, 엄청 중요한 부분이지만, 가설 #1에 나온 것처럼 데이터분석은 SQL 기반이기 때문에, 이 부분을 무시합니다.

만일 각 구질에 대한 타격스탯만을 보고 라인업을 짠다면, 중요한 사실을 까먹고 있는 겁니다.

#3. 세이버매트릭스의 복잡한 팩트들은 간단한 생체역학과 심리학에서 온다.
플래툰 스플릿이나 홈 어드밴티지는 플랑크 상수같은 "상수"는 아닙니다. 사람의 몸과 심리에서 오는 거죠. 예를 들어 션 두리틀이 포수별로 성적이 편차가 있다는 스탯과 관련해 다른 사람과 토론한 적이 있는데요, 아마 작은 샘플 사이즈때문일수도 있지만 스탯은 제 편이 아니었습니다. 하지만 저는 숫자에 반론한게 아니라, 그 뒤의 신체/심리 메카니즘에 관해 반론한 것이었습니다. 두리틀은 90프로의 속구를 던지는데, 누가 앉던 무슨 상관이겠습니까?

저는 그를 설명해줄만한 이유가 없는 스탯은 믿지 않습니다.

#4. 투구는 오토마타 이론에서 상태 사이를 건너가게 하는 역할을 한다.
간단한 예를 들면, 이닝을 시작할 때 {주자 없음, 무사} 상태이고, 다음 타자가 들어설 때는 {주자 1루,  무사}, {주자 2루, 무사}, {주자 3루, 무사}, {주자 없음, 무사} (홈런 친 경우), {주자 없음, 1사}의 다섯 가지 상태중의 하나로 이동할 수 있습니다. 이런 2가지 변수가 있는 2차원 상태는 24가지 종류가 있고, 유한 상태 기계의 형태를 띄는 것입니다.

자 이제 제 가설은 다음과 같습니다. 각 투구 이후에, 타자들의 예측하는 상태는 다른 상태로 옮겨갑니다. 몇차원인지는 잘 모르겠지만, 아마도 3차원일지도 모르겠습니다. {스윙을 할 것인지, 언제 스윙할 것인지, 어디쯤을 휘두를 것인지} 이렇게요. 혹은 더 복잡할 지도 모르겠습니다.

정확히 어떻게 되는지는 모르겠지만, 기술이 뒷받침된다면, 이런 분석이 꼭 필요할 것입니다. 그리고 이런 상태 변환 메카니즘을 정확히 이해하기 위해서는, 모든 것의 이론 (Theory of everything)이 필요할 것이라고 저는 믿고 있습니다.

#5. 투구의 퀄리티는 구속, 로케이션, 무브먼트와 더불어 타자의 스윙과 예측 상태의 함수이다.
아롤디스 채프먼 같은 투수처럼, 압도적인 구속으로 나머지 변수들이 별 상관없는 투수들도 있고, 마리아노 리베라처럼 로케이션과 무브먼트가 엄청나서 나머지 변수들이 별 상관없는 투수들도 있습니다. 하지만 대부분의 투수들은 그렇지 못하고, 따라서 이 변수들을 고려하면서 던져야합니다. 특히 타자들이 구질을 예측을 하기 어려울 때 투수들은 좋은 결과를 얻어냅니다.

따라서 투수들은 각 공을 던질때 타자들이 잘못 예측하기 쉬운 공, 좋은 구속, 좋은 로케이션, 좋은 무브먼트를 보여줄 수 있는 공, 스윙궤적에 잘 안 맞는 공, 그리고 타자들이 그 다음 공을 예측하기를 어렵게 만드는 공을 던지려고 노력할 필요가 있습니다.

#6. 타석에서의 성공은 3차원의 함수이다.
그 세 가지 차원은 치기 좋은 공이 들어오는 것, 치기 좋은 공이 들어왔을 때 강하게 때리는 것, 치기 나쁜 공이 들어왔을 때 공을 제대로 맞추는 것입니다.

치기 좋은 공이란 1. 예측을 정확하게 한 공 2. 자기 스윙에 알맞은 궤적으로 들어오는 공입니다. 위에 말했듯이 예측에는 두가지가 있는데요, 의식적인 것과 무의식적인 것이 그것입니다. 만일 같은 코스에 공이 계속 들어온다면 잘 때려낼 확률이 더 높아지겠지요, 몸이 무의식적으로 그 코스에 들어오는 공을 예측하기 때문입니다.

치기 좋은 공이 온다고 해도 무조건 좋은 결과를 내는 것은 아닙니다. 자신의 스윙궤도와 맞아야하는데요, 어떤 타자들은 높은 공을 선호하고 어떤 타자들은 낮은 공을 선호합니다.

따라서 타자들은 먼저 예측을 잘해야하고, 이상적인 스윙을 가져갈 수 있는 공에 방망이를 휘둘러야하며, 2스트라익이 아닌 경우엔 나쁜 공을 골라 더 유리한 예측 상태로 이동해야하고, 2스트라익인 경우엔 스트라익존에 들어온 공을 맞추는 데 힘써야합니다.

#7. SQL 데이터에 의존하는 단장은 #6번의 세 번째 차원을 간과하기 쉽다.
어떤 투수가 던지느냐를 따지지 않는 방대한 자료가 쌓이게 되면, 치기 좋은 공이 랜덤하게 분포되어있기 때문에, 결국 그와 관련된 스탯으로 가게 됩니다. 따라서 이런 방대한 데이터를 기준으로 타자를 얻는다면, 그가 치기 좋은 공에 어떤 결과를 냈는지가 중요할 뿐, 치기 나쁜 공에 어땠는지는 상관하지 않기가 쉽습니다.

하지만 포스트시즌처럼 상대의 에이스 투수가 치기 어려운 공만을 준다면, 타자들은 어떻게 해야할까요? 치기 나쁜 공이 들어오더라도 공을 제대로 맞출 수 있을까요?

자이언츠와 A's의 가장 큰 차이점을 저는 파블로 샌도발이라고 봅니다. 치기 나쁜 공을 잘 때려내는건 샌도발만한 선수가 없기 때문입니다. 펜스도 샌도발만큼은 아니지만, 비슷한 스타일입니다.

A's는 이런 선수들을 좇지 않습니다. 샌도발 같은 배드볼히터는 대개 낮은 출루율을 갖고 있기 때문입니다. 하지만 투수들이 좋은 공을 던지지 않는 포스트시즌 같은 경우엔, 배드볼 히터가 중요한 역할을 차지할 수도 있습니다.

#8. 라인업내의 다양성은 중요하다.
이것은 생체역학적/심리학적인 원인과 연결되어있습니다. 획일화된 라인업은, 투수가 상대하기 편할 것입니다.

#7에서 파블로 샌도발 칭찬을 했지만, 아홉명이 다 배드볼히터인 것이 이상적이라는 것은 아닙니다. 그런 선수 한둘이 라인업에 있는 것도 좋다는 뜻입니다.

#9. 라인업에 구멍이 없으면 생산력이 기하급수적으로 증가한다.
만일 라인업의 중심에 구멍이 있으면, 5점 날 게 0점이나 1점이 될 것이라고 생각합니다.

이는 2014년의 A's에게서 발견되었는데요, 시즌초반에 엄청난 생산력을 보여주던 팀이 조쉬 도날드슨과 브랜든 모스가 부상을 입고 특히 모스가 한두달 동안 자동아웃의 모습을 보여주자 너댓점을 너끈히 내던 모습이 사라졌습니다. 저는 이렇게 라인업에 구멍이 생기면 산술급수적이 아니라 기하급수적으로 생산력이 줄어들것이라고 생각합니다.

#10. 오클랜드 팬들은 엘프같다.
요즘 부쩍 해리포터에 나오는 엘프같다는 생각이 듭니다. 늘 괴롭힘을 당하지만 주인에겐 충성을 다하는 그런 엘프요.

No comments:

Post a Comment