T아카데미 ASAC 빅데이터 분석가 6기 활동의 일환으로 개인 EDA 프로젝트를 진행했다.
교육과정 상 머신러닝 이전에 진행한 프로젝트이기 때문에 최대한 기초통계/시각화를 통해 직관적으로 분석하는 것을 목표로 진행했다.
주제 정하기
주제 정하는 것이 사실상 제일 머리 아픈 부분이었는데, 너무 딥한 주제는 피하고 본인이 평소에 궁금했던 부분이나 관심 있는 분야를 다루는 것이 좋겠다는 얘기를 들었다.
그래서 제일 처음 생각난 주제는 바로 야구였다.
티아카데미 입과 전에도 가장 관심 있는 분야였고, 비교적 데이터 모으기도 쉬울 것이라 생각해서...
시기상 제일 적절하고 + 평소 궁금하기도 했던 이번 시즌 처음 도입된 ABS(로봇심판)을 주제로 선정했었다.
생각했던 주제는 ABS의 도입으로 타자와 투수 중 누가 유리해졌는지, 어떤 유형의 투수와 구종이 유불리 한 지 등등...이었다.
ABS존의 특성상 도입 전후를 비교하기 위해서는 스트라이크존의 시각적 데이터가 꼭 필요했고 이걸 제공하는 사이트를 찾았다.
그리고 스포키가 운영하는 스탯티즈에서 올해 투수의 구종별 스트라이크존을 찾을 수 있었는데...
정말 구종분포(+구속) + 투구날짜와 상대타자 정도만 알 수 있었다.
ABS이다 보니 저 스트존 기준을 토대로 볼/스트 여부는 판단할 수 있겠지만(이것도 품이 들겠지만) 안타/피안타 여부를 알 수가 없어 분석하기 적합하지 않았다. 게다가 구종분포도 2024 시즌밖에 나오지 않아 비교분석이 불가능했다.
사실 스트존이라는 볼/스트 여부를 보여주는 사이트가 있었는데 ABS 도입과 함께 이번 시즌부터 운영이 중단되었다. 스탯티즈 데이터와 이렇게 저렇게 조합해 보면 의미 있을 수도 있었는데 아쉽게 되었다.
네이버에서도 스트존을 제공하지만 한 타석씩의 데이터만 제공하기 때문에 미치지 않고서야 긁어올 수도 없었다.
MLB의 베이스볼 서번트는 정말 어마어마하게 데이터가 많다... 내가 찾으려는 존 정보쯤은 껌일 정도
물론 MLB는 아직 ABS가 도입되지 않았기 때문에 MLB 데이터를 분석할 수도 없다. 그러므로 이 주제는 폐기 확정!
종종 야구를 주제로 궁금한 부분이 생기면 따로 분석해 봐야겠다.
그렇게 또 주제를 찾아 헤매던 중 또 평소 일상생활에서 궁금하던 주제가 하나 떠올랐다. 이번 분야는 게임!
어렸을 때부터 게임을 좋아하는 나는 성인이 되며 게임을 하는 것보다는 보는 것을 더 좋아하게 되었는데...
그렇게 게임 스트리밍/동영상 등을 보다 보면 하는 것이 더 재밌을 것 같다고 생각되는 게임이 있고, 보는 것이 더 재밌을 것 같다는 게임이 있다. 이게 단순히 나의 취향 때문이 아니라 게임의 특성 때문에 대부분의 사람들에게 그런 결과가 나타나는 것이 아닐까? 하는 의문이 들었다.
그리고 스트리밍이 금지되는 게임이 있는 반면 스트리머에게 광고를 주는 게임도 있다. 분명 어떠한 특성에서 이러한 차이가 나타나는 것이라는 생각이 들었다.
이런저런 생각을 종합해서 찾아낸 주제는 바로
게임 스트리밍과 게임 판매량의 연관석 분석이다.
이렇게 보면 썩 재미없을 것 같아 보이지만 실제 발표 때 제목은 '게임 스트리밍 마케팅: 금지할까? 권장할까?'였다. 관심사와 관련된 가벼운 주제여도 실제 쓰임새가 있는 쪽이 좋을 것 같아서 분석 목표는 마케팅 전략 수립으로 정했다.
야구 얘기를 더 많이 했지만 아무튼 최종 주제는 게임 분야가 되었다. 다음 글감은 크롤링 작업이 되겠다. 많관부!
'ASAC 6기 > EDA 프로젝트' 카테고리의 다른 글
[EDA 프로젝트] 게임 스트리밍과 게임 판매량의 연관성 분석 2: EDA(2) (0) | 2024.10.16 |
---|---|
[EDA 프로젝트] 게임 스트리밍과 게임 판매량의 연관성 분석 2: EDA(1) (0) | 2024.10.03 |
[EDA 프로젝트] 게임 스트리밍과 게임 판매량의 연관성 분석 1: 데이터 수집 및 전처리 (0) | 2024.09.16 |