4. 데이터 분석
·
ASAC 6기/[스터디] 태블로 더블로
참조선(Reference Line)Analytics - Reference Line - Table로 드래그: 계산식(평균, 중앙값 등) 지정 가능Scope를 통해 참조선의 범위 지정 가능→ Per Pane: 분할된 그래프별로 계산→ Per Cell: 하나의 막대별로 계산추세선(Trend Line)두 측정값의 연관성 시각화Analytics - Trend Line - Linear: 최적의 선형 추세선을 그려 줌→ 로그, 지수 등도 가능R-squared: 데이터에 추세선이 얼마나 잘 들어맞는지 측정데이터에 완벽하게 들어맞는 추세선이라면 R-squared는 1을 나타낼 것임P-value: 표본집단의 평균값이 모집단의 평균값과 차이 날 확률(낮을수록 Good, 테이블 계산Marks - 하얀 화살표 - Quick T..
3. 차트 만들기
·
ASAC 6기/[스터디] 태블로 더블로
기본 차트 만들기막대 차트(bar chart)숫자 형식 변경하기: 행 클릭 → Format → Scale → Alignment누적 막대 차트: 2번째 차원 끌어와서 그래프 부분에 드롭→ side-by-side bars 형식으로도 시각화 가능 라인 차트(line chart)시간의 흐름에 따른 차이를 시각화항상 날짜 차원 표기컬럼의 ‘+’를 클릭하면 월/분기 등으로 확장 가능분산 차트(scatter chart)두 데이터의 차이를 알아볼 때 적절집합 풀기: Analysis - Aggregate Measures 클릭 해제Detail 추가해 분석 가능이중축 차트와 결합된 축 차트이중축 차트(dual lines chart)차원 한 개와 측정값 두 개 필요날짜는 X축으로 나타나고, Y축은 선 두개로 표시(선은 제각각..
2. 데이터 연결
·
ASAC 6기/[스터디] 태블로 더블로
관계논리적 계층에서 두 개의 데이터를 열을 기준으로 연결하는 방법두 개의 데이터를 관계로 연결해도 데이터를 별도로 유지하기 때문에 두 데이터를 한 번에 볼 수 없다기본적으로는 교집합인 데이터만 보여준다측정값을 추가하면 교집합이 아닌 데이터도 확인 가능하다조인물리적 계층에서 두 개의 데이터를 열을 기준으로 연결하는 방법연결하면 두 데이터 사이에 벤 다이어그램이 추가된다관계와는 다르게 두 테이블의 열을 결합한 하나의 큰 테이블이 생성된다벤 다이어그램의 팝업 메뉴를 통해 조인의 종류를 설정 가능조인 기준이 두 번 이상 충족되면 중복이 발생할 수 있음블렌드단순히 조인하면 값이 중복되는 일이 발생하므로 이를 방지하는 방법두 데이터의 세부 수준(Level of Detail)이 다르기 때문   left join과 비..
1. 태블로 시작하기
·
ASAC 6기/[스터디] 태블로 더블로
태블로 시작하기기본 차트 표시: 차트 형식은 Show Me를 통해 변경 가능Worksheet - Show caption(캡션 표시) / Show summary(서머리 표시)Analysis - Totals - Show Column Grand Totals(총합계 표시)대시보드: 이미지, 텍스트 등 추가 가능스토리: 캡션 추가 가능, 자율성은 낮지만 이해관계자들에게 보여주기 위한 용도로 사용데이터 원본과의 라이브 연결 생성하기라이브 연결이란? 데이터 원본과 직접 연결하는 것라이브 연결과 추출의 차이Live (Tableau Desktop에서만 사용가능)실시간으로 변하는 데이터 반영데이터베이스 업데이트가 늦어지는 경우 사용하지 않음credential을 입력해야 접근 가능함원통(cylinder)이 하나인 그림으로 ..
[EDA 프로젝트] 게임 스트리밍과 게임 판매량의 연관성 분석 1: 데이터 수집 및 전처리
·
ASAC 6기/EDA 프로젝트
주제를 게임 스트리밍과 게임 판매량의 연관석 분석이라 설정했지만, 정확히 내가 하려는 분석의 방향성은게임의 특성별(장르 등) 게임 스트리밍과 게임 판매량의 상관관계를 알아보는 것이었다.예를 들어, RPG 장르가 비주얼 노벨 장르보다 게임 판매량에 스트리밍의 영향이 더 크다(홍보 효과가 크다)라는 것 등의 분석 결과가 나올 수 있도록 접근하는 것을 목표로 했다.  주제를 정하고 나서 가장 품이 많이 드는 파트라 해도 과언이 아닌 데이터 수집 파트에 돌입했다.주제 정하기나 분석은 이것저것 생각하느라 머리가 아파서 힘든 거지만 데이터 수집은 여러 사이트를 돌아다녀야 하다 보니 시간과 노력이 꽤 든다. 데이터 수집 및 전처리주제를 기반으로 필요한 데이터는 다음과 같이 정리했다.게임 정보 데이터 + 스트리밍 데이..
[EDA 프로젝트] 게임 스트리밍과 게임 판매량의 연관성 분석 0: 주제 선정
·
ASAC 6기/EDA 프로젝트
T아카데미 ASAC 빅데이터 분석가 6기 활동의 일환으로 개인 EDA 프로젝트를 진행했다.교육과정 상 머신러닝 이전에 진행한 프로젝트이기 때문에 최대한 기초통계/시각화를 통해 직관적으로 분석하는 것을 목표로 진행했다. 주제 정하기주제 정하는 것이 사실상 제일 머리 아픈 부분이었는데, 너무 딥한 주제는 피하고 본인이 평소에 궁금했던 부분이나 관심 있는 분야를 다루는 것이 좋겠다는 얘기를 들었다. 그래서 제일 처음 생각난 주제는 바로 야구였다.티아카데미 입과 전에도 가장 관심 있는 분야였고, 비교적 데이터 모으기도 쉬울 것이라 생각해서...시기상 제일 적절하고 + 평소 궁금하기도 했던 이번 시즌 처음 도입된 ABS(로봇심판)을 주제로 선정했었다.생각했던 주제는 ABS의 도입으로 타자와 투수 중 누가 유리해졌..
[데이터 기초] Pandas 2
·
ASAC 6기/데이터 분석
DataFrame- 가로줄: index- 세로줄: columnsimport pandas as pdd = [1,2,3,4,5]d_df = pd.DataFrame(d)d_df 00112233445 [컬럼 이름 변경하기]1. rename 사용** pandas에서는 기본적으로 변경에 대한 메서드들을 바로 적용하지 않기 때문에 inplace=True를 걸어줘야 함d_df.rename(columns = {0:'col1'},inplace = True)d_df col10112233445 2. 세로 인덱스(columns) 접근해서 수정d_df.columns = ['col1']d_df col10112233445 [새로운 컬럼 생성하기]d_df['newcol2'] = dd_df col1newcol201112223334445..
[데이터 기초] Pandas 1
·
ASAC 6기/데이터 분석
Pandas: 파이썬 데이터 분석 라이브러리1차원 자료형: 1차원 벡터 -> Series2차원 자료형: 2차원 행렬 -> DataFrame3차원 자료형: 3차원 텐서 -> Pannel- 판다스는 '차원'을 중심으로 한다.- 인덱스를 원하는대로 제작 가능하고, 원하는 정보로 접근할 수 있다.-> 마치 딕셔너리처럼: 코드값, 날짜, 시간, 주민번호 등...- 시간, 숫자, 텍스트 등 여러 자료형을 모두 처리하기 때문에 속도가 느리다.-> 적당한 사이즈의 데이터 핸들링에는 유용하게 사용 가능하다. import numpy as npimport pandas as pd [주식 가격 데이터 핸들링]# 값: 10000, 10300, 9900, 10500, 11000# 1)파이썬 리스트stock_price_list = ..
[데이터 기초] Numpy
·
ASAC 6기/데이터 분석
Numpy: 파이썬에서 데이터 처리에 가장 기본이 되는 패키지- 수치연산은 벡터연산으로 진행된다- 벡터연산은 기본적으로 '기능 중심의 표현'이기 때문에 데이터 처리 및 표현이 간결해진다+ 개별 원소를 신경쓰지 않아도 된다- 수치연산을 위해 개발한 자료형이기 때문에 값들에 대한 통일성을 가지고 사용해야 한다 import numpy as npa = [100, 200, 300, 400 ,500] a의 모든 원소에 +10을 하고 싶다면?1) 기본 파이썬# 1. 일반 for문 사용b = []for i in a: b.append(i + 10)b# [110, 210, 310, 410, 510]# 2. list comprehension[i + 10 for i in a]# [110, 210, 310, 410, 510] ..
helena1129
'ASAC 6기' 카테고리의 글 목록 (2 Page)