학습 자료: 파이썬 머신러닝 완벽 가이드(개정2판), 위키북스
피처 스케일링(feature scaling)
피처 간 스케일의 차이가 서로에게 영향을 주지 않도록 서로 다른 피처의 값 범위를 일정한 수준으로 맞추는 작업
1. 표준화(Standardization)
개요
데이터의 피처 각각 평균이 0, 분산과 표준편차가 1인 가우시안 정규 분포를 가진 값으로 변환하는 것
수식
이 때, 계산된 z-score를 이용해 이상치를 탐지할 수 있다. 보통 |Z| > 2 또는 |Z| > 3인 경우 이상치로 간주된다.
주의할 점
정규분포를 따르지 않는 데이터에서는 효과가 떨어질 수 있다.
데이터가 정규분포를 따를 경우, 데이터가 정규분포를 가지고 있다고 가정하고 구현된 알고리즘에서 효과적이다.
SVM, 선형회귀, 로지스틱 회귀
사이킷런
StandardScaler(): 객체
fit() & transform(): 인코딩과 역할 동일
2. Min-Max 정규화(Min-Max Scaling)
개요
데이터를 0과 1 사이의 값으로 변환하는 방식
음수 값이 있으면 -1에서 1 사이의 값으로 변환
수식
주의할 점
이상치가 있으면 최댓값과 최솟값에 영향을 받아 변환값이 왜곡될 수 있다.
데이터가 정규분포가 아닐 경우 적용해볼 수 있다.
사이킷런
MinMaxScaler(): 객체
'ML' 카테고리의 다른 글
[머신러닝/사이킷런] 분류 모델 평가(정확도, 오차행렬, 정밀도, 재현율, F1 Score, ROC AUC) (0) | 2025.02.13 |
---|---|
[머신러닝/사이킷런] 데이터 인코딩(레이블 인코딩, 원-핫 인코딩) (0) | 2025.02.10 |
[머신러닝/사이킷런] 교차 검증(K-Fold, Stratified K-Fold) (0) | 2025.02.09 |