ML

[머신러닝/사이킷런] 피처 스케일링(표준화, Min-Max 정규화)

helena1129 2025. 2. 10. 21:23

학습 자료: 파이썬 머신러닝 완벽 가이드(개정2판), 위키북스

피처 스케일링(feature scaling)

피처 간 스케일의 차이가 서로에게 영향을 주지 않도록 서로 다른 피처의 값 범위를 일정한 수준으로 맞추는 작업


1. 표준화(Standardization)

개요

데이터의 피처 각각 평균이 0, 분산과 표준편차가 1인 가우시안 정규 분포를 가진 값으로 변환하는 것

 

수식

이 때, 계산된 z-score를 이용해 이상치를 탐지할 수 있다. 보통 |Z| > 2 또는 |Z| > 3인 경우 이상치로 간주된다.

주의할 점

정규분포를 따르지 않는 데이터에서는 효과가 떨어질 수 있다.

데이터가 정규분포를 따를 경우, 데이터가 정규분포를 가지고 있다고 가정하고 구현된 알고리즘에서 효과적이다.

 

SVM, 선형회귀, 로지스틱 회귀

 

사이킷런

StandardScaler(): 객체

fit() & transform(): 인코딩과 역할 동일


2. Min-Max 정규화(Min-Max Scaling)

개요

데이터를 0과 1 사이의 값으로 변환하는 방식

음수 값이 있으면 -1에서 1 사이의 값으로 변환

수식

주의할 점

이상치가 있으면 최댓값과 최솟값에 영향을 받아 변환값이 왜곡될 수 있다.

데이터가 정규분포가 아닐 경우 적용해볼 수 있다.

 

사이킷런

MinMaxScaler(): 객체