데이터정규화 2

데이터 표준화(standardization), 정규화(normalization) 차이점

데이터 표준화와 정규화. 하나씩 알아갈 때는 헷갈리지 않았는데, 막상 분석을 하려고 하니 헷갈린다. 그래서 표준화와 정규화의 공통점과 차이점에 대해 포스팅해보고자 한다. 표준화(standardization) 정규화(normalization) 공통점 데이터 rescaling 정의 &목적 데이터가 평균으로부터 얼마나 떨어져있는지 나타내는 값으로, 특정 범위를 벗어난 데이터는 outlier로 간주, 제거 데이터의 상대적 크기에 대한 영향을 줄이기 위해 데이터범위를 0~1로 변환 값의 범위 ±1.96(또는 ±2) 데이터만 선택 0~1 공식 (분모가 표준편차) (분모가 max값) 파이썬 코드 from scipy import statsdf['new컬럼명'] = stats.zscore(df['Z값 구할 컬럼명'] d..

파이썬 전처리③정규화(normalization)로 scale맞추기

JupyterNotebook이나 JupyterLab에서 데이터를 불러와서 기술통계 및 데이터타입 확인(+변경)을 하고, 데이터 표준화(standardization)로 outlier까지 제거했다면, 이제는 분석 전에 데이터를 정규화(normalization)하여 데이터의 scale을 맞춰야 한다. 일명 rescaling으로 불리는 정규화! normalization을 왜 해야하는지, 그리고 파이썬 코드로 어떻게 짜는지 아주 쉽게 알아보고자 한다. 정규화(normalization), 왜 하는가? 각 컬럼에 들어있는 데이터의 상대적 크기로 분석결과가 달라질 수 있다. 예를 들어 A변수는 0~1000까지의 값을, B변수는 0~10까지의 값을 갖는다고 하자. 이 경우 상대적으로 큰 숫자 값을 갖는 A변수의 영향이 ..