rescaling 3

데이터 표준화(standardization), 정규화(normalization) 차이점

데이터 표준화와 정규화. 하나씩 알아갈 때는 헷갈리지 않았는데, 막상 분석을 하려고 하니 헷갈린다. 그래서 표준화와 정규화의 공통점과 차이점에 대해 포스팅해보고자 한다. 표준화(standardization) 정규화(normalization) 공통점 데이터 rescaling 정의 &목적 데이터가 평균으로부터 얼마나 떨어져있는지 나타내는 값으로, 특정 범위를 벗어난 데이터는 outlier로 간주, 제거 데이터의 상대적 크기에 대한 영향을 줄이기 위해 데이터범위를 0~1로 변환 값의 범위 ±1.96(또는 ±2) 데이터만 선택 0~1 공식 (분모가 표준편차) (분모가 max값) 파이썬 코드 from scipy import statsdf['new컬럼명'] = stats.zscore(df['Z값 구할 컬럼명'] d..

파이썬 전처리③정규화(normalization)로 scale맞추기

JupyterNotebook이나 JupyterLab에서 데이터를 불러와서 기술통계 및 데이터타입 확인(+변경)을 하고, 데이터 표준화(standardization)로 outlier까지 제거했다면, 이제는 분석 전에 데이터를 정규화(normalization)하여 데이터의 scale을 맞춰야 한다. 일명 rescaling으로 불리는 정규화! normalization을 왜 해야하는지, 그리고 파이썬 코드로 어떻게 짜는지 아주 쉽게 알아보고자 한다. 정규화(normalization), 왜 하는가? 각 컬럼에 들어있는 데이터의 상대적 크기로 분석결과가 달라질 수 있다. 예를 들어 A변수는 0~1000까지의 값을, B변수는 0~10까지의 값을 갖는다고 하자. 이 경우 상대적으로 큰 숫자 값을 갖는 A변수의 영향이 ..

탈잉에서 나한테 맞는 데이터 분석 수업을 찾았다!

패스트캠퍼스 데이터사이언스스쿨 과정 환불을 고민하면서 다른 교육과정들도 찾아보게 되었다. 솔직히 아무것도 안하고 잠시 쉴까도 고민했었다. 하지만, 나의 리프레시 휴직의 목적 '데이터분석을 제대로 배워보자'를 생각하면 마냥 놀 수만은 없었나보다. 그로스해킹 수업에서 알게된 혜린이가 알려준 탈잉. 탈잉에서 퍼스널컬러 수업을 들어볼까 몇번 기웃거리면서 회원가입을 했었는데, 여기에도 데이터분석 수업이 있었다. 생각보다 많이... 그 중 왠지 흥미를 유발시킬 것만 같은(+그래서 나에게 동기부여 뿜뿜 해줄 수 있을것 같은!!) 수업을 발견했다. 바로 이것! 4월에는 화요일 저녁8시~11시, 토요일 1시~4시 2개 클래스가 있는데, 이미 1주차는 개강을 했다. 실시간 톡으로 2주차부터 들어도 따라가는데 문제가 없는지..