'데이터정규화' 태그의 글 목록

데이터정규화 2

데이터 표준화(standardization), 정규화(normalization) 차이점

데이터 표준화와 정규화. 하나씩 알아갈 때는 헷갈리지 않았는데, 막상 분석을 하려고 하니 헷갈린다. 그래서 표준화와 정규화의 공통점과 차이점에 대해 포스팅해보고자 한다. 표준화(standardization) 정규화(normalization) 공통점 데이터 rescaling 정의 &목적 데이터가 평균으로부터 얼마나 떨어져있는지 나타내는 값으로, 특정 범위를 벗어난 데이터는 outlier로 간주, 제거 데이터의 상대적 크기에 대한 영향을 줄이기 위해 데이터범위를 0~1로 변환 값의 범위 ±1.96(또는 ±2) 데이터만 선택 0~1 공식 (분모가 표준편차) (분모가 max값) 파이썬 코드 from scipy import statsdf['new컬럼명'] = stats.zscore(df['Z값 구할 컬럼명'] d..

낭만적(?) 일상/파이썬, 데이터분석 2019.06.30

파이썬 전처리③정규화(normalization)로 scale맞추기

JupyterNotebook이나 JupyterLab에서 데이터를 불러와서 기술통계 및 데이터타입 확인(+변경)을 하고, 데이터 표준화(standardization)로 outlier까지 제거했다면, 이제는 분석 전에 데이터를 정규화(normalization)하여 데이터의 scale을 맞춰야 한다. 일명 rescaling으로 불리는 정규화! normalization을 왜 해야하는지, 그리고 파이썬 코드로 어떻게 짜는지 아주 쉽게 알아보고자 한다. 정규화(normalization), 왜 하는가? 각 컬럼에 들어있는 데이터의 상대적 크기로 분석결과가 달라질 수 있다. 예를 들어 A변수는 0~1000까지의 값을, B변수는 0~10까지의 값을 갖는다고 하자. 이 경우 상대적으로 큰 숫자 값을 갖는 A변수의 영향이 ..

낭만적(?) 일상/파이썬, 데이터분석 2019.06.29

낭만적 일상

작은 결혼식 준비 과정, 그 후의 일상과 여행

마이리얼트립할인코드, 동부여성발전센터 수영장, 셀프웨딩, 티스토리챌린지, 서울연구원 결혼식, 패스트캠퍼스, 시민청 결혼식, 일본 소도시여행, 요나고 여행, 오블완, 수영일기, 스몰웨딩, 데사스, 경험수집잡화점, 돗토리 여행, rescaling, 데이터사이언스스쿨, 자유형 측면호흡, Python, 파이썬,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

낭만적 일상

데이터정규화 2

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역