낭만적(?) 일상/세미나, 교육

데이터사이언스 취업멘토링 1일차 후기

Soo♥JJeong 2021. 10. 10. 16:21

삶은 나에게 많은 제안을 한다. 이번 제안은 취업 멘토링 데이터 사이언스 과정. 처음 이 제안을 받았을 때, 과연 내가 할 자격이 될까? 하는 생각이 들기도 했다. 하지만 새로운 경험에 내던져지기를 언제부턴가 즐기기 시작한 나는 결국 하기로 결정했다. 

 

어제는 첫번째 멘토링이 진행된 날이다. 아침 9시부터 저녁 6시까지 이렇게 긴 시간 동안 Zoom을 하다니. 그 시간에 대한 기록보다는 나중에 또다른 멘토링을 하게 된다면 어떤 내용을 알려주면 좋을지 정리가 필요한 것 같아 포스팅을 남긴다. (참고로, 이번 과정의 최종 목표는 '분석에 기반한 서비스 기획'이다. 분석하는 것도 어려운데 그것을 기반으로 서비스를 내야 한다니. 나에게 이 주제가 주어져도 막막할 것 같다. )

 


 

데이터 부재로 인한 주제 선정의 어려움

내가 들어간 3팀 중 2개 팀이 주제선정을 어려워했다. 주제 선정의 어려움은 다음 2가지로 나뉜다.

1. '변수' 개념 부재로 단순 호기심을 주제로 가져오는 경우

이 경우 어디서부터 알려줘야할지 모르겠다. 사회현상의 예측이다라는 것부터 설명을 해줘야 할까. 

ex) 집안의 골동품 예측 

 

2. '변수'개념도 알고 주제는 괜찮으나, 데이터를 구하지 못하는 경우

캐글에는 가명처리된 개인정보가 많이 있으나, 서비스 기획까지 하려면 우리나라 데이터를 봐야 하는데, (이것도 고정관념인가? 외국 데이터를 봐도 될까?) 사실 공공데이터는 개인단위로 공개된 데이터가 많지 않다. 있다 하더라도 다른 데이터와 JOIN해서 보기 어렵다. 이럴 경우 어떻게 해야 할까? 

 

 

공공데이터를 개인단위로 분석하기는 어렵다. 개인단위로 분석해야한다는 생각을 잠시 내려놓자!  

공공데이터는 개인정보가 없기 때문에 타 데이터들과의 결합분석(JOIN)이 어렵다. 하나의 데이터셋에 독립변수와 종속변수가 모두 들어있으면 좋겠으나(간혹 들어있는 경우도 있다. 모든 데이터가 이렇다면 정말 얼마나 좋을까?)

 

서울은 행정동이 있고, 이보다도 작은 단위를 원한다면 통계청이 설정한 '집계구'단위가 있다. 분석의 최소단위를 행정동이나 집계구 단위로 생각한다면 분석할 수 있는 주제는 좀 더 많아진다. 

 

정말 내가 하고 싶은 서비스가 B2C 서비스라고 하면 그것은 가입자가 늘어난 다음에 하는 것으로 계획해두고, 지금은 있는 데이터로 하는 것이 필요하다. 'XX이용자들의 이사지역 추천'이라는 서비스를 기획한 팀이 있었다. 추천을 하려면 기존의 데이터가 있어서 학습을 해야 한다. 하지만 어떤 이용자들이 어디로 이사를 했는지에 대한 데이터가 없다. (일부 학생들은 이 정답지가 왜 있어야 하는지를 모르는 경우도 있었는데, '지도학습'의 개념을 좀 더 알아야 할 필요가 있다. ) 

 

이들에게 해줄 수 있는 조언은 현재 있는 B2B데이터를 이용해 보라는 것이다. XX이용자가 아니라, 시각을 조금만 돌려 XX이용자에게 서비스를 제공하는 사업자의 데이터는 있으니. (이사는 아니고 창업, 폐업에 대한 데이터이다.)  지방행정인허가데이터(LOCALDATA)에서는 창업과 폐업 데이터를 공개한다. (기초자료는 전월말, 변동분은 D-2일 전) 

https://www.localdata.go.kr/

 

LOCALDATA - 지방행정인허가데이터개방

지방행정 인허가 데이터개방 의료기관, 의료기기 데이터 보기 동물, 축산 데이터 보기 게임, 공연, 관광, 문화기획, 노래방, 비디오, 숙박, 여행, 영화, 음악 데이터 보기 미용, 이용, 세탁소/빨래

www.localdata.go.kr

 

X,Y 좌표값이 있어 정확한 위치 파악이 가능하고 (좌표계는 중부원점TM,EPSG:2097) 도로명주소도 있다.  

 

공공데이터가 있는 곳은 어디일까?

나도 논문을 쓰면서 알게 된 곳들을 정리해볼 필요가 있었는데, 이 기회에 정리를 해본다. (지속 업데이트 예정) 

 

- 서울열린데이터광장 : https://data.seoul.go.kr/

- 서울빅데이터캠퍼스 : https://bigdata.seoul.go.kr/main.do  --좋은 데이터가 많으나, 방문해서 반출해야 하며 rawdata가 아닌 분석된 값만 반출해야 하는 단점이 있다. 타 데이터와 결합 분석을 할 경우, 미리 반입신청을 해야 함. 

- 공공데이터포털 : https://www.data.go.kr/  --우리나라 최고 데이터 포털, 제목은 그럴듯하나 열어보면 실망하는 경우 많음에 주의 

- 문화빅데이터 : https://www.culture.go.kr/bigdata/user/main.do -- B2C데이터 많음(독립, 종속변수까지 쓸만함) 1개 조가 여기서 주제 정함. 

 

 

'분석가'에게 필요한 자질은 무엇일까? 

개인 멘토링 시간에 지난 프로젝트 최우수팀이 찾아왔다. 그들의 질문은 이 정도 코드면 실무에서 얼마나 인정받을 수 있나요? 였지만, 나의 새로운 질문. '이 결과물로 무엇을 하면 될까요?'였다. 

 

분석 코드를 잘 짜는 것도 매우 중요하지만, 그 결과물을 해석해서 어떻게 비즈니스에 적용해야 하는지를 알려주는 것까지가 분석가의 역할이다. 캐글 데이터 셋에는 정말 많은 변수가 있다. 하지만 이 변수 중 어떤 것이 중요한지, 어떤 것을 빼야 하는지 그 분야에 있지 않으면 알 수 없다. 이것을 도메인 knowledge라고 한다. 도메인 날리지가 없으면 제대로 된 해석을 할 수 없다. 분석가는 내가 입사하려는 산업을 잘 이해하고 나에게 주어진 문제를 해결할 수 있는 방안을 도출해야 한다. 

 

경영진은 코드를 볼 줄 모른다. 아무리 예측 성능이 높아졌다고 한들, 이용되지 않으면 아무 쓸모가 없다. 교육프로그램과 현장의 괴리감. 그것을 채우기 위해 멘토가 있는 것일지도 모르겠다. 그들에게 '데이터브랜딩' 책을 추천해주었다. 내가 하는 일이 하찮게 느껴졌을 때, 나에게 찾아온 책. 조만간 이 책 리뷰도 써야겠다. 


2번째 멘토링에서는 어떤 일들이 있을까. 기대도 되지만, 이들에게 도움을 줄 수 있을지 조금의 두려움은 있다. 이런 두려움이 나를 더 공부하게 만드는 것일지도 모르겠다. '열정의 근원은 무엇인가요?'라는 질문을 곰곰이 생각해보니, '즐거움'이라는 표면적 대답을 했지만, 내면에는 생존본능. 두려움. 이런 감정들이 자리 잡고 있는 것은 아닌가 하는 생각이 들었다. 앞으로 몇 살까지 살지 모르는 상황에서 내가 즐겁고 행복한 일을 하면서 살아야 하니. 나는 그 일을 찾기 위한 여정을 계속하고 있는 것은 아닐까. 

 

우리 멘티 친구들도 이번 멘토링 프로그램이 소중한 여정이 되기를 바란다. (데이터 분석가가 적성에 맞지 않는다는 것을 발견하는 것도 큰 수확이다.)