GIL's LAB

[FAQ] 데이터사이언티스트가 되려면 무엇을 준비해야할까요? 본문

데이터사이언스/커리어

[FAQ] 데이터사이언티스트가 되려면 무엇을 준비해야할까요?

GIL~ 2022. 1. 4. 09:01

필자는 산업공학 박사이고 현재 국내대기업에서 데이터사이언티스트로 일하고 있습니다. 
그래서인지 지인의 지인을 통해, 혹은 커뮤니티 등을 통해 데이터사이언티스트가 되려면 무엇을 준비해야하는지라는 질문을 참 많이 받습니다. 
본 포스팅에서는 제가 들어봤던 질문과 그에 대한 답을 하고자 합니다. 
이 포스팅은 생각나는대로, 또 이 포스팅의 댓글이나 메일(gils_lab@naver.com)로 오는 질문을 바탕으로 계속 업데이트할 예정입니다.
* 이전에는 글을 반말로 썼기에 질문에 반말과 존댓말이 섞여 있습니다.


Q. 문과생도 데이터사이언티스트가 될 수 있을까요?
A. 이런 질문을 들으면 좋은 답을 해줄 수 없어, 가슴이 아픕니다. 기본적으로 데이터사이언티스트는 수학과 프로그래밍에 어느정도 밝아야 합니다. 보통의 문과생들은 머신러닝이나 딥러닝 이론 등을 깊이 이해하는데 있어 어려움을 겪는 것을 많이 봤습니다. 심지어 보통의 공대생보다도 수학이나 프로그래밍을 잘하더라도 눈에 띄는 아웃풋이 없다면 사실 편견에 맞서 싸워야 합니다. 저도 문과출신이라고 하면, 수학이나 프로그래밍을 못하겠구나 라는 선입견을 갖게 되는게 사실입니다. 그래도 우리 팀 주니어 분석가 중에 경제학과 출신도 있긴 합니다. 다만 이분은 다른 일을 하시다가 조직 개편 등으로 우연히 분석가 커리어를 시작한 분이라서 예외적이긴 합니다.
 
Q. 취업시 어떤 스펙이 필요할까요?
A. 일단 기본적으로 컴퓨터공학/산업공학/통계학/수학 및 관련 분야의 학위가 있는 것이 유리하다. 물론 좋은 학교면 더 유리하다. 그런데 이미 이걸 물어보는 순간 전공이나 학위는 바꿀 수 있는 것이 아니기에 의미없는 답변이다. 그 다음으로 중요한 것은 프로젝트 혹은 논문 출판 경험일 것이다. 이것 역시 보통의 학부생이나 비전공자가 하긴 너무 힘들다. 누가 학부생이나 비전공자를 데리고 프로젝트를 하려할까.. ㅠㅠ. 그래서 석사를 하는 것이 유리한 점이 있는 것이다. 각설하고, 지금 취업을 위해 준비하는 학부생 혹은 석사생이라면, 캐글이나 데이콘을 비롯한 다양한 경진대회/공모전에 참가해서 경험을 쌓는 것을 추천한다. 물론 수상실적으로 이어진다면 더없이 좋겠지만, 각각의 경진대회 결과를 포트폴리오로 삼을 수 있을 것이다. 자격증은 크게 의미없다. 이전 포스팅에서 ADP 실기를 준비중이라고 밝혔지만, 이는 자격증이 운전면허증밖에 없어서 준비하는 것에 불과하다 (애초에 관련 전공 박사가 저 자격증을 심각하게 준비중이라면 그게 더 문제이다).
 
Q. 업무를 위해서는 어떤 것이 필요할까요?
기본적으로 수학적인 백그라운드가 있는 것이 유리하다. 상황에 맞게 모델을 설계해야 하는 상황도 있고, 하다못해 다른 사람의 방법론을 논문을 통해 이해하려면 수학이 필수적이다 (다만, 뒤에서 이야기하겠지만, 수학을 먼저 공부하는 것은 그리 추천하지 않는다). 물론 대부분의 자료가 영어로 되어 있으니, 영어 실력도 필요하다. 그리고 하나 이상의 분석용 언어에 익숙한 게 좋다. 회사마다 다르겠지만, 파이썬이나 R 중 하나는 익숙한게 좋다. 우리 회사의 경우에는 파이썬 사용자의 비율이 압도적이다. 또한, 데이터가 적재되는 하둡 환경이 어떤 것인지 알면 좋고, SQL의 기본 문법 역시 친숙해야 좋다. 
 
Q. 어떻게 공부해야 할까요?
내가 강의를 할 때마다 최악의 데이터 사이언스 공부 방법으로 꼽는 것이 이론을 완벽히 이해하고 이를 프로그램으로 구현하는 것이다. 머신러닝 공부를 위해 선형 대수를 공부하고 있다는 이야기를 한 후배가 있었는데, 중간에 재미없어서 관두게 될 거라고 악담을 한 경험이 있다. 일단 선형 대수, 물론 중요하다. 그렇지만 어떤 내용이 머신러닝에 어떻게 접목되는지 아는가? 선형 대수를 먼저 공부하면 절대 알 수 없다. 그러다보니 이걸 왜 하나라는 생각이 들테고, 결국 재미가 없어질 것이다. 프로그래밍도 마찬가지다. 물론 기초적인 문법은 어느정도 알아야겠지만, 문법만 판다고 실력이 크게 늘질 않는다. 보통 한 달이면 공부한 것을 다 까먹게 될 것이다. 
 
그래서 내가 추천하는 것은 큰 틀에서 머신러닝/딥러닝 등이 무엇인지를 이해하고 (예를 들어, 지도학습/비지도학습의 개념, 머신러닝 프로세스 등), 조그마한 토이 프로젝트를 하면서 필요한 이론이나 프로그래밍을 공부하는 것이다. 결국 구글링을 하면서 공부하는 것 혹은 토이 프로젝트 위주로 정리된 책을 공부하는 것을 추천한다.
 
Q. 국비지원 교육을 듣는 것은 어떨까요?
주변에 국비지원 교육을 들은 친구도 이미 있고 가끔씩 그런 광고가 뜨면 커리큘럼을 보는데, 다 그렇진 않지만 통상적으로 커리큘럼이 너무 말도 안되는 수준인 경우가 많습니다. 그러니까 전문가가 보면 절대 시간내로 끝낼 수 없는 내용일 때가 많습니다. 예를 들어, 8주동안 파이썬, R, SQL로 시작해서, 자바를 배우고 머신러닝/딥러닝을 배우고, 하둡을 배우고 웹 개발을 배우는 커리큘럼도 있습니다. 얼마나 겉핥기로 하면 이런게 가능한가 싶을 정도입니다.
그나마 돈을 직접 내는 학원은 커리큘럼이 그럴싸하지만, 강사가 누구냐에 따라 너무 차이가 크고 또 인력이 너무 급한 소규모 기업이 아니고서는 학원 출신을 잘 안 뽑는다는게 문제입니다.
 

 


데이터 분야 취업 컨설팅/자기소개서 첨삭/이력서 첨삭은 아래 링크로!

https://kmong.com/gig/380507

 

데이터 사이언스 박사가 데이터 분야 취업, 진학을 도와 | 50000원부터 시작 가능한 총 평점 5점의

18개 총 작업 개수 완료한 총 평점 5점인 데이터사이언스박사의 문서·글쓰기, 이력서 교정 서비스를 18개의 리뷰와 함께 확인해 보세요. 문서·글쓰기, 이력서 교정 제공 등 50000원부터 시작 가능

kmong.com

 


 

Comments