GIL's LAB

데이터사이언티스트 신입을 위한 포트폴리오 작성 가이드 본문

데이터사이언스/커리어

데이터사이언티스트 신입을 위한 포트폴리오 작성 가이드

GIL~ 2022. 11. 4. 09:23

최근에 데이터사이언티스트 직무를 희망하는 분들을 멘토링하는 일을 시작했습니다.
물론 자소서나 경력기술서 첨삭도 하고 있고요.
여기서부터는 데이터 사이언티스트 직무로 신입 입사를 희망하는 분을 편의상 신입 지원자라 부르겠습니다.
이번 포스팅에서는 신입 지원자가 어떻게 포트폴리오를 준비해야 하는지에 대해 알아보겠습니다.


어떤 경험과 역량이 필요한가?


제가 상담했던 신입 지원자는 크게 전공자와 비전공자로 나눌 수 있습니다. 여기서 전공자는 컴퓨터공학, 통계학, 산업공학 및 인공지능 관련 학과의 학부 및 석사 졸업자를 말합니다.
사실 전공자는, 특히 석사학위까지 취득한 전공자는 별다르게 포트폴리오를 준비할 필요가 보통은 없습니다.
이미 공부한 이력도 있고 게다가 산학과제 등을 통해 기업과의 협업을 진행한 경험도 있는 경우가 많으니까요.
여기서 실 데이터를 가지고 실제 문제를 풀었다는게 엄청난 강점으로 작용합니다.
공모전이나 경진대회를 통해서도 이러한 경험을 쌓을 수 있긴하지만, 아무래도 잘 정의된 문제를 정제된 데이터로 분석하는 경우가 대다수이기에 그것만으로 충분하다고 하긴 힘듭니다(물론 좋은 경험임에는 틀림없습니다).

왜 실 데이터를 가지고 실제 문제를 푼 경험이 중요한지 생각해보겠습니다.
최근 많은 회사에서  공채를 폐지하고 신입마저도 수시 채용을 통해 뽑습니다.
또 그 과정에서 인사팀이 아닌 실무팀에서 직접 면접을 보는 경우가 많아졌습니다.
실무팀은 기본적으로 이 사람이 입사해서 빠른 시일 내에 적응해서 일을 잘 수행할 수 있길 바랍니다.
신입이 독립적으로 일을 하는 것을 기대하는 것은 아니지만, 최소한 사수의 업무 지시를 잘 따라오길 기대합니다.
그러다보니 무엇보다도 실무 경험이 중요합니다.
여기서 말하는 실무 경험은 타이타닉이나 보스톤 집값같이 널리 공개된 데이터를 분석한 경험이 아닙니다.
당연히 실 데이터를 활용해서 실제 산업 문제를 푼 경험을 말하는 것입니다.
이러한 경험이 있고 없고는 생각보다 엄청 큰 차이입니다.
기본 역량이 뛰어나서 금방 적응하기도 하겠지만, 이러한 경험을 쌓고 오는것이 훨씬 유리합니다.
문제는 데이터 사이언스 분야에서 비전공자가 실무 경험을 직접 쌓기는 쉽지 않습니다.
최근에는 다양한 데이터를 분석해서 실무 경험을 쌓게해주겠다는 책과 강의가 많지만, 아무래도 강의나 책에서 다루는 문제는 어느정도 다듬어진 문제입니다.
저도 강의를 많이해봤지만, 데이터 보안 등 여러 문제로 실제 문제를 다룬 적은 없습니다.


그러면 어떻게 실무 경험을 쌓나?


사실 여기까지 읽었다면 아래 짤 처럼 반응하실 수도 있겠다고 생각합니다. 특히 비전공자라면요..


그렇지만 방법이 없는 것은 아닙니다.
하나는 대학원에 입학하는 것이고 또 다른 하나는 포트폴리오를 만드는 것입니다.
전자가 깔끔한 방법이긴 하지만 리스크가 너무 큽니다.
타전공으로 대학원 입학과 졸업 자체가 쉽지도 않고, 졸업한다고해도 그것만으로 좋은 회사 취업이 보장되진 않습니다.
그리고 여기서 대학원에 입학하라고 하는 것은 너무 무책임한 것 같고요.

그래서 할 수 있는 방법이 포트폴리오 작성입니다.
서론이 너무 길었는데, 가장 좋은 포트폴리오는 “실제 문제를 고려한 포트폴리오”입니다.
전 세 종류의 포트폴리오를 추천합니다.

1. 공모전 및 경진대회

  • 이미 잘 정리된 문제를 해결하는 것이긴 하지만, 그래도 실제 데이터를 조금이나마 경험할 수 있습니다.
  • 코드를 포함한 발표 자료 등을 잘 정리해두시면 좋습니다. 특히 단순히 어떤 분석 기법을 활용해봤다가 아니라 이런 분석 기법을 왜 썼는지 보여줄 수 있는 논리전개를 보여줘야 합니다.
  • 당연히 코드는 주석을 포함해서 잘 정리하는 것이 좋습니다.
  • 수상으로 이어지면 좋겠지만, 반드시 그렇진 않아도 됩니다.


2. 모델링에 대한 깊은 이해를 보여주는 포트폴리오

  • 논문이나 특허가 가장 좋지만 현실적으로는 쉽지 않습니다.
  • 단순히 라이브러리를 가져다쓰는, 혹은 누군가 만들어둔 코드를 가져다쓰는게 아니라 모델에 대한 이해를 보여줄 수 있는 포트폴리오가 좋습니다.
  • 이때는 실데이터가 아니라 캐글 등에서 적당히 분석하기 어려운 데이터를 분석해서 정리해도 좋습니다.
  • 학습한 내용을 정리할 수 있으면 좋습니다. 개인 블로그에도 이런 내용이 있으면 좋습니다.


3. 실제 문제를 인식하고 그에 대한 해법을 제시하는 포트폴리오

  • 가장 중요한 포트폴리오입니다.
  • 자신이 관심있는 분야의 문제를 인식하고 그에 대한 데이터를 수집해서 분석 결과까지 제시하는 것입니다.
  • 단순히 모델 개발이 아니라 어떻게 활용할지에 대한 인사이트가 보여야 합니다.
  • 가령, 최근 금리가 높아져서 소위 영끌족들이 고통받고 있습니다. 여기서 철저하게 비즈니스 마인드를 장착하고 생각하면(다시 말해 이기적으로 돈만 생각하면), 경매 매물이 얼마나 나올지를, 유찰은 얼마나 될지를 예측할 수 있습니다. 이 결과를 활용하면 경매로 집을 사려는 사람들에게 도움이 될 수 있습니다.
  • 다시 한 번 강조하지만 어떤 모델을 썼다기보다 문제를 인식하고 그 문제에 대한 해법으로 데이터를 활용하고 그 결과를 실제 문제를 해결하는 전체적인 플로우가 보이면 좋습니다.
  • 많은 신입 지원자들이 최신 기술에 너무 목매고 있는데, 실제 문제를 해결하지 못하면 어떠한 최첨단 기술도 의미가 없다는 점을 명심해야 합니다. 특히 보수적인 업계일수록 최신 모델을 완벽히 검증하고나서 도입하려 합니다.

 


데이터 분야 취업 컨설팅/자기소개서 첨삭/이력서 첨삭은 아래 링크로!

https://kmong.com/gig/380507

 

데이터 사이언스 박사가 데이터 분야 취업, 진학을 도와 | 50000원부터 시작 가능한 총 평점 5점의

18개 총 작업 개수 완료한 총 평점 5점인 데이터사이언스박사의 문서·글쓰기, 이력서 교정 서비스를 18개의 리뷰와 함께 확인해 보세요. 문서·글쓰기, 이력서 교정 제공 등 50000원부터 시작 가능

kmong.com

 




Comments