일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 데이터분석
- 이력서 첨삭
- 데이터사이언티스트
- 판다스
- 대학원
- 데이터사이언스
- 주요 파라미터
- 코딩테스트
- 주식데이터
- AutoML
- 경력기술서 첨삭
- 데이터사이언스학과
- 커리어전환
- 랜덤포레스트
- 머신러닝
- 베이지안 최적화
- 파라미터 튜닝
- sklearn
- 파이썬
- 하이퍼 파라미터 튜닝
- 사이킷런
- 자기소개서
- 주가데이터
- 퀀트
- 하이퍼 파라미터
- 데이터 사이언스
- 경력 기술서
- 퀀트 투자 책
- pandas
- 데이터 사이언티스트
- Today
- Total
GIL's LAB
취업 전에 도메인 지식을 미리 준비해야 할까? 본문
본 포스팅에서는 데이터 분석 혹은 사이언티스트 취업 준비 시에 도메인 지식을 미리 쌓아야하는지에 관해 간단히 제 생각을 정리해보겠습니다.
도메인 지식이 무엇이고 왜 필요할까?
보통 데이터 분석, 데이터 사이언스 등에서 말하는 도메인 지식은 데이터가 발생한 환경에 대한 지식이라고 할 수 있습니다.
예를 들어, 반도체 제조 공정 데이터를 분석한다면 그 때의 도메인이 반도체가 되는 것이고 도메인 지식은 반도체에 관한 지식이라고 할 수 있습니다.
사실 도메인 지식을 모르더라도 데이터 분석이나 머신러닝 모델링 등을 할 수 있습니다.
예를 들어, 많은 분들이 아이리스 데이터로 높은 정확도의 모델을 만들어본 경험이 있을겁니다.
아래 그림처럼 꽃들의 petal과 sepal의 길이와 두께를 바탕으로 어느 종의 꽃인지를 분류하는 문제입니다.
머신러닝 입문자일지라도 정확도가 100%에 달하는 모델을 학습하는데 성공했을 것입니다.
그렇지만 그 가운데 아이리스에 대한 지식이 있는 분은 거의 없었을 겁니다 (전 petal과 sepal이 뭔지도 몰랐습니다)
다시 말해, 도메인 지식을 활용해서 꽃의 품종을 맞춘 것이 아니라고 생각할 수 있습니다.
그런데 사실은 이미 데이터에 도메인 지식이 반영된 상태인 것입니다.
petal과 sepal의 길이와 두께라는 특징을 사용하면 꽃의 품종을 잘 분류할 수 있다라는 판단하에 이러한 데이터를 수집한 것일테니까요.
정리해서 이야기하면, 우리가 알게 모르게 도메인 지식을 활용하여 적절한 특징 공간을 정의했다라고 할 수 있습니다.
그런데 실무에서는 이렇게 적절한 특징 공간이 정의된 깔끔한 데이터가 없습니다.
즉, raw 데이터로부터 특징을 정의하는 것부터가 머신러닝 모델링의 시작이죠.
도메인 지식없이 온갖 후보 특징을 추출해서 비교하는 것보다 도메인 지식을 활용해서 확실한 특징을 추출하는 것이 훨씬 효과적입니다.
머신러닝 모델링 뿐만 아니라, 일반적인 데이터 분석에서도 도메인 지식은 꼭 필요합니다.
도메인 지식없이 데이터를 분석해서 결과를 내면, 보통 현업의 반응은 "그래서 뭐 어쩌라고?", "이미 우리도 알고 있던건데?" 등입니다.
즉, 어떠한 문제를 해결할지 결정하는데 도메인 지식을 활용합니다.
도메인 지식을 활용한 분석 사례
저는 데이터 사이언티스트로 근무하면서 도메인 전문가들의 도움을 많이 받습니다.
특히, 수십 수백개의 시그널로 구성된 시계열 데이터를 주로 다루다보니, 어느 시그널을 볼 지를 판단할 때 도메인 전문가의 도움이 꼭 필요합니다.
그 가운데에서도 재미있는 사례가 있어서 일부 각색해서 간단히 소개해드리겠습니다.
해결하고자 하는 문제는 생산 설비의 이상 징후를 판단하는 것이었습니다.
같은 종류의 설비가 여러 대가 있고 각 설비는 여러 작업자가 주기적으로 사용합니다.
이때 쉽게 생각할 수 있는 접근은 설비가 켜져있을 때의 데이터를 바탕으로 이상 탐지 모델링을 하는 것입니다.
그 계획을 팀 내에서 공유했었는데, 도메인 전문가가 기가 막힌 아이디어를 제시했습니다.
그 아이디어는 설비가 가동중일 때는 작업자의 특성(작업 속도 등)이 반영돼서 정확한 이상 탐지가 힘들 것 같으니, 설비가 완전히 꺼진 상태가 아니지만 휴식하고 있을 때(쉽게 예를 들면, 컴퓨터를 사용하지 않더라도 켜 둔 상태)의 데이터만 사용하는 것이 어떻겠냐는 것이었습니다.
이를 조금 더 다듬어서 표현하면 "시계열 데이터를 필터링한 뒤에 특징을 추출하라"라고 할 수 있습니다.
누구나 생각할 수 있는 아이디어같지만, 실제 그 분야에 대한 지식이 없으면 떠올리기 어려운 아이디어였고, 이 아이디어 덕분에 좋은 결과를 낼 수 있었습니다.
그럼 도메인 지식을 공부해야할까요?
그런데 아이러니하게도 이 질문에 대해서는 "아니"라고 대답할 수 있습니다.
극소수의 예외 사례(주로 바이오쪽)를 제외하면 말이죠.
그 이유는 간단합니다. 데이터 분석가 혹은 사이언티스트가 도메인 지식을 완벽히 숙지해서 입사하는 것은 현실적으로 불가능하기 때문입니다.
반도체 기업에 입사하고 싶은 데이터 사이언티스트가 있다고 해보겠습니다.
이 사람이 반도체 전공자보다 반도체를 더 깊이 공부할 수 있을까요?
혹은 실제로 활용할 수 있는 도메인 지식을 쌓고 입사할 수 있을까요?
저는 아니라고 봅니다.
게다가 가장 큰 문제는 어떤 지식을 공부해야 할 지 판단하는 게 거의 불가능하다는 것입니다.
입사 후에 분석에 필요한 도메인 지식을 판단하는 것은 불가능하며, 입사하고 나서야 가능합니다.
그래서 도메인 지식은 입사 후에 프로젝트 등을 수행하면서 따로 공부하는 것이 훨씬 좋습니다.
단, 입사해서 프로젝트 등을 수행하며 내가 도메인 지식을 쌓겠다는 태도를 갖추는게 좋습니다.
데이터 분야 취업 컨설팅/자기소개서 첨삭/이력서 첨삭은 아래 링크로!
'데이터사이언스 > 커리어' 카테고리의 다른 글
데이터 분야 취업을 위한 지원 동기 작성 방법 (0) | 2022.12.12 |
---|---|
데이터사이언티스트와 코딩테스트 (0) | 2022.12.11 |
데이터 사이언티스트가 되기 위한 적절한 공부 방법 (2) | 2022.11.20 |
데이터사이언티스트 신입을 위한 포트폴리오 작성 가이드 (2) | 2022.11.04 |
데이터 사이언티스트 / 분석가를 위한 경력 기술서 작성 팁과 첨삭 (3) (2) | 2022.09.30 |