GIL's LAB

데이터 사이언티스트 면접 대비 (1) 분석 일반 파트 본문

데이터사이언스/커리어

데이터 사이언티스트 면접 대비 (1) 분석 일반 파트

GIL~ 2022. 6. 7. 17:11

데이터 사이언티스트 면접관으로 들어가기 전에 적절한 면접 질문을 찾던 도중 아래 링크를 찾았습니다. 

데이터 사이언티스트 커리어를 시작하려는 분들에게 매우 유용한 링크같습니다.  

https://github.com/zzsza/Datascience-Interview-Questions

 

GitHub - zzsza/Datascience-Interview-Questions: Datascience-Interview-Questions for Korean

Datascience-Interview-Questions for Korean. Contribute to zzsza/Datascience-Interview-Questions development by creating an account on GitHub.

github.com

 

질문은 크게 공통 질문, 프로젝트, 통계 및 수학, 분석 일반, 머신러닝, 딥러닝, 추천 시스템, 데이터베이스 등으로 구분됩니다.

아쉽게도 질문에 대한 모범 답안은 없고 제가 마음에 드는 몇몇 질문을 뽑아 답변을 정리해보겠습니다.

겸사겸사 기본기 정리도 할 수 있겠네요! 

 

이번 포스팅에서는 분석 일반 항목에 포함된 질문에 대해 답을 정리해보겠습니다.

제가 생각하는 답이므로 정답은 아닐 수 있으니, 그저 참고용으로 보시기 바랍니다.

 

 

분석 일반


Q. 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?

A. 지도 학습에서 좋은 특징이란 라벨과 상관성이 높은 특징이라고 할 수 있습니다. 다시 말해, 해당 feature의 값을 알면 라벨에 대한 엔트로피가 적어지는 특징이 좋은 특징입니다. 예를 들어, 성별을 분류하는 문제에서 키와 몸무게를 알면 성별이 가늠될 수 있으므로 좋은 특징입니다. 그러나 IQ는 그 값을 알더라도 성별을 아는데 도움이 되지 않으므로 좋지 않은 특징입니다. 구체적으로 키와 몸무게가 각각 180과 70이라면 남자일 확률이 1에 가까워 이 특징들을 아는 것이 의사결정에 도움이 되지만, IQ는 어떤 값을 갖더라도 남자일 확률이 50%에 가까우므로 IQ를 아는 것은 의사결정에 도움이 되지 않습니다. 

특징의 성능을 판단하는 방법으로는 F-통계량, 상관관계 등의 통계량을 활용하는 방법, 상호정보량과 조건부 엔트로피 등의 정보공학에서 사용하는 지표를 활용하는 방법, 결정 나무 및 결정 나무 기반의 앙상블을 사용해서 특징의 중요도를 계산하는 방법, 학습된 모델에 특징을 임의로 섞었을 때 성능의 손실 정도를 바탕으로 계산하는 방법 등이 있습니다. 

 

군집화와 이상 탐지 등의 비지도 학습에서 좋은 feature란 각 샘플의 특성을 잘 설명할 수 있는 변수이면서 동시에 분산이 큰 변수입니다. 분산이 작으면 샘플 간 구분을 하는 데 크게 도움이 되지 않습니다. 또한, 각 샘플의 특성을 잘 설명할 수 있는가는 도메인에 따라 결정됩니다. 가령, 카드 사용 패턴을 바탕으로 고객을 군집화한다면, 사용 금액, 사용 빈도, 주 사용 업종 등이 중요한 특징으로 사용될 수 있으며, 이는 도메인 지식을 활용하여 판단할 수 밖에 없습니다. 

 

 

Q. "상관관계는 인과관계를 의미하지 않는다"라는 말이 있습니다. 설명해주실 수 있나요?

A. 상관관계는 두 변수가 같은 방향 혹은 완전히 반대 방향으로 움직이는 관계를 말하며, 인과관계는 한 변수의 움직임에 따라 다른 변수의 움직임이 결정되는 관계를 말합니다. 가령, 여름철 온도가 높을수록 썬크림 판매량이 높아지므로 이 두 변수는 인과관계가 있습니다. 마찬가지로 여름철 온도가 높을수록 아이스크림 판매량이 높아지므로 두 변수는 인과관계가 있습니다. 그러므로 썬크림 판매량이 높아지면 아이스크림 판매량도 높아집니다. 그러나 이 두 변수는 인과관계가 아니라 상관관계가 있다고 할 수 있습니다. 즉, 썬크림 판매량이 높아졌기 때문에 아이스크림 판매량이 높아진 것이 아니라, 온도가 높아졌기 때문에 두 변수가 모두 커진 것입니다. 

 

Q. 고객이 원하는 예측모형을 두가지 종류로 만들었다. 하나는 예측력이 뛰어나지만 왜 그렇게 예측했는지를 설명하기 어려운 random forest 모형이고, 또다른 하나는 예측력은 다소 떨어지나 명확하게 왜 그런지를 설명할 수 있는 sequential bayesian 모형입니다.고객에게 어떤 모형을 추천하겠습니까?

A. 상황에 따라 다를 것 같습니다. 단순히 예측력이 중요한 과제라면 랜덤 포레스트를 추천하겠습니다. 그러나 사람이 개입되거나 주요 인자를 식별해야 하는 등의 설명력이 중요한 상황이라면 sequential bayesian 모형을 추천하겠습니다. 

 

Q. 고객이 내일 어떤 상품을 구매할지 예측하는 모형을 만들어야 한다면 어떤 기법(예: SVM, Random Forest, logistic regression 등)을 사용할 것인지 정하고 이를 통계와 기계학습 지식이 전무한 실무자에게 설명해봅시다.

A. 모델로는 랜덤 포레스트를 사용하고, 특징으로는 고객이 이전에 구매했던 상품을 활용하겠습니다. 구체적으로 요일, 공휴일 여부 등의 특징을 추가해서 "어떤 조건에서 이러한 상품을 주로 구매했더라"를 나타낼 수 있는 특징 공간을 만들겠습니다. 

랜덤 포레스트는 여러 개의 결정 나무가 병합된 모델입니다. 결정 나무는 여러 규칙에 따라 어떤 상품을 구매할지 예측하는 모델입니다. 규칙의 예로는 "공휴일이고 가을이면 주로 니트를 사더라"를 들 수 있습니다.

 

Q. 나만의 feature selection 방식을 설명해봅시다.

특징 개수가 적다면 특징과 라벨 간 그래프를 바탕으로 선택합니다. 그러나 일반적으로는 그래프를 다 그릴 수 있을만한 여력이 없을정도로 특징 혹은 샘플이 많습니다. 이러한 경우에는 모델과 특징 유형에 따라 달리 보겠습니다.

만약 모델이 결정 나무 혹은 결정 나무 기반의 앙상블이라면, 랜덤 포레스트를 학습해서 얻은 특징 중요도를 바탕으로 특징을 선택하겠습니다. 그렇지 않고 모든 특징의 유형이 같다면, 통계량을 기반으로 특징을 선택하겠습니다. 가령 모든 특징이 연속형이고 라벨이 범주형이라면 F-통계량을 계산하여, F-통계량이 큰 변수를 선택하겠습니다. 모든 특징의 유형이 같지 않다면 Permutation importance를 활용하겠습니다. 

 

Q. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?

A. 먼저 도메인지식을 바탕으로 주요 특징을 선별하겠습니다. 주요 특징을 선별했음에도 불구하고 특징이 많거나, 도메인 지식을 활용해 특징을 선택할 수 없는 상황이라면 PCA 등을 사용해 차원을 축소한 뒤 군집화를 수행하겠습니다. 

 


데이터 분야 취업 컨설팅/자기소개서 첨삭/이력서 첨삭은 아래 링크로!

https://kmong.com/gig/380507

 

데이터 사이언스 박사가 데이터 분야 취업, 진학을 도와 | 50000원부터 시작 가능한 총 평점 5점의

18개 총 작업 개수 완료한 총 평점 5점인 데이터사이언스박사의 문서·글쓰기, 이력서 교정 서비스를 18개의 리뷰와 함께 확인해 보세요. 문서·글쓰기, 이력서 교정 제공 등 50000원부터 시작 가능

kmong.com

 

 

 

Comments