일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 머신러닝
- 주요 파라미터
- 데이터 사이언티스트
- 데이터 사이언스
- 하이퍼 파라미터 튜닝
- pandas
- 파라미터 튜닝
- 데이터사이언스학과
- 데이터사이언티스트
- 사이킷런
- 퀀트 투자 책
- 경력 기술서
- 랜덤포레스트
- sklearn
- 대학원
- 파이썬
- 데이터분석
- 코딩테스트
- AutoML
- 퀀트
- 이력서 첨삭
- 판다스
- 주가데이터
- 베이지안 최적화
- 자기소개서
- 하이퍼 파라미터
- 경력기술서 첨삭
- 데이터사이언스
- 커리어전환
- 주식데이터
- Today
- Total
목록데이터사이언스 (58)
GIL's LAB
필자는 산업공학 박사이고 현재 국내대기업에서 데이터사이언티스트로 일하고 있습니다. 그래서인지 지인의 지인을 통해, 혹은 커뮤니티 등을 통해 데이터사이언티스트가 되려면 무엇을 준비해야하는지라는 질문을 참 많이 받습니다. 본 포스팅에서는 제가 들어봤던 질문과 그에 대한 답을 하고자 합니다. 이 포스팅은 생각나는대로, 또 이 포스팅의 댓글이나 메일(gils_lab@naver.com)로 오는 질문을 바탕으로 계속 업데이트할 예정입니다. * 이전에는 글을 반말로 썼기에 질문에 반말과 존댓말이 섞여 있습니다. Q. 문과생도 데이터사이언티스트가 될 수 있을까요? A. 이런 질문을 들으면 좋은 답을 해줄 수 없어, 가슴이 아픕니다. 기본적으로 데이터사이언티스트는 수학과 프로그래밍에 어느정도 밝아야 합니다. 보통의 문과..
최근에 데이터 사이언스 분야의 컨설팅 회사에서 일하는 신입 사원의 커리어 질문을 받고 그 내용을 정리해보겠습니다. 질문의 핵심은 커리어를 위해서 어떻게 해야하냐였는데, 그 중에 가장 기억에 남는 질문은 컨설팅 분야가 좋을지 특정 도메인의 회사(예: 삼성전자, SK하이닉스, 현대차 등등)의 데이터사이언스 관련 부서에서 일하는 것이 좋을지였습니다. 저는 이 분야에서 강의도 제법했고, 관련 외주도 많이 하고 있고, 모 대기업의 데이터사이언스 관련 부서에서 근무 중이고 심지어는 외주를 준 프로젝트를 관리하고 있어서 나름 확신을 가지고 다음과 같이 대답했습니다. "이 분야에서는 컨설팅이나 SI보다 다른 기업의 데이터사이언스 부서에서 경력을 쌓는 것이 낫습니다" 물론 모든 컨설팅이나 SI 회사에서의 경력이 다른 기..
회사 일과 집필로 바빠서 오랜만에 포스팅입니다. 오늘 포스팅에서는 현업에서 굉장히 자주 맞닥뜨리는 문제인데 교과서에서는 다룰 수 없는 문제에 대해 이야기해보겠습니다. 파라미터 최적화 문제 먼저, 파라미터 최적화 문제는 어떤 성능을 최대화할 수 있는 파라미터를 설정하는 문제입니다. 위 그림에서 x축이 파라미터이고 y축이 성능을 나타냅니다. 즉, 우리의 목표는 성능을 최대화하는 x*를 찾는 것입니다. 이 문제는 다음과 같은 간단한 수리 모형으로 표현할 수 있습니다. 제약이 없어서 함수 f가 어지간히 복잡하지 않는한 해를 구하기 어려운 문제가 아닙니다. 이러한 문제는 머신러닝의 하이퍼 파라미터 튜닝뿐만 아니라, 다양한 분야에서 발생합니다. 예를 들어, 제조 분야에서는 “수율을 최대화 혹은 불량을 최소화하는 생..
개요 유전 알고리즘은 자연계의 진화 체계를 모방한 메타휴리스틱 알고리즘으로 복잡한 최적화 문제를 푸는데 사용된다. 스케줄링 등 복잡한 최적화 문제를 해결하는데 활용되고 있고, 딥러닝의 초기 웨이트 설정, 특징 선택 등 머신러닝 문제를 해결하는데도 많이 사용된다. 필자의 주력 연구 방법론중 하나이며, 지금도 유전 알고리즘을 이용한 쉐이플릿 탐색이라는 주제로 연구를 진행하고 있다. 그러면 이제 유전 알고리즘이 어떻게 작동하는지, 또 파이썬으로 어떻게 구현할 수 있는지를 소개하자. 가능하면 비전공자의 입장에서 친절히 설명하고자 한다. 최적화 문제란? 최적화 문제는 제약 하에서 목적식을 최소화 혹은 최대화하는 결정 변수의 값을 찾는 문제이다. 제약이란 것은 해가 만족해야 하는 조건이고, 목적식은 최소화 혹은 최..
본 포스팅에서는 시계열 분류에서 사용되는 개념인 쉐이플릿(Shapelet)에 대해 소개하고, 다음 포스팅에서는 쉐이플릿 탐색에 대해 다뤄보도록 한다. 쉐이플릿은 최근 많은 시계열 분석 과제에서 직관적이고 설명 가능하다는 특성덕분에 많은 주목을 받고 있다. 우리 회사에서도 관심을 가지고 있고, 나도 쉐이플릿과 관련된 논문을 준비중이다. 시계열 분류란? 쉐이플릿은 시계열 분류(time series classification)에 사용되는 특징이므로, 시계열 분류에 대해 먼저 소개한다. 시계열 분류는 말그대로 시계열을 분류하는 지도학습 과제로, 샘플이 시계열이라는 것을 빼면 일반적인 분류와 크게 다를 것은 없다. 그러니까 아래 그림에서 왼쪽에 있는 시계열 인스턴스가 입력되면, 이 인스턴스의 라벨이 A인지 B인지..
이번 포스팅에서는 지도 학습 모델을 만들때 필수적인 단계인 하이퍼 파라미터 튜닝에 대해 소개한다. 하이퍼 파라미터와 하이퍼 파라미터 튜닝이란? 머신러닝에서 하이퍼 파라미터란 쉽게 생각해서 사용자의 입력값, 혹은 설정 가능한 옵션이라고 볼 수 있다. 모든 데이터와 문제에 대해 가장 좋은 하이퍼 파라미터 값이 있으면 좋겠지만, 아래 그림과 같이 데이터에 따라 좋은 하이퍼 파라미터라는 것이 다르다. 그래서 데이터마다 좋은 입력값을 설정해주는 노가다 작업이 필요한데, 이를 하이퍼 파라미터 튜닝이라고 한다. 예를 들어서, k-최근접 이웃에서 k를 3으로도 해보고, 5로도 해보고, 10으로도 해 본 다음 그 가운데 가장 좋은 k를 찾는 과정이다. 하이퍼 파라미터 튜닝을 노가다라고 표현한 이유는 해보기 전까진 3이 ..
1. 클래스 불균형 비율 클래스 불균형 문제가 있는지를 탐색하는 가장 직관적이고 쉬운 방법은 클래스 불균형 비율(imbalance ratio, IR)을 계산하는 것이다. 클래스 불균형 비율은 다음과 같이 계산할 수 있다. 위 식에서 NM은 다수 클래스 샘플 수를, Nm은 소수 클래스 샘플 수를 나타낸다. 일반적으로 이 비율이 9이상이면 클래스 불균형 문제가 심각하다고 하며, 4이상 9이하면 클래스 불균형 문제가 있다고 하고, 4미만이면 클래스 불균형 문제가 없다고 한다. 파이썬을 이용한 클래스 불균형 비율 계산 이제 파이썬을 이용하여 클래스 불균형 비율을 직접 계산해보자. 클래스 불균형 비율을 계산하는 방법은 여러가지지만, 여기서는 Pandas의 value_counts()를 활용한다. 가장 먼저 데이터를..
1. 들어가며: 정확도 99.99%의 암환자 판별 모델 간단한 생체 정보만 입력하면 암 보유 여부를 99.99%의 정확도로 판별하는 인공지능 모델이 개발되었다고 하자. 이 모델을 평가할 때 사용했던 혼동 행렬(confusion matrix)은 아래 표와 같다. 과연 이 인공지능 모델이 상용화되어 실제로 암을 판별하는데 사용될 수 있을까? 당연히도 정답은 “그렇지 않다”이다. 왜 그런지 이 혼동 행렬을 다시 한번 자세히 살펴보자. 이 모델은 평가 샘플로 사용된 1만 명 모두를 “정상”이라고 분류했다. 즉, 이 모델은 정확도가 99.99%에 달하지만, 어떠한 생체 정보가 입력되더라도 “정상”이라고 밖에 이야기하지 못하는 완전히 무가치한 모델이다. 본 장에서는 이처럼 편향된 모델을 학습하게 하는 클래스 불균형..