일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터사이언스
- 머신러닝
- 파라미터 튜닝
- 대학원
- 하이퍼 파라미터
- 랜덤포레스트
- 이력서 첨삭
- 주요 파라미터
- 퀀트
- 데이터사이언스학과
- sklearn
- 퀀트 투자 책
- 경력기술서 첨삭
- 파이썬
- 데이터사이언티스트
- 코딩테스트
- 주가데이터
- pandas
- 데이터 사이언티스트
- 하이퍼 파라미터 튜닝
- 주식데이터
- 커리어전환
- 베이지안 최적화
- 판다스
- 데이터분석
- 데이터 사이언스
- 자기소개서
- 경력 기술서
- 사이킷런
- AutoML
- Today
- Total
목록데이터사이언스 (58)
GIL's LAB
지도학습 모델을 만들 때 데이터를 나눠야하고 k겹 교차 검증을 해야한다 등의 내용은 알지만, 왜 해야하고 어떻게 해야 하는지를 모르는 분이 많은 것 같습니다. 그래서 이번 포스팅에서는 지도학습에서 왜 학습 데이터와 평가 데이터를 나눠야 하는지, k겹 교차 검증은 왜 사용해야 하는지 등에 대해 정리해보겠습니다. 학습 데이터와 평가 데이터 학습에 사용한 데이터를 사용하여 모델을 평가하면 적절하게 적합된 모델보다 과적합된 모델을 좋게 평가하는 문제가 발생합니다. 따라서 아래 그림과 같이 모델을 학습하는데 사용하는 학습 데이터와 학습된 모델을 평가하는데 사용할 평가 데이터로 분할해야 합니다. 위 그림에서 보듯이, 데이터를 학습 데이터와 평가 데이터로 임의로 분할합니다. 정해진 비율은 없으나 통상적으로 6:4 혹..
AutoML 시스템을 구축해야 하는 상황에서 AutoML 경험자를 구하는 채용 공고가 눈에 띄어 공유합니다. 저희 회사 뿐만 아니라, 다른 곳에서도 많이 필요한 상황으로 보입니다. Intel: AI Research Engineer Your Responsibilities Include Neural Architecture Search (NAS) algorithm design and implementation. Hyper-Parameter Optimization (HPO) algorithm design and implementation Domain adaptation / Knowledge transfer / Life-long learning / Representation learning algorithm de..
이번 포스팅에서는 AutoML이 필요한 이유와 AutoML을 공부해야 하는 이유에 대해 정리해보겠습니다. 머신러닝 자동화 시스템 도입에 따른 효과 머신러닝 자동화 시스템이 성공적으로 도입된다 하더라도 데이터 사이언티스트를 완벽하게 대체할 수는 없다고 생각합니다. 도메인 지식을 활용한 특징 공학 등 머신러닝 모델 개발 프로세스 가운데 자동화가 불가능한 단계와 탐색 공간 설계 등 경험에 많이 의존하는 단계가 있기 때문입니다. 그럼에도 불구하고 머신러닝 자동화 시스템을 도입하면 데이터 사이언티스트가 창의적인 분석에만 집중할 수 있다는 장점이 있습니다. 예를 들어, 한 기업에서 주기적으로 다루는 로그 데이터 등은 유사한 전처리 프로세스를 거치는데 이 과정을 자동화하면 데이터 사이언티스트는 온전히 분석에 집중할 ..
이번에 회사 업무상 AutoML에 대해 정리해야 할 일이 있어, 온갖 자료를 다 끌어다가 정리해보고자 합니다. 특히, 제가 직접 AutoML 시스템을 개발해야할 수도 있어서 상용화된 AutoML을 분석해보고, 구현을 위해 어떤 지식이 필요한지 여러 포스팅을 통해 좀 딥하게 알아보고자 합니다. 이번 포스팅에서는 AutoML에 대한 내용을 개괄적으로 정리하겠습니다. AutoML이란? AutoML이란 automated machine learning의 약자로, 이름 그대로 머신러닝 모델을 개발을 자동화하는 분야입니다. 아래 그림과 같이 많은 머신러닝 모델 개발 과제에서 반복적으로 수행하게 되는 데이터 분할, 정제, 특징 선택 및 추출, 모델 선택, 하이퍼 파라미터 튜닝 등을 함수화하여 자동화하는 것이라고 할 수..
4차 산업혁명이니 뭐니 하면서 정부 예산을 따오려 많은 학교에서 데이터사이언스 학과를 설치했습니다. 기존 학과 이름을 데이터 사이언스 학과로 바꾼 학교도 있습니다. 제가 대학을 다닐 때만 해도 관련 전공이 없었고 데이터 사이언스 분야로 진출하려면 산업공학, 컴퓨터공학, 통계학을 전공하는 것이 유리했는데, 이제는 데이터 사이언스 전공이 생겨서 어떤 전공을 고르는 것이 좋을지 고민하는 분이 많아 제 생각을 이 포스팅에 정리하고자 합니다. 효율과 효과 제 생각에 데이터사이언스 학과로 갔을 때의 가장 큰 장점은 데이터 사이언티스트가 되기 위한 역량을 효율적으로 배울 수 있다는 점입니다. 예를 들어, 제가 졸업한 산업공학과에서는 데이터 사이언스와는 무관한 인간공학, UI/UX 등의 수업도 들어야 했지만, 데이터 ..
안녕하세요. 이번 포스팅에서는 실제 경력 기술서를 가지고 첨삭한 내용을 통해, 데이터 사이언티스트와 분석가를 위한 경력 기술서 및 이력서 작성 팁을 정리해보겠습니다. 실제 경력 기술서를 제공해주신 분은 모 중소기업에서 데이터 분석가 혹은 사이언티스트 포지션으로 이직을 희망하시는 분입니다. 이 분이 제공한 경력 기술서는 워드 파일로 4페이지나 되는 내용이므로, 수정 전/후로 비교해가면서 팁을 정리해보겠습니다. 참고로 워드 파일을 그대로 옮겨오다보니 원래 포맷은 좀 깨질 수 있으며, 식별이 가능한 내용은 전부 xx와 같이 표시했습니다. 또, 실제 경험이나 역량을 알지 못하므로 제가 어느정도 가상(?)의 인물을 상정한다는 점 양해바랍니다. 핵심 역량 부분 말 그대로 핵심 역량이 무엇인지, 나는 다른 지원자들에..
논문: Frazier, P. I. (2018). A tutorial on Bayesian optimization. arXiv preprint arXiv:1807.02811. 어떤 문제를 다루나? 미지의 목적 함수 f를 최대화하는 최적화 문제 x: 20차원 이하의 실수 벡터, x = (x_1, x_2, ..., x_n) A: feasible set, 통상적으로 hyper-rectangle 형태 (즉, a_i ≤ x_i ≤ b_i) 목적 함수 f의 특성 continuous black-box: 지금까지의 데이터로 추정해야 함 expensive to evaluate: 데이터가 부족함 derivative-free: 도함수를 모름 => Newton’s Method, Gradient descent 등 사용 불가 no..
데이터 분야 커리어 (데이터 사이언티스트 & 머신러닝/딥러닝 엔지니어)를 시작하려는 분이 가장 많이 물어보는 대학원 관련 질문을 아래와 같이 정리했습니다. Q. 대학원에 반드시 가야하나요? A. 당연하지만 필수는 아닙니다. 학사로 커리어를 시작하는 분도 분명히 계십니다. 그러나 최근에 이쪽 분야의 공급이 늘면서, 학위가 없는 분은 거의 없습니다. 실제로 저희 팀에 있는 사이언티스트와 엔지니어 모두 석사 혹은 박사학위자입니다. 박사는 필수라고 하긴 어렵지만, 석사는 사실상 필수라고 보는 것이 맞습니다. 사견으로는 직장 생활을 하다가 대학원에 진학하기보다, 대학원(석사일지라도)에 진학한 뒤 이 쪽 분야의 커리어를 시작하는 것이 유리합니다. Q. 어느 종류의 대학원에 가야하나요? A. 석사만 할 것인지, 박사..
이번 포스팅에서는 여러 파라미터 가운데 반응 변수에 가장 큰 영향을 주는 파라미터를 찾는 방법에 대해 알아보겠습니다. 문제 상황 다음과 같이 파라미터 x1, x2, x3가 있고, 파라미터 값에 따른 반응 변수 y가 있다고 하겠습니다. 행 번호 x1 x2 x3 y 1 1 a 5 10 2 1 a 10 10 3 1 b 5 20 4 1 b 10 20 5 2 a 5 25 6 2 a 10 30 7 2 b 5 10 8 2 b 10 15 9 3 a 5 20 10 3 a 10 10 11 3 b 5 30 12 3 b 10 40 x1은 {1, 2, 3}, x2는 {a, b}, x3은 {5, 10}을 순회하면서 설정했고, 그에 따른 y가 있는 것을 알 수 있습니다. 이 데이터에서 궁금한 것은 y에 가장 큰 영향을 끼치는 파라..
이번 포스팅에서는 데이터 사이언티스트, 데이터 분석가, 데이터 엔지니어, 머신러닝/딥러닝 엔지니어의 차이에 대해 알아보겠습니다. 회사마다 포지션 정의가 다르기 때문에 명확한 경계는 아닐 수 있습니다. 즉, A회사에서는 데이터 분석가로 부르는 일을 B회사에서는 데이터 사이언티스트가, C회사에서는 머신러닝/딥러닝 엔지니어가 할 수 있습니다. 기술적인 집중도로 치면(한 마디로 좀 더 공대스러운거...) 다음과 같이 구분할 수 있습니다. 데이터 엔지니어 > 머신러닝/딥러닝 엔지니어 > 데이터 사이언티스트 > 데이터 분석가 데이터 사이언티스트 보통 회사에서 이야기하는 데이터 사이언티스트는 데이터를 기반으로 한 특정한 과제를 해결하는 사람입니다. 반드시 그렇진 않지만 보통 과제나 프로젝트 단위로 굴러가는 경우가 많..