일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 하이퍼 파라미터
- 경력기술서 첨삭
- 퀀트
- 파라미터 튜닝
- 데이터 사이언스
- 데이터분석
- pandas
- 자기소개서
- 베이지안 최적화
- 데이터사이언스
- 하이퍼 파라미터 튜닝
- 데이터사이언스학과
- 대학원
- 주식데이터
- 코딩테스트
- 주요 파라미터
- 커리어전환
- 판다스
- sklearn
- 사이킷런
- 머신러닝
- 데이터사이언티스트
- 주가데이터
- 데이터 사이언티스트
- 랜덤포레스트
- 경력 기술서
- 이력서 첨삭
- 퀀트 투자 책
- AutoML
- 파이썬
- Today
- Total
목록분류 전체보기 (119)
GIL's LAB
데이터 사이언티스트 면접관으로 들어가기 전에 적절한 면접 질문을 찾던 도중 아래 링크를 찾았습니다. 데이터 사이언티스트 커리어를 시작하려는 분들에게 매우 유용한 링크같습니다. https://github.com/zzsza/Datascience-Interview-Questions GitHub - zzsza/Datascience-Interview-Questions: Datascience-Interview-Questions for Korean Datascience-Interview-Questions for Korean. Contribute to zzsza/Datascience-Interview-Questions development by creating an account on GitHub. github.com..
최근에 두 번째 책 작업을 하느라 블로그에 글을 거의 못 올렸는데, 가제 "파이썬을 이용한 머신러닝 자동화 시스템 구축" 책 원고를 오늘자로 마감했습니다. 빠르면 6월이나 7월 중에 만나볼 수 있습니다! 그리고 해당 내용으로 온라인 강의도 준비중입니다.
이번 포스팅에서는 베이지안 최적화가 해결하고자 하는 블랙박스 최적화 문제에 대해 알아보겠습니다. 이번 포스팅부터해서 베이지안 최적화에 필요한 개념을 정리하고자 합니다. 블랙박스 최적화 문제란? 블랙박스 최적화 문제는 목적 함수, 제약식, 결정 변수 간 자세한 관계를 알 수 없는 최적화 문제를 말합니다. 구체적으로 추가적인 실험 및 측정 없이 결정 변수에 따른 목적 함숫값을 모르거나 제약식을 만족하는지 알 수 없는 문제를 의미합니다. 일반 최적화 문제 vs 블랙박스 최적화 문제 블랙박스가 아닌 최적화 문제와 블랙박스 최적화 문제를 비교해보겠습니다. 결정 변수와 목적 함수, 결정 변수와 제약식 간의 관계를 알 수 있으므로 블랙박스 최적화 문제가 아님 즉, x1과 x2가 각각 2와 1이라면 목적 함수가 3이고..
이번 포스팅에서는 현대자동차 데이터 사이언스 직무 합격 자소서를 공유합니다. 박사 신입이므로 참고하시기 바랍니다. * 현대자동차에 지원한 동기와 회사 선택(이직)시 가장 중요하게 고려하는 요인에 대하여 기술하시오. 제가 기업을 선택할 때 가장 중요하게 고려하는 요인은 성장성과 업무에 대한 흥미입니다. 저는 현대자동차의 빅데이터 분석 포지션에서 다음과 같은 이유로 크게 성장할 수 있고, 또 흥미있는 일을 할 수 있을 것이라 생각해서 지원했습니다. 첫 번째 이유는 현대자동차가 수집하는 다양한 종류의 정형 및 비정형 데이터를 분석하는 경험을 쌓을 수 있다고 생각하기 때문입니다. 데이터 분석가로서 성장하는데 가장 중요한 것은 얼마나 다양한 데이터와 프로젝트를 경험하는가에 달려있다고 생각하기에, 첫 번째 이유가 ..
안녕하세요. 오랜만에 경력 기술서 작성 팁과 첨삭으로 돌아왔습니다. 경력 기술서를 보내주신 분은 데이터 분석 및 비즈니스 분석가로 퇴사 후 중고신입으로 이직을 준비중인 분입니다. 역시 누구인지 추측할만한 거의 모든 정보는 삭제하고 항목별로 어떻게 고쳤는지 위주로 살펴보겠습니다. 경력 사항 (1) 20XX.XX – 20XX.XX OOOO (IT컨설팅 회사), 디지털 팀 1) 고객 데이터 수급 및 정제 - Dashboard 대용량 데이터 수급 및 취합 (월별 기기 판매량, 가입자, 재방문율 등) - 글로벌 Data Crawling 및 Data Mining (Octoparse, Data-Miner, MySQL 쿼리문 사용) - Raw data 정제 작업 (Data-Merge, Pivot table사용) - 신..
이번 포스팅에서는 유전 알고리즘을 이용하여 특징을 선택하는 방법에 대해 알아보겠습니다. 유전 알고리즘에 대한 설명은 이 포스팅을 참고하시기 바랍니다. 추후에 유전 알고리즘의 테크니컬한 부분을 중심으로 한 번 다루겠습니다. 래퍼 방법(wrapper method) 래퍼 방법은 모델의 예측 정확도 측면에서 가장 좋은 성능을 보이는 특징 집합을 구성하는 방법입니다. 다시 말해, 래퍼 방법이 해결하고자 하는 문제는 아래 그림과 같이 원 특징 집합의 부분 집합을 특징 집합으로 사용했을 때의 모델의 예측 정확도를 최대로 하는 부분 집합을 찾는 것입니다. 즉, 위 그림에서 원 특징 집합 X 로부터 적절한 특징을 선택하여 구성한 특징 집합 ϕ 를 지도학습 모델에 투입했을 때 나오는 점수(예: 정확도, MAE, 재현율 등..
머신러닝 파이프라인 넓은 의미에서 머신러닝 파이프라인(pipeline)은 데이터 수집, 전처리, 모델 학습, 학습 모델 배포, 예측 등 머신러닝의 전체 과정을 순차적으로 처리하는 일련의 프로세스입니다. 좁은 의미에서 파이프라인은 새로운 데이터가 들어왔을 때 이 데이터의 라벨을 예측하기까지 필요한 프로세스입니다. 일반적으로 모델을 학습할 때 사용한 데이터는 전처리된 데이터이므로, 새로 입력된 데이터도 같은 방식으로 전처리해서 모델에 입력해줘야 합니다. 머신러닝 자동화 시스템에서 주로 사용되는 파이프라인 구조는 아래 그림과 같습니다. 사이킷런: Pipeline 클래스 사이킷런에는 Pipeline이라는 클래스를 사용하여 파이프라인을 설계, 학습, 활용할 수 있습니다. 이 클래스를 이용하여 만든 파이프라인 인스..
지도학습 모델을 만들 때 데이터를 나눠야하고 k겹 교차 검증을 해야한다 등의 내용은 알지만, 왜 해야하고 어떻게 해야 하는지를 모르는 분이 많은 것 같습니다. 그래서 이번 포스팅에서는 지도학습에서 왜 학습 데이터와 평가 데이터를 나눠야 하는지, k겹 교차 검증은 왜 사용해야 하는지 등에 대해 정리해보겠습니다. 학습 데이터와 평가 데이터 학습에 사용한 데이터를 사용하여 모델을 평가하면 적절하게 적합된 모델보다 과적합된 모델을 좋게 평가하는 문제가 발생합니다. 따라서 아래 그림과 같이 모델을 학습하는데 사용하는 학습 데이터와 학습된 모델을 평가하는데 사용할 평가 데이터로 분할해야 합니다. 위 그림에서 보듯이, 데이터를 학습 데이터와 평가 데이터로 임의로 분할합니다. 정해진 비율은 없으나 통상적으로 6:4 혹..
AutoML 시스템을 구축해야 하는 상황에서 AutoML 경험자를 구하는 채용 공고가 눈에 띄어 공유합니다. 저희 회사 뿐만 아니라, 다른 곳에서도 많이 필요한 상황으로 보입니다. Intel: AI Research Engineer Your Responsibilities Include Neural Architecture Search (NAS) algorithm design and implementation. Hyper-Parameter Optimization (HPO) algorithm design and implementation Domain adaptation / Knowledge transfer / Life-long learning / Representation learning algorithm de..
이번 포스팅에서는 AutoML이 필요한 이유와 AutoML을 공부해야 하는 이유에 대해 정리해보겠습니다. 머신러닝 자동화 시스템 도입에 따른 효과 머신러닝 자동화 시스템이 성공적으로 도입된다 하더라도 데이터 사이언티스트를 완벽하게 대체할 수는 없다고 생각합니다. 도메인 지식을 활용한 특징 공학 등 머신러닝 모델 개발 프로세스 가운데 자동화가 불가능한 단계와 탐색 공간 설계 등 경험에 많이 의존하는 단계가 있기 때문입니다. 그럼에도 불구하고 머신러닝 자동화 시스템을 도입하면 데이터 사이언티스트가 창의적인 분석에만 집중할 수 있다는 장점이 있습니다. 예를 들어, 한 기업에서 주기적으로 다루는 로그 데이터 등은 유사한 전처리 프로세스를 거치는데 이 과정을 자동화하면 데이터 사이언티스트는 온전히 분석에 집중할 ..