일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터 사이언티스트
- 파라미터 튜닝
- 베이지안 최적화
- 하이퍼 파라미터 튜닝
- sklearn
- 하이퍼 파라미터
- 코딩테스트
- 경력 기술서
- 판다스
- 파이썬
- AutoML
- 대학원
- 이력서 첨삭
- 커리어전환
- pandas
- 데이터사이언스
- 랜덤포레스트
- 머신러닝
- 데이터분석
- 주요 파라미터
- 자기소개서
- 퀀트
- 데이터사이언스학과
- 데이터사이언티스트
- 데이터 사이언스
- 경력기술서 첨삭
- 주가데이터
- 사이킷런
- 주식데이터
- 퀀트 투자 책
- Today
- Total
목록파라미터 튜닝 (2)
GIL's LAB
이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestClassifier의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'gini', 'entropy' 중 하나로 입력합니다. 'gini'는 지니 불순도(Gin..
논문: Frazier, P. I. (2018). A tutorial on Bayesian optimization. arXiv preprint arXiv:1807.02811. 어떤 문제를 다루나? 미지의 목적 함수 f를 최대화하는 최적화 문제 x: 20차원 이하의 실수 벡터, x = (x_1, x_2, ..., x_n) A: feasible set, 통상적으로 hyper-rectangle 형태 (즉, a_i ≤ x_i ≤ b_i) 목적 함수 f의 특성 continuous black-box: 지금까지의 데이터로 추정해야 함 expensive to evaluate: 데이터가 부족함 derivative-free: 도함수를 모름 => Newton’s Method, Gradient descent 등 사용 불가 no..