일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AutoML
- 경력기술서 첨삭
- 주요 파라미터
- 머신러닝
- 베이지안 최적화
- 하이퍼 파라미터 튜닝
- 커리어전환
- pandas
- 데이터사이언스
- 데이터사이언스학과
- 사이킷런
- 데이터사이언티스트
- 하이퍼 파라미터
- 퀀트 투자 책
- 주식데이터
- 경력 기술서
- 랜덤포레스트
- 판다스
- 데이터분석
- 데이터 사이언티스트
- 파라미터 튜닝
- 데이터 사이언스
- 자기소개서
- 주가데이터
- 대학원
- 퀀트
- 파이썬
- 코딩테스트
- sklearn
- 이력서 첨삭
- Today
- Total
목록하이퍼 파라미터 튜닝 (5)
GIL's LAB
이번 포스팅에서는 k-최근접 이웃의 k값을 튜닝하는 방법에 대해 알아보겠습니다. 포스팅을 업데이트하면서 다양한 rule of thumbs를 검증해보겠습니다. 데이터 데이터는 모두 KEEL에서 수집했으며, 수집한 데이터는 다음과 같습니다. 분류 분류 데이터로는 아래와 같은 총 104개의 데이터셋을 활용했습니다. abalone, abalone19, abalone9-18, adult, australian, balance, banana, bands, breast, bupa, car, census, chess, cleveland, coil2000, connect-4, contraceptive, crx, dermatology, ecoli-0-1-3-7_vs_2-6, ecoli-0_vs_1, ecoli, ecoli1..
이번 포스팅에서는 이진 분류를 위한 서포트 벡터 머신(SVM)의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 커널까지 비교하려하다보니 시간이 너무 오래 걸릴 것 같아, rbf 커널을 갖는 SVM으로 한정했습니다. SVM은 sklearn.svm.SVC를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.svm.SVC의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. C: 정규화 파라미터로, 이 값이 클수록 정규화 강도가 약합니다. L2 페널티이며, 기본값은 1입니다. kernel: 커널을 결정하며,'linear' (선형), 'poly' (다항), 'rbf', 'sigmoid' (시그모이드) 중 ..
이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestRegressor를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestRegressor의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'mse', ',mae' 중 하나로 입력합니다. 최근 버전(1.2)에서는 각각 "squared_e..
이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestClassifier의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'gini', 'entropy' 중 하나로 입력합니다. 'gini'는 지니 불순도(Gin..
이번 포스팅에서는 지도 학습 모델을 만들때 필수적인 단계인 하이퍼 파라미터 튜닝에 대해 소개한다. 하이퍼 파라미터와 하이퍼 파라미터 튜닝이란? 머신러닝에서 하이퍼 파라미터란 쉽게 생각해서 사용자의 입력값, 혹은 설정 가능한 옵션이라고 볼 수 있다. 모든 데이터와 문제에 대해 가장 좋은 하이퍼 파라미터 값이 있으면 좋겠지만, 아래 그림과 같이 데이터에 따라 좋은 하이퍼 파라미터라는 것이 다르다. 그래서 데이터마다 좋은 입력값을 설정해주는 노가다 작업이 필요한데, 이를 하이퍼 파라미터 튜닝이라고 한다. 예를 들어서, k-최근접 이웃에서 k를 3으로도 해보고, 5로도 해보고, 10으로도 해 본 다음 그 가운데 가장 좋은 k를 찾는 과정이다. 하이퍼 파라미터 튜닝을 노가다라고 표현한 이유는 해보기 전까진 3이 ..