Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 퀀트
- 대학원
- 주요 파라미터
- 주식데이터
- 파라미터 튜닝
- AutoML
- 데이터사이언스
- 이력서 첨삭
- 경력기술서 첨삭
- 주가데이터
- 베이지안 최적화
- 커리어전환
- 데이터 사이언티스트
- 데이터 사이언스
- 코딩테스트
- 랜덤포레스트
- pandas
- 자기소개서
- 판다스
- 파이썬
- sklearn
- 데이터사이언티스트
- 퀀트 투자 책
- 데이터사이언스학과
- 하이퍼 파라미터
- 머신러닝
- 하이퍼 파라미터 튜닝
- 경력 기술서
- 데이터분석
- 사이킷런
Archives
- Today
- Total
목록평가 데이터 (1)
GIL's LAB
지도학습에서의 데이터 분할과 k겹 교차 검증
지도학습 모델을 만들 때 데이터를 나눠야하고 k겹 교차 검증을 해야한다 등의 내용은 알지만, 왜 해야하고 어떻게 해야 하는지를 모르는 분이 많은 것 같습니다. 그래서 이번 포스팅에서는 지도학습에서 왜 학습 데이터와 평가 데이터를 나눠야 하는지, k겹 교차 검증은 왜 사용해야 하는지 등에 대해 정리해보겠습니다. 학습 데이터와 평가 데이터 학습에 사용한 데이터를 사용하여 모델을 평가하면 적절하게 적합된 모델보다 과적합된 모델을 좋게 평가하는 문제가 발생합니다. 따라서 아래 그림과 같이 모델을 학습하는데 사용하는 학습 데이터와 학습된 모델을 평가하는데 사용할 평가 데이터로 분할해야 합니다. 위 그림에서 보듯이, 데이터를 학습 데이터와 평가 데이터로 임의로 분할합니다. 정해진 비율은 없으나 통상적으로 6:4 혹..
데이터사이언스/머신러닝
2022. 3. 2. 21:42