Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 데이터사이언스
- 경력 기술서
- 데이터분석
- 사이킷런
- AutoML
- 데이터 사이언티스트
- 파이썬
- 하이퍼 파라미터
- 경력기술서 첨삭
- 머신러닝
- 코딩테스트
- 주요 파라미터
- 데이터사이언티스트
- 하이퍼 파라미터 튜닝
- 퀀트 투자 책
- 주가데이터
- 베이지안 최적화
- 파라미터 튜닝
- 커리어전환
- 랜덤포레스트
- pandas
- 주식데이터
- 이력서 첨삭
- 데이터사이언스학과
- 퀀트
- 자기소개서
- 대학원
- 데이터 사이언스
- sklearn
- 판다스
Archives
- Today
- Total
목록Data Imbalance (1)
GIL's LAB
클래스 불균형 문제 (1) 문제 정의
1. 들어가며: 정확도 99.99%의 암환자 판별 모델 간단한 생체 정보만 입력하면 암 보유 여부를 99.99%의 정확도로 판별하는 인공지능 모델이 개발되었다고 하자. 이 모델을 평가할 때 사용했던 혼동 행렬(confusion matrix)은 아래 표와 같다. 과연 이 인공지능 모델이 상용화되어 실제로 암을 판별하는데 사용될 수 있을까? 당연히도 정답은 “그렇지 않다”이다. 왜 그런지 이 혼동 행렬을 다시 한번 자세히 살펴보자. 이 모델은 평가 샘플로 사용된 1만 명 모두를 “정상”이라고 분류했다. 즉, 이 모델은 정확도가 99.99%에 달하지만, 어떠한 생체 정보가 입력되더라도 “정상”이라고 밖에 이야기하지 못하는 완전히 무가치한 모델이다. 본 장에서는 이처럼 편향된 모델을 학습하게 하는 클래스 불균형..
데이터사이언스/머신러닝
2021. 9. 2. 17:31