일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 주가데이터
- 이력서 첨삭
- 판다스
- 경력기술서 첨삭
- pandas
- 퀀트 투자 책
- 코딩테스트
- 대학원
- 데이터사이언티스트
- 데이터사이언스학과
- 데이터분석
- 주요 파라미터
- 머신러닝
- 주식데이터
- 하이퍼 파라미터
- 퀀트
- AutoML
- 파이썬
- sklearn
- 자기소개서
- 커리어전환
- 랜덤포레스트
- 데이터 사이언티스트
- 경력 기술서
- 사이킷런
- 데이터 사이언스
- 파라미터 튜닝
- 하이퍼 파라미터 튜닝
- 데이터사이언스
- 베이지안 최적화
- Today
- Total
목록재현율 (2)
GIL's LAB
1. 클래스 불균형 비율 클래스 불균형 문제가 있는지를 탐색하는 가장 직관적이고 쉬운 방법은 클래스 불균형 비율(imbalance ratio, IR)을 계산하는 것이다. 클래스 불균형 비율은 다음과 같이 계산할 수 있다. 위 식에서 NM은 다수 클래스 샘플 수를, Nm은 소수 클래스 샘플 수를 나타낸다. 일반적으로 이 비율이 9이상이면 클래스 불균형 문제가 심각하다고 하며, 4이상 9이하면 클래스 불균형 문제가 있다고 하고, 4미만이면 클래스 불균형 문제가 없다고 한다. 파이썬을 이용한 클래스 불균형 비율 계산 이제 파이썬을 이용하여 클래스 불균형 비율을 직접 계산해보자. 클래스 불균형 비율을 계산하는 방법은 여러가지지만, 여기서는 Pandas의 value_counts()를 활용한다. 가장 먼저 데이터를..
1. 들어가며: 정확도 99.99%의 암환자 판별 모델 간단한 생체 정보만 입력하면 암 보유 여부를 99.99%의 정확도로 판별하는 인공지능 모델이 개발되었다고 하자. 이 모델을 평가할 때 사용했던 혼동 행렬(confusion matrix)은 아래 표와 같다. 과연 이 인공지능 모델이 상용화되어 실제로 암을 판별하는데 사용될 수 있을까? 당연히도 정답은 “그렇지 않다”이다. 왜 그런지 이 혼동 행렬을 다시 한번 자세히 살펴보자. 이 모델은 평가 샘플로 사용된 1만 명 모두를 “정상”이라고 분류했다. 즉, 이 모델은 정확도가 99.99%에 달하지만, 어떠한 생체 정보가 입력되더라도 “정상”이라고 밖에 이야기하지 못하는 완전히 무가치한 모델이다. 본 장에서는 이처럼 편향된 모델을 학습하게 하는 클래스 불균형..