일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 하이퍼 파라미터
- 주가데이터
- 판다스
- 커리어전환
- 코딩테스트
- 이력서 첨삭
- 대학원
- 데이터사이언스학과
- 경력 기술서
- 베이지안 최적화
- 데이터 사이언티스트
- AutoML
- 파라미터 튜닝
- 퀀트
- 주요 파라미터
- pandas
- 경력기술서 첨삭
- 데이터사이언스
- 데이터사이언티스트
- 랜덤포레스트
- 주식데이터
- 데이터 사이언스
- 머신러닝
- 하이퍼 파라미터 튜닝
- 사이킷런
- sklearn
- 퀀트 투자 책
- 데이터분석
- 자기소개서
- 파이썬
- Today
- Total
목록데이터사이언스/머신러닝 (18)
GIL's LAB
지도학습 모델을 만들 때 데이터를 나눠야하고 k겹 교차 검증을 해야한다 등의 내용은 알지만, 왜 해야하고 어떻게 해야 하는지를 모르는 분이 많은 것 같습니다. 그래서 이번 포스팅에서는 지도학습에서 왜 학습 데이터와 평가 데이터를 나눠야 하는지, k겹 교차 검증은 왜 사용해야 하는지 등에 대해 정리해보겠습니다. 학습 데이터와 평가 데이터 학습에 사용한 데이터를 사용하여 모델을 평가하면 적절하게 적합된 모델보다 과적합된 모델을 좋게 평가하는 문제가 발생합니다. 따라서 아래 그림과 같이 모델을 학습하는데 사용하는 학습 데이터와 학습된 모델을 평가하는데 사용할 평가 데이터로 분할해야 합니다. 위 그림에서 보듯이, 데이터를 학습 데이터와 평가 데이터로 임의로 분할합니다. 정해진 비율은 없으나 통상적으로 6:4 혹..
AutoML 시스템을 구축해야 하는 상황에서 AutoML 경험자를 구하는 채용 공고가 눈에 띄어 공유합니다. 저희 회사 뿐만 아니라, 다른 곳에서도 많이 필요한 상황으로 보입니다. Intel: AI Research Engineer Your Responsibilities Include Neural Architecture Search (NAS) algorithm design and implementation. Hyper-Parameter Optimization (HPO) algorithm design and implementation Domain adaptation / Knowledge transfer / Life-long learning / Representation learning algorithm de..
이번 포스팅에서는 AutoML이 필요한 이유와 AutoML을 공부해야 하는 이유에 대해 정리해보겠습니다. 머신러닝 자동화 시스템 도입에 따른 효과 머신러닝 자동화 시스템이 성공적으로 도입된다 하더라도 데이터 사이언티스트를 완벽하게 대체할 수는 없다고 생각합니다. 도메인 지식을 활용한 특징 공학 등 머신러닝 모델 개발 프로세스 가운데 자동화가 불가능한 단계와 탐색 공간 설계 등 경험에 많이 의존하는 단계가 있기 때문입니다. 그럼에도 불구하고 머신러닝 자동화 시스템을 도입하면 데이터 사이언티스트가 창의적인 분석에만 집중할 수 있다는 장점이 있습니다. 예를 들어, 한 기업에서 주기적으로 다루는 로그 데이터 등은 유사한 전처리 프로세스를 거치는데 이 과정을 자동화하면 데이터 사이언티스트는 온전히 분석에 집중할 ..
이번에 회사 업무상 AutoML에 대해 정리해야 할 일이 있어, 온갖 자료를 다 끌어다가 정리해보고자 합니다. 특히, 제가 직접 AutoML 시스템을 개발해야할 수도 있어서 상용화된 AutoML을 분석해보고, 구현을 위해 어떤 지식이 필요한지 여러 포스팅을 통해 좀 딥하게 알아보고자 합니다. 이번 포스팅에서는 AutoML에 대한 내용을 개괄적으로 정리하겠습니다. AutoML이란? AutoML이란 automated machine learning의 약자로, 이름 그대로 머신러닝 모델을 개발을 자동화하는 분야입니다. 아래 그림과 같이 많은 머신러닝 모델 개발 과제에서 반복적으로 수행하게 되는 데이터 분할, 정제, 특징 선택 및 추출, 모델 선택, 하이퍼 파라미터 튜닝 등을 함수화하여 자동화하는 것이라고 할 수..
회사 일과 집필로 바빠서 오랜만에 포스팅입니다. 오늘 포스팅에서는 현업에서 굉장히 자주 맞닥뜨리는 문제인데 교과서에서는 다룰 수 없는 문제에 대해 이야기해보겠습니다. 파라미터 최적화 문제 먼저, 파라미터 최적화 문제는 어떤 성능을 최대화할 수 있는 파라미터를 설정하는 문제입니다. 위 그림에서 x축이 파라미터이고 y축이 성능을 나타냅니다. 즉, 우리의 목표는 성능을 최대화하는 x*를 찾는 것입니다. 이 문제는 다음과 같은 간단한 수리 모형으로 표현할 수 있습니다. 제약이 없어서 함수 f가 어지간히 복잡하지 않는한 해를 구하기 어려운 문제가 아닙니다. 이러한 문제는 머신러닝의 하이퍼 파라미터 튜닝뿐만 아니라, 다양한 분야에서 발생합니다. 예를 들어, 제조 분야에서는 “수율을 최대화 혹은 불량을 최소화하는 생..
이번 포스팅에서는 지도 학습 모델을 만들때 필수적인 단계인 하이퍼 파라미터 튜닝에 대해 소개한다. 하이퍼 파라미터와 하이퍼 파라미터 튜닝이란? 머신러닝에서 하이퍼 파라미터란 쉽게 생각해서 사용자의 입력값, 혹은 설정 가능한 옵션이라고 볼 수 있다. 모든 데이터와 문제에 대해 가장 좋은 하이퍼 파라미터 값이 있으면 좋겠지만, 아래 그림과 같이 데이터에 따라 좋은 하이퍼 파라미터라는 것이 다르다. 그래서 데이터마다 좋은 입력값을 설정해주는 노가다 작업이 필요한데, 이를 하이퍼 파라미터 튜닝이라고 한다. 예를 들어서, k-최근접 이웃에서 k를 3으로도 해보고, 5로도 해보고, 10으로도 해 본 다음 그 가운데 가장 좋은 k를 찾는 과정이다. 하이퍼 파라미터 튜닝을 노가다라고 표현한 이유는 해보기 전까진 3이 ..
1. 클래스 불균형 비율 클래스 불균형 문제가 있는지를 탐색하는 가장 직관적이고 쉬운 방법은 클래스 불균형 비율(imbalance ratio, IR)을 계산하는 것이다. 클래스 불균형 비율은 다음과 같이 계산할 수 있다. 위 식에서 NM은 다수 클래스 샘플 수를, Nm은 소수 클래스 샘플 수를 나타낸다. 일반적으로 이 비율이 9이상이면 클래스 불균형 문제가 심각하다고 하며, 4이상 9이하면 클래스 불균형 문제가 있다고 하고, 4미만이면 클래스 불균형 문제가 없다고 한다. 파이썬을 이용한 클래스 불균형 비율 계산 이제 파이썬을 이용하여 클래스 불균형 비율을 직접 계산해보자. 클래스 불균형 비율을 계산하는 방법은 여러가지지만, 여기서는 Pandas의 value_counts()를 활용한다. 가장 먼저 데이터를..
1. 들어가며: 정확도 99.99%의 암환자 판별 모델 간단한 생체 정보만 입력하면 암 보유 여부를 99.99%의 정확도로 판별하는 인공지능 모델이 개발되었다고 하자. 이 모델을 평가할 때 사용했던 혼동 행렬(confusion matrix)은 아래 표와 같다. 과연 이 인공지능 모델이 상용화되어 실제로 암을 판별하는데 사용될 수 있을까? 당연히도 정답은 “그렇지 않다”이다. 왜 그런지 이 혼동 행렬을 다시 한번 자세히 살펴보자. 이 모델은 평가 샘플로 사용된 1만 명 모두를 “정상”이라고 분류했다. 즉, 이 모델은 정확도가 99.99%에 달하지만, 어떠한 생체 정보가 입력되더라도 “정상”이라고 밖에 이야기하지 못하는 완전히 무가치한 모델이다. 본 장에서는 이처럼 편향된 모델을 학습하게 하는 클래스 불균형..