일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터사이언스
- 랜덤포레스트
- 파이썬
- 퀀트
- 사이킷런
- 커리어전환
- sklearn
- 대학원
- 머신러닝
- 판다스
- 베이지안 최적화
- 이력서 첨삭
- 퀀트 투자 책
- 데이터분석
- 데이터사이언스학과
- 코딩테스트
- 주가데이터
- 하이퍼 파라미터 튜닝
- 주식데이터
- 데이터 사이언스
- 파라미터 튜닝
- 하이퍼 파라미터
- 경력기술서 첨삭
- AutoML
- 자기소개서
- 데이터 사이언티스트
- pandas
- 주요 파라미터
- 데이터사이언티스트
- 경력 기술서
- Today
- Total
목록데이터사이언스/머신러닝 (18)
GIL's LAB
이번 포스팅에서는 자주 사용되는 감성 사전을 간단히 알아보고, 이 파일을 공유하겠습니다. 참고로 R에서는 textdata 라이브러리에 내장되어 있으나, 저 같은 파이썬 유저에게는 직접 다운로드받는게 편합니다. AFINN 각 단어를 -5점과 5점 사이의 점수로 평가한 사전으로 5에 가까울수록 긍정, -5에 가까울수록 부정을 나타냅니다. BING 각 단어를 긍정(positive)와 부정(negative)로 분류한 사전입니다. NRC 각 단어를 긍정과 부정 외에도 다양한 감정으로 분류한 사전입니다. 데이터 분석 서비스가 필요한 분은 아래 링크로! https://kmong.com/gig/374194 데이터사이언스 박사의 데이터 분석 서비스 드립니다. | 150000원부터 시작 가능한 총 평점 5점의 I 78개 ..
오랜만에 포스팅입니다. 본 포스팅에서는 변수를 구간화하는 방법에 대해 알아보겠습니다. 변수 구간화란? 변수 구간화는 연속형 변수를 정해진 구간에 따라 구간화하여 서열형 변수로 변환하는 작업이라 할 수 있습니다. 간단한 예시를 살펴보겠습니다. 위 예시에서는 신장(cm)이란 변수를 세 개의 구간으로 구간화했습니다. 즉, 신장이 180cm이던 A란 사람은 [180, 190)의 구간에 속하므로 신장이 3으로 변했고, 신장이 175인 D란 사람은 [170, 180)이란 구간에 속하므로 2로 변했습니다. 구간화의 효과 그럼 왜 구간화를 하는지에 대해 생각해보겠습니다. 어떤 전처리 기법 혹은 모델링 기법을 사용할 때, 이게 왜 필요한지, 그리고 장/단점은 무엇인지 생각해야 합니다. 구간화를 한다는 것은 연속형 변수를..
이번 포스팅에서는 32개 데이터에 대해 회귀 모델을 적용했을 때의 성능을 바탕으로 어느 상황에서 어떤 모델을 써야하는지에 대한 인사이트를 정리해보겠습니다. 단, 어디까지나 32개 데이터에 대한 실험 결과일 뿐이므로 결과를 맹신하지는 않았으면 좋겠습니다. 사용 데이터 사용한 데이터는 KEEL에서 수집한 32개 회귀 데이터 셋으로 그 정보는 다음과 같습니다. 사용 모델 사용한 회귀 모델은 11개로 sklearn, xgboost, lightgbm의 클래스를 이용해 만들었습니다. from sklearn.ensemble import RandomForestRegressor as RFR from sklearn.ensemble import GradientBoostingRegressor as GBR from sklear..
이번 포스팅에서는 k-최근접 이웃의 k값을 튜닝하는 방법에 대해 알아보겠습니다. 포스팅을 업데이트하면서 다양한 rule of thumbs를 검증해보겠습니다. 데이터 데이터는 모두 KEEL에서 수집했으며, 수집한 데이터는 다음과 같습니다. 분류 분류 데이터로는 아래와 같은 총 104개의 데이터셋을 활용했습니다. abalone, abalone19, abalone9-18, adult, australian, balance, banana, bands, breast, bupa, car, census, chess, cleveland, coil2000, connect-4, contraceptive, crx, dermatology, ecoli-0-1-3-7_vs_2-6, ecoli-0_vs_1, ecoli, ecoli1..
이번 포스팅에서는 이진 분류를 위한 서포트 벡터 머신(SVM)의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 커널까지 비교하려하다보니 시간이 너무 오래 걸릴 것 같아, rbf 커널을 갖는 SVM으로 한정했습니다. SVM은 sklearn.svm.SVC를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.svm.SVC의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. C: 정규화 파라미터로, 이 값이 클수록 정규화 강도가 약합니다. L2 페널티이며, 기본값은 1입니다. kernel: 커널을 결정하며,'linear' (선형), 'poly' (다항), 'rbf', 'sigmoid' (시그모이드) 중 ..
이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestRegressor를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestRegressor의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'mse', ',mae' 중 하나로 입력합니다. 최근 버전(1.2)에서는 각각 "squared_e..
이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestClassifier의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'gini', 'entropy' 중 하나로 입력합니다. 'gini'는 지니 불순도(Gin..
실험을 수행해서 모델별 하이퍼 파라미터를 튜닝하는 가이드라인을 만들어보겠습니다. 가이드라인은 모델 및 목적별로 어느 하이퍼 파라미터를 어느 범위에서 튜닝할지를 나타냅니다. 이 포스팅은 일종의 메인 페이지로 쓴다고 보면 될 것 같습니다. 포스팅 및 링크를 계속 업데이트하겠습니다. 랜덤 포레스트 이진 분류 랜덤 포레스트(이진 분류)의 하이퍼 파라미터 튜닝 이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하 gils-lab.tistory.com 회귀 랜덤 포레스트(회귀)의 하이퍼 파라미터 튜닝 이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이..
최근 다중공선성에 대한 논의를 봐서 여기에 숟가락을 한 번 얹어보도록 하겠습니다. 관련 논의는 이 블로그들을 보시기를 바랍니다. 특히, 위의 글은 굉장히 잘 정리된 글으로 일독을 추천합니다. https://brunch.co.kr/@gimmesilver/76 다중공선성은 생각하지 마라 선형 회귀 관련 교재나 설명 자료를 보면 꼭 빠지지 않고 나오는 주제 중 하나가 다중공선성입니다. 다중공선성이란 회귀 모델의 독립변수들이 서로 강한 상관 관계를 갖고 있는 상태를 말합니 brunch.co.kr https://blog.pabii.co.kr/multicollinearity-famous-but-stupid/ 다중공선성과 Random Forest에 대한 "업계 유명한" 사람의 글 – 파비블로그 우리 학교 게시판에 T..
머신러닝 파이프라인 넓은 의미에서 머신러닝 파이프라인(pipeline)은 데이터 수집, 전처리, 모델 학습, 학습 모델 배포, 예측 등 머신러닝의 전체 과정을 순차적으로 처리하는 일련의 프로세스입니다. 좁은 의미에서 파이프라인은 새로운 데이터가 들어왔을 때 이 데이터의 라벨을 예측하기까지 필요한 프로세스입니다. 일반적으로 모델을 학습할 때 사용한 데이터는 전처리된 데이터이므로, 새로 입력된 데이터도 같은 방식으로 전처리해서 모델에 입력해줘야 합니다. 머신러닝 자동화 시스템에서 주로 사용되는 파이프라인 구조는 아래 그림과 같습니다. 사이킷런: Pipeline 클래스 사이킷런에는 Pipeline이라는 클래스를 사용하여 파이프라인을 설계, 학습, 활용할 수 있습니다. 이 클래스를 이용하여 만든 파이프라인 인스..