일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 주가데이터
- 주식데이터
- 코딩테스트
- sklearn
- AutoML
- 머신러닝
- 데이터 사이언티스트
- 베이지안 최적화
- 사이킷런
- 판다스
- 경력 기술서
- 커리어전환
- 데이터사이언스학과
- 주요 파라미터
- 데이터사이언스
- 랜덤포레스트
- 경력기술서 첨삭
- 데이터 사이언스
- 퀀트 투자 책
- 자기소개서
- 데이터사이언티스트
- 하이퍼 파라미터
- 대학원
- 데이터분석
- 하이퍼 파라미터 튜닝
- 파이썬
- 파라미터 튜닝
- pandas
- 이력서 첨삭
- 퀀트
- Today
- Total
목록데이터사이언스 (58)
GIL's LAB
이번 포스팅에서는 퇴사 후 데이터사이언스 분야 풀타임 대학원 진학에 대해 제 생각을 정리해볼까 합니다. 구독자 분께서 조언을 구한 질문이기도 하고 실제로도 많이 듣는 질문이기도 합니다. 참고로 2년 이상 5년 이하 회사에 근무한 20대후반에서 30대 초반을 대상으로 한 글이며, 어디까지나 주관적인 제 의견임을 미리 밝힙니다. 결론부터 이야기하면 말리고 싶습니다. 현재 직무와 전공에 따라 다를 수 있지만, 기본적으로는 말리고 싶습니다. 특히 데이터 사이언스와 완전히 무관한 직무와 전공일수록 더더욱 그렇습니다. 물론 대학원에 가서 잘 풀리는 케이스야 당연히 있고 저도 몇 번 봤지만, 최소한 퇴사 후 진학 시 발생할 수 있는 리스크는 염두에 둬야 할 것 같습니다. 말리는 가장 큰 이유는 석사 학위를 취득한다고..
안녕하세요. 이번 포스팅에서는 주니어가 경력 기술서를 작성할 때 자주하는 실수에 대해 알아보겠습니다. 지금까지 이력서나 경력 기술서를 검토하다가 공통적으로 확인하던 실수여서 짧게 글을 써보고자 합니다. 주니어에게 필요한 것 보통은 석박사 학위 기간을 포함한 경력이 3년 이하인 주니어에게 엄청난 기술 역량을 바라진 않습니다. 주니어도 일당백을 해야 하는 회사가 아니라면, 주니어에게 가장 중요한 것은 입사해서 새로운 프로젝트를 잘 따라올 수 있느냐인 것 같습니다. 새로운 프로젝트를 리딩할 수 있는 역량이 아니라 따라올 수 있는 역량이라는 것입니다. 경험과 경력이 쌓이면 새로운 프로젝트를 리딩할 수 있겠지만, 주니어에게 그 정도를 바라진 않습니다. 새로운 프로젝트를 잘 따라오려면 다른 팀원들과 잘 조화될 수 ..
이번 포스팅에서는 scipy를 이용하여 확률 분포에서 샘플링하는 방법에 대해 알아보겠습니다. 확률 분포 샘플링이란? 샘플링(sampling)이란 특정한 확률 분포에서의 확률을 바탕으로 샘플을 추출하는 작업을 말합니다. 통계에서는 모집단에서 일부를 임의로 선택하는 작업을 샘플링이라 하지만, 여기서는 주어진 확률 분포에서의 샘플링으로 한정하겠습니다. 샘플링은 확률 분석 뿐만 아니라, 머신러닝 및 딥러닝 등에서도 자주 활용되는 개념입니다. numpy.random.choice를 이용한 샘플링 간단히 예를 들어서 주사위를 던져서 나오는 숫자를 샘플링한다고 해보겠습니다. 이 숫자는 {1, 2, 3, 4, 5, 6} 중 하나를 취할 확률이 1/6인 확률 변수를 따릅니다. 참고로 확률 변수가 가질 수 있는 값의 집합을..
이번 포스팅에서는 k-최근접 이웃의 k값을 튜닝하는 방법에 대해 알아보겠습니다. 포스팅을 업데이트하면서 다양한 rule of thumbs를 검증해보겠습니다. 데이터 데이터는 모두 KEEL에서 수집했으며, 수집한 데이터는 다음과 같습니다. 분류 분류 데이터로는 아래와 같은 총 104개의 데이터셋을 활용했습니다. abalone, abalone19, abalone9-18, adult, australian, balance, banana, bands, breast, bupa, car, census, chess, cleveland, coil2000, connect-4, contraceptive, crx, dermatology, ecoli-0-1-3-7_vs_2-6, ecoli-0_vs_1, ecoli, ecoli1..
이번 포스팅에서는 이진 분류를 위한 서포트 벡터 머신(SVM)의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 커널까지 비교하려하다보니 시간이 너무 오래 걸릴 것 같아, rbf 커널을 갖는 SVM으로 한정했습니다. SVM은 sklearn.svm.SVC를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.svm.SVC의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. C: 정규화 파라미터로, 이 값이 클수록 정규화 강도가 약합니다. L2 페널티이며, 기본값은 1입니다. kernel: 커널을 결정하며,'linear' (선형), 'poly' (다항), 'rbf', 'sigmoid' (시그모이드) 중 ..
이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestRegressor를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestRegressor의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'mse', ',mae' 중 하나로 입력합니다. 최근 버전(1.2)에서는 각각 "squared_e..
이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestClassifier의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'gini', 'entropy' 중 하나로 입력합니다. 'gini'는 지니 불순도(Gin..
실험을 수행해서 모델별 하이퍼 파라미터를 튜닝하는 가이드라인을 만들어보겠습니다. 가이드라인은 모델 및 목적별로 어느 하이퍼 파라미터를 어느 범위에서 튜닝할지를 나타냅니다. 이 포스팅은 일종의 메인 페이지로 쓴다고 보면 될 것 같습니다. 포스팅 및 링크를 계속 업데이트하겠습니다. 랜덤 포레스트 이진 분류 랜덤 포레스트(이진 분류)의 하이퍼 파라미터 튜닝 이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하 gils-lab.tistory.com 회귀 랜덤 포레스트(회귀)의 하이퍼 파라미터 튜닝 이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이..
최근 다중공선성에 대한 논의를 봐서 여기에 숟가락을 한 번 얹어보도록 하겠습니다. 관련 논의는 이 블로그들을 보시기를 바랍니다. 특히, 위의 글은 굉장히 잘 정리된 글으로 일독을 추천합니다. https://brunch.co.kr/@gimmesilver/76 다중공선성은 생각하지 마라 선형 회귀 관련 교재나 설명 자료를 보면 꼭 빠지지 않고 나오는 주제 중 하나가 다중공선성입니다. 다중공선성이란 회귀 모델의 독립변수들이 서로 강한 상관 관계를 갖고 있는 상태를 말합니 brunch.co.kr https://blog.pabii.co.kr/multicollinearity-famous-but-stupid/ 다중공선성과 Random Forest에 대한 "업계 유명한" 사람의 글 – 파비블로그 우리 학교 게시판에 T..
많은 분들이 취업 준비를 하는 과정에서 불안감을 느껴 이력서에 한 줄이라도 더 쓰고 싶어합니다. 소위 스펙을 더 만드려고 하는건데, 이 가운데 가장 쉽게 매력(?)을 느끼는 스펙이 자격증인 것 같습니다. 나름 공부도 하는 것 같고, 자격이 있다하니 뭔가 준비가 된 것 같기도 하고요. 제가 다른 분야에 관해서 왈가왈부하긴 어렵고, 본 포스팅에서는 데이터사이언스 분야에 한정해서 자격증의 필요성에 대해 이야기를 해보고자 합니다. 자격증의 종류 최근 데이터 사이언스 분야의 자격증이 많은데, 그 가운데 대표적인 자격증은 아래와 같습니다. 데이터분석준전문가(ADsP) 빅데이터분석기사 데이터분석전문가(ADP) 국가 공인 SQL 전문가 (SQLP) 국가 공인 SQL 개발자 (SQLD) 실제로 해당 자격증을 우대해주는 ..