일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 주가데이터
- 하이퍼 파라미터
- 경력 기술서
- 주식데이터
- 커리어전환
- 주요 파라미터
- 경력기술서 첨삭
- 자기소개서
- 사이킷런
- 데이터사이언스학과
- 퀀트
- 데이터분석
- 판다스
- 이력서 첨삭
- 베이지안 최적화
- AutoML
- pandas
- 머신러닝
- 데이터 사이언티스트
- 파이썬
- sklearn
- 데이터 사이언스
- 코딩테스트
- 랜덤포레스트
- 대학원
- 데이터사이언티스트
- 파라미터 튜닝
- 하이퍼 파라미터 튜닝
- 데이터사이언스
- 퀀트 투자 책
- Today
- Total
목록전체 글 (120)
GIL's LAB
이번 포스팅에서는 이진 분류를 위한 서포트 벡터 머신(SVM)의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 커널까지 비교하려하다보니 시간이 너무 오래 걸릴 것 같아, rbf 커널을 갖는 SVM으로 한정했습니다. SVM은 sklearn.svm.SVC를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.svm.SVC의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. C: 정규화 파라미터로, 이 값이 클수록 정규화 강도가 약합니다. L2 페널티이며, 기본값은 1입니다. kernel: 커널을 결정하며,'linear' (선형), 'poly' (다항), 'rbf', 'sigmoid' (시그모이드) 중 ..
이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestRegressor를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestRegressor의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'mse', ',mae' 중 하나로 입력합니다. 최근 버전(1.2)에서는 각각 "squared_e..
이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestClassifier의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'gini', 'entropy' 중 하나로 입력합니다. 'gini'는 지니 불순도(Gin..
실험을 수행해서 모델별 하이퍼 파라미터를 튜닝하는 가이드라인을 만들어보겠습니다. 가이드라인은 모델 및 목적별로 어느 하이퍼 파라미터를 어느 범위에서 튜닝할지를 나타냅니다. 이 포스팅은 일종의 메인 페이지로 쓴다고 보면 될 것 같습니다. 포스팅 및 링크를 계속 업데이트하겠습니다. 랜덤 포레스트 이진 분류 랜덤 포레스트(이진 분류)의 하이퍼 파라미터 튜닝 이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하 gils-lab.tistory.com 회귀 랜덤 포레스트(회귀)의 하이퍼 파라미터 튜닝 이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이..
최근 다중공선성에 대한 논의를 봐서 여기에 숟가락을 한 번 얹어보도록 하겠습니다. 관련 논의는 이 블로그들을 보시기를 바랍니다. 특히, 위의 글은 굉장히 잘 정리된 글으로 일독을 추천합니다. https://brunch.co.kr/@gimmesilver/76 다중공선성은 생각하지 마라 선형 회귀 관련 교재나 설명 자료를 보면 꼭 빠지지 않고 나오는 주제 중 하나가 다중공선성입니다. 다중공선성이란 회귀 모델의 독립변수들이 서로 강한 상관 관계를 갖고 있는 상태를 말합니 brunch.co.kr https://blog.pabii.co.kr/multicollinearity-famous-but-stupid/ 다중공선성과 Random Forest에 대한 "업계 유명한" 사람의 글 – 파비블로그 우리 학교 게시판에 T..
많은 분들이 취업 준비를 하는 과정에서 불안감을 느껴 이력서에 한 줄이라도 더 쓰고 싶어합니다. 소위 스펙을 더 만드려고 하는건데, 이 가운데 가장 쉽게 매력(?)을 느끼는 스펙이 자격증인 것 같습니다. 나름 공부도 하는 것 같고, 자격이 있다하니 뭔가 준비가 된 것 같기도 하고요. 제가 다른 분야에 관해서 왈가왈부하긴 어렵고, 본 포스팅에서는 데이터사이언스 분야에 한정해서 자격증의 필요성에 대해 이야기를 해보고자 합니다. 자격증의 종류 최근 데이터 사이언스 분야의 자격증이 많은데, 그 가운데 대표적인 자격증은 아래와 같습니다. 데이터분석준전문가(ADsP) 빅데이터분석기사 데이터분석전문가(ADP) 국가 공인 SQL 전문가 (SQLP) 국가 공인 SQL 개발자 (SQLD) 실제로 해당 자격증을 우대해주는 ..
새로운 컨텐츠로 커리어 상담을 준비해봤습니다. 요즘 바빠서 다른 컨텐츠 정리도 못하고 있지만요... 데이터 커리어 관련해서 오는 메일 가운데 잘 정리해서 공유할만한 내용을 블로그에 정리하는 컨텐츠입니다. 왜 컨텐츠 발굴에 집착하는지 스스로도 이해가 안 가지만요. 아무튼 이것저것 도움이 될만한 내용을 정리해서 올려보고자 합니다. 구독자 분의 질문을 정리하면 다음과 같습니다. 데이터 사이언티스트 직무를 희망하는 산업공학 학부생인데, 데이터 사이언스 학과로 전과하거나 복수 전공을 해야 할까요? 제가 이전에 비슷한 포스팅(링크)을 했었지만, 여기서는 산업 공학에 더 집중을 해보겠습니다. 저도 산업공학 전공자라서 산업공학 전공자 특유의 이도저도 아닌듯한 불안함을 알고 있습니다. 다양한 것을 배우긴 하는데, 수학과..
이번에는 공통 질문에 대한 답을 정리해보겠습니다. 이 질문에 대한 답은 굉장히 주관적이므로 제 답변을 참고만 하시면 될 것 같습니다. 또한 가장 요청이 많은 학사 및 석사 신입을 가정해서 쓰지 않고 제 상황(박사졸 + 경력 2년차)에 맞게 쓰는 것입니다. Q. 왜 저희 회사에 지원하셨나요? 데이터 사이언티스트의 커리어를 발전시키기 위해 지원했습니다. 새로운 도메인과 데이터에 대한 경험을 쌓는 것이 중요하다고 생각해서 현 회사에 안주하지 않고 지원하게 됐습니다. Q. 해당 직군의 매력이 무엇이라고 생각하나요? 데이터 사이언티스트의 가장 큰 매력은 아이디어와 감에만 의존하지 않고 객관적인 데이터에 기반하여 의사결정할 수 있다는 점이라고 생각합니다. 즉, 데이터를 통해 고객의 특성을 파악할 수도 있고, 문제점..
이번에 저희 회사에서 신입 채용을 진행했습니다. 서류와 코딩테스트 전형은 모두 끝났고 면접 전형이 시작됐고 제가 처음으로 데이터 사이언티스트 신입 면접에 참여했습니다. 면접 내용을 상세히 밝힐 순 없지만, 오늘 다대일 면접을 5차례 진행했고 면접과 면접 결과를 바탕으로 누구를 다음 전형에 올릴 것인지 다른 면접관과 토의하는 과정에서 제가 배운 내용을 공유합니다. 참고로 제가 모든 지원자를 면접하진 않았고, 5명 외에 다른 지원자들은 다른 면접관과 면접을 진행했습니다. 석사는 필수인가? 지원자 대부분이 컴퓨터공학, 산업공학, 통계학, 경영학 등의 석사였습니다. 제가 오늘 본 5명의 지원자 가운데 4명이 석사 졸업자 혹은 졸업예정자였고, 한 명만 학사 졸업 후 인턴 경험이 있었습니다. 비율로만 보면 당연히 ..