일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터사이언스학과
- 파라미터 튜닝
- 데이터사이언스
- 데이터 사이언스
- 주요 파라미터
- AutoML
- 사이킷런
- 주식데이터
- pandas
- 데이터분석
- 머신러닝
- 베이지안 최적화
- 하이퍼 파라미터 튜닝
- 커리어전환
- 경력 기술서
- sklearn
- 자기소개서
- 주가데이터
- 판다스
- 파이썬
- 퀀트 투자 책
- 데이터 사이언티스트
- 랜덤포레스트
- 경력기술서 첨삭
- 퀀트
- 대학원
- 이력서 첨삭
- 하이퍼 파라미터
- 코딩테스트
- 데이터사이언티스트
- Today
- Total
목록분류 전체보기 (119)
GIL's LAB
이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestRegressor를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestRegressor의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'mse', ',mae' 중 하나로 입력합니다. 최근 버전(1.2)에서는 각각 "squared_e..
이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestClassifier의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'gini', 'entropy' 중 하나로 입력합니다. 'gini'는 지니 불순도(Gin..
실험을 수행해서 모델별 하이퍼 파라미터를 튜닝하는 가이드라인을 만들어보겠습니다. 가이드라인은 모델 및 목적별로 어느 하이퍼 파라미터를 어느 범위에서 튜닝할지를 나타냅니다. 이 포스팅은 일종의 메인 페이지로 쓴다고 보면 될 것 같습니다. 포스팅 및 링크를 계속 업데이트하겠습니다. 랜덤 포레스트 이진 분류 랜덤 포레스트(이진 분류)의 하이퍼 파라미터 튜닝 이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하 gils-lab.tistory.com 회귀 랜덤 포레스트(회귀)의 하이퍼 파라미터 튜닝 이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이..
최근 다중공선성에 대한 논의를 봐서 여기에 숟가락을 한 번 얹어보도록 하겠습니다. 관련 논의는 이 블로그들을 보시기를 바랍니다. 특히, 위의 글은 굉장히 잘 정리된 글으로 일독을 추천합니다. https://brunch.co.kr/@gimmesilver/76 다중공선성은 생각하지 마라 선형 회귀 관련 교재나 설명 자료를 보면 꼭 빠지지 않고 나오는 주제 중 하나가 다중공선성입니다. 다중공선성이란 회귀 모델의 독립변수들이 서로 강한 상관 관계를 갖고 있는 상태를 말합니 brunch.co.kr https://blog.pabii.co.kr/multicollinearity-famous-but-stupid/ 다중공선성과 Random Forest에 대한 "업계 유명한" 사람의 글 – 파비블로그 우리 학교 게시판에 T..
많은 분들이 취업 준비를 하는 과정에서 불안감을 느껴 이력서에 한 줄이라도 더 쓰고 싶어합니다. 소위 스펙을 더 만드려고 하는건데, 이 가운데 가장 쉽게 매력(?)을 느끼는 스펙이 자격증인 것 같습니다. 나름 공부도 하는 것 같고, 자격이 있다하니 뭔가 준비가 된 것 같기도 하고요. 제가 다른 분야에 관해서 왈가왈부하긴 어렵고, 본 포스팅에서는 데이터사이언스 분야에 한정해서 자격증의 필요성에 대해 이야기를 해보고자 합니다. 자격증의 종류 최근 데이터 사이언스 분야의 자격증이 많은데, 그 가운데 대표적인 자격증은 아래와 같습니다. 데이터분석준전문가(ADsP) 빅데이터분석기사 데이터분석전문가(ADP) 국가 공인 SQL 전문가 (SQLP) 국가 공인 SQL 개발자 (SQLD) 실제로 해당 자격증을 우대해주는 ..
새로운 컨텐츠로 커리어 상담을 준비해봤습니다. 요즘 바빠서 다른 컨텐츠 정리도 못하고 있지만요... 데이터 커리어 관련해서 오는 메일 가운데 잘 정리해서 공유할만한 내용을 블로그에 정리하는 컨텐츠입니다. 왜 컨텐츠 발굴에 집착하는지 스스로도 이해가 안 가지만요. 아무튼 이것저것 도움이 될만한 내용을 정리해서 올려보고자 합니다. 구독자 분의 질문을 정리하면 다음과 같습니다. 데이터 사이언티스트 직무를 희망하는 산업공학 학부생인데, 데이터 사이언스 학과로 전과하거나 복수 전공을 해야 할까요? 제가 이전에 비슷한 포스팅(링크)을 했었지만, 여기서는 산업 공학에 더 집중을 해보겠습니다. 저도 산업공학 전공자라서 산업공학 전공자 특유의 이도저도 아닌듯한 불안함을 알고 있습니다. 다양한 것을 배우긴 하는데, 수학과..
이번에는 공통 질문에 대한 답을 정리해보겠습니다. 이 질문에 대한 답은 굉장히 주관적이므로 제 답변을 참고만 하시면 될 것 같습니다. 또한 가장 요청이 많은 학사 및 석사 신입을 가정해서 쓰지 않고 제 상황(박사졸 + 경력 2년차)에 맞게 쓰는 것입니다. Q. 왜 저희 회사에 지원하셨나요? 데이터 사이언티스트의 커리어를 발전시키기 위해 지원했습니다. 새로운 도메인과 데이터에 대한 경험을 쌓는 것이 중요하다고 생각해서 현 회사에 안주하지 않고 지원하게 됐습니다. Q. 해당 직군의 매력이 무엇이라고 생각하나요? 데이터 사이언티스트의 가장 큰 매력은 아이디어와 감에만 의존하지 않고 객관적인 데이터에 기반하여 의사결정할 수 있다는 점이라고 생각합니다. 즉, 데이터를 통해 고객의 특성을 파악할 수도 있고, 문제점..
이번에 저희 회사에서 신입 채용을 진행했습니다. 서류와 코딩테스트 전형은 모두 끝났고 면접 전형이 시작됐고 제가 처음으로 데이터 사이언티스트 신입 면접에 참여했습니다. 면접 내용을 상세히 밝힐 순 없지만, 오늘 다대일 면접을 5차례 진행했고 면접과 면접 결과를 바탕으로 누구를 다음 전형에 올릴 것인지 다른 면접관과 토의하는 과정에서 제가 배운 내용을 공유합니다. 참고로 제가 모든 지원자를 면접하진 않았고, 5명 외에 다른 지원자들은 다른 면접관과 면접을 진행했습니다. 석사는 필수인가? 지원자 대부분이 컴퓨터공학, 산업공학, 통계학, 경영학 등의 석사였습니다. 제가 오늘 본 5명의 지원자 가운데 4명이 석사 졸업자 혹은 졸업예정자였고, 한 명만 학사 졸업 후 인턴 경험이 있었습니다. 비율로만 보면 당연히 ..
이번 포스팅에서는 데이터 사이언티스트의 역할과 커뮤니케이션 역량의 중요성에 대해 간략히 알아보고자 합니다. 데이터 사이언티스트의 역할 특수한 상황을 제외하면 많은 기업에서 데이터 사이언티스트는 혼자 일하지 않습니다. 데이터 사이언스를 캐글 등의 경진대회를 통해서만 접했던 사람이라면 의아할 수 있지만, 실제로 그렇게 문제와 데이터가 정리되서 데이터 사이언티스트가 해결만 해주면 되는 상황은 극히 드뭅니다. 데이터 사이언티스트는 아래와 같이 현업, PO/PM, DE와 같이 일을 합니다. 간략히 설명하면, 현업 혹은 시장에서 문제와 데이터를 들고 옵니다. 이렇게 들고온 문제와 데이터는 데이터 분석에 적합한 문제와 데이터가 아닐 가능성도 크며, 분석에 용이하게 정리되있을 가능성은 0에 수렴합니다. 그러면 PO 혹..