일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터사이언티스트
- 퀀트 투자 책
- sklearn
- 경력 기술서
- 주식데이터
- 랜덤포레스트
- 경력기술서 첨삭
- 자기소개서
- 데이터사이언스
- 주요 파라미터
- 데이터 분석
- pandas
- 공공데이터
- 하이퍼 파라미터 튜닝
- 코딩테스트
- 머신러닝
- 데이터분석
- 대학원
- 주가데이터
- 하이퍼 파라미터
- 사이킷런
- 퀀트
- 데이터 사이언티스트
- AutoML
- 과제전형
- 판다스
- 데이터 사이언스
- 커리어전환
- 파이썬
- 이력서 첨삭
- Today
- Total
목록분류 전체보기 (127)
GIL's LAB
안녕하세요. 이번 포스팅에서는 주니어가 경력 기술서를 작성할 때 자주하는 실수에 대해 알아보겠습니다. 지금까지 이력서나 경력 기술서를 검토하다가 공통적으로 확인하던 실수여서 짧게 글을 써보고자 합니다. 주니어에게 필요한 것 보통은 석박사 학위 기간을 포함한 경력이 3년 이하인 주니어에게 엄청난 기술 역량을 바라진 않습니다. 주니어도 일당백을 해야 하는 회사가 아니라면, 주니어에게 가장 중요한 것은 입사해서 새로운 프로젝트를 잘 따라올 수 있느냐인 것 같습니다. 새로운 프로젝트를 리딩할 수 있는 역량이 아니라 따라올 수 있는 역량이라는 것입니다. 경험과 경력이 쌓이면 새로운 프로젝트를 리딩할 수 있겠지만, 주니어에게 그 정도를 바라진 않습니다. 새로운 프로젝트를 잘 따라오려면 다른 팀원들과 잘 조화될 수 ..

제 두 번째 책 "파이썬을 활용한 머신러닝 자동화 시스템 구축"이 출간됐습니다. [YES24] http://www.yes24.com/Product/Goods/112207887 파이썬을 활용한 머신러닝 자동화 시스템 구축 - YES24 `머신러닝 자동화를 통해 데이터 분석과 모델 개발에만 집중하세요!`머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법을 비롯해 www.yes24.com [알라딘] https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=300317422 파이썬을 활용한 머신러닝 자동화 시스템 구축 머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법..
이번 포스팅에서는 판다스의 스트링 접근자에 대해 알아보겠습니다. 개요 스트링 접근자 .str은 판다스 시리즈의 속성으로 문자열을 처리하는데 사용할 수 있습니다. 이 접근자를 사용하면 문자열 처리를 하는데 필요한 내장 함수를 활용할 수 있습니다. 공식 문서에서 가져온 메서드 목록은 아래와 같습니다. 개인적으로는 아래 메서드 가운데 contains, count, endswith, replace, zfill을 많이 사용합니다. pandas.Series.str.capitalize pandas.Series.str.casefold pandas.Series.str.cat pandas.Series.str.center pandas.Series.str.contains pandas.Series.str.count pandas..

이번 포스팅에서는 파이썬에서 임의의 배열이 주어졌을 때 이 배열에서 값이 큰 k개의 값을 찾는 방법과 배열을 구성하는 값의 순위를 계산하는 방법을 알아보겠습니다. 여기서 고려하는 문제를 도식화하면 아래와 같습니다. 각 문제에 대한 설명은 다음과 같으며, 각 문제를 푸는데 둘 이상의 문법을 활용할 수도 있습니다. (1) 값이 작은 순위 계산: 배열에서 값이 작을수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 작은 1이 1위, 2가 2위 3이 3위, 5가 4위, 8이 5위가 됩니다. (2) 값이 큰 순위 계산: 배열에서 값이 클수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 큰 8이 1위, 5가 2위, 3이 3위, 2가 4위, 1이 5위가 됩니다. (3) 값이 큰 ..
AutoML 온라인 강의를 모두 촬영했습니다. 강의는 패스트캠퍼스에서 구매할 수 있습니다! https://fastcampus.co.kr/data_online_automl/?utm_source=google&utm_medium=cpc&utm_campaign=hq%5E220623%5E211816&utm_content=automl&utm_term=&gclid=Cj0KCQjwl92XBhC7ARIsAHLl9anjwLZl5YqCvMtZQTh_hCEQ0GxW6dr6qwk73zsXhzLL63uJS6jh78MaAveoEALw_wcB AutoML 시스템 구축으로 익히는 모델 선택 및 하이퍼파라미터 튜닝 | 패스트캠퍼스 머신러닝 자동화를 이용한 모델 개발 프로세스인 AutoML 시스템을 실제로 구축해보면서 머신러닝 모델 선택..

이번 포스팅에서는 scipy를 이용하여 확률 분포에서 샘플링하는 방법에 대해 알아보겠습니다. 확률 분포 샘플링이란? 샘플링(sampling)이란 특정한 확률 분포에서의 확률을 바탕으로 샘플을 추출하는 작업을 말합니다. 통계에서는 모집단에서 일부를 임의로 선택하는 작업을 샘플링이라 하지만, 여기서는 주어진 확률 분포에서의 샘플링으로 한정하겠습니다. 샘플링은 확률 분석 뿐만 아니라, 머신러닝 및 딥러닝 등에서도 자주 활용되는 개념입니다. numpy.random.choice를 이용한 샘플링 간단히 예를 들어서 주사위를 던져서 나오는 숫자를 샘플링한다고 해보겠습니다. 이 숫자는 {1, 2, 3, 4, 5, 6} 중 하나를 취할 확률이 1/6인 확률 변수를 따릅니다. 참고로 확률 변수가 가질 수 있는 값의 집합을..

이번 포스팅에서는 k-최근접 이웃의 k값을 튜닝하는 방법에 대해 알아보겠습니다. 포스팅을 업데이트하면서 다양한 rule of thumbs를 검증해보겠습니다. 데이터 데이터는 모두 KEEL에서 수집했으며, 수집한 데이터는 다음과 같습니다. 분류 분류 데이터로는 아래와 같은 총 104개의 데이터셋을 활용했습니다. abalone, abalone19, abalone9-18, adult, australian, balance, banana, bands, breast, bupa, car, census, chess, cleveland, coil2000, connect-4, contraceptive, crx, dermatology, ecoli-0-1-3-7_vs_2-6, ecoli-0_vs_1, ecoli, ecoli1..

이번 포스팅에서는 이진 분류를 위한 서포트 벡터 머신(SVM)의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 커널까지 비교하려하다보니 시간이 너무 오래 걸릴 것 같아, rbf 커널을 갖는 SVM으로 한정했습니다. SVM은 sklearn.svm.SVC를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.svm.SVC의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. C: 정규화 파라미터로, 이 값이 클수록 정규화 강도가 약합니다. L2 페널티이며, 기본값은 1입니다. kernel: 커널을 결정하며,'linear' (선형), 'poly' (다항), 'rbf', 'sigmoid' (시그모이드) 중 ..

이번 포스팅에서는 회귀를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestRegressor를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestRegressor의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'mse', ',mae' 중 하나로 입력합니다. 최근 버전(1.2)에서는 각각 "squared_e..

이번 포스팅에서는 이진 분류를 위한 랜덤포레스트의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 랜덤포레스트는 sklearn.ensemble.RandomForestClassifier를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.ensemble.RandomForestClassifier의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. n_estimators: 랜덤포레스트를 구성하는 결정나무의 개수로 기본값은 100입니다. criterion: 결정 나무의 노드를 분지할 때 사용하는 불순도 측정 방식으로, 'gini', 'entropy' 중 하나로 입력합니다. 'gini'는 지니 불순도(Gin..