일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- pandas
- 판다스
- 경력기술서 첨삭
- 베이지안 최적화
- 데이터사이언스학과
- sklearn
- 파라미터 튜닝
- 데이터 사이언스
- AutoML
- 이력서 첨삭
- 파이썬
- 데이터사이언스
- 퀀트
- 커리어전환
- 데이터 사이언티스트
- 하이퍼 파라미터 튜닝
- 주식데이터
- 데이터사이언티스트
- 사이킷런
- 주가데이터
- 머신러닝
- 데이터분석
- 퀀트 투자 책
- 주요 파라미터
- 하이퍼 파라미터
- 경력 기술서
- 코딩테스트
- 자기소개서
- 랜덤포레스트
- 대학원
- Today
- Total
목록분류 전체보기 (119)
GIL's LAB
이번 포스팅에서는 퇴사 후 데이터사이언스 분야 풀타임 대학원 진학에 대해 제 생각을 정리해볼까 합니다. 구독자 분께서 조언을 구한 질문이기도 하고 실제로도 많이 듣는 질문이기도 합니다. 참고로 2년 이상 5년 이하 회사에 근무한 20대후반에서 30대 초반을 대상으로 한 글이며, 어디까지나 주관적인 제 의견임을 미리 밝힙니다. 결론부터 이야기하면 말리고 싶습니다. 현재 직무와 전공에 따라 다를 수 있지만, 기본적으로는 말리고 싶습니다. 특히 데이터 사이언스와 완전히 무관한 직무와 전공일수록 더더욱 그렇습니다. 물론 대학원에 가서 잘 풀리는 케이스야 당연히 있고 저도 몇 번 봤지만, 최소한 퇴사 후 진학 시 발생할 수 있는 리스크는 염두에 둬야 할 것 같습니다. 말리는 가장 큰 이유는 석사 학위를 취득한다고..
이번 시간에는 tweepy라는 트위터 API에 접근할 수 있는 파이썬 패키지를 이용해서 트위터 데이터를 수집하는 방법에 대해 알아보겠습니다. 구체적으로 수집하고자 하는 데이터는 다음과 같습니다. 유저의 팔로워 목록 유저의 트윗 목록 유저의 팔로워 수 등 tweepy 공식 문서는 아래에서 확인할 수 있습니다. https://docs.tweepy.org/en/stable/ Tweepy Documentation — tweepy 4.10.1 documentation © Copyright 2009-2022, Joshua Roesslein. Revision ad5e31be. docs.tweepy.org 사실 많은 블로그에서 tweepy를 사용해서 트윗 데이터를 수집하는 방법을 소개했지만, 옛날 글이 많아 최신 버전..
안녕하세요. 이번 포스팅에서는 주니어가 경력 기술서를 작성할 때 자주하는 실수에 대해 알아보겠습니다. 지금까지 이력서나 경력 기술서를 검토하다가 공통적으로 확인하던 실수여서 짧게 글을 써보고자 합니다. 주니어에게 필요한 것 보통은 석박사 학위 기간을 포함한 경력이 3년 이하인 주니어에게 엄청난 기술 역량을 바라진 않습니다. 주니어도 일당백을 해야 하는 회사가 아니라면, 주니어에게 가장 중요한 것은 입사해서 새로운 프로젝트를 잘 따라올 수 있느냐인 것 같습니다. 새로운 프로젝트를 리딩할 수 있는 역량이 아니라 따라올 수 있는 역량이라는 것입니다. 경험과 경력이 쌓이면 새로운 프로젝트를 리딩할 수 있겠지만, 주니어에게 그 정도를 바라진 않습니다. 새로운 프로젝트를 잘 따라오려면 다른 팀원들과 잘 조화될 수 ..
제 두 번째 책 "파이썬을 활용한 머신러닝 자동화 시스템 구축"이 출간됐습니다. [YES24] http://www.yes24.com/Product/Goods/112207887 파이썬을 활용한 머신러닝 자동화 시스템 구축 - YES24 `머신러닝 자동화를 통해 데이터 분석과 모델 개발에만 집중하세요!`머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법을 비롯해 www.yes24.com [알라딘] https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=300317422 파이썬을 활용한 머신러닝 자동화 시스템 구축 머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법..
이번 포스팅에서는 판다스의 스트링 접근자에 대해 알아보겠습니다. 개요 스트링 접근자 .str은 판다스 시리즈의 속성으로 문자열을 처리하는데 사용할 수 있습니다. 이 접근자를 사용하면 문자열 처리를 하는데 필요한 내장 함수를 활용할 수 있습니다. 공식 문서에서 가져온 메서드 목록은 아래와 같습니다. 개인적으로는 아래 메서드 가운데 contains, count, endswith, replace, zfill을 많이 사용합니다. pandas.Series.str.capitalize pandas.Series.str.casefold pandas.Series.str.cat pandas.Series.str.center pandas.Series.str.contains pandas.Series.str.count pandas..
이번 포스팅에서는 파이썬에서 임의의 배열이 주어졌을 때 이 배열에서 값이 큰 k개의 값을 찾는 방법과 배열을 구성하는 값의 순위를 계산하는 방법을 알아보겠습니다. 여기서 고려하는 문제를 도식화하면 아래와 같습니다. 각 문제에 대한 설명은 다음과 같으며, 각 문제를 푸는데 둘 이상의 문법을 활용할 수도 있습니다. (1) 값이 작은 순위 계산: 배열에서 값이 작을수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 작은 1이 1위, 2가 2위 3이 3위, 5가 4위, 8이 5위가 됩니다. (2) 값이 큰 순위 계산: 배열에서 값이 클수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 큰 8이 1위, 5가 2위, 3이 3위, 2가 4위, 1이 5위가 됩니다. (3) 값이 큰 ..
AutoML 온라인 강의를 모두 촬영했습니다. 강의는 패스트캠퍼스에서 구매할 수 있습니다! https://fastcampus.co.kr/data_online_automl/?utm_source=google&utm_medium=cpc&utm_campaign=hq%5E220623%5E211816&utm_content=automl&utm_term=&gclid=Cj0KCQjwl92XBhC7ARIsAHLl9anjwLZl5YqCvMtZQTh_hCEQ0GxW6dr6qwk73zsXhzLL63uJS6jh78MaAveoEALw_wcB AutoML 시스템 구축으로 익히는 모델 선택 및 하이퍼파라미터 튜닝 | 패스트캠퍼스 머신러닝 자동화를 이용한 모델 개발 프로세스인 AutoML 시스템을 실제로 구축해보면서 머신러닝 모델 선택..
이번 포스팅에서는 scipy를 이용하여 확률 분포에서 샘플링하는 방법에 대해 알아보겠습니다. 확률 분포 샘플링이란? 샘플링(sampling)이란 특정한 확률 분포에서의 확률을 바탕으로 샘플을 추출하는 작업을 말합니다. 통계에서는 모집단에서 일부를 임의로 선택하는 작업을 샘플링이라 하지만, 여기서는 주어진 확률 분포에서의 샘플링으로 한정하겠습니다. 샘플링은 확률 분석 뿐만 아니라, 머신러닝 및 딥러닝 등에서도 자주 활용되는 개념입니다. numpy.random.choice를 이용한 샘플링 간단히 예를 들어서 주사위를 던져서 나오는 숫자를 샘플링한다고 해보겠습니다. 이 숫자는 {1, 2, 3, 4, 5, 6} 중 하나를 취할 확률이 1/6인 확률 변수를 따릅니다. 참고로 확률 변수가 가질 수 있는 값의 집합을..
이번 포스팅에서는 k-최근접 이웃의 k값을 튜닝하는 방법에 대해 알아보겠습니다. 포스팅을 업데이트하면서 다양한 rule of thumbs를 검증해보겠습니다. 데이터 데이터는 모두 KEEL에서 수집했으며, 수집한 데이터는 다음과 같습니다. 분류 분류 데이터로는 아래와 같은 총 104개의 데이터셋을 활용했습니다. abalone, abalone19, abalone9-18, adult, australian, balance, banana, bands, breast, bupa, car, census, chess, cleveland, coil2000, connect-4, contraceptive, crx, dermatology, ecoli-0-1-3-7_vs_2-6, ecoli-0_vs_1, ecoli, ecoli1..
이번 포스팅에서는 이진 분류를 위한 서포트 벡터 머신(SVM)의 하이퍼 파라미터를 튜닝하는 방법에 대해 알아보겠습니다. 커널까지 비교하려하다보니 시간이 너무 오래 걸릴 것 같아, rbf 커널을 갖는 SVM으로 한정했습니다. SVM은 sklearn.svm.SVC를 이용해서 구현하겠습니다. 하이퍼 파라미터 sklearn.svm.SVC의 주요 하이퍼 파라미터(함수 인자)는 다음과 같습니다. 하이퍼 파라미터에 대한 설명은 scikit learn의 공식 문서를 참고해서 작성했습니다. C: 정규화 파라미터로, 이 값이 클수록 정규화 강도가 약합니다. L2 페널티이며, 기본값은 1입니다. kernel: 커널을 결정하며,'linear' (선형), 'poly' (다항), 'rbf', 'sigmoid' (시그모이드) 중 ..