일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 랜덤포레스트
- 데이터 사이언티스트
- 머신러닝
- 파라미터 튜닝
- 퀀트 투자 책
- 데이터분석
- 경력기술서 첨삭
- 코딩테스트
- 베이지안 최적화
- 하이퍼 파라미터
- 데이터사이언스학과
- 대학원
- pandas
- 커리어전환
- 파이썬
- 퀀트
- 주식데이터
- sklearn
- 주요 파라미터
- 자기소개서
- 주가데이터
- 데이터 사이언스
- 사이킷런
- 데이터사이언스
- 판다스
- 경력 기술서
- 데이터사이언티스트
- 하이퍼 파라미터 튜닝
- AutoML
- 이력서 첨삭
- Today
- Total
목록분류 전체보기 (119)
GIL's LAB
이번에 회사 업무상 AutoML에 대해 정리해야 할 일이 있어, 온갖 자료를 다 끌어다가 정리해보고자 합니다. 특히, 제가 직접 AutoML 시스템을 개발해야할 수도 있어서 상용화된 AutoML을 분석해보고, 구현을 위해 어떤 지식이 필요한지 여러 포스팅을 통해 좀 딥하게 알아보고자 합니다. 이번 포스팅에서는 AutoML에 대한 내용을 개괄적으로 정리하겠습니다. AutoML이란? AutoML이란 automated machine learning의 약자로, 이름 그대로 머신러닝 모델을 개발을 자동화하는 분야입니다. 아래 그림과 같이 많은 머신러닝 모델 개발 과제에서 반복적으로 수행하게 되는 데이터 분할, 정제, 특징 선택 및 추출, 모델 선택, 하이퍼 파라미터 튜닝 등을 함수화하여 자동화하는 것이라고 할 수..
이 블로그에서 작성했던 내용을 발전시켜서 작성한 책이 출간됐습니다. 파이썬 기초부터 금융 데이터 분석, 퀀트 투자 전략 검증 방법까지 정리한 책입니다. 손에 잡히는 퀀트 투자 with 파이썬: 파이썬을 활용한 금융 데이터 분석과 퀀트 투자 전략 검증 책은 여기에서 구매할 수 있습니다!
4차 산업혁명이니 뭐니 하면서 정부 예산을 따오려 많은 학교에서 데이터사이언스 학과를 설치했습니다. 기존 학과 이름을 데이터 사이언스 학과로 바꾼 학교도 있습니다. 제가 대학을 다닐 때만 해도 관련 전공이 없었고 데이터 사이언스 분야로 진출하려면 산업공학, 컴퓨터공학, 통계학을 전공하는 것이 유리했는데, 이제는 데이터 사이언스 전공이 생겨서 어떤 전공을 고르는 것이 좋을지 고민하는 분이 많아 제 생각을 이 포스팅에 정리하고자 합니다. 효율과 효과 제 생각에 데이터사이언스 학과로 갔을 때의 가장 큰 장점은 데이터 사이언티스트가 되기 위한 역량을 효율적으로 배울 수 있다는 점입니다. 예를 들어, 제가 졸업한 산업공학과에서는 데이터 사이언스와는 무관한 인간공학, UI/UX 등의 수업도 들어야 했지만, 데이터 ..
안녕하세요. 이번 포스팅에서는 실제 경력 기술서를 가지고 첨삭한 내용을 통해, 데이터 사이언티스트와 분석가를 위한 경력 기술서 및 이력서 작성 팁을 정리해보겠습니다. 실제 경력 기술서를 제공해주신 분은 모 중소기업에서 데이터 분석가 혹은 사이언티스트 포지션으로 이직을 희망하시는 분입니다. 이 분이 제공한 경력 기술서는 워드 파일로 4페이지나 되는 내용이므로, 수정 전/후로 비교해가면서 팁을 정리해보겠습니다. 참고로 워드 파일을 그대로 옮겨오다보니 원래 포맷은 좀 깨질 수 있으며, 식별이 가능한 내용은 전부 xx와 같이 표시했습니다. 또, 실제 경험이나 역량을 알지 못하므로 제가 어느정도 가상(?)의 인물을 상정한다는 점 양해바랍니다. 핵심 역량 부분 말 그대로 핵심 역량이 무엇인지, 나는 다른 지원자들에..
논문: Frazier, P. I. (2018). A tutorial on Bayesian optimization. arXiv preprint arXiv:1807.02811. 어떤 문제를 다루나? 미지의 목적 함수 f를 최대화하는 최적화 문제 x: 20차원 이하의 실수 벡터, x = (x_1, x_2, ..., x_n) A: feasible set, 통상적으로 hyper-rectangle 형태 (즉, a_i ≤ x_i ≤ b_i) 목적 함수 f의 특성 continuous black-box: 지금까지의 데이터로 추정해야 함 expensive to evaluate: 데이터가 부족함 derivative-free: 도함수를 모름 => Newton’s Method, Gradient descent 등 사용 불가 no..
데이터 분야 커리어 (데이터 사이언티스트 & 머신러닝/딥러닝 엔지니어)를 시작하려는 분이 가장 많이 물어보는 대학원 관련 질문을 아래와 같이 정리했습니다. Q. 대학원에 반드시 가야하나요? A. 당연하지만 필수는 아닙니다. 학사로 커리어를 시작하는 분도 분명히 계십니다. 그러나 최근에 이쪽 분야의 공급이 늘면서, 학위가 없는 분은 거의 없습니다. 실제로 저희 팀에 있는 사이언티스트와 엔지니어 모두 석사 혹은 박사학위자입니다. 박사는 필수라고 하긴 어렵지만, 석사는 사실상 필수라고 보는 것이 맞습니다. 사견으로는 직장 생활을 하다가 대학원에 진학하기보다, 대학원(석사일지라도)에 진학한 뒤 이 쪽 분야의 커리어를 시작하는 것이 유리합니다. Q. 어느 종류의 대학원에 가야하나요? A. 석사만 할 것인지, 박사..
파이썬 인스턴스 크기는 sys.getsizeof를 이용하여 측정할 수 있습니다. 크기가 100과 1000000인 난수 배열의 크기를 측정해보겠습니다. 먼저 난수 배열을 다음과 같이 생성합니다. import numpy as np small_arr = np.random.random(100) large_arr = np.random.random(1000000) 다음으로 크기를 측정합니다. print(sys.getsizeof(small_arr)) print(sys.getsizeof(large_arr)) [실행 결과] 896 8000096 크기가 잘 측정되는 것으로 보입니다. 그럼 머신러닝 모델의 인스턴스도 잘 측정되는지 보겠습니다. 먼저 5개의 트리로 구성된 작은 랜덤포레스트 모델과 100개 트리로 구성된 큰 랜..
문제 A사는 연봉 협상을 구두로 진행한 뒤 연봉 계약서에 서명을 받는 방식으로 연봉 계약을 진행합니다. 2022년 올해도 직원들과 연봉 계약을 구두로 진행했으며, 연봉을 다음과 같이 엑셀 파일(직원연봉.xlsx)에 저장했습니다. 이제 직원연봉.xlsx에 있는 데이터를 docx 확장자인 연봉계약서 양식에 옮겨 연봉 계약서를 작성하려 합니다. 그 양식은 아래와 같으며, 옮겨야 하는 부분은 노란색으로 표시했습니다. 현재까지는 네 명의 직원과만 연봉 협상이 이뤄져서 직접 옮겨도 크게 부담이 없지만, 추후 연봉 협상이 완전히 마무리되면 수천명의 데이터를 옮겨야 합니다. 그래서 파이썬을 이용하여 자동으로 데이터를 옮기고자 합니다. 환경 세팅: python-docx 워드 파일을 생성하거나 수정하려면 python-do..
문제 KRX 정보데이터시스템에서 특정 기간 동안의 일별 전종목 시세 데이터를 다운로드하려 합니다. 이 시스템에서 주가 데이터는 다음과 같은 절차로 다운로드할 수 있습니다. (1) 조회일자 입력 (2) 조회 버튼 클릭 (3) 다운로드 버튼 클릭 (4) csv 버튼 클릭 (상황에 맞게 Excel 버튼 클릭도 가능) (5) 필요에 따라 파일명 수정 한 데이터를 조회하고 다운로드하는데 약 30초 가까이 소요되며, 데이터가 많을수록 반복적이고 귀찮은 일입니다. 설명을 위해 2020년 12월 1일부터 4일까지의 데이터를 수집하는 예제를 살펴보겠습니다. 환경 세팅: 셀레니움 셀레니움을 사용해서 데이터를 수집하려면 셀레니움 패키지와 웹 드라이버를 설치해야 합니다. 셀레니움은 아나콘다 프롬프트에 아래와 같은 명령어를 입..
문제 한 회사에서 직원들에게 네 종류의 교육 A, B, C, D 가운데 어느 교육을 듣고 싶은지 교육신청서에 작성해서 제출하도록 했습니다. 이 회사의 직원은 총 1천명이고 이 가운데 일부는 다음과 같은 엑셀 양식의 교육신청서를 작성했습니다. 듣고 싶은 교육에 O 표시를 하고, 듣고 싶지 않은 교육에는 X 표시를 했습니다. 단, 모든 직원은 하나 이상의 교육을 반드시 수강해야 합니다. 그런데 1천명의 직원 가운데 대부분이 아직 신청서를 제출하지 않았습니다. 그래서 제출한 신청서를 바탕으로 제출한 직원이 듣고 싶은 교육을 취합하고 제출하지 않은 직원을 체크하려 합니다. 여기에 사용하는 양식은 아래와 같습니다. 데이터 직원들이 제출한 교육신청서는 아래 압축 파일에 있습니다. 각 신청서의 파일명은 "사번_교육신..