일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- pandas
- 데이터사이언스학과
- 사이킷런
- sklearn
- 베이지안 최적화
- 판다스
- 주가데이터
- 대학원
- AutoML
- 하이퍼 파라미터 튜닝
- 코딩테스트
- 경력 기술서
- 하이퍼 파라미터
- 퀀트
- 데이터사이언티스트
- 파라미터 튜닝
- 데이터분석
- 데이터사이언스
- 데이터 사이언티스트
- 경력기술서 첨삭
- 커리어전환
- 주요 파라미터
- 자기소개서
- 퀀트 투자 책
- 데이터 사이언스
- 파이썬
- 주식데이터
- 이력서 첨삭
- 머신러닝
- 랜덤포레스트
- Today
- Total
목록머신러닝 (5)
GIL's LAB
제 두 번째 책 "파이썬을 활용한 머신러닝 자동화 시스템 구축"이 출간됐습니다. [YES24] http://www.yes24.com/Product/Goods/112207887 파이썬을 활용한 머신러닝 자동화 시스템 구축 - YES24 `머신러닝 자동화를 통해 데이터 분석과 모델 개발에만 집중하세요!`머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법을 비롯해 www.yes24.com [알라딘] https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=300317422 파이썬을 활용한 머신러닝 자동화 시스템 구축 머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법..
머신러닝 파이프라인 넓은 의미에서 머신러닝 파이프라인(pipeline)은 데이터 수집, 전처리, 모델 학습, 학습 모델 배포, 예측 등 머신러닝의 전체 과정을 순차적으로 처리하는 일련의 프로세스입니다. 좁은 의미에서 파이프라인은 새로운 데이터가 들어왔을 때 이 데이터의 라벨을 예측하기까지 필요한 프로세스입니다. 일반적으로 모델을 학습할 때 사용한 데이터는 전처리된 데이터이므로, 새로 입력된 데이터도 같은 방식으로 전처리해서 모델에 입력해줘야 합니다. 머신러닝 자동화 시스템에서 주로 사용되는 파이프라인 구조는 아래 그림과 같습니다. 사이킷런: Pipeline 클래스 사이킷런에는 Pipeline이라는 클래스를 사용하여 파이프라인을 설계, 학습, 활용할 수 있습니다. 이 클래스를 이용하여 만든 파이프라인 인스..
이번 포스팅에서는 데이터 사이언티스트, 데이터 분석가, 데이터 엔지니어, 머신러닝/딥러닝 엔지니어의 차이에 대해 알아보겠습니다. 회사마다 포지션 정의가 다르기 때문에 명확한 경계는 아닐 수 있습니다. 즉, A회사에서는 데이터 분석가로 부르는 일을 B회사에서는 데이터 사이언티스트가, C회사에서는 머신러닝/딥러닝 엔지니어가 할 수 있습니다. 기술적인 집중도로 치면(한 마디로 좀 더 공대스러운거...) 다음과 같이 구분할 수 있습니다. 데이터 엔지니어 > 머신러닝/딥러닝 엔지니어 > 데이터 사이언티스트 > 데이터 분석가 데이터 사이언티스트 보통 회사에서 이야기하는 데이터 사이언티스트는 데이터를 기반으로 한 특정한 과제를 해결하는 사람입니다. 반드시 그렇진 않지만 보통 과제나 프로젝트 단위로 굴러가는 경우가 많..
이번 포스팅에서는 지도 학습 모델을 만들때 필수적인 단계인 하이퍼 파라미터 튜닝에 대해 소개한다. 하이퍼 파라미터와 하이퍼 파라미터 튜닝이란? 머신러닝에서 하이퍼 파라미터란 쉽게 생각해서 사용자의 입력값, 혹은 설정 가능한 옵션이라고 볼 수 있다. 모든 데이터와 문제에 대해 가장 좋은 하이퍼 파라미터 값이 있으면 좋겠지만, 아래 그림과 같이 데이터에 따라 좋은 하이퍼 파라미터라는 것이 다르다. 그래서 데이터마다 좋은 입력값을 설정해주는 노가다 작업이 필요한데, 이를 하이퍼 파라미터 튜닝이라고 한다. 예를 들어서, k-최근접 이웃에서 k를 3으로도 해보고, 5로도 해보고, 10으로도 해 본 다음 그 가운데 가장 좋은 k를 찾는 과정이다. 하이퍼 파라미터 튜닝을 노가다라고 표현한 이유는 해보기 전까진 3이 ..
이번 포스팅에서는 이전 포스팅에서 설명한 이전 종가를 가지고 미래 종가를 예측하는 파이썬 코드를 설명한다. 실험 결과 및 백테스팅 결과는 다음 포스팅에서 정리하도록 한다. 먼저 실험에 필요한 모듈을 다음과 같이 임포트한다. import os import pandas as pd import numpy as np from sklearn.metrics import mean_absolute_percentage_error as MAPE from sklearn.tree import DecisionTreeRegressor as DTR from sklearn.linear_model import LinearRegression as LR from sklearn.ensemble import RandomForestRegres..