일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AutoML
- sklearn
- 파라미터 튜닝
- 판다스
- 베이지안 최적화
- 자기소개서
- 데이터사이언스학과
- 데이터사이언스
- 데이터분석
- 코딩테스트
- 경력 기술서
- 퀀트
- 주요 파라미터
- 대학원
- 커리어전환
- 사이킷런
- 하이퍼 파라미터 튜닝
- 데이터사이언티스트
- 퀀트 투자 책
- 데이터 사이언티스트
- 파이썬
- pandas
- 경력기술서 첨삭
- 머신러닝
- 주가데이터
- 이력서 첨삭
- 데이터 사이언스
- 랜덤포레스트
- 하이퍼 파라미터
- 주식데이터
- Today
- Total
목록퀀트 투자/실험 일지 (16)
GIL's LAB
이번 포스팅에서는 이전 포스팅에서 설명한 이전 종가를 가지고 미래 종가를 예측하는 파이썬 코드를 설명한다. 실험 결과는 다음 포스팅에서 정리하도록 한다. 먼저, 실험에 필요한 모듈을 불러오고 워닝을 무시한다. import os import pandas as pd import warnings import itertools from statsmodels.tsa.stattools import adfuller from statsmodels.tsa.stattools import grangercausalitytests as GCT os.chdir(r"C:\Users\Gilseung\Desktop\Jupyter\GILLAB\QUANT_DATA\201609~202108\주가") warnings.filterwarning..
개요 이번 실험에서는 지난 실험 실패를 교훈삼아 종가를 사용하는대신 종가의 등락폭을 사용하여 실험을 진행하고자 한다. 실험 구성은 실험 1과 거의 유사하지만, 해석을 위해서 또 어차피 회귀모델 성능이 좋을 것이라 예상되니 회귀모델만 사용하도록 한다. 또한, 이번에는 실험 결과를 바탕으로 다양한 백테스트를 추가할 예정이다. 백테스트는 (4) 백테스트라는 제목으로 추후에 포스팅하겠다. 준비물 코스피/코스닥 종목별 종가의 등락폭 데이터 (기간: 2016년 9월 1일 ~ 2021년 8월 31일) 실험 목표 이전 종가의 등락폭으로 미래 종가의 등락폭 예측이 어느정도 가능해보이는 종목을 파악한다. 종목별로 적절한 예측 모델이 무엇인지 파악한다. 종목별로 적절한 lag를 파악한다. lag는 결국 아래 그림과 같이 입..
드디어 첫 번째 실험이 끝났고, 실험 결과를 보자마자 뭔가 잘못되었다는 걸 알았습니다. 등락이 심하지 않은 종목의 경우에는 당연히 다음날 종가를 오늘의 종가로 예측하더라도 퍼센트 오차가 크기 어렵다는걸 생각을 못했네요. 그래서 원래 생각했던 것에 비해 MAPE가 매우 작았고, 코스피 종목까지만 실험을 진행했습니다. 다음 실험에서는 등락폭을 예측하도록 모델링을 해야겠네요. 좋은 것을 배웠다고 생각하고, 실험 결과를 정리해보겠습니다. 망한 실험도 실험이니까요...ㅜㅜ 실험 결과 정리 첫 번째 실험 결과 raw 데이터는 아래와 같습니다. 이제 몇 가지를 확인해볼게요. 먼저, 가장 우수한 성능을 보였던 모델과 lag의 분포를 확인해보겠습니다. 모델은 신경망과 선형회귀가 각각 1, 2등을 했습니다. 바로 이전 시..
두 번째 실험에서는 종목 간 선후행 관계가 존재하는지를 확인하고자 한다. 가령, 한 종목의 주가가 올라가면 다른 종목의 주가가 뒤따라서 올라가는 그러한 관계를 확인하고자 한다. 그럼 실험 대상과 방법에 대해 알아보자. 실험 대상 종목: 2016년 9월 1일부터 2021년 8월 31일까지 주가 데이터가 있는 코스피 종목 (즉, 2016년 9월 1일 이전에 상장해서 현재까지 상장폐지되지 않은 종목) 구간: 2016년 9월 1일 ~ 2021년 8월 31일 (이하 전구간) / 2020년 9월 1일 ~ 2021년 8월 31일 (이하 최신구간) 실험 이해를 위한 배경 지식 시계열의 정상성 (stationarity)이란 시계열의 확률적인 성질들이 시간의 흐름에 따라 변하지 않는다는 것을 의미하며, 정상 시계열은 정상..
이번 포스팅에서는 이전 포스팅에서 설명한 이전 종가를 가지고 미래 종가를 예측하는 파이썬 코드를 설명한다. 실험 결과 및 백테스팅 결과는 다음 포스팅에서 정리하도록 한다. 먼저 실험에 필요한 모듈을 다음과 같이 임포트한다. import os import pandas as pd import numpy as np from sklearn.metrics import mean_absolute_percentage_error as MAPE from sklearn.tree import DecisionTreeRegressor as DTR from sklearn.linear_model import LinearRegression as LR from sklearn.ensemble import RandomForestRegres..
개요 이번 실험에서는 모든 코스피 종목에 대해, 이전 종가를 가지고 미래 종가를 예측했을 때의 오차를 측정한다. 애초에 좋은 결과를 기대하는 실험이 아니기에 오히려 더 기대된다. 준비물 종목별 종가 데이터 (기간: 2016년 9월 1일 ~ 2021년 8월 31일): 실험 목표 이전 종가로 미래 종가 예측이 어느정도 가능해보이는 종목을 파악한다. 종목별로 적절한 예측 모델이 무엇인지 파악한다. 종목별로 적절한 lag를 파악한다. lag는 결국 아래 그림과 같이 입력 변수를 몇 개로 할 것인지와 직결된다. 비교 대상 lag (L): {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} model (f) - 모든 하이퍼파라미터는 sklearn의 default를 사용 Linear Regressor Decis..