GIL's LAB

실험 1. 이전 종가를 가지고 미래 종가 예측하기 (1) 실험 설계 본문

퀀트 투자/실험 일지

실험 1. 이전 종가를 가지고 미래 종가 예측하기 (1) 실험 설계

GIL~ 2021. 9. 3. 22:22

개요 

이번 실험에서는 모든 코스피 종목에 대해, 이전 종가를 가지고 미래 종가를 예측했을 때의 오차를 측정한다. 

애초에 좋은 결과를 기대하는 실험이 아니기에 오히려 더 기대된다. 

 

준비물

종목별 종가 데이터 (기간: 2016년 9월 1일 ~ 2021년 8월 31일):

실험 목표

  • 이전 종가로 미래 종가 예측이 어느정도 가능해보이는 종목을 파악한다.
  • 종목별로 적절한 예측 모델이 무엇인지 파악한다.
  • 종목별로 적절한 lag를 파악한다. lag는 결국 아래 그림과 같이 입력 변수를 몇 개로 할 것인지와 직결된다.

비교 대상

  • lag (L): {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
  • model (f) - 모든 하이퍼파라미터는 sklearn의 default를 사용
    • Linear Regressor
    • Decision Tree Regressor
    • Random Forest Regressor
    • K-neighbors Regressor
    • Neural Network Regressor

 

실험 과정

한 종목에 대한 데이터와 lag L, model f가 주어졌다고 하자. 

그러면 가장 먼저 데이터를 다음과 같이 정리한다.

그리고나서 이 데이터를 정렬하지 않고 10등분을 한다. 이를 D1, D2, ..., D10이라고 하자. 

그러면 아래와 같이 9번의 학습 및 평가가 가능하다.

  • 학습: D1 / 평가: D2
  • 학습: D1, D2 / 평가: D3
  • 학습: D1, D2, D3 / 평가: D4
  • ...
  • 학습: D1, D2, D3, D4, ..., D9 / 평가: D10

이때 모든 평가 결과를 종합하여 L과 f의 적절성을 평가한다. 이때 평가는 MAPE (mean absolute percent error)를 사용하며, 각 평가 결과는 MAPE의 평균으로 계산한다. 즉, D1에 속한 데이터를 제외한 모든 종가의 예측값과 실제값의 퍼센트 차이에 대한 평균을 기준으로 L과 f의 적절성을 평가한다.

 

실험 결과 정리 방안

모든 종목에 대해 래그와 모델을 비교한 결과를 출력하는 것은 무의미하므로, 종목별 가장 MAPE가 낮은 래그와 모델, 그리고 그 때의 MAPE로 결과를 요약하여 정리한다. 또한, MAPE가 낮은 순서대로 종목을 정렬하여 분석한다. 

 

 

수집하고 싶은 금융 데이터나 실험하고 싶은 퀀트 관련 아이디어가 있으면 댓글로 남겨주세요! 
관련 포스팅을 준비하도록 하겠습니다!

 

Comments