GIL's LAB

실험 3. 이전 종가의 등락폭을 가지고 미래 종가의 등락폭 예측하기 (1) 실험 설계 본문

퀀트 투자/실험 일지

실험 3. 이전 종가의 등락폭을 가지고 미래 종가의 등락폭 예측하기 (1) 실험 설계

GIL~ 2021. 9. 6. 22:13

개요 

이번 실험에서는 지난 실험 실패를 교훈삼아 종가를 사용하는대신 종가의 등락폭을 사용하여 실험을 진행하고자 한다. 

실험 구성은 실험 1과 거의 유사하지만, 해석을 위해서 또 어차피 회귀모델 성능이 좋을 것이라 예상되니 회귀모델만 사용하도록 한다. 또한, 이번에는 실험 결과를 바탕으로 다양한 백테스트를 추가할 예정이다. 백테스트는 (4) 백테스트라는 제목으로 추후에 포스팅하겠다. 

 

준비물

코스피/코스닥 종목별 종가의 등락폭 데이터 (기간: 2016년 9월 1일 ~ 2021년 8월 31일)

이번에는 y가 등락폭이다! 

실험 목표

  • 이전 종가의 등락폭으로 미래 종가의 등락폭 예측이 어느정도 가능해보이는 종목을 파악한다.
  • 종목별로 적절한 예측 모델이 무엇인지 파악한다.
  • 종목별로 적절한 lag를 파악한다. lag는 결국 아래 그림과 같이 입력 변수를 몇 개로 할 것인지와 직결된다.

비교 대상

  • lag (L): {1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

 

실험 과정

한 종목에 대한 데이터와 lag L가 주어졌다고 하자. 

그러면 가장 먼저 데이터를 다음과 같이 정리한다.

그리고나서 이 데이터를 정렬하지 않고 10등분을 한다. 이를 D1, D2, ..., D10이라고 하자. 

그러면 아래와 같이 9번의 학습 및 평가가 가능하다.

  • 학습: D1 / 평가: D2
  • 학습: D1, D2 / 평가: D3
  • 학습: D1, D2, D3 / 평가: D4
  • ...
  • 학습: D1, D2, D3, D4, ..., D9 / 평가: D10

이때 모든 평가 결과를 종합하여 L의 적절성을 평가한다. 이때 평가는 MAE (mean absolute error)를 사용하며, 각 평가 결과는 MAE의 평균으로 계산한다. 즉, D1에 속한 데이터를 제외한 모든 종가 등락폭의 예측값과 실제값의 퍼센트 차이에 대한 평균을 기준으로 L의 적절성을 평가한다.

 

실험 결과 정리 방안

모든 종목에 대해 래그를 비교한 결과를 출력하는 것은 무의미하므로, 종목별 최소 MAE와 그 때의 래그로 정리한다. 만약 예측 성능이 좋은 모델이 있고 계수가 양수라면, 증가(감소)할땐 계속 증가(감소)를 한다는 트렌드가 있다고 판단할 수 있을 것이다. 

 

 

 

수집하고 싶은 금융 데이터나 실험하고 싶은 퀀트 관련 아이디어가 있으면 댓글로 남겨주세요! 
관련 포스팅을 준비하도록 하겠습니다!

 

Comments