일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 자기소개서
- 커리어전환
- pandas
- 사이킷런
- 데이터분석
- 과제전형
- 머신러닝
- 경력기술서 첨삭
- 퀀트
- 데이터사이언티스트
- 경력 기술서
- 랜덤포레스트
- 데이터 분석
- 이력서 첨삭
- 데이터 사이언티스트
- sklearn
- 데이터 사이언스
- 주식데이터
- 판다스
- 파이썬
- 주가데이터
- AutoML
- 퀀트 투자 책
- 대학원
- 주요 파라미터
- 공공데이터
- 하이퍼 파라미터
- 하이퍼 파라미터 튜닝
- 코딩테스트
- 데이터사이언스
- Today
- Total
목록분류 전체보기 (127)
GIL's LAB

이번 포스팅에서는 데이터 사이언티스트, 데이터 분석가, 데이터 엔지니어, 머신러닝/딥러닝 엔지니어의 차이에 대해 알아보겠습니다. 회사마다 포지션 정의가 다르기 때문에 명확한 경계는 아닐 수 있습니다. 즉, A회사에서는 데이터 분석가로 부르는 일을 B회사에서는 데이터 사이언티스트가, C회사에서는 머신러닝/딥러닝 엔지니어가 할 수 있습니다. 기술적인 집중도로 치면(한 마디로 좀 더 공대스러운거...) 다음과 같이 구분할 수 있습니다. 데이터 엔지니어 > 머신러닝/딥러닝 엔지니어 > 데이터 사이언티스트 > 데이터 분석가 데이터 사이언티스트 보통 회사에서 이야기하는 데이터 사이언티스트는 데이터를 기반으로 한 특정한 과제를 해결하는 사람입니다. 반드시 그렇진 않지만 보통 과제나 프로젝트 단위로 굴러가는 경우가 많..
필자는 산업공학 박사이고 현재 국내대기업에서 데이터사이언티스트로 일하고 있습니다. 그래서인지 지인의 지인을 통해, 혹은 커뮤니티 등을 통해 데이터사이언티스트가 되려면 무엇을 준비해야하는지라는 질문을 참 많이 받습니다. 본 포스팅에서는 제가 들어봤던 질문과 그에 대한 답을 하고자 합니다. 이 포스팅은 생각나는대로, 또 이 포스팅의 댓글이나 메일(gils_lab@naver.com)로 오는 질문을 바탕으로 계속 업데이트할 예정입니다. * 이전에는 글을 반말로 썼기에 질문에 반말과 존댓말이 섞여 있습니다. Q. 문과생도 데이터사이언티스트가 될 수 있을까요? A. 이런 질문을 들으면 좋은 답을 해줄 수 없어, 가슴이 아픕니다. 기본적으로 데이터사이언티스트는 수학과 프로그래밍에 어느정도 밝아야 합니다. 보통의 문과..

안녕하세요. 이번 포스팅에서는 대표적인 캘린더 효과 중 하나인 요일 효과를 검증해보겠습니다. 요일 효과 요일 효과 혹은 주말 효과란 월요일의 주가가 낮고 금요일의 주가가 높은 현상을 말합니다. 이러한 현상은 주말동안 발생했던 부정적인 내용의 소식이 월요일 주가에 영향을 끼치기 때문이라고 알려져있습니다. 그래서 월요일에 매수해서 금요일에 매도하기만 하면 잃지는 않는다는 속설까지 생겼고, 또 관련 기사도 많습니다 (아래 기사 참고) https://biz.chosun.com/site/data/html_dir/2015/08/19/2015081904159.html 대상 종목 실험에 사용할 주가 데이터는 2016년 1월 1일 이전에 코스피와 코스닥에 상장된 모든 기업의 2016년 1월 1일부터 2021년 1월 1일..

안녕하세요. 이번 포스팅에서는 상승 반전형 단일 캔들 패턴이 발생한 다음 날 매수하여 n (n = 10, 20, 60) 영업일 동안 보유했다가 매도했을 때의 수익률을 비교해보겠습니다. 대상 캔들 패턴 여기서 실험하고자 하는 캔들 패턴은 망치형, 역망치형, 잠자리형 세 가지 패턴입니다. 망치형 매수 신호 패턴으로, 다음 그림과 같이 캔들 몸통 아래에만 꼬리가 생기는 패턴을 말합니다. 규칙 양봉 생성: 당일 종가 > 당일 시가 고가와 종가가 같음: 당일 고가 == 당일 종가. 파라미터 꼬리 길이: (당일 시가 - 당일 저가) / 당일 저가 * 100 몸통 길이: (당일 종가 - 당일 시가) / 당일 시가 * 100 역망치형 대표적인 매수 신호 패턴으로, 다음 그림과 같이 캔들 몸통 위에만 꼬리가 생기는 패턴..

이번 포스팅에서는 데이터가 추가될 때마다 그래프를 업데이트하는 방법에 대해 알아보겠습니다. 예제 소개 설명을 위해서, 시간(t)이 지남에 따라 데이터가 추가되는데, 그 데이터는 sin(t)라고 하겠습니다. 즉, t = 100일 때 그려지는 그래프는 아래와 같이 그릴 수 있습니다. 먼저 필요한 모듈을 임포트해줍니다. import matplotlib.pyplot as plt import numpy as np 다음으로 데이터 t와 y를 만들어 plot 함수로 시각화합니다. t = np.arange(0, 100, 1) y = np.sin(t) plt.plot(t, y) plt.show() 이제 t의 요소가 한 개씩 추가될 때 그래프를 업데이트하는 방법을 알아보겠습니다. 가장 많이 하는 실수 실수 유형 1은 아래..
10월 5일부터 시작해서 딱 2달반만에 책 작업을 마무리했습니다. 제 선에서는 모든 일이 끝났고, 편집 작업이랑 디자인 등만 남은 상태입니다. 약 2-3주 걸린다하니, 내년 초에는 출간되지 않을까 기대합니다. 책 제목은 손에 잡히는 퀀트 투자 with 파이썬 (“파이썬을 활용한 금융 데이터 분석과 퀀트 투자 전략 검증”)입니다. 논문은 많이 출판해봤는데, 책 출판은 처음이라 신기하고 색다른 경험이었습니다. 심지어 논문은 출판하면 끝이지만 (큰 문제가 나중에 터지지 않는다면), 책은 판매량으로 직접 평가받기에 조금 긴장도 됩니다. 그리고 블로그에 있는 내용을 확장해서 퀀트 전략을 검증하는데 필요한 국내용 파이썬 패키지인 qspy를 개발중에 있습니다. 짬짬이 개발하는거라 개발 속도는 좀 늦지만, 꾸준히 개발..
이번 포스팅에서는 이전 포스팅에서 소개한 내용을 확장하여, 전체 주식 데이터를 수집해보겠습니다. 종목 정의 종목은 한국 종목 전체로 하되, 데이터를 모을 수 없는 종목은 제외하겠습니다. # 종목 목록 가져오기 stock_list = fdr.StockListing('KRX') # 선물/옵션 종목 제거 (해당 데이터는 수집 불가) stock_list = stock_list.loc[stock_list['Name'].str[-1] == "콜" & stock_list['Sector'].isnull()] stock_list = stock_list.loc[stock_list['Name'].str[-1] == "풋" & stock_list['Sector'].isnull()] 데이터 수집 특별히 기간을 입력하지 않고 전..
안녕하세요. 이번 포스팅에서는 파이썬 모듈에서 파일을 불러오는 방법을 알아보겠습니다. 많은 방법을 구글링했지만, 제가 성공한 방법만 소개하겠습니다. 문제 상황 문제는 모듈에서 파일을 불러와서 어떤 처리를 해야하는 상황이었습니다. 즉, 아래와 같은 폴더 구조가 있다고 하겠습니다. My_package --------------------- My_Module.py --------------------- Data_Folder --------------------- Data.txt 여기서 My_Module.py에서 Data_Folder에 있는 Data.txt를 불러오는 것이 목적이었습니다. 첫 시도: 상대 경로 활용 My_Module.py의 상위 경로인 My_package에 접근하면 될 것이라는 단순한 생각으로 ..

이번 포스팅에서는 OpenDartReader를 이용하여 코스피/코스닥 전체 기업의 주요 재무지표를 수집하겠습니다. 보고서 제출 날짜 뿐만 아니라, 분기별 보고서까지 모두 포함시키겠습니다. OpenDartReader의 설치와 사용 방법은 이전 포스팅을, finstate 메서드에 대한 설명은 이전 포스팅 2를 참고해주시기 바랍니다. 환경 설정 먼저, 필요한 패키지를 모두 불러옵니다. import os import OpenDartReader import FinanceDataReader as fdr 다음으로 종목 목록을 다음과 같이 불러옵니다. stock_list = fdr.StockListing("KRX").dropna() 결측을 제거한 이유는 선물이나 우선주는 지역 등의 정보가 결측이고 이들은 재무제표가 당..
최근에 데이터 사이언스 분야의 컨설팅 회사에서 일하는 신입 사원의 커리어 질문을 받고 그 내용을 정리해보겠습니다. 질문의 핵심은 커리어를 위해서 어떻게 해야하냐였는데, 그 중에 가장 기억에 남는 질문은 컨설팅 분야가 좋을지 특정 도메인의 회사(예: 삼성전자, SK하이닉스, 현대차 등등)의 데이터사이언스 관련 부서에서 일하는 것이 좋을지였습니다. 저는 이 분야에서 강의도 제법했고, 관련 외주도 많이 하고 있고, 모 대기업의 데이터사이언스 관련 부서에서 근무 중이고 심지어는 외주를 준 프로젝트를 관리하고 있어서 나름 확신을 가지고 다음과 같이 대답했습니다. "이 분야에서는 컨설팅이나 SI보다 다른 기업의 데이터사이언스 부서에서 경력을 쌓는 것이 낫습니다" 물론 모든 컨설팅이나 SI 회사에서의 경력이 다른 기..