일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터사이언스학과
- 자기소개서
- 퀀트 투자 책
- 데이터 사이언스
- 데이터 사이언티스트
- 대학원
- 코딩테스트
- 주식데이터
- 데이터사이언스
- 경력기술서 첨삭
- 파라미터 튜닝
- pandas
- 경력 기술서
- 주요 파라미터
- 판다스
- 하이퍼 파라미터
- 퀀트
- 데이터사이언티스트
- 데이터분석
- 이력서 첨삭
- AutoML
- 커리어전환
- sklearn
- 하이퍼 파라미터 튜닝
- 사이킷런
- 머신러닝
- 베이지안 최적화
- 주가데이터
- 파이썬
- 랜덤포레스트
- Today
- Total
목록파이썬 (19)
GIL's LAB
문제 KRX 정보데이터시스템에서 특정 기간 동안의 일별 전종목 시세 데이터를 다운로드하려 합니다. 이 시스템에서 주가 데이터는 다음과 같은 절차로 다운로드할 수 있습니다. (1) 조회일자 입력 (2) 조회 버튼 클릭 (3) 다운로드 버튼 클릭 (4) csv 버튼 클릭 (상황에 맞게 Excel 버튼 클릭도 가능) (5) 필요에 따라 파일명 수정 한 데이터를 조회하고 다운로드하는데 약 30초 가까이 소요되며, 데이터가 많을수록 반복적이고 귀찮은 일입니다. 설명을 위해 2020년 12월 1일부터 4일까지의 데이터를 수집하는 예제를 살펴보겠습니다. 환경 세팅: 셀레니움 셀레니움을 사용해서 데이터를 수집하려면 셀레니움 패키지와 웹 드라이버를 설치해야 합니다. 셀레니움은 아나콘다 프롬프트에 아래와 같은 명령어를 입..
문제 한 회사에서 직원들에게 네 종류의 교육 A, B, C, D 가운데 어느 교육을 듣고 싶은지 교육신청서에 작성해서 제출하도록 했습니다. 이 회사의 직원은 총 1천명이고 이 가운데 일부는 다음과 같은 엑셀 양식의 교육신청서를 작성했습니다. 듣고 싶은 교육에 O 표시를 하고, 듣고 싶지 않은 교육에는 X 표시를 했습니다. 단, 모든 직원은 하나 이상의 교육을 반드시 수강해야 합니다. 그런데 1천명의 직원 가운데 대부분이 아직 신청서를 제출하지 않았습니다. 그래서 제출한 신청서를 바탕으로 제출한 직원이 듣고 싶은 교육을 취합하고 제출하지 않은 직원을 체크하려 합니다. 여기에 사용하는 양식은 아래와 같습니다. 데이터 직원들이 제출한 교육신청서는 아래 압축 파일에 있습니다. 각 신청서의 파일명은 "사번_교육신..
이번 포스팅에서는 파이썬을 이용해 프로그램을 개발하는 데 필요한 개발 환경을 구축하고, 이 개발 환경에서 프로그래밍하는 방법을 알아보겠습니다. 여러 개발 환경이 있지만, 스크립트 수준의 코드를 만드는데 적합한 아나콘다 환경에 대해 알아볼 것입니다. 참고로 이 블로그에서 다루는 대부분의 코드는 이 포스팅에서 설명한 주피터 노트북으로 작성한 것입니다. 아나콘다 설치 프로그램 다운로드 아나콘다는 자주 사용되는 패키지와 파이썬 프로그램을 개발하는 데 필요한 환경이 포함된 배포판으로, 패키지 설치 등 추가적인 환경 설정에 관한 부담이 적어 초보자에게 적합합니다. 아나콘다 홈페이지에 접속해 운영체제에 맞는 아나콘다 배포판을 다운로드합니다. 저는 윈도우 운영체제를 사용 중이므로 윈도우용 아나콘다를 다운로드했습니다. ..
이번 포스팅에서는 데이터가 추가될 때마다 그래프를 업데이트하는 방법에 대해 알아보겠습니다. 예제 소개 설명을 위해서, 시간(t)이 지남에 따라 데이터가 추가되는데, 그 데이터는 sin(t)라고 하겠습니다. 즉, t = 100일 때 그려지는 그래프는 아래와 같이 그릴 수 있습니다. 먼저 필요한 모듈을 임포트해줍니다. import matplotlib.pyplot as plt import numpy as np 다음으로 데이터 t와 y를 만들어 plot 함수로 시각화합니다. t = np.arange(0, 100, 1) y = np.sin(t) plt.plot(t, y) plt.show() 이제 t의 요소가 한 개씩 추가될 때 그래프를 업데이트하는 방법을 알아보겠습니다. 가장 많이 하는 실수 실수 유형 1은 아래..
안녕하세요. 이번 포스팅에서는 파이썬 모듈에서 파일을 불러오는 방법을 알아보겠습니다. 많은 방법을 구글링했지만, 제가 성공한 방법만 소개하겠습니다. 문제 상황 문제는 모듈에서 파일을 불러와서 어떤 처리를 해야하는 상황이었습니다. 즉, 아래와 같은 폴더 구조가 있다고 하겠습니다. My_package --------------------- My_Module.py --------------------- Data_Folder --------------------- Data.txt 여기서 My_Module.py에서 Data_Folder에 있는 Data.txt를 불러오는 것이 목적이었습니다. 첫 시도: 상대 경로 활용 My_Module.py의 상위 경로인 My_package에 접근하면 될 것이라는 단순한 생각으로 ..
넘파이의 가장 큰 장점으로 매우 빠른 배열 간 연산을 꼽을 수 있습니다. 배열 간 연산이란 크기가 같은 두 배열에 대해, 같은 위치에 있는 요소끼리의 수행하는 연산을 의미합니다. 예를 들어, 크기가 n인 두 배열 x = (x1, x2, ..., xn)와 y = (y1, y2, ..., yn)에 대해 임의의 연산자 ◇를 사용한 배열 연산은 다음과 같이 정의됩니다. x ◇ y = (x1 ◇ y1, x2 ◇ y2, ..., xn ◇ yn) 넘파이는 C로 작성되었기에, 파이썬의 반복문을 사용하는 것보다 훨씬 빠른 속도의 배열 연산을 자랑합니다. 이 포스팅에서는 넘파이의 배열 연산에 대해 알아보겠습니다. 유니버설 함수 유니버설 함수(universal functions, ufuncs)는 +, -, *, /, ** ..
이번 포스팅에서는 Pandas를 효율적으로 사용하는데 꼭 필요한 함수인 apply 메서드에 대해서 알아보도록 하자. 개요 공식 문서에서는 apply 메서드를 다음과 같이 소개하고 있다. pandas.DataFrame.apply DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs) Apply a function along an axis of the DataFrame. Objects passed to the function are Series objects whose index is either the DataFrame’s index (axis=0) or the DataFrame’s columns (axis=1). By d..
이번 포스팅에서는 ipynb 파일에서 실행 결과를 초기화하는 방법을 소개한다. 이 방법은 코드를 구동하다가 출력 결과가 너무 많아 (print 문을 너무 많이 사용하거나, 그림을 많이 사용했거나 등), 브라우저에서 outofmemory 에러가 발생할 때 유용하다. 일단 이 오류가 발생하면 ipynb 파일 사이즈도 너무 커져있는 상태이기 때문에, 파일이 잘 안 열리는 현상이 있다. 이러한 현상이 발생했을 때, 아래 코드를 이용하면 출력 결과를 모두 삭제해서 파일 크기를 줄일 수 있다. import sys import io import os from IPython.nbformat.current import read, write def clear_notebook(fname, new_fname): # 기존 파일..
아나콘다를 설치하고 주피터 노트북을 사용하면, 기본 경로가 "C:\Users\사용자ID"로 설정되어 있고, 주피터가 실행되는 브라우저는 익스플로러로 설정되어 있다. 이 포스팅에서는 주피터 노트북의 기본 경로와 브라우저를 바꾸는 방법을 소개하고, 이 과정에서 발생하는 오류 해결 방법을 단계별로 소개한다. (1) 아나콘다 프롬프트 (anaconda prompt (anaconda3))를 실행하고, 아래와 같이 jupyter notebook --generate-config를 입력한다. 이 명령어는 주피터의 환경을 설정할 수 있는 config 파일을 생성한다. (2) C:\Users\사용자ID\.jupyter에 생성된 jupyter_notebook_config.py를 메모장으로 연다. (3) 경로 설정 메모장에서..