일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 파라미터 튜닝
- 판다스
- sklearn
- 퀀트 투자 책
- 사이킷런
- 데이터사이언스학과
- 파이썬
- 데이터 사이언스
- 퀀트
- 데이터분석
- 코딩테스트
- 하이퍼 파라미터
- 랜덤포레스트
- pandas
- 하이퍼 파라미터 튜닝
- AutoML
- 주가데이터
- 데이터사이언티스트
- 자기소개서
- 커리어전환
- 대학원
- 데이터사이언스
- 경력기술서 첨삭
- 베이지안 최적화
- 데이터 사이언티스트
- 머신러닝
- 이력서 첨삭
- 주식데이터
- 경력 기술서
- 주요 파라미터
- Today
- Total
목록파이썬/데이터 분석을 위한 파이썬 (6)
GIL's LAB
이번 시간에는 tweepy라는 트위터 API에 접근할 수 있는 파이썬 패키지를 이용해서 트위터 데이터를 수집하는 방법에 대해 알아보겠습니다. 구체적으로 수집하고자 하는 데이터는 다음과 같습니다. 유저의 팔로워 목록 유저의 트윗 목록 유저의 팔로워 수 등 tweepy 공식 문서는 아래에서 확인할 수 있습니다. https://docs.tweepy.org/en/stable/ Tweepy Documentation — tweepy 4.10.1 documentation © Copyright 2009-2022, Joshua Roesslein. Revision ad5e31be. docs.tweepy.org 사실 많은 블로그에서 tweepy를 사용해서 트윗 데이터를 수집하는 방법을 소개했지만, 옛날 글이 많아 최신 버전..
이번 포스팅에서는 판다스의 스트링 접근자에 대해 알아보겠습니다. 개요 스트링 접근자 .str은 판다스 시리즈의 속성으로 문자열을 처리하는데 사용할 수 있습니다. 이 접근자를 사용하면 문자열 처리를 하는데 필요한 내장 함수를 활용할 수 있습니다. 공식 문서에서 가져온 메서드 목록은 아래와 같습니다. 개인적으로는 아래 메서드 가운데 contains, count, endswith, replace, zfill을 많이 사용합니다. pandas.Series.str.capitalize pandas.Series.str.casefold pandas.Series.str.cat pandas.Series.str.center pandas.Series.str.contains pandas.Series.str.count pandas..
이번 포스팅에서는 파이썬에서 임의의 배열이 주어졌을 때 이 배열에서 값이 큰 k개의 값을 찾는 방법과 배열을 구성하는 값의 순위를 계산하는 방법을 알아보겠습니다. 여기서 고려하는 문제를 도식화하면 아래와 같습니다. 각 문제에 대한 설명은 다음과 같으며, 각 문제를 푸는데 둘 이상의 문법을 활용할 수도 있습니다. (1) 값이 작은 순위 계산: 배열에서 값이 작을수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 작은 1이 1위, 2가 2위 3이 3위, 5가 4위, 8이 5위가 됩니다. (2) 값이 큰 순위 계산: 배열에서 값이 클수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 큰 8이 1위, 5가 2위, 3이 3위, 2가 4위, 1이 5위가 됩니다. (3) 값이 큰 ..
이번 포스팅에서는 데이터가 추가될 때마다 그래프를 업데이트하는 방법에 대해 알아보겠습니다. 예제 소개 설명을 위해서, 시간(t)이 지남에 따라 데이터가 추가되는데, 그 데이터는 sin(t)라고 하겠습니다. 즉, t = 100일 때 그려지는 그래프는 아래와 같이 그릴 수 있습니다. 먼저 필요한 모듈을 임포트해줍니다. import matplotlib.pyplot as plt import numpy as np 다음으로 데이터 t와 y를 만들어 plot 함수로 시각화합니다. t = np.arange(0, 100, 1) y = np.sin(t) plt.plot(t, y) plt.show() 이제 t의 요소가 한 개씩 추가될 때 그래프를 업데이트하는 방법을 알아보겠습니다. 가장 많이 하는 실수 실수 유형 1은 아래..
넘파이의 가장 큰 장점으로 매우 빠른 배열 간 연산을 꼽을 수 있습니다. 배열 간 연산이란 크기가 같은 두 배열에 대해, 같은 위치에 있는 요소끼리의 수행하는 연산을 의미합니다. 예를 들어, 크기가 n인 두 배열 x = (x1, x2, ..., xn)와 y = (y1, y2, ..., yn)에 대해 임의의 연산자 ◇를 사용한 배열 연산은 다음과 같이 정의됩니다. x ◇ y = (x1 ◇ y1, x2 ◇ y2, ..., xn ◇ yn) 넘파이는 C로 작성되었기에, 파이썬의 반복문을 사용하는 것보다 훨씬 빠른 속도의 배열 연산을 자랑합니다. 이 포스팅에서는 넘파이의 배열 연산에 대해 알아보겠습니다. 유니버설 함수 유니버설 함수(universal functions, ufuncs)는 +, -, *, /, ** ..
이번 포스팅에서는 Pandas를 효율적으로 사용하는데 꼭 필요한 함수인 apply 메서드에 대해서 알아보도록 하자. 개요 공식 문서에서는 apply 메서드를 다음과 같이 소개하고 있다. pandas.DataFrame.apply DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs) Apply a function along an axis of the DataFrame. Objects passed to the function are Series objects whose index is either the DataFrame’s index (axis=0) or the DataFrame’s columns (axis=1). By d..