일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 경력기술서 첨삭
- 대학원
- 데이터분석
- 하이퍼 파라미터
- 주가데이터
- 주식데이터
- 경력 기술서
- 파이썬
- sklearn
- 판다스
- 데이터 사이언스
- 퀀트
- 데이터사이언스학과
- 자기소개서
- 베이지안 최적화
- 랜덤포레스트
- AutoML
- 데이터사이언티스트
- 하이퍼 파라미터 튜닝
- 데이터사이언스
- 파라미터 튜닝
- 사이킷런
- 머신러닝
- 데이터 사이언티스트
- 이력서 첨삭
- 코딩테스트
- 주요 파라미터
- 퀀트 투자 책
- 커리어전환
- pandas
- Today
- Total
목록분류 전체보기 (119)
GIL's LAB
오랜만에 포스팅입니다. 본 포스팅에서는 변수를 구간화하는 방법에 대해 알아보겠습니다. 변수 구간화란? 변수 구간화는 연속형 변수를 정해진 구간에 따라 구간화하여 서열형 변수로 변환하는 작업이라 할 수 있습니다. 간단한 예시를 살펴보겠습니다. 위 예시에서는 신장(cm)이란 변수를 세 개의 구간으로 구간화했습니다. 즉, 신장이 180cm이던 A란 사람은 [180, 190)의 구간에 속하므로 신장이 3으로 변했고, 신장이 175인 D란 사람은 [170, 180)이란 구간에 속하므로 2로 변했습니다. 구간화의 효과 그럼 왜 구간화를 하는지에 대해 생각해보겠습니다. 어떤 전처리 기법 혹은 모델링 기법을 사용할 때, 이게 왜 필요한지, 그리고 장/단점은 무엇인지 생각해야 합니다. 구간화를 한다는 것은 연속형 변수를..
본 포스팅에서는 문자열로 구성된 시리즈에 특정 단어 혹은 패턴이 포함되었는지를 확인하는 str.findall 메서드에 대해 알아보겠습니다. 이 메서드에 대한 상세 설명은 아래에서 볼 수 있습니다. https://pandas.pydata.org/docs/reference/api/pandas.Series.str.findall.html pandas.Series.str.findall — pandas 1.5.2 documentation next pandas.Series.str.fullmatch pandas.pydata.org 예시 데이터 다음과 같은 간단한 시리즈를 만들어주겠습니다. import pandas as pd S = pd.Series(["abc", "abcd", "accb", "bc", "d"]) 한 단..
문제 accident_stat.xlsx는 교통사고 유형별 교통사고 사고건수, 사망자수, 중상자수 등을 요약한 데이터이다. 이 데이터를 활용하여 아래에 답하시오. (1) 사고유형대분류가 "차대차"인 사고유형별 사망비율을 막대 그래프로 시각화하시오. 단, 사망비율은 사망자수/사고건수로 계산하며, matplotlib에서 폰트는 아래 코드를 이용하여 맑은 고딕으로 설정합니다. from matplotlib import pyplot as plt plt.rcParams['font.family'] = 'Malgun Gothic' (2) 사고유형대분류별로 사망자수가 가장 많은 사고 유형을 출력하세요. 그 결과는 ['횡단중', '측면충돌', '공작물충돌']이어야 합니다. (3) 사고유형별 중상비율을 계산하고 중상비율이 5..
문제 PM10_seoul.csv는 12월 1일 1시부터 8일 24시까지 한 시간마다 측정한 미세먼지 농도(PM-10) 데이터이다. date 컬럼은 측정 시간(YYYY-MM-DD:HH)를 나타내며, PM-10은 미세먼지 농도를 나타낸다. 이 데이터를 활용하여 아래에 답하시오. (1) 시간에 따른 미세먼지 농도를 적절한 그래프로 시각화하세요. 단, x축 이름은 date, y축 이름은 PM-10이어야 합니다. (2) 시간대별 평균 미세먼지 농도를 계산하세요. 즉, t시(t=1,2,…,24)의 평균 농도를 구하시오. (3) 시점 t의 미세먼지 농도를 시점 t-1, t-2, t-3, t-4의 농도를 이용하여 예측하는 모델을 학습하기 위한 데이터를 구성하세요. 예를 들어, 8일 24시의 미세먼지 농도를 8일 20 ..
이전 포스팅에서 이야기한 바와 같이, 데이터 분석가와 데이터 사이언티스트에게 컴퓨터공학에서 다루는 알고리즘을 물어보는 코딩테스트는 난이도가 매우 낮거나 치루지 않는 경우가 많습니다. 아무래도 코딩테스트가 아니라 분석 능력을 봐야 하니까 최소한만 보는 경우가 있는 것으로 보입니다. SK C&C와 CJ올리브네트웍스와 같은 기업들에서는 이러한 분석 능력을 보기 위해 데이터 분석가만을 위한 코딩테스트를 시행하고 있습니다. 주어진 시간 내에 간단한 데이터 핸들링과 모델링을 보는게 목표라고 할 수 있습니다. 반면, 시간을 더 넉넉히 주고 사전 과제를 주는 경우도 있습니다. 서론이 길었는데 데이터 분석과와 사이언티스트 직무를 희망하는 사람이 풀어볼 수 있는 문제 은행을 만들어볼까 합니다. 당연히 길스랩 블로그에 올릴..
아마도 올해 마지막 포스팅이 되지 않을까합니다. 드디어 누적 방문수 10만을 돌파했습니다! 뭐 그렇다고 크게 달라지는 것은 없지만 뿌듯하네요! 내년에는 20만명을 목표로 해야겠습니다~
본 포스팅에서는 대표적인 휴리스틱 알고리즘 중 하나인 입자 군집 최적화에 대해 알아보겠습니다. 본 내용은 제가 쓴 책 "파이썬을 활용한 머신러닝 자동화 시스템 구축"에서 발췌했습니다. https://wikibook.co.kr/automl/ 파이썬을 활용한 머신러닝 자동화 시스템 구축: 실무자를 위한 머신러닝 핵심 개념, 모델 선택 머신러닝 자동화를 통해 데이터 분석과 모델 개발에만 집중하세요! 머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용입니다. 이 책에서는 데이터 탐색 방법을 비롯해 wikibook.co.kr 개요 입자 군집 최적화(particle swarm optimization; PSO)는 아래 그림과 같이 새가 무리를 이뤄 나는 것처럼 여러 개의 해가 동시에 최적해를 찾아..
이번 포스팅에서는 32개 데이터에 대해 회귀 모델을 적용했을 때의 성능을 바탕으로 어느 상황에서 어떤 모델을 써야하는지에 대한 인사이트를 정리해보겠습니다. 단, 어디까지나 32개 데이터에 대한 실험 결과일 뿐이므로 결과를 맹신하지는 않았으면 좋겠습니다. 사용 데이터 사용한 데이터는 KEEL에서 수집한 32개 회귀 데이터 셋으로 그 정보는 다음과 같습니다. 사용 모델 사용한 회귀 모델은 11개로 sklearn, xgboost, lightgbm의 클래스를 이용해 만들었습니다. from sklearn.ensemble import RandomForestRegressor as RFR from sklearn.ensemble import GradientBoostingRegressor as GBR from sklear..
이번 포스팅에서는 데이터 사이언티스트 관련 채용 공고를 분석하여, 데이터사이언티스트 취업을 위해 필요한 것들을 알아보겠습니다. 분석에 사용한 채용 공고는 21건이며, 신입 혹은 5년 이내 경력직 공고만 사람인과 원티드를 통해 수집했습니다. 채용 공고에서 자격요건과 우대사항을 다음과 같이 정리했습니다. (예시) 마켓컬리 자격요건 • 물류 및 이커머스 도메인에 대한 관심이 많고, ML/DL 모델링에 기반한 프로젝트 실무를 경험하신 분 • 물적/인적 자원의 효율적인 배분 전략 및 최적화 기법, 혹은 마케팅 효율화/타게팅, 개인화 추천/랭킹 모델 등에 관심이 있으신 분 • 중급 이상의 Python, SQL 프로그래밍 역량과 ML 알고리즘과 성능지표에 대한 이해를 갖추신 분 우대사항 • 결과와 과정에 대한 논리적..
이번 포스팅에서는 데이터 분야 직무(특히 데이터 사이언스) 취업을 희망하는 분들을 위한 지원 동기 작성 방법에 대해 알아보겠습니다. 본 포스팅은 어디까지나 제 개인 의견임을 미리 밝힙니다. 지원 동기를 왜 묻나? 사실 집에 돈이 너무 많아서 취미로 취업을 하지 않는 한 지원 동기는 돈을 벌기 위한 것일텐데, 왜 지원 동기를 물어볼까요? 회사에서 지원 동기를 물어보는 이유는 구직자가 얼마나 우리 회사에 관심이 있는가를 알아보기 위함입니다. 따라서 지원 동기에 대한 답변은 이 회사에서만 쌓을 수 있는 경험과 관련될 수록 좋습니다. 데이터 사이언스 분야 구직자에게 적절한 지원 동기 작성 방법 데이터 사이언스 분야에서 이 회사에서만 쌓을 수 있는 경험은 결국 그 회사가 갖고 있는 데이터와 관련이 있을 수 밖에 ..