일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 퀀트 투자 책
- 파이썬
- 베이지안 최적화
- 대학원
- 퀀트
- AutoML
- 파라미터 튜닝
- 판다스
- 이력서 첨삭
- sklearn
- 커리어전환
- 데이터사이언스
- 자기소개서
- 데이터사이언스학과
- 코딩테스트
- 경력 기술서
- 데이터분석
- 데이터 사이언티스트
- 주가데이터
- 주식데이터
- 랜덤포레스트
- 하이퍼 파라미터 튜닝
- 사이킷런
- pandas
- 하이퍼 파라미터
- 머신러닝
- 데이터 사이언스
- 주요 파라미터
- 데이터사이언티스트
- 경력기술서 첨삭
- Today
- Total
목록파이썬 (20)
GIL's LAB
문제 상황 ValueError: too many values to unpack는 저장할 값의 개수가 변수 개수보다 많은 경우 발생하는 에러입니다. 간단한 예제를 살펴보겠습니다. x, y, z = 1, 2, 3, 4 [실행 결과] ValueError: too many values to unpack (expected 3) 위 코드에서 변수는 x, y, z로 세 개인데, 여기에 입력되는 값이 1, 2, 3, 4라서 오류가 발생했습니다. 반대로 ValueError: not enough values to unpack는 저장할 값의 개수가 변수 개수보다 적은 경우 발생하는 에러입니다. 역시 간단한 예제를 살펴보겠습니다. x, y, z = 1, 2 [실행 결과] ValueError: not enough values ..
이번 포스팅에서는 데이터 사이언티스트 관련 채용 공고를 분석하여, 데이터사이언티스트 취업을 위해 필요한 것들을 알아보겠습니다. 분석에 사용한 채용 공고는 21건이며, 신입 혹은 5년 이내 경력직 공고만 사람인과 원티드를 통해 수집했습니다. 채용 공고에서 자격요건과 우대사항을 다음과 같이 정리했습니다. (예시) 마켓컬리 자격요건 • 물류 및 이커머스 도메인에 대한 관심이 많고, ML/DL 모델링에 기반한 프로젝트 실무를 경험하신 분 • 물적/인적 자원의 효율적인 배분 전략 및 최적화 기법, 혹은 마케팅 효율화/타게팅, 개인화 추천/랭킹 모델 등에 관심이 있으신 분 • 중급 이상의 Python, SQL 프로그래밍 역량과 ML 알고리즘과 성능지표에 대한 이해를 갖추신 분 우대사항 • 결과와 과정에 대한 논리적..
제 두 번째 책 "파이썬을 활용한 머신러닝 자동화 시스템 구축"이 출간됐습니다. [YES24] http://www.yes24.com/Product/Goods/112207887 파이썬을 활용한 머신러닝 자동화 시스템 구축 - YES24 `머신러닝 자동화를 통해 데이터 분석과 모델 개발에만 집중하세요!`머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법을 비롯해 www.yes24.com [알라딘] https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=300317422 파이썬을 활용한 머신러닝 자동화 시스템 구축 머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법..
이번 포스팅에서는 판다스의 스트링 접근자에 대해 알아보겠습니다. 개요 스트링 접근자 .str은 판다스 시리즈의 속성으로 문자열을 처리하는데 사용할 수 있습니다. 이 접근자를 사용하면 문자열 처리를 하는데 필요한 내장 함수를 활용할 수 있습니다. 공식 문서에서 가져온 메서드 목록은 아래와 같습니다. 개인적으로는 아래 메서드 가운데 contains, count, endswith, replace, zfill을 많이 사용합니다. pandas.Series.str.capitalize pandas.Series.str.casefold pandas.Series.str.cat pandas.Series.str.center pandas.Series.str.contains pandas.Series.str.count pandas..
이번 포스팅에서는 파이썬에서 임의의 배열이 주어졌을 때 이 배열에서 값이 큰 k개의 값을 찾는 방법과 배열을 구성하는 값의 순위를 계산하는 방법을 알아보겠습니다. 여기서 고려하는 문제를 도식화하면 아래와 같습니다. 각 문제에 대한 설명은 다음과 같으며, 각 문제를 푸는데 둘 이상의 문법을 활용할 수도 있습니다. (1) 값이 작은 순위 계산: 배열에서 값이 작을수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 작은 1이 1위, 2가 2위 3이 3위, 5가 4위, 8이 5위가 됩니다. (2) 값이 큰 순위 계산: 배열에서 값이 클수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 큰 8이 1위, 5가 2위, 3이 3위, 2가 4위, 1이 5위가 됩니다. (3) 값이 큰 ..
이번 포스팅에서는 scipy를 이용하여 확률 분포에서 샘플링하는 방법에 대해 알아보겠습니다. 확률 분포 샘플링이란? 샘플링(sampling)이란 특정한 확률 분포에서의 확률을 바탕으로 샘플을 추출하는 작업을 말합니다. 통계에서는 모집단에서 일부를 임의로 선택하는 작업을 샘플링이라 하지만, 여기서는 주어진 확률 분포에서의 샘플링으로 한정하겠습니다. 샘플링은 확률 분석 뿐만 아니라, 머신러닝 및 딥러닝 등에서도 자주 활용되는 개념입니다. numpy.random.choice를 이용한 샘플링 간단히 예를 들어서 주사위를 던져서 나오는 숫자를 샘플링한다고 해보겠습니다. 이 숫자는 {1, 2, 3, 4, 5, 6} 중 하나를 취할 확률이 1/6인 확률 변수를 따릅니다. 참고로 확률 변수가 가질 수 있는 값의 집합을..
파이썬 인스턴스 크기는 sys.getsizeof를 이용하여 측정할 수 있습니다. 크기가 100과 1000000인 난수 배열의 크기를 측정해보겠습니다. 먼저 난수 배열을 다음과 같이 생성합니다. import numpy as np small_arr = np.random.random(100) large_arr = np.random.random(1000000) 다음으로 크기를 측정합니다. print(sys.getsizeof(small_arr)) print(sys.getsizeof(large_arr)) [실행 결과] 896 8000096 크기가 잘 측정되는 것으로 보입니다. 그럼 머신러닝 모델의 인스턴스도 잘 측정되는지 보겠습니다. 먼저 5개의 트리로 구성된 작은 랜덤포레스트 모델과 100개 트리로 구성된 큰 랜..
문제 A사는 연봉 협상을 구두로 진행한 뒤 연봉 계약서에 서명을 받는 방식으로 연봉 계약을 진행합니다. 2022년 올해도 직원들과 연봉 계약을 구두로 진행했으며, 연봉을 다음과 같이 엑셀 파일(직원연봉.xlsx)에 저장했습니다. 이제 직원연봉.xlsx에 있는 데이터를 docx 확장자인 연봉계약서 양식에 옮겨 연봉 계약서를 작성하려 합니다. 그 양식은 아래와 같으며, 옮겨야 하는 부분은 노란색으로 표시했습니다. 현재까지는 네 명의 직원과만 연봉 협상이 이뤄져서 직접 옮겨도 크게 부담이 없지만, 추후 연봉 협상이 완전히 마무리되면 수천명의 데이터를 옮겨야 합니다. 그래서 파이썬을 이용하여 자동으로 데이터를 옮기고자 합니다. 환경 세팅: python-docx 워드 파일을 생성하거나 수정하려면 python-do..
문제 KRX 정보데이터시스템에서 특정 기간 동안의 일별 전종목 시세 데이터를 다운로드하려 합니다. 이 시스템에서 주가 데이터는 다음과 같은 절차로 다운로드할 수 있습니다. (1) 조회일자 입력 (2) 조회 버튼 클릭 (3) 다운로드 버튼 클릭 (4) csv 버튼 클릭 (상황에 맞게 Excel 버튼 클릭도 가능) (5) 필요에 따라 파일명 수정 한 데이터를 조회하고 다운로드하는데 약 30초 가까이 소요되며, 데이터가 많을수록 반복적이고 귀찮은 일입니다. 설명을 위해 2020년 12월 1일부터 4일까지의 데이터를 수집하는 예제를 살펴보겠습니다. 환경 세팅: 셀레니움 셀레니움을 사용해서 데이터를 수집하려면 셀레니움 패키지와 웹 드라이버를 설치해야 합니다. 셀레니움은 아나콘다 프롬프트에 아래와 같은 명령어를 입..
문제 한 회사에서 직원들에게 네 종류의 교육 A, B, C, D 가운데 어느 교육을 듣고 싶은지 교육신청서에 작성해서 제출하도록 했습니다. 이 회사의 직원은 총 1천명이고 이 가운데 일부는 다음과 같은 엑셀 양식의 교육신청서를 작성했습니다. 듣고 싶은 교육에 O 표시를 하고, 듣고 싶지 않은 교육에는 X 표시를 했습니다. 단, 모든 직원은 하나 이상의 교육을 반드시 수강해야 합니다. 그런데 1천명의 직원 가운데 대부분이 아직 신청서를 제출하지 않았습니다. 그래서 제출한 신청서를 바탕으로 제출한 직원이 듣고 싶은 교육을 취합하고 제출하지 않은 직원을 체크하려 합니다. 여기에 사용하는 양식은 아래와 같습니다. 데이터 직원들이 제출한 교육신청서는 아래 압축 파일에 있습니다. 각 신청서의 파일명은 "사번_교육신..