일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터사이언티스트
- AutoML
- 판다스
- 파라미터 튜닝
- 퀀트 투자 책
- sklearn
- 랜덤포레스트
- 베이지안 최적화
- 하이퍼 파라미터
- 파이썬
- 데이터사이언스
- 주요 파라미터
- 하이퍼 파라미터 튜닝
- 데이터분석
- 코딩테스트
- 주가데이터
- 경력기술서 첨삭
- pandas
- 퀀트
- 이력서 첨삭
- 사이킷런
- 머신러닝
- 대학원
- 주식데이터
- 데이터사이언스학과
- 데이터 사이언스
- 경력 기술서
- 커리어전환
- 자기소개서
- 데이터 사이언티스트
- Today
- Total
목록파이썬 (21)
GIL's LAB
문제 상황 ValueError: too many values to unpack는 저장할 값의 개수가 변수 개수보다 많은 경우 발생하는 에러입니다. 간단한 예제를 살펴보겠습니다. x, y, z = 1, 2, 3, 4 [실행 결과] ValueError: too many values to unpack (expected 3) 위 코드에서 변수는 x, y, z로 세 개인데, 여기에 입력되는 값이 1, 2, 3, 4라서 오류가 발생했습니다. 반대로 ValueError: not enough values to unpack는 저장할 값의 개수가 변수 개수보다 적은 경우 발생하는 에러입니다. 역시 간단한 예제를 살펴보겠습니다. x, y, z = 1, 2 [실행 결과] ValueError: not enough values ..
이번 포스팅에서는 특허정보검색서비스 키프리스에서 API를 통해 특허 데이터를 수집하는 방법에 대해 알아보겠습니다. 키프리스 플러스 가입 먼저 키프리스 플러스에 가입합니다. API 키를 받기 위한 부분이므로 반드시 가입해야 합니다. https://plus.kipris.or.kr/portal/main.do KIPRIS Plus “ 특허정보 활용의 새로운 패러다임 ” 특허청이 개방중인 산업재산권 정보를 Bulk Data, OPEN API 방식으로 제공하여, 이용자가 새로운 가치를 창출하도록 지원하는 서비스 116 Bulk Data 58 SOAP API 70 RE plus.kipris.or.kr API 키 확인 키프리스 플러스에 로그인한 뒤, 우측 상단에 마이페이지 > API KEY 관리에 가면 다음과 같이 키..
이번 포스팅에서는 데이터 사이언티스트 관련 채용 공고를 분석하여, 데이터사이언티스트 취업을 위해 필요한 것들을 알아보겠습니다. 분석에 사용한 채용 공고는 21건이며, 신입 혹은 5년 이내 경력직 공고만 사람인과 원티드를 통해 수집했습니다. 채용 공고에서 자격요건과 우대사항을 다음과 같이 정리했습니다. (예시) 마켓컬리 자격요건 • 물류 및 이커머스 도메인에 대한 관심이 많고, ML/DL 모델링에 기반한 프로젝트 실무를 경험하신 분 • 물적/인적 자원의 효율적인 배분 전략 및 최적화 기법, 혹은 마케팅 효율화/타게팅, 개인화 추천/랭킹 모델 등에 관심이 있으신 분 • 중급 이상의 Python, SQL 프로그래밍 역량과 ML 알고리즘과 성능지표에 대한 이해를 갖추신 분 우대사항 • 결과와 과정에 대한 논리적..
제 두 번째 책 "파이썬을 활용한 머신러닝 자동화 시스템 구축"이 출간됐습니다. [YES24] http://www.yes24.com/Product/Goods/112207887 파이썬을 활용한 머신러닝 자동화 시스템 구축 - YES24 `머신러닝 자동화를 통해 데이터 분석과 모델 개발에만 집중하세요!`머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법을 비롯해 www.yes24.com [알라딘] https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=300317422 파이썬을 활용한 머신러닝 자동화 시스템 구축 머신러닝 자동화 시스템의 원리는 머신러닝 실무자에게 굉장히 중요한 내용이다. 이 책에서는 데이터 탐색 방법..
이번 포스팅에서는 판다스의 스트링 접근자에 대해 알아보겠습니다. 개요 스트링 접근자 .str은 판다스 시리즈의 속성으로 문자열을 처리하는데 사용할 수 있습니다. 이 접근자를 사용하면 문자열 처리를 하는데 필요한 내장 함수를 활용할 수 있습니다. 공식 문서에서 가져온 메서드 목록은 아래와 같습니다. 개인적으로는 아래 메서드 가운데 contains, count, endswith, replace, zfill을 많이 사용합니다. pandas.Series.str.capitalize pandas.Series.str.casefold pandas.Series.str.cat pandas.Series.str.center pandas.Series.str.contains pandas.Series.str.count pandas..
이번 포스팅에서는 파이썬에서 임의의 배열이 주어졌을 때 이 배열에서 값이 큰 k개의 값을 찾는 방법과 배열을 구성하는 값의 순위를 계산하는 방법을 알아보겠습니다. 여기서 고려하는 문제를 도식화하면 아래와 같습니다. 각 문제에 대한 설명은 다음과 같으며, 각 문제를 푸는데 둘 이상의 문법을 활용할 수도 있습니다. (1) 값이 작은 순위 계산: 배열에서 값이 작을수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 작은 1이 1위, 2가 2위 3이 3위, 5가 4위, 8이 5위가 됩니다. (2) 값이 큰 순위 계산: 배열에서 값이 클수록 1에 가까운 순위를 갖도록 하는 것으로 위 예제에서는 값이 가장 큰 8이 1위, 5가 2위, 3이 3위, 2가 4위, 1이 5위가 됩니다. (3) 값이 큰 ..
이번 포스팅에서는 scipy를 이용하여 확률 분포에서 샘플링하는 방법에 대해 알아보겠습니다. 확률 분포 샘플링이란? 샘플링(sampling)이란 특정한 확률 분포에서의 확률을 바탕으로 샘플을 추출하는 작업을 말합니다. 통계에서는 모집단에서 일부를 임의로 선택하는 작업을 샘플링이라 하지만, 여기서는 주어진 확률 분포에서의 샘플링으로 한정하겠습니다. 샘플링은 확률 분석 뿐만 아니라, 머신러닝 및 딥러닝 등에서도 자주 활용되는 개념입니다. numpy.random.choice를 이용한 샘플링 간단히 예를 들어서 주사위를 던져서 나오는 숫자를 샘플링한다고 해보겠습니다. 이 숫자는 {1, 2, 3, 4, 5, 6} 중 하나를 취할 확률이 1/6인 확률 변수를 따릅니다. 참고로 확률 변수가 가질 수 있는 값의 집합을..
파이썬 인스턴스 크기는 sys.getsizeof를 이용하여 측정할 수 있습니다. 크기가 100과 1000000인 난수 배열의 크기를 측정해보겠습니다. 먼저 난수 배열을 다음과 같이 생성합니다. import numpy as np small_arr = np.random.random(100) large_arr = np.random.random(1000000) 다음으로 크기를 측정합니다. print(sys.getsizeof(small_arr)) print(sys.getsizeof(large_arr)) [실행 결과] 896 8000096 크기가 잘 측정되는 것으로 보입니다. 그럼 머신러닝 모델의 인스턴스도 잘 측정되는지 보겠습니다. 먼저 5개의 트리로 구성된 작은 랜덤포레스트 모델과 100개 트리로 구성된 큰 랜..
문제 A사는 연봉 협상을 구두로 진행한 뒤 연봉 계약서에 서명을 받는 방식으로 연봉 계약을 진행합니다. 2022년 올해도 직원들과 연봉 계약을 구두로 진행했으며, 연봉을 다음과 같이 엑셀 파일(직원연봉.xlsx)에 저장했습니다. 이제 직원연봉.xlsx에 있는 데이터를 docx 확장자인 연봉계약서 양식에 옮겨 연봉 계약서를 작성하려 합니다. 그 양식은 아래와 같으며, 옮겨야 하는 부분은 노란색으로 표시했습니다. 현재까지는 네 명의 직원과만 연봉 협상이 이뤄져서 직접 옮겨도 크게 부담이 없지만, 추후 연봉 협상이 완전히 마무리되면 수천명의 데이터를 옮겨야 합니다. 그래서 파이썬을 이용하여 자동으로 데이터를 옮기고자 합니다. 환경 세팅: python-docx 워드 파일을 생성하거나 수정하려면 python-do..
문제 KRX 정보데이터시스템에서 특정 기간 동안의 일별 전종목 시세 데이터를 다운로드하려 합니다. 이 시스템에서 주가 데이터는 다음과 같은 절차로 다운로드할 수 있습니다. (1) 조회일자 입력 (2) 조회 버튼 클릭 (3) 다운로드 버튼 클릭 (4) csv 버튼 클릭 (상황에 맞게 Excel 버튼 클릭도 가능) (5) 필요에 따라 파일명 수정 한 데이터를 조회하고 다운로드하는데 약 30초 가까이 소요되며, 데이터가 많을수록 반복적이고 귀찮은 일입니다. 설명을 위해 2020년 12월 1일부터 4일까지의 데이터를 수집하는 예제를 살펴보겠습니다. 환경 세팅: 셀레니움 셀레니움을 사용해서 데이터를 수집하려면 셀레니움 패키지와 웹 드라이버를 설치해야 합니다. 셀레니움은 아나콘다 프롬프트에 아래와 같은 명령어를 입..