일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 경력기술서 첨삭
- 코딩테스트
- 하이퍼 파라미터 튜닝
- 데이터사이언스학과
- 하이퍼 파라미터
- 머신러닝
- 판다스
- AutoML
- 커리어전환
- 베이지안 최적화
- 데이터사이언스
- 랜덤포레스트
- 이력서 첨삭
- sklearn
- 사이킷런
- 자기소개서
- 경력 기술서
- 퀀트 투자 책
- 데이터 사이언티스트
- 퀀트
- 데이터 사이언스
- 파이썬
- 대학원
- 파라미터 튜닝
- pandas
- 주가데이터
- 데이터분석
- 주요 파라미터
- 데이터사이언티스트
- 주식데이터
- Today
- Total
목록데이터사이언스 (58)
GIL's LAB
새로운 컨텐츠로 커리어 상담을 준비해봤습니다. 요즘 바빠서 다른 컨텐츠 정리도 못하고 있지만요... 데이터 커리어 관련해서 오는 메일 가운데 잘 정리해서 공유할만한 내용을 블로그에 정리하는 컨텐츠입니다. 왜 컨텐츠 발굴에 집착하는지 스스로도 이해가 안 가지만요. 아무튼 이것저것 도움이 될만한 내용을 정리해서 올려보고자 합니다. 구독자 분의 질문을 정리하면 다음과 같습니다. 데이터 사이언티스트 직무를 희망하는 산업공학 학부생인데, 데이터 사이언스 학과로 전과하거나 복수 전공을 해야 할까요? 제가 이전에 비슷한 포스팅(링크)을 했었지만, 여기서는 산업 공학에 더 집중을 해보겠습니다. 저도 산업공학 전공자라서 산업공학 전공자 특유의 이도저도 아닌듯한 불안함을 알고 있습니다. 다양한 것을 배우긴 하는데, 수학과..
이번에는 공통 질문에 대한 답을 정리해보겠습니다. 이 질문에 대한 답은 굉장히 주관적이므로 제 답변을 참고만 하시면 될 것 같습니다. 또한 가장 요청이 많은 학사 및 석사 신입을 가정해서 쓰지 않고 제 상황(박사졸 + 경력 2년차)에 맞게 쓰는 것입니다. Q. 왜 저희 회사에 지원하셨나요? 데이터 사이언티스트의 커리어를 발전시키기 위해 지원했습니다. 새로운 도메인과 데이터에 대한 경험을 쌓는 것이 중요하다고 생각해서 현 회사에 안주하지 않고 지원하게 됐습니다. Q. 해당 직군의 매력이 무엇이라고 생각하나요? 데이터 사이언티스트의 가장 큰 매력은 아이디어와 감에만 의존하지 않고 객관적인 데이터에 기반하여 의사결정할 수 있다는 점이라고 생각합니다. 즉, 데이터를 통해 고객의 특성을 파악할 수도 있고, 문제점..
이번에 저희 회사에서 신입 채용을 진행했습니다. 서류와 코딩테스트 전형은 모두 끝났고 면접 전형이 시작됐고 제가 처음으로 데이터 사이언티스트 신입 면접에 참여했습니다. 면접 내용을 상세히 밝힐 순 없지만, 오늘 다대일 면접을 5차례 진행했고 면접과 면접 결과를 바탕으로 누구를 다음 전형에 올릴 것인지 다른 면접관과 토의하는 과정에서 제가 배운 내용을 공유합니다. 참고로 제가 모든 지원자를 면접하진 않았고, 5명 외에 다른 지원자들은 다른 면접관과 면접을 진행했습니다. 석사는 필수인가? 지원자 대부분이 컴퓨터공학, 산업공학, 통계학, 경영학 등의 석사였습니다. 제가 오늘 본 5명의 지원자 가운데 4명이 석사 졸업자 혹은 졸업예정자였고, 한 명만 학사 졸업 후 인턴 경험이 있었습니다. 비율로만 보면 당연히 ..
이번 포스팅에서는 데이터 사이언티스트의 역할과 커뮤니케이션 역량의 중요성에 대해 간략히 알아보고자 합니다. 데이터 사이언티스트의 역할 특수한 상황을 제외하면 많은 기업에서 데이터 사이언티스트는 혼자 일하지 않습니다. 데이터 사이언스를 캐글 등의 경진대회를 통해서만 접했던 사람이라면 의아할 수 있지만, 실제로 그렇게 문제와 데이터가 정리되서 데이터 사이언티스트가 해결만 해주면 되는 상황은 극히 드뭅니다. 데이터 사이언티스트는 아래와 같이 현업, PO/PM, DE와 같이 일을 합니다. 간략히 설명하면, 현업 혹은 시장에서 문제와 데이터를 들고 옵니다. 이렇게 들고온 문제와 데이터는 데이터 분석에 적합한 문제와 데이터가 아닐 가능성도 크며, 분석에 용이하게 정리되있을 가능성은 0에 수렴합니다. 그러면 PO 혹..
데이터 사이언티스트 면접관으로 들어가기 전에 적절한 면접 질문을 찾던 도중 아래 링크를 찾았습니다. 데이터 사이언티스트 커리어를 시작하려는 분들에게 매우 유용한 링크같습니다. https://github.com/zzsza/Datascience-Interview-Questions GitHub - zzsza/Datascience-Interview-Questions: Datascience-Interview-Questions for Korean Datascience-Interview-Questions for Korean. Contribute to zzsza/Datascience-Interview-Questions development by creating an account on GitHub. github.com..
이번 포스팅에서는 베이지안 최적화가 해결하고자 하는 블랙박스 최적화 문제에 대해 알아보겠습니다. 이번 포스팅부터해서 베이지안 최적화에 필요한 개념을 정리하고자 합니다. 블랙박스 최적화 문제란? 블랙박스 최적화 문제는 목적 함수, 제약식, 결정 변수 간 자세한 관계를 알 수 없는 최적화 문제를 말합니다. 구체적으로 추가적인 실험 및 측정 없이 결정 변수에 따른 목적 함숫값을 모르거나 제약식을 만족하는지 알 수 없는 문제를 의미합니다. 일반 최적화 문제 vs 블랙박스 최적화 문제 블랙박스가 아닌 최적화 문제와 블랙박스 최적화 문제를 비교해보겠습니다. 결정 변수와 목적 함수, 결정 변수와 제약식 간의 관계를 알 수 있으므로 블랙박스 최적화 문제가 아님 즉, x1과 x2가 각각 2와 1이라면 목적 함수가 3이고..
이번 포스팅에서는 현대자동차 데이터 사이언스 직무 합격 자소서를 공유합니다. 박사 신입이므로 참고하시기 바랍니다. * 현대자동차에 지원한 동기와 회사 선택(이직)시 가장 중요하게 고려하는 요인에 대하여 기술하시오. 제가 기업을 선택할 때 가장 중요하게 고려하는 요인은 성장성과 업무에 대한 흥미입니다. 저는 현대자동차의 빅데이터 분석 포지션에서 다음과 같은 이유로 크게 성장할 수 있고, 또 흥미있는 일을 할 수 있을 것이라 생각해서 지원했습니다. 첫 번째 이유는 현대자동차가 수집하는 다양한 종류의 정형 및 비정형 데이터를 분석하는 경험을 쌓을 수 있다고 생각하기 때문입니다. 데이터 분석가로서 성장하는데 가장 중요한 것은 얼마나 다양한 데이터와 프로젝트를 경험하는가에 달려있다고 생각하기에, 첫 번째 이유가 ..
안녕하세요. 오랜만에 경력 기술서 작성 팁과 첨삭으로 돌아왔습니다. 경력 기술서를 보내주신 분은 데이터 분석 및 비즈니스 분석가로 퇴사 후 중고신입으로 이직을 준비중인 분입니다. 역시 누구인지 추측할만한 거의 모든 정보는 삭제하고 항목별로 어떻게 고쳤는지 위주로 살펴보겠습니다. 경력 사항 (1) 20XX.XX – 20XX.XX OOOO (IT컨설팅 회사), 디지털 팀 1) 고객 데이터 수급 및 정제 - Dashboard 대용량 데이터 수급 및 취합 (월별 기기 판매량, 가입자, 재방문율 등) - 글로벌 Data Crawling 및 Data Mining (Octoparse, Data-Miner, MySQL 쿼리문 사용) - Raw data 정제 작업 (Data-Merge, Pivot table사용) - 신..
이번 포스팅에서는 유전 알고리즘을 이용하여 특징을 선택하는 방법에 대해 알아보겠습니다. 유전 알고리즘에 대한 설명은 이 포스팅을 참고하시기 바랍니다. 추후에 유전 알고리즘의 테크니컬한 부분을 중심으로 한 번 다루겠습니다. 래퍼 방법(wrapper method) 래퍼 방법은 모델의 예측 정확도 측면에서 가장 좋은 성능을 보이는 특징 집합을 구성하는 방법입니다. 다시 말해, 래퍼 방법이 해결하고자 하는 문제는 아래 그림과 같이 원 특징 집합의 부분 집합을 특징 집합으로 사용했을 때의 모델의 예측 정확도를 최대로 하는 부분 집합을 찾는 것입니다. 즉, 위 그림에서 원 특징 집합 X 로부터 적절한 특징을 선택하여 구성한 특징 집합 ϕ 를 지도학습 모델에 투입했을 때 나오는 점수(예: 정확도, MAE, 재현율 등..
머신러닝 파이프라인 넓은 의미에서 머신러닝 파이프라인(pipeline)은 데이터 수집, 전처리, 모델 학습, 학습 모델 배포, 예측 등 머신러닝의 전체 과정을 순차적으로 처리하는 일련의 프로세스입니다. 좁은 의미에서 파이프라인은 새로운 데이터가 들어왔을 때 이 데이터의 라벨을 예측하기까지 필요한 프로세스입니다. 일반적으로 모델을 학습할 때 사용한 데이터는 전처리된 데이터이므로, 새로 입력된 데이터도 같은 방식으로 전처리해서 모델에 입력해줘야 합니다. 머신러닝 자동화 시스템에서 주로 사용되는 파이프라인 구조는 아래 그림과 같습니다. 사이킷런: Pipeline 클래스 사이킷런에는 Pipeline이라는 클래스를 사용하여 파이프라인을 설계, 학습, 활용할 수 있습니다. 이 클래스를 이용하여 만든 파이프라인 인스..