GIL's LAB

[AutoML] 머신러닝 자동화가 필요한 이유 본문

데이터사이언스/머신러닝

[AutoML] 머신러닝 자동화가 필요한 이유

GIL~ 2022. 2. 27. 14:54

이번 포스팅에서는 AutoML이 필요한 이유와 AutoML을 공부해야 하는 이유에 대해 정리해보겠습니다. 

 

머신러닝 자동화 시스템 도입에 따른 효과

머신러닝 자동화 시스템이 성공적으로 도입된다 하더라도 데이터 사이언티스트를 완벽하게 대체할 수는 없다고 생각합니다. 도메인 지식을 활용한 특징 공학 등 머신러닝 모델 개발 프로세스 가운데 자동화가 불가능한 단계와 탐색 공간 설계 등 경험에 많이 의존하는 단계가 있기 때문입니다. 그럼에도 불구하고 머신러닝 자동화 시스템을 도입하면 데이터 사이언티스트가 창의적인 분석에만 집중할 수 있다는 장점이 있습니다. 예를 들어, 한 기업에서 주기적으로 다루는 로그 데이터 등은 유사한 전처리 프로세스를 거치는데 이 과정을 자동화하면 데이터 사이언티스트는 온전히 분석에 집중할 수 있습니다.

데이터 분석 지식이 없는 현업 담당자도 데이터 사이언티스트의 도움없이 머신러닝 모델을 개발할 수 있다는 장점이 있습니다. 특히, 데이터 사이언티스트와 함께 고도화된 모델을 학습하기 전에 앞서 프로토타입 수준의 모델을 개발하는데 도움이 될 수 있습니다.

 

 

머신러닝 자동화를 배워야 하는 이유

이미 많은 머신러닝 자동화 시스템이 개발됐습니다. 바퀴를 재발명하지 말라는 격언처럼 이미 만들어진 것을 다시 만드는 것은 낭비입니다. 그럼에도 불구하고 머신러닝 자동화를 배워야 하는 이유는 두 가지입니다.

첫째, 머신러닝 자동화 시스템을 직접 개발해야 할 수도 있기 때문입니다. 이미 많은 시스템이 존재하나, 범용적으로 쓰기 위해 만들어진 시스템입니다. 따라서 이러한 시스템은 한 기업이 보유한 데이터에 특화되어 있지 않아 만족스러운 성능을 내기 어려울 뿐만 아니라, 특정 기능이 포함되어 있지 않을 수 있습니다. 물론 커스터마이징된 솔루션을 구매하는 방법이 있지만 적지 않은 비용이 발생합니다.

둘째, 머신러닝 자동화를 배우는 과정에서 실전적인 머신러닝 모델 개발 과정을 익힐 수 있기 때문입니다. , 신경망의 오류역전파 알고리즘처럼 머신러닝 모델이 어떻게 학습되는지에 관한 이론적인 내용이 아니라, 데이터가 주어졌을 때 어떠한 탐색과 전처리가 필요한지, 어느 종류의 모델과 파라미터를 고려해야 하는지를 배울 수 있습니다. 사이킷런(scikit-learn) 등의 머신러닝 패키지를 이용하면 모델 학습에 관한 이론적인 내용을 전혀 모르더라도 코드 몇 줄로 손쉽게 머신러닝 모델을 학습할 수 있습니다. 그러나 실제 머신러닝 초심자가 고민하는 것은 "어느 전처리 방법을 사용해야 하지?", "이 데이터에 대해서는 신경망이 결정 나무보다 더 적합할까?", "신경망의 은닉 층은 몇 개로 두는게 적절할까?" 등의 모델 선택 및 파라미터 튜닝과 관련됩니다.

Comments