Utilizing Expert Knowledge

많은 경우 머신러닝의 목적은 전문가가 설계하는 규칙을 만들지 않기 위해서지만, 그렇다고 애플리케이션이나 그 분야의 전문 지식이 무시된다는 뜻은 아닙니다.

특성 공한은 특정한 애플리케이션을 위해 전문가의 지식을 사용할 수 있는 중요한 영역입니다.

종종 분야 전문가는 초기 데이터에서 더 유용한 특성을 선택할 수 있도록 도움을 줄 수 있습니다.

작업에 내재된 사전 지식이 특성으로 추가될 수 있다면 머신러닝 알고리즘에 도움이 됩니다.

특성이 추가된다고 머신러닝 알고리즘이 반드시 그 특성을 사용하는 것은 아닙니다. 데이터가 예측에 도움이 안된다고 판단되더라도 이 정보를 데이터에 추가하는 것이 문제가 되지 않습니다.

시계열 예측

시계열 예측의 작업을 할 때, 과거로부터 학습하고 미래를 예측하기를 원합니다.

전문가 지식은 새로운 특성이 됩니다.

두 요소가 매우 중요하게 보입니다 : 날짜와 시간

주중과 주말의 패턴이 꽤 다르게 나타납니다.

여러 종류의 데이터 타입 (특히 범주형 변수)을 다루는 법을 배웠습니다.

예를 들어 원-핫-인코딩 범주형 변수처럼 머신러닝 알고리즘에 적합한 방식으로 데이터를 표현하는 것이 아주 중요합니다.

새로운 특성을 만드는 것도 중요합니다.

선형 모델은 구간 분할이나 다항식과 상호작용 특성을 새로 추가해 큰 이득을 볼 수 있습니다.

랜덤 포레스트나 SVM 같은 비선형 모델은 특성을 늘리지 않고서도 복잡한 문제를 학습할 수 있습니다.

데이터에서 특성을 유도하기 위해 전문가의 지식을 활용하는 것에 대해 다뤘습니다.

실제로는 어떤 특성을 사용하느냐가 (그리고 특성과 모델의 궁합이) 가장 중요합니다.

파이썬 라이브러리를 활용한 머신러닝 책과 성균관대학교 강석호 교수님 수업 내용을 바탕으로 요약 작성되었습니다.

Grid Search (2)	2019.12.13
Model Evaluation and Improvement & Cross-Validation (0)	2019.12.12
Automatic Feature Selection (0)	2019.12.09
Univariate Nonlinear Transformations (0)	2019.12.06
Polynomials and Interactions (0)	2019.12.06

인문계공돌이