파이썬 라이브러리를 활용한 머신러닝25 Grid Search 그리드 서치 (Grid Search) 하이퍼파라미터를 튜닝하여 일반화 성능을 개선할 수 있습니다. 여러 알고리즘의 하이퍼파라미터 설정에 대해 얘기했습니다. 하이퍼파라미터를 조정하기 전에 하이퍼파라미터의 의미를 이해하는 것이 중요합니다. 모델에서 중요한 하이퍼파라미터의 (일반화 성능을 최대로 높여주는) 값을 찾는 일은 어려운 작업이지만, 모든 모델과 데이터셋에서 해야 하는 필수적인 일입니다. 가장 널리 사용하는 방법은 그리드 서치로서 관심 있는 하이퍼파라미터들을 대상으로 가능한 모든 조합을 시도해보는 것입니다. SVC 파이썬 클래스에 구현된 RBF 커널 SVM을 사용해보겠습니다. 커널의 폭에 해당하는 gamma와 규제 매개변수 C가 중요합니다. 매개변수 C와 gamma에 0.001, 0.01, 0.1, 1.. 2019. 12. 13. Model Evaluation and Improvement & Cross-Validation Model Evaluation and Improvement for Supervised Learning 머신러닝 모델의 성능을 평가하고 올바른 하이퍼파라미터를 선택하는 방법을 다루도록 하겠습니다. 비지도 학습 모델을 평가하고 선택하는 일은 매우 정성적인 작업이므로 지도 학습인 회귀와 분류에 집중합니다. 지금까지 본 적 없는 새로운 데이터에 모델이 얼마나 잘 일반화되는지 측정하는 것이 주된 관심사입니다. 모델이 훈련 세트에 잘 맞는 것보다, 학습 과정에 없던 데이터에 대해 예측을 얼마나 잘 하느냐가 중요합니다. 지도 학습 모델을 평가하기 위해 데이터셋을 훈련 세트와 테스트 세트로 나눴습니다. 모델을 만들기 위해 훈련 세트에 fit 메서드를 적용했습니다. 모델을 평가하기 위해 테스트 세트에 predict 메서.. 2019. 12. 12. Utilizing Expert Knowledge 전문가 지식 활용 많은 경우 머신러닝의 목적은 전문가가 설계하는 규칙을 만들지 않기 위해서지만, 그렇다고 애플리케이션이나 그 분야의 전문 지식이 무시된다는 뜻은 아닙니다. 특성 공한은 특정한 애플리케이션을 위해 전문가의 지식을 사용할 수 있는 중요한 영역입니다. 종종 분야 전문가는 초기 데이터에서 더 유용한 특성을 선택할 수 있도록 도움을 줄 수 있습니다. 작업에 내재된 사전 지식이 특성으로 추가될 수 있다면 머신러닝 알고리즘에 도움이 됩니다. 특성이 추가된다고 머신러닝 알고리즘이 반드시 그 특성을 사용하는 것은 아닙니다. 데이터가 예측에 도움이 안된다고 판단되더라도 이 정보를 데이터에 추가하는 것이 문제가 되지 않습니다. 전문가 지식 활용 - 예시 시계열 예측 시계열 예측의 작업을 할 때, 과거로부터 .. 2019. 12. 11. Automatic Feature Selection 개요 새로운 특성을 만드는 방법이 많으므로, 데이터의 차원이 원복 특성의 수 이상으로 증가하기 쉽습니다. 그러나, 특성이 더 추가되면 모델은 더 복잡해지고 과대적합될 가능성도 높아집니다. 가장 유용한 특성남 선택하고 나머지는 무시해서 특성의 수를 줄이는 것이 좋습니다. 이렇게 하면 모델이 간단해지고 일반화 성능이 올라갑니다. 데이터를 훈련 세트와 테스트 세트로 나눈 다음 훈련 데이터만 특성 선택에 사용해야 합니다. 특성 추출 vs 특성 선택 (Feature Extraction vs Feature Selection) 특성 추출 (Feature Extraction)은 특성을 결합하여 더 유용한 특성을 만듭니다. (e.g. PCA) 특성 선택 (Feature Selection)은 가지고 있는 특성 중에서 훈련.. 2019. 12. 9. 이전 1 2 3 4 5 ··· 7 다음