본문 바로가기

파이썬 라이브러리를 활용한 머신러닝25

Algorithm Chains and Pipelines - Automatic Model Selection 모델 선택을 위한 그리드 서치 파이프라인을 사용하는 주된 목적은 그리드 서치 때문입니다. GridsearcCV와 Pipeline을 연결하는 것에서 더 나아가, 파이프라인을 구성하는 단계도 탐색 대상으로 삼을 수 있습니다. 탐색 범위가 넒어집니다. 모든 알고리즘을 시도해보는 것이 필수적인 머신러닝 전략은 아닙니다. SVC, MLPClassifier, RandomForest Classifier를 비교해보겠습니다. SVC는 데이터 스케일을 조정해야 하므로 StandardScaler를 사용할지 또는 전처리를 하지 않을지 판단해야합니다. MLPClassifier도 전처리가 필요한지 판단해야합니다. RandomForestClassifier에는 전처리가 필요 없습니다. Cancer 데이터셋 예시 from sklear.. 2019. 12. 23.
Algorithm Chains and Pipelines - General Pipeline Interface 파이프라인 인터페이스 Pipeline은 사실 전처리나 분류에 극한하지 않고 어떤 추정기와도 연결할 수 있습니다. pipeline.steps는 튜플의 리스트라서 pipeline.step[0][1]은 첫 번째 추정기이고 pipeline.steps[1][1]은 두 번째 추정기가 되는 식입니다. 예를 들어 특성 추출, 특성 선택, 스케일 변경, 분류의 총 네 단계를 포함하는 파이프라인을 만들 수 있습니다. 비슷하게 마지막 단계가 분류 대신 회귀나 군집이 될 수 있습니다. 파이프라인에 들어갈 추정기는 마지막 단계를 제외하고는 모두 transform 메서드를 가지고 있어야 합니다. 그래서 다음 단계를 위한 새로운 데이터 표현을 만들 수 있어야 합니다. Training process : Pipeline.fit 메서드.. 2019. 12. 19.
Algorithm Chains and Pipelines - Building Pipelines 알고리즘 체인과 파이프라인 대부분의 머신러닝 애플리케이션은 하나의 알고리즘으로 이뤄져 있지 않고, 여러 단계의 처리 과정과 머신러닝 모델이 연결되어 있습니다. (스케일 조정, 특성 공학 등) 데이터 변환 과정과 머신러닝 모델을 쉽게 연결해주는 Pipeline 파이썬 클래스를 설명하겠습니다. Pipeline과 GridSearchCV를 함께 사용하여 각 처리 단계에서 필요한 매개변수 탐색을 동시에 수행합니다. 파이프라인 구축하기 - 데이터 전처리와 하이퍼파라미터 선택 GridSearchCV를 사용해서 더 좋은 SVC 하이퍼파라미터를 찾으려고 합니다. 스케일을 조정한 데이터를 사용해서 SVC의 매개변수에 대해 그리드 서치를 수행했습니다. 그러나 데이터의 최솟값과 최댓값을 계산할 때 학습을 위해 훈련 세트에 있.. 2019. 12. 19.
Evaluation Metrics and Scoring 평가 지표와 측정 주어진 데이터셋에 대한 지도 학습 모델의 성능을 재는 방법은 많습니다. 실전에서는 애플리케이션에 따라 평가 지표가 적합하지 않을 수 있습니다. 모델을 선택하고 하이퍼파라미터를 튜닝할 때 올바른 지표를 선택하는 것이 중요합니다. 최종 목표를 기억하라 문제 해결 전략 휴리스틱 통계학 (추정, 가설 검정 등) 최적화 (이론 기반) 머신 러닝 (데이터 기반) 평가 지표를 선택할 때 머신러닝 애플리케이션의 최종 목표를 기억해야 합니다. 실제로 정확한 예측을 만드는 것뿐 아니라 큰 의사 결정 프로세스의 일부로 사용하는 데 더 중점을 둬야할 지 모릅니다. 머신러닝 평가 지표를 선택하기 전에 비즈니스 지표라고 부르는 애플리케이션의 고차원적인 목표를 생각해야 합니다. 모델을 선택할 때, 비즈니스 지표에.. 2019. 12. 16.