본문 바로가기

파이썬 라이브러리를 활용한 머신러닝25

Univariate Nonlinear Transformations 일변량 비선형 변환 (Univariate Nonlinear Transformations) 대부분의 모델은 각 특성이 (회귀에서는 타깃도) 정규분포와 비슷할 때 최고의 성능을 냅니다. 특성의 히스토그램이 종 모양과 비슷합니다. log나 exp 같은 함수를 사용하는 것은 편법이지만 이런 모양을 만드는 쉽고 효과적인 방법입니다. 일변량 비선형 변환은 특셩 변환에 유용합니다. log와 exp 함수는 데이터의 스케일을 변경해 선형 모델과 신경망의 성능을 올리는 데 도움을 줍니다. 로그 변환 예시 원본 특성 X의 히스토그램 작은 수치가 많고 큰 수치는 몇 안됩니다. 이런 종류의 분포는 실제로 자주 나타납니다. log(X+1)로 변환된 특성의 히스토그램 변환 후를 보면 데이터의 분포가 덜 치우쳐 있으며 매우 큰 값을.. 2019. 12. 6.
Polynomials and Interactions Polynomials (다항식) 선형 모델에서 특성을 풍부하게 나타내는 방법은 원본 데이터에 다항식을 추가하는 것입니다. 다변량 다항 회귀 예시 선형 회귀 모델 (polynomial degree=1) $\hat{y} = w_{0} + w_{1}x$ 2차 회귀 모델 (polynomial degree=2) $\hat{y} = w_{0} + w_{1}x + w_{2}x^{2}$, $x^{2}$은 x의 제곱입니다. 다항 회귀 모델 (polynomial degree=9) $\hat{y} = w_{0} + \sum_{i=1}^{9}w_{i}x^{i}$ $x^{i}$ : i-th power of x Interactions (상호작용) 상호작용 특성은 데이터에 원래 특성을 다시 추가합니다. $(x_{1}, x_{2}).. 2019. 12. 6.
Binning (Discretization) Binning(Discretization) 데이터를 가장 잘 표현하는 방법은 데이터가 가진 의미뿐 아니라 어떤 모델을 사용하는지에 따라 다릅니다. 선형 모델은 선형 관계로만 모델링합니다. 결정 트리는 훨씬 더 복잡한 모델을 만들 수 있습니다. wave 데이터셋을 이용하여 선형 회귀 모델과 결정 트리 회귀를 비교해보겠습니다. 연속형 데이터에 아주 강력한 선형 모델을 만드는 방법 하나는 한 특성을 여러 특성으로 나누는 구간 분할 (이산화)입니다. Wave 데이터셋 - 구간 나누기 import mglearn X, y = mglearn.datasets.make_wave(n_samples=100) print(X[:5]) [[-0.753] [ 2.704] [ 1.392] [ 0.592] [-2.064]] 샘플을 만.. 2019. 12. 6.
Categorical Variables 특성 공학 (Feature Engineering) 특정 어플리케이션에 가장 적합한 데이터 표현을 찾는 것을 특성 공학이라합니다. 데이터 과학자와 머신러닝 기술자가 실제 문제를 풀기 위해 당면하는 주요 작업 중 하나입니다. 올바른 데이터 표현은 지도 학습 모델에서 적절한 하이퍼파라미터를 선택하는 것보다 성능에 더 큰 영향을 미칩니다. 트리 기반 모델은 특성의 순서에만 영향을 받지만 선형 모델과 신경망은 각 특성의 스케일과 분포에 밀접하게 연관되어 있습니다. 범주형 변수 (Categorical Variables) - adult 데이터셋 adult 데이터셋은 1994년 인구 조사 데이터베이스에서 추출한 미국 성인의 소득 데이터셋입니다. 이 데이터셋을 사용해 어떤 근로자의 수입이 50,000달러를 초과하는지, .. 2019. 12. 4.