본문 바로가기

pca2

t-distributed Stochastic Neighbor Embedding 차원의 저주 (The Curse of Dimensionality) 고차원의 데이터셋은 매우 희박한 상태일 수 있습니다. 즉, 대부분의 훈련 데이터가 서로 멀리 떨어져 있습니다. 차원의 저주를 해결하는 해결책 하나는 훈련 샘플의 밀도가 충분히 높아질 때까지 훈련 세트의 크기를 키우는 것입니다. 머신 러닝을 위한 차원 축소 많은 경우 머신러닝 문제는 훈련 샘플 각각이 수천 심지어 수백만 개의 특성을 가지고 있습니다. 이는 훈련을 느리게 하고 좋은 솔루션을 찾기 어렵게 만듭니다. 더 많은 훈련 데이터가 요구됩니다. 실전 문제에서는 특성 수를 줄여서 불가능한 문제를 가능한 범위로 변경할 수 있는 경우가 많습니다. 예를 들어 MNIST 이미지의 경우 이미지 경계에 있는 픽셀은 항상 흰색이므로 훈련 세트에서 이런 .. 2019. 11. 19.
Principal Component Analysis 주성분 분석 (PCA) 주성분 분석 (Principal component analysis (PCA))은 특성들이 통계적으로 상관관계가 없도록 데이터셋을 회전시키는 기술입니다. PCA는 원래의 변수들 사이의 겹치는 정보를 제거함으로써 변수를 줄입니다. 원래의 변수들이 선형 결합된 새로운 변수를 만듭니다. 선형 결합은 상관관계가 없습니다. 또한 소수의 원본 조합에는 대부분의 원래 정보가 포함되어 있습니다. 새로운 변수를 주성분이라고 부릅니다. PCA : 데이터의 공분산 행렬의 고유분해 고유 값이 가장 큰 고유벡터를 찾습니다. 고유 벡터 - 주성분 고유 값 - 주성분에 의해 설명된 분산 입력 : $X_{1}, X_{2}, ..., X_{p}$ (원래의 p 변수) 데이터에서 평균을 빼서 중심을 원점에 맞춰줍니다.. 2019. 11. 18.