본문 바로가기

K-Means2

K-Means Clustering 군집 군집은 데이터셋을 클러스터라는 그룹으로 나누는 작업입니다. 한 클러스 안의 데이터 포인트는 매우 비슷하고 다른 클러스터의 데이터 포인트와는 구분되도록 데이터를 나누는 것이 목표입니다. 군집은 탐색적 도구이며, 의미있는 군집들을 형성할 때만 유용합니다. 데이터가 속한 군집이 "실제" 군집이라고 명확하게 말할 수는 없습니다. 우연한 결과일수도 있다는 점을 명심합니다. 군집은 데이터를 이해하고 요약하는 데 쓰입니다. K-평균 군집 k-평균 군집은 가장 간단하고 또 널리 사용하는 군집 알고리즘입니다. 데이터의 어떤 영역을 대표하는 클러스터 중심을 찾습니다. 알고리즘은 두 단계를 반복합니다. 먼저 데이터 포인트를 가장 가까운 클러스터 중심에 할당하고 클러스터에 할당된 데이터 포인트의 평균으로 클러스터 중심을.. 2019. 11. 25.
Chap 10 Clustering - K-Means Clustering Supervised vs Unsupervised Learning Supervised Learning : X와 Y를 모두 알고 있는 경우 Unsupervised Learning : X만 알고 있는 경우 Clustering Clustering은 데이터 셋에서 하위 그룹이나 군집을 찾는 기술들을 의미합니다. 좋은 clustering은 그룹 내에서의 관측치는 비슷하지만 그룹들끼리는 매우 다른 것을 의미합니다. 예를 들어, n명의 유방암 환자들에게서 p 측정값을 수집한다고 하면, 데이터를 clustering 하여 다른 모르는 유형의 암을 발견할 수 있습니다. Different Clustering Methods 많고 다른 유형의 Clustering 방법들이 있습니다. 가장 많이 사용되는 두 개를 살펴보겠습니다. K.. 2019. 10. 17.