본문 바로가기

Ari2

Comparing and Evaluating Clustering Algorithms 군집 알고리즘 요약 군집 알고리즘을 적용하고 평가하는 것이 매우 정성적인 분석 과정이며 탐색적 데이터 분석 단계에 크게 도움될 수 있다는 것을 보았습니다. k-평균, DBSCAN, 병합 군집이라는 세 가지 군집 알고리즘을 살펴보았습니다. 세 알고리즘 모두 군집을 세밀하게 조절할 수 있는 방법을 제공합니다. 이 세 모델은 실제 대량의 데이터셋에 사용할 수 있고 비교적 쉽게 이해할 수 있으며 여러 개의 클러스터로 군집을 만들 수 있습니다. 각 알고리즘은 조금씩 다른 장점을 가지고 있습니다. k-평균은 클러스터 중심을 사용해 클러스터를 구분합니다. 이 알고리즘은 각 데이터 포인트를 클러스터의 중심으로 대표할 수 있기 때문에 분해 방법으로 볼 수도 있습니다. 계층 군집은 전체 데이터의 분할 계층도를 만들어주며 .. 2019. 12. 2.
K-Means Clustering 군집 군집은 데이터셋을 클러스터라는 그룹으로 나누는 작업입니다. 한 클러스 안의 데이터 포인트는 매우 비슷하고 다른 클러스터의 데이터 포인트와는 구분되도록 데이터를 나누는 것이 목표입니다. 군집은 탐색적 도구이며, 의미있는 군집들을 형성할 때만 유용합니다. 데이터가 속한 군집이 "실제" 군집이라고 명확하게 말할 수는 없습니다. 우연한 결과일수도 있다는 점을 명심합니다. 군집은 데이터를 이해하고 요약하는 데 쓰입니다. K-평균 군집 k-평균 군집은 가장 간단하고 또 널리 사용하는 군집 알고리즘입니다. 데이터의 어떤 영역을 대표하는 클러스터 중심을 찾습니다. 알고리즘은 두 단계를 반복합니다. 먼저 데이터 포인트를 가장 가까운 클러스터 중심에 할당하고 클러스터에 할당된 데이터 포인트의 평균으로 클러스터 중심을.. 2019. 11. 25.