K-Means 알고리즘은 제일 처음 k개의 centroids를 선택하기 위해 임의의 데이터 포인트를 지정하였습니다. 그러나 이렇게 랜덤하게 k개의 centroids를 선택하게 되면 optimal cluster가 아닌 suboptimal cluster를 구성하게 될 수 있습니다. 이러한 문제를 해결하는 K-Means++ 알고리즘에 대해서 알아봅시다.
현실 세계에서 만나게 되는 데이터에 항상 label이 주어지는 것은 아닙니다. 이러한 unlabeled 데이터에 숨겨진 패턴을 찾아내고 구조화하는 머신러닝 기법을 비지도학습(Unsupervised Learning)이라고 합니다. 비지도학습 알고리즘 중 가장 널리 알려진 K-Means 클러스터링 알고리즘에 대해서 알아봅시다.