K-Means 알고리즘은 제일 처음 k개의 centroids를 선택하기 위해 임의의 데이터 포인트를 지정하였습니다. 그러나 이렇게 랜덤하게 k개의 centroids를 선택하게 되면 optimal cluster가 아닌 suboptimal cluster를 구성하게 될 수 있습니다. 이러한 문제를 해결하는 K-Means++ 알고리즘에 대해서 알아봅시다.
현실 세계에서 만나게 되는 데이터에 항상 label이 주어지는 것은 아닙니다. 이러한 unlabeled 데이터에 숨겨진 패턴을 찾아내고 구조화하는 머신러닝 기법을 비지도학습(Unsupervised Learning)이라고 합니다. 비지도학습 알고리즘 중 가장 널리 알려진 K-Means 클러스터링 알고리즘에 대해서 알아봅시다.
Decision Tree는 overfitting될 가능성이 높다는 약점을 가지고 있습니다. 가지치기를 통해 트리의 최대 높이를 설정해 줄 수 있지만 이로써는 overfitting을 충분히 해결할 수 없습니다. 그러므로 좀더 일반화된 트리를 만드는 방법을 생각해야합니다. 이는 Random Forest(랜덤 포레스트)의 기원이 되는 아이디어입니다. 이번 포스팅에서는 랜덤 포레스트에 대해서 알아봅시다.