4장. K-Means 클러스터링
Updated:
비지도학습
- 비슷한것들끼리 모은다
- 차원축소 Dimension
- 클러스터링 Clustering
- 숨겨진 구조(hidden structure)?
Hard clustering : 데이터 포인트들은 비슷한 것들끼리 뭉쳐있다
- 정확하게 나눌때 사용
- ex) 강아지와 고양이
- K-Means
- 비교적 구현이 쉽다
Finding the K
- 일반적으로는 완벽한 방법은 없다
- 눈으로 확인
- 모델이 데이터를 얼마나 잘 설명하는가
- 데이터의 특성
- 어떻게 만들어진 데이터인가?
- 데이터 포인트 외 다른 feature
- 분석 결과로 얻고자 하는 것
- 고양이 vs 개 분류
- 사람들의 행동 분석
- 가격 대비 효율성 분석
Soft clustering : 한 개의 데이터 포인트는 숨겨진 클러스터들의 결합이다
- 한 개의 데이터 포인트는 숨겨진 클러스터들의 결합이다
- ex) 과학 60%, 판타지 35%, 역사 5%
- Gaussian Mixture Models(EM)
- 현실을 반영한다
- 구현이 어렵다
차원축소
- 특성이 많이 있다면 차원축소를 해서 우리가 볼수 있도록 만들어야 한다
PCA
- Principal Component Analysis
- 고차원의 데이터를 저차원으로 줄이기 위해 사용한다(예: 시각화)
- 손실이 필연적으로 일어난다. 손실을 최소화 해야한다
- 데이터 정제
- noise 제거
- 자유도를 줄인다
클러스터링
- 주어진 데이터를 비슷한 그룹(클러스터)으로 묶는 알고리즘
K-Means 클러스터링
- 반복을 이용한 클러스터링 알고리즘
- 중심 Centroid: 각 클러스터의 “중심”을 의미
- 중심과의 거리 distance: 중심과 데이터 포인트와의 거리
Step 0
- k-means는 중심(Centroid)의 위치에 의해 클러스터링을 진행 알고리즘을 시작할 때, 초기 중심값은 데이터 중 임의로 선정
Step 1
- 중심값이 정해지면, 각각의 데이터 포인트에 대해 다음을 계산
- “내게서 가장 가까운 중심점은 어디인가?”
- 가까운 중심점에 포함시킨다
- 반복
Step 2
- 정해진 클러스터에서 중심점을 다시 계산
- 중심점은 해당 클러스터 내 데이터 포인터 위치의 무게중심 또는 평균 값
- step 1을 다시 반복해서 계산
Step 3
- 어떠한 데이터 포인트의 할당도 변하지 않았으므로, 알고리즘 종료
Leave a comment