4장. K-Means 클러스터링

Updated:

실습

비지도학습

  • 비슷한것들끼리 모은다
  • 차원축소 Dimension
  • 클러스터링 Clustering
  • 숨겨진 구조(hidden structure)?

Hard clustering : 데이터 포인트들은 비슷한 것들끼리 뭉쳐있다

  • 정확하게 나눌때 사용
  • ex) 강아지와 고양이
  • K-Means
  • 비교적 구현이 쉽다

Finding the K

  • 일반적으로는 완벽한 방법은 없다
  • 눈으로 확인
  • 모델이 데이터를 얼마나 잘 설명하는가
  • 데이터의 특성
    • 어떻게 만들어진 데이터인가?
    • 데이터 포인트 외 다른 feature
  • 분석 결과로 얻고자 하는 것
    • 고양이 vs 개 분류
    • 사람들의 행동 분석
    • 가격 대비 효율성 분석

Soft clustering : 한 개의 데이터 포인트는 숨겨진 클러스터들의 결합이다

  • 한 개의 데이터 포인트는 숨겨진 클러스터들의 결합이다
  • ex) 과학 60%, 판타지 35%, 역사 5%
  • Gaussian Mixture Models(EM)
  • 현실을 반영한다
  • 구현이 어렵다

차원축소

  • 특성이 많이 있다면 차원축소를 해서 우리가 볼수 있도록 만들어야 한다

PCA

  • Principal Component Analysis
  • 고차원의 데이터를 저차원으로 줄이기 위해 사용한다(예: 시각화)
    • 손실이 필연적으로 일어난다. 손실을 최소화 해야한다
  • 데이터 정제
    • noise 제거
    • 자유도를 줄인다

클러스터링

  • 주어진 데이터를 비슷한 그룹(클러스터)으로 묶는 알고리즘

K-Means 클러스터링

  • 반복을 이용한 클러스터링 알고리즘
    1. 중심 Centroid: 각 클러스터의 “중심”을 의미
    2. 중심과의 거리 distance: 중심과 데이터 포인트와의 거리

Step 0

  • k-means는 중심(Centroid)의 위치에 의해 클러스터링을 진행 알고리즘을 시작할 때, 초기 중심값은 데이터 중 임의로 선정

Step 1

  • 중심값이 정해지면, 각각의 데이터 포인트에 대해 다음을 계산
    • “내게서 가장 가까운 중심점은 어디인가?”
    • 가까운 중심점에 포함시킨다
    • 반복

Step 2

  • 정해진 클러스터에서 중심점을 다시 계산
  • 중심점은 해당 클러스터 내 데이터 포인터 위치의 무게중심 또는 평균
  • step 1을 다시 반복해서 계산

Step 3

  • 어떠한 데이터 포인트의 할당도 변하지 않았으므로, 알고리즘 종료

Leave a comment