카테고리 없음

0716 이론

jihuSunbae 2024. 7. 16. 11:11

 

 

 

 

1. 비지도 학습 

 

(1) K-means 알고리즘 

 

개선 방법 

 

 

 

(2) 계층적 군집 분석(Hierarchical clustering)

 

 

 

(3) DBSCAN

밀도 기반 군집화 알고리즘.

밀도가 높은 곳을 하나의 군집으로 식별하고, 밀도가 낮은 곳은 노이즈로 간주한다. 

  • cf) k means : 거리 기반의 알고리즘 -> 데이터의 중심으로 기반으로 클러스터를 생성

 

 

기본 원리

: 2개의 파라미터(Eps, Minpts)를 기반으로 핵심/경계/노이즈 포인트로 정의한다. 

 

파라미터 

  • Eps(입실론): 데이터 포인트 간 최대 거리 
  • Minpts(최소 포인트 수): 군집 형성을 위한 최소 데이터 포인트 수 

데이터 포인트 종류

  • 군집 - 핵심+경계 포인트

 

 

알고리즘 및 장단점 

 

 

 

4. 주성분 분석

고차원 데이터의 분포를 유지하면서, 저차원으로 압축하는 기법. 

 

 

  • 목적
    • 차원 축소, 노이즈 제거, 데이터 압축
  • 단점
    • 해석의 어려움 - 새로 선택한 주성분가 어떤 의미를 갖는지 해석하기 어려움
    • 선형성 가정: 선형 변환을 기반으로 하므로, 비선형 구조를 가진 데이터에는 적합하지 않음. 
    • 정보 손실
  • 개선 방안 
    • 선형성 가정 - 비선형 차원 축소 기법을 활용해본다. (e.g. 아이소맵
    • 고차원 데이터 처리 - PCA 적용하기 전에, 중요하지 않은 변수를 제거
    • PCA 변형 
      • 커널 PCA를 활용하여 비선형 구조를 반영 
      • Sparse PCA: 희소성을 적용하여 주성분 탐색

5. 비선형 차원 축소 기법 - 아이소맵 

  • 유클리드 거리가 아닌, 지오데식 거리 계산을 이용한다. 
    •  (1) 지오데식 거리 계산: 그래프 내의 모든 데이터 포인트 쌍 간의 최단 경로를 계산하는 방법 
    • (2) 다차원 척도법 적용: 지오데식 거리 행렬을 입력 받아, 저차원 임베딩을 생성

유클리디언 거리와 지오데식 거리의 차이

 

 

+) 실무에서 데이터 특성의 선형성을 알아보는 방법?

대부분 데이터 피쳐를 보고 파악

실무 데이터는 거의 보통은 비선형성을 가정하고 분석 적용하기 

 

장점

 

6. t-SNE

클러스터를 기반으로 지역적 유사성을 잘 유지할 수 있는 비선형적 차원 축소법이다.