0716 이론

카테고리 없음

jihuSunbae 2024. 7. 16. 11:11

1. 비지도 학습

(1) K-means 알고리즘

개선 방법

(2) 계층적 군집 분석(Hierarchical clustering)

(3) DBSCAN

밀도 기반 군집화 알고리즘.

밀도가 높은 곳을 하나의 군집으로 식별하고, 밀도가 낮은 곳은 노이즈로 간주한다.

: 2개의 파라미터(Eps, Minpts)를 기반으로 핵심/경계/노이즈 포인트로 정의한다.

파라미터

데이터 포인트 종류

알고리즘 및 장단점

고차원 데이터의 분포를 유지하면서, 저차원으로 압축하는 기법.

목적
- 차원 축소, 노이즈 제거, 데이터 압축
단점
- 해석의 어려움 - 새로 선택한 주성분가 어떤 의미를 갖는지 해석하기 어려움
- 선형성 가정: 선형 변환을 기반으로 하므로, 비선형 구조를 가진 데이터에는 적합하지 않음.
- 정보 손실
개선 방안
- 선형성 가정 - 비선형 차원 축소 기법을 활용해본다. (e.g. 아이소맵
- 고차원 데이터 처리 - PCA 적용하기 전에, 중요하지 않은 변수를 제거
- PCA 변형
  - 커널 PCA를 활용하여 비선형 구조를 반영
  - Sparse PCA: 희소성을 적용하여 주성분 탐색