카테고리 없음
0716 이론
jihuSunbae
2024. 7. 16. 11:11
1. 비지도 학습
(1) K-means 알고리즘
개선 방법
(2) 계층적 군집 분석(Hierarchical clustering)
(3) DBSCAN
밀도 기반 군집화 알고리즘.
밀도가 높은 곳을 하나의 군집으로 식별하고, 밀도가 낮은 곳은 노이즈로 간주한다.
- cf) k means : 거리 기반의 알고리즘 -> 데이터의 중심으로 기반으로 클러스터를 생성
기본 원리
: 2개의 파라미터(Eps, Minpts)를 기반으로 핵심/경계/노이즈 포인트로 정의한다.
파라미터
- Eps(입실론): 데이터 포인트 간 최대 거리
- Minpts(최소 포인트 수): 군집 형성을 위한 최소 데이터 포인트 수
데이터 포인트 종류
- 군집 - 핵심+경계 포인트
알고리즘 및 장단점
4. 주성분 분석
고차원 데이터의 분포를 유지하면서, 저차원으로 압축하는 기법.
- 목적
- 차원 축소, 노이즈 제거, 데이터 압축
- 단점
- 해석의 어려움 - 새로 선택한 주성분가 어떤 의미를 갖는지 해석하기 어려움
- 선형성 가정: 선형 변환을 기반으로 하므로, 비선형 구조를 가진 데이터에는 적합하지 않음.
- 정보 손실
- 개선 방안
- 선형성 가정 - 비선형 차원 축소 기법을 활용해본다. (e.g. 아이소맵
- 고차원 데이터 처리 - PCA 적용하기 전에, 중요하지 않은 변수를 제거
- PCA 변형
- 커널 PCA를 활용하여 비선형 구조를 반영
- Sparse PCA: 희소성을 적용하여 주성분 탐색
5. 비선형 차원 축소 기법 - 아이소맵
- 유클리드 거리가 아닌, 지오데식 거리 계산을 이용한다.
- (1) 지오데식 거리 계산: 그래프 내의 모든 데이터 포인트 쌍 간의 최단 경로를 계산하는 방법
- (2) 다차원 척도법 적용: 지오데식 거리 행렬을 입력 받아, 저차원 임베딩을 생성
+) 실무에서 데이터 특성의 선형성을 알아보는 방법?
대부분 데이터 피쳐를 보고 파악
실무 데이터는 거의 보통은 비선형성을 가정하고 분석 적용하기
장점
6. t-SNE
클러스터를 기반으로 지역적 유사성을 잘 유지할 수 있는 비선형적 차원 축소법이다.