카카오AI 부트캠프
10일차 이론
jihuSunbae
2024. 7. 11. 17:59
트리맵
계층적 데이터일 때, 계층 구조 내의 비율을 비교하는데 탁월함.
- 예) 디스크 사용량을 시각화하여 폴더와 파일의 크기를 비교
- 각 부문별 매출 비율을 시각화
버블차트
- 산점도(x, y 변수의 관계를 표현)의 확장된 형태
- 데이터 포인트의 크기를 추가하여 총 3가지 변수를 시각화!
- 예시) 북미 시장의 테크 마켓 시장을 시각화함
- x, y 축에는 각각 기술직 성장률과 평균 임금이 적혀 있음
- 각 점의 크기는 기술직 수를 나타냄!
생키 다이어그램(Sankey Diagram)
- 데이터의 흐름과 비율을 시각화하는 다이어그램
- 예) 미국 시장의 수입과 수출 국가의 비율과 흐름을 나타냄
- cf) 수입, 수출 표가 각각 있으면 수입 수출 흐름을 한눈에 파악하기 어려움, 반면 생키 다이어그램은 전체적인 그림을 보기 굿!
- 예) 미국 시장의 수입과 수출 국가의 비율과 흐름을 나타냄
레이더 차트
2. 데이터 형태에 따른 시각화
다변량 데이터 시각화
: 여러 변수 간의 관계와 패턴을 파악하기 위한 시각화 방법
- 주의점: 너무 많은 데이터를 한 번에 시각화하면, 복잡해진다.
- 방법: 산점도, 평행좌표, 히트맵 등
- 예시: (iris 데이터) 각 iris 종 별로, 4가지 변수를 시각화해보자
- 관측) sepal_width 같은 경우는 종 별로 수치 구간의 차이가 없지만, petal_length의 경우 종별로 구간이 잘 나눠짐
- insight) 종 별로 구분하는데 있어서 petal_length가 좀 더 유용하다...
시계열 데이터 시각화
- 시간에 따른 변화를 분석하는 것이 핵심
- 선그래프, 히트맵, 캘린더 차트
3. 인터랙티브 시각화
: 사용자와 상호작용할 수 있는 데이터 시각화 방법
-> 직접 관심있는 데이터를 선택하거나, 그래프를 확대/축소하는 등
- 구현 방법
- Python에서 plotly.express를 활용하여 인터렉티브 시각화를 생성할 수 있다.
- 혹은 matplotlib.animation을 사용하여, 애니매이션을 구현할 수 있다.