카카오AI 부트캠프

카카오AI 부트캠프-8일차

jihuSunbae 2024. 7. 10. 17:12

 

실습 코드

https://github.com/jieun-lim/kakao-ai-bootcamp/blob/main/0709/0709_weather_data_analysis.ipynb

 

kakao-ai-bootcamp/0709/0709_weather_data_analysis.ipynb at main · jieun-lim/kakao-ai-bootcamp

Contribute to jieun-lim/kakao-ai-bootcamp development by creating an account on GitHub.

github.com

 

 

 

목차

1. 시계열 분석

시계열 데이터의 특성

시계열 데이터의 특성

- 추세(Trend): 장기적으로 증가/감소하는 경향

- 계절성(Seasonality): 특정 시간 패턴이 반복 (예: 월별/주별/일별 패턴) e.g. 장마 기간에는 우산 판매량이 올라감

- 주기성: 일정한 간격으로 변동이 반복

- 잡음: 어쨌든 불규칙한 변동이 있다!

 

시계열 데이터 분석 방법

 

1. 시계열 분해 

- 모델 = 추세 + 계절+주기+잡음으로 분해해서 본다.

- 가법/승법 모형

 

2. 통계적 방법 

- 이동 평균: time window 단위로 평균화

- 지수 평활: 지수 함수 활용하여 최근 관측값에 더 큰 가중치를 둔다.

 

3. 시계열 예측 모델 

- Arima 모델

 

시계열 데이터 주요 문제

 

문제: 결측치, 이상치(이 이상치 조차도 패턴인가? 아님 진짜 outlier인가..?)

해결책:

- 결측치: 보간법(보통 평균)

- 이상치: IQR 내의 데이터만 필터링, Z 점수 이용

 

 

 

2. 다변량 분석

  • 두 개 이상의 변수를 동시에 분석하는 기법으로, 변수들 간의 관계를 파악하고, 패턴을 예측
  • 장점: 단변량 분석에서 간과할 수 있는 변수들 간의 상호작용과 복잡한 관계를 포착 가능
  • Ex) 소비자 데이터에서 구매 패턴, 고객 세분화
    • e.g. 구매패턴에 영향을 미치는 여러 가지 요인들을 한꺼번에 분석한다. 
상관 분석: 피어슨 상관 계수 & 스피어만 상관 계수

 - 피어슨 상관 계수의 경우, 정규성을 따르는지 test 해봐야된다. 

 

 

주성분 분석

 

언제 쓰는가? 고차원 데이터를 저차원으로 축소하고 싶을 때 

어떻게? 데이터 분산이 최대가 되는 정보를 유지하면서 차원 축소

- 데이터 분산이 최대 = 원래 데이터의 정보를 최대한 담고 있도록 하기 위함이다.