카카오AI 부트캠프

카카오AI 부트캠프-7일차

jihuSunbae 2024. 7. 8. 11:00

 

 

 

 

1. 데이터 분석 개요

 

<데이터 분석 개요> 출처: 구름 이진형 강사님

 

 

2. 데이터 종류와 속성 

(1) 정량적 vs 정성적

*정성적 데이터: 서술적이고 해석이 필요한 데이터, 통계 분석 및 전처리가 어렵다는 특징이 있다. 

e.g. 댓글, 동영상, 음성 데이터

 

(2) 수치 vs 범주형

수치형: 연속/ 이산형 데이터로 구성 

범주형: 순위형/ 명목형 데이터(순위 X)

 

*데이터 품질의 요소: 완전성, 일관성, 정확성, 타당성

3. 데이터 탐색(EDA)

데이터 분석 초기 단계에서 데이터 시각화와 요약을 통해 특성과 패턴을 발견하는 과정 

  • 데이터 구조, 결함, 패턴 및 기초 통계 제공
  • 데이터에 대한 이해도 향상
  • 모델링 방향을 설정하는데 기여

역할 

  • 데이터 결측치, 이상치를 사전에 파악하여 데이터 정제 및 전처리 계획 수립 
  • 데이터 특성을 파악하여, 더 효과적인 모델을 구축할 수 있도록 도움

 

방법

  • 시각화, 기술 통계, 확률 분포, 다변량 분석

(1) 기술 통계: 중심값(평균, 중앙값, 최빈값), 분산성(범위, 분산, STD-DEV, 사분위수), 형태(비대칭도, 첨도)

 

(2) 확률 분포 

  • 데이터 인트가 발생할 확을 설명하는 수학적 모델
  • 어떤 데이터에 어떤 분포를 적용할 것인지를 파악하는 것이 중요
  • 은 통계적 검정과 머신러닝 알고리즘은 데이터가 포’따른다고 가정

종류

  • 이산확률분포:이항분포,포아송분포등
  • 연속 확률 분포: 정규 분포, 지수 분포, t-분포, F-분포 등

 

(3) 다변량 분석 

종류: 상관 관계, 인과 관계 

 

상관 관계(Correlation) vs 인과 관계(Causality)

 

 

 

4. 가설 검증 

  • 표본 데이터(sample)을 사용하여 모집단(population)에 대한 통계적 가설이 타당한지 판단하는 과정 

 

프로세스 

1. 가설 설정 

  • 귀무가설(H0, null hypothesis): 연구 가설, 변화 없음을 주장 
  • 대립 가설(H1): 연구 가설, 변화를 주장 

2. 검정 방법 선택 

만약 정규 분포를 따른다면? 모수적인 방법(parametric test)

  • T 검정: 두 그룹 간의 평균 차이가 유의미한지 비교
  • ANOVA: 3 이상의 그룹 차이가 

비모수적인 방법(정규 분포를 따르지 않을 때)

 

5. A/B 테스트 

 

수행 과정 

문제 설정 > 수집 데이터 종류 및 속성 탐색

 

 

1. 문제 설정

  • UI 변경이 실제로 사용자들의 구매 전환율에 어떤 영향을 미쳤는가?

2. 수집 데이터 종류 및 속성 탐색

  • 데이터 종류 분류: 정성적 vs 정량적인가?, 연속형 vs 범주형인가?
    • e.g. 수집 데이터 : UI 변경 전과 변경 의 사용자 상작용 로, 구 이력,  리고 사용자 피드백 데이터

3. EDA 분석 수행

  • 데이터 분포, 중심 경향, 분산을 파악하고 초기 인사이트 획득하는 과정 
  • 분석 목적과 관련 분석 기법 선정하기

4. 상관/인과 관계 분석 

  • 각 변수들이 구매 전환율과 갖는 상관관계와 인과관계를 분석
    •  상관 관계 -  상관 계수, 스피어만 상관 계수 
      • 피어슨: 두 변수 간의 선형 관계의 강도와 방향을 측정, 정규 분포 가정 
        • 언제 쓰는가?? 두 변수가 모두 연속 변수일 때 
      • 스피어만: 두 변수의 순위 기반의 관계를 측정하여 비선형 방식도 검증 가능, 정규분포 가정 X
        • 언제 쓰는가?? 두 변수 중 하나라도 서열 변수 일 때!!
    • 인과관계 - 다중 선형 회귀 분석

5. 가설 검정 및 A/B 테스트 

  • 가설 설정 
  • TEST: Paired t-test를 진행
  • 결과 해석: P-value를 기준으로 귀무 가설 기각 여부 진행
  • 결론 짓기