1. 데이터 분석 개요
2. 데이터 종류와 속성
(1) 정량적 vs 정성적
*정성적 데이터: 서술적이고 해석이 필요한 데이터, 통계 분석 및 전처리가 어렵다는 특징이 있다.
e.g. 댓글, 동영상, 음성 데이터
(2) 수치 vs 범주형
수치형: 연속/ 이산형 데이터로 구성
범주형: 순위형/ 명목형 데이터(순위 X)
*데이터 품질의 요소: 완전성, 일관성, 정확성, 타당성
3. 데이터 탐색(EDA)
데이터 분석 초기 단계에서 데이터 시각화와 요약을 통해 특성과 패턴을 발견하는 과정
- 데이터 구조, 결함, 패턴 및 기초 통계 제공
- 데이터에 대한 이해도 향상
- 모델링 방향을 설정하는데 기여
역할
- 데이터 결측치, 이상치를 사전에 파악하여 데이터 정제 및 전처리 계획 수립
- 데이터 특성을 파악하여, 더 효과적인 모델을 구축할 수 있도록 도움
방법
- 시각화, 기술 통계, 확률 분포, 다변량 분석
(1) 기술 통계: 중심값(평균, 중앙값, 최빈값), 분산성(범위, 분산, STD-DEV, 사분위수), 형태(비대칭도, 첨도)
(2) 확률 분포
- 데이터 포인트가 발생할 확률을 설명하는 수학적 모델
- 어떤 데이터에 어떤 분포를 적용할 것인지를 파악하는 것이 중요
- 많은 통계적 검정과 머신러닝 알고리즘은 데이터가 ‘정규 분포’를 따른다고 가정
종류
- 이산확률분포:이항분포,포아송분포등
- 연속 확률 분포: 정규 분포, 지수 분포, t-분포, F-분포 등
(3) 다변량 분석
종류: 상관 관계, 인과 관계
상관 관계(Correlation) vs 인과 관계(Causality)
4. 가설 검증
- 표본 데이터(sample)을 사용하여 모집단(population)에 대한 통계적 가설이 타당한지 판단하는 과정
프로세스
1. 가설 설정
- 귀무가설(H0, null hypothesis): 연구 가설, 변화 없음을 주장
- 대립 가설(H1): 연구 가설, 변화를 주장
2. 검정 방법 선택
만약 정규 분포를 따른다면? 모수적인 방법(parametric test)
- T 검정: 두 그룹 간의 평균 차이가 유의미한지 비교
- ANOVA: 3 이상의 그룹 차이가
비모수적인 방법(정규 분포를 따르지 않을 때)
5. A/B 테스트
수행 과정
문제 설정 > 수집 데이터 종류 및 속성 탐색
1. 문제 설정
- UI 변경이 실제로 사용자들의 구매 전환율에 어떤 영향을 미쳤는가?
2. 수집 데이터 종류 및 속성 탐색
- 데이터 종류 분류: 정성적 vs 정량적인가?, 연속형 vs 범주형인가?
- e.g. 수집 데이터 : UI 변경 전과 변경 후의 사용자 상호작용 로그, 구매 이력, 그 리고 사용자 피드백 데이터
3. EDA 분석 수행
- 데이터 분포, 중심 경향, 분산을 파악하고 초기 인사이트 획득하는 과정
- 분석 목적과 관련 분석 기법 선정하기
4. 상관/인과 관계 분석
- 각 변수들이 구매 전환율과 갖는 상관관계와 인과관계를 분석
- 상관 관계 - 피어슨 상관 계수, 스피어만 상관 계수
- 피어슨: 두 변수 간의 선형 관계의 강도와 방향을 측정, 정규 분포 가정
- 언제 쓰는가?? 두 변수가 모두 연속 변수일 때
- 스피어만: 두 변수의 순위 기반의 관계를 측정하여 비선형 방식도 검증 가능, 정규분포 가정 X
- 언제 쓰는가?? 두 변수 중 하나라도 서열 변수 일 때!!
- 피어슨: 두 변수 간의 선형 관계의 강도와 방향을 측정, 정규 분포 가정
- 인과관계 - 다중 선형 회귀 분석
- 상관 관계 - 피어슨 상관 계수, 스피어만 상관 계수
5. 가설 검정 및 A/B 테스트
- 가설 설정
- TEST: Paired t-test를 진행
- 결과 해석: P-value를 기준으로 귀무 가설 기각 여부 진행
- 결론 짓기
'카카오AI 부트캠프' 카테고리의 다른 글
카카오AI 부트캠프 - 9일차 요약 (0) | 2024.07.10 |
---|---|
카카오AI 부트캠프 - 9일차 수업 (0) | 2024.07.10 |
카카오AI 부트캠프-8일차 (0) | 2024.07.10 |
카카오 AI 부트캠프 - 5일차 이론 (0) | 2024.07.05 |
카카오 AI 부캠 - 4일차 이론 실습 (0) | 2024.07.04 |