Data Analysis 3

[데이터 파이프라인] (1) 기본 지식

목차학습 목표- 데이터 파이프 라인의 개념과 구축 방법을 안다데이터 파이프 라인이란? 파이프 라인을 한 번 구축해놓으면, 내가 원하는 출발지에서 도착지까지 정해진 길대로 데이터를 보낼 수 있다. 마찬가지로 데이터도 내가 정해진 경로대로 데이터가 흐를 수 있는 통로(파이프 라인)을 만들어 놓은 것을 데이터 파이프라인이라고 한다.     데이터 추출, 변경, 결합, 검증, 적재까지의 모든 단계를 이른다.   cf. 유사 용어: 데이터 레이크 -> 데이터 웨어 하우스 -> 데이터 마트데이터 레이크: 비즈니스에서 나오는 모든 원시 데이터(Raw data)를 저장해놓은 곳(가공되지 않음)데이터 웨어하우스: 분석하기 쉽게 데이터를 구조화/체계화하여 저장해놓은 곳데이터 마트: 특정 목적을 가지고 분석할 데이터를 따로..

Data Analysis 2025.02.18

[Pandas] 결측치 처리하기

목차  df.head(): 처음의 10개 행 보여줌df.tail(): 뒤의 10개의 행 보여줌df.describe(): int 오브젝트에 대해서 통계값을 인쇄해줌(max, min, count 등)df.info(): 각 컬럼별 데이터 타입과 null이 아닌 데이터 개수를 인쇄df.columns: 컬럼명 인쇄 df.values: 각 row를 행으로 하는 NxM의 array 생성결측치df.isnull()원래 데이터값이 NA 값이면 True, 아니면 False로 채운 df를 리턴df.notna(): inverse of isna()결측치가 있는 row 삭제   df.dropna(): 결측값이 있는 행 또는 컬럼을 삭제 주요 파라미터더보기axis: {0 or ‘index’, 1 or ‘columns’}, defau..

Data Analysis 2024.11.10

Multilevel logistic Regression

목차학습 목표멀티 레벨 로지스틱 리그레션을 왜 써야하는지 알 수 있다. 선수 정보- 로지스틱 리그레션의 개념멀티 레벨 로지스틱 회귀(Multi-level logistic Regression)?멀티 레벨과 로지스틱 회귀를 각각 이해하면 쉽다!  로지스틱 회귀 모델 - 회귀 모델은?continuous한 값을 예측하는 (함수)이다. 예) 집값 예측, 몸무게, 키 예측 로지스틱 회귀 모델은? 범주형 값을 예측하고 싶을 때 사용한다. - 시그모이드 함수를 적용하여, 클래스 1일 확률(0~1)로 출력예) 성별, 합격 여부 예측멀티 레벨은 무슨 의미인가? 여러 차원의 변수를 고려해서 예측 모델을 만든다는 뜻이다. 무슨 말일까? 다음의 과제를 보자 과제: 암환자들의 암이 완화 상태에 있는지를 판단할 것이다. - 이때,..

Data Analysis/Stats 2024.10.13