Multilevel logistic Regression

Data Analysis/Stats

Multilevel logistic Regression

jihuSunbae 2024. 10. 13. 21:52

학습 목표

멀티 레벨 로지스틱 리그레션을 왜 써야하는지 알 수 있다.

선수 정보

- 로지스틱 리그레션의 개념

멀티 레벨 로지스틱 회귀(Multi-level logistic Regression)?

멀티 레벨과 로지스틱 회귀를 각각 이해하면 쉽다!

로지스틱 회귀 모델

- 회귀 모델은?

continuous한 값을 예측하는 (함수)이다.

예) 집값 예측, 몸무게, 키 예측

로지스틱 회귀 모델은?

범주형 값을 예측하고 싶을 때 사용한다.

- 시그모이드 함수를 적용하여, 클래스 1일 확률(0~1)로 출력

예) 성별, 합격 여부 예측

멀티 레벨은 무슨 의미인가?

여러 차원의 변수를 고려해서 예측 모델을 만든다는 뜻이다.

무슨 말일까? 다음의 과제를 보자

과제: 암환자들의 암이 완화 상태에 있는지를 판단할 것이다.
- 이때, 각 환자의 개인 특성(성별, 결혼 여부 등)도 암의 완화 상태에 영향을 줄 수 있다.
- 또한, 각 환자들이 진찰 받고 있는 의사에 따라서 암의 완화 상태에 영향을 줄 수 있다. (의사에 따라서, 환자들은 nested, 그룹화 되어 있음)

즉 이와 같이, 개인 레벨 뿐만 아니라 집단 수준의 영향도 고려하여 예측하고 싶을 때, 멀티 레벨 모델을 쓰는 것이다!

또 다른 예시를 보자

과제: 학생들의 성취도를 예측
- 이때, 학생 개인의 특성 뿐만 아니라 학교나 지역이라는 다양한 수준에서 영향을 받을 수 있다.
=> 멀티 레벨 모델 사용!

실습하기: R

실제로 R에서 glmer 모델을 통해서 아래와 같이 멀티 레벨 리그레션을 돌릴 수 있다.

이때, glmer 함수에서 + (1|uid)와 data의 의미는 무엇일까? -> Random effect와 fixed effect를 지정해주는 것이다.

위를 보면 odds ratio와 Random Effect가 나오는데, 관련해서 알아보자.

Odds Ratio

결과를 해석하는 중요한 지표이다.

- 두 집단을 비교할 때 사용하는 통계 지표(상대적인 발생 가능성을 비교)

- Odds ratio를 구하기 위해서는 다음과 같은 과정을 거친다.

1. 먼저, 각 그룹에 대해서 Odds를 구한다.

- (어떤 사건이 일어날 확률)/(일어나지 않을 확률)이다.

2. 두 집단을 비교하기 위해 Odds ratio를 구한다.

: 두 집단의 상대적 발생 가능성을 비교한다.

OR = (해당 사건의 odds)/(여집합의 Odds)

결과 해석

OR > 1: 해당 사건의 발생 가능성이 크다. (DV에 대해서 IV의 영향력이 있다.)
OR = 1: 두 그룹에서 사건 발생 가능성이 같음(DV에 대해서 IV의 영향력이 아예 없다.)
OR < 1: 해당 사건의 발생 가능성이 적다. (DV에 대해서 IV의 영향력이 있다.)

예를 들어)

흡연이라는 IV가 있고, DV는 폐암 발병률이다. 이때 IV와 DV간 관계를 알고 싶음.

만약 흡연 IV에 대해서, OR을 구했을 때 4가 나왔다면, 비흡연자에 비해 흡연자가 4배 정도 더 폐암에 걸리기 쉽다는 뜻이다.

아래는 실제 모델을 돌린 결과이다.

결과표를 다시 보면, 각 모델의 독립변수(IV) 별로 odds ratio를 구해준다.

이때, 4가지 센서 중에서 유의미한(p.<0.001) CO2, Human, Light만 보자

Odds ratio가 각각 1.82, 2.26, 3.27으로 DV중 라벨(1)에 어느 정도 긍정적인 영향을 미친다고 볼 수 있다.

-> 안 사용했을 때보다 사용했을 때 각각 1.82배, 2.26배, 3.27배 더 설문에 응답함(라벨1)

Fixed Effect & Random Effect

멀티 레벨 로지스틱 회귀 결과를 보면 Fixed Effect와 Random Effect에 따라서 표가 다르게 나온다.

이 두 개념은 위에서 설명한 멀티 레벨과 관련이 있다.

Fixed Effect(고정 효과)

: 말 그대로 고정된 효과, 즉 모든 개체들에 동일하게 영향을 주는 IV 변수라고 생각하면 된다.

- 예를 들어, 암환자 예시의 경우에는 개인 특성(성별, 결혼 여부)가 fixed effect를 만들고

- 학생 성취도의 경우 학생 개인의 특성(기존 성적, IQ 등) 이 fixed effect를 만드는 변수가 된다.

Random Effect(임의 효과)

: 우리가 알고 싶은 IV 변수 제외하고 임의로 DV에 영향을 주는 변수이다.

- 예를 들어, 우리는 학생의 특성에 따른 성취도를 예측하고 싶다. 그런데, 우리가 미쳐 고려하지 못한 소속 지역이나 학교에 따라 성취도가 달라질 수 있다. 따라서, 이런 변수가 만들 수 있는 변화를 랜덤 효과라고 하는 것이다.

Random slope/intercept(임의 효과)?

Random intercept(임의 절편)

- 집단 간의 기본적인 차이를 나타낸다.

예를 들어 학교 별 성적 수준이 다를 수 있다. 이러한 집단 간 기본적인 차이를 나타내주는 것이 임의 절편이다.

Random slope(임의 기울기)

- 변수의 상호작용이 각 집단에 따라서 달라질 때를 반영

- 예를 들어 학교 마다 학생들의 성적이 공부 시간에 따라 달라지는 정도가 다르다.

- 예를 들어 학교 A에서는 학생들이 5시간 공부하면 +10점이지만, B에서는 학생들이 5시간 공부하면 평균이 +20이 된다.

=> random intercept는 집단 간의 차이를 반영하고, random slope는 집단 간에 변수의 효과가 다를 때 주목한다.

Reference

https://commresearch.arizona.edu/classes/comm640/640_Book/docs/multilevel-logistic-regression.html#multilevel-logistic-regression-models

Section 14 Multilevel Logistic Regression | Comm 640 Class Notes

Welcome to Comm 640. These are your class notes in book(down) form.

commresearch.arizona.edu

https://study-easy.tistory.com/45

언제 multilevel modeling (다층 모델링)을 해야할까?

[통계 이야기/Multilevel model (다층 모형)] - Multilevel Modeling (다층 모델링)이 뭐임? [통계 이야기/Multilevel model (다층 모형)] - 언제 multilevel modeling (다층 모델링)을 해야할까? ◁ 현재 포스팅 [통계 이야

study-easy.tistory.com

저작자표시 비영리 변경금지 (새창열림)

현재글Multilevel logistic Regression

jihu

생키다이어그램, 머신러닝 #딥러닝 #cnn #convolutional network, 카카오 #코딩테스트 #알고리즘 #python #파이썬, 코딩테스트 #알고리즘 #python #파이썬, 카카오모빌리티 #코딩테스트 #알고리즘 #python #파이썬, 오블완, 카카오테크부트캠프, k-digital-training, kdt #k-digital #k-digital-hackarton #, 백준 #코딩테스트 #알고리즘 #python #파이썬 #bfs #dfs, 다변량데이터시각화, python #알고리즘 #단순구현 #코딩 테스트, 백준 #코딩테스트 #알고리즘 #python #파이썬, 카테부커뮤니티, kakatotechbootcamp, 백준 #코딩테스트 #알고리즘 #python #파이썬 #bfs #dfs, 카테부, ㅏㅇ바, 부트캠프 추천, 티스토리챌린지,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

jihu