목차
학습 목표
멀티 레벨 로지스틱 리그레션을 왜 써야하는지 알 수 있다.
선수 정보
- 로지스틱 리그레션의 개념
멀티 레벨 로지스틱 회귀(Multi-level logistic Regression)?
멀티 레벨과 로지스틱 회귀를 각각 이해하면 쉽다!
로지스틱 회귀 모델
- 회귀 모델은?
continuous한 값을 예측하는 (함수)이다.
예) 집값 예측, 몸무게, 키 예측
로지스틱 회귀 모델은?
범주형 값을 예측하고 싶을 때 사용한다.
- 시그모이드 함수를 적용하여, 클래스 1일 확률(0~1)로 출력
예) 성별, 합격 여부 예측
멀티 레벨은 무슨 의미인가?
여러 차원의 변수를 고려해서 예측 모델을 만든다는 뜻이다.
무슨 말일까? 다음의 과제를 보자
과제: 암환자들의 암이 완화 상태에 있는지를 판단할 것이다.
- 이때, 각 환자의 개인 특성(성별, 결혼 여부 등)도 암의 완화 상태에 영향을 줄 수 있다.
- 또한, 각 환자들이 진찰 받고 있는 의사에 따라서 암의 완화 상태에 영향을 줄 수 있다. (의사에 따라서, 환자들은 nested, 그룹화 되어 있음)
즉 이와 같이, 개인 레벨 뿐만 아니라 집단 수준의 영향도 고려하여 예측하고 싶을 때, 멀티 레벨 모델을 쓰는 것이다!
또 다른 예시를 보자
과제: 학생들의 성취도를 예측
- 이때, 학생 개인의 특성 뿐만 아니라 학교나 지역이라는 다양한 수준에서 영향을 받을 수 있다.
=> 멀티 레벨 모델 사용!
실습하기: R
실제로 R에서 glmer 모델을 통해서 아래와 같이 멀티 레벨 리그레션을 돌릴 수 있다.
이때, glmer 함수에서 + (1|uid)와 data의 의미는 무엇일까? -> Random effect와 fixed effect를 지정해주는 것이다.
위를 보면 odds ratio와 Random Effect가 나오는데, 관련해서 알아보자.
Odds Ratio
결과를 해석하는 중요한 지표이다.
- 두 집단을 비교할 때 사용하는 통계 지표(상대적인 발생 가능성을 비교)
- Odds ratio를 구하기 위해서는 다음과 같은 과정을 거친다.
1. 먼저, 각 그룹에 대해서 Odds를 구한다.
- (어떤 사건이 일어날 확률)/(일어나지 않을 확률)이다.
2. 두 집단을 비교하기 위해 Odds ratio를 구한다.
: 두 집단의 상대적 발생 가능성을 비교한다.
OR = (해당 사건의 odds)/(여집합의 Odds)
결과 해석
- OR > 1: 해당 사건의 발생 가능성이 크다. (DV에 대해서 IV의 영향력이 있다.)
- OR = 1: 두 그룹에서 사건 발생 가능성이 같음(DV에 대해서 IV의 영향력이 아예 없다.)
- OR < 1: 해당 사건의 발생 가능성이 적다. (DV에 대해서 IV의 영향력이 있다.)
예를 들어)
흡연이라는 IV가 있고, DV는 폐암 발병률이다. 이때 IV와 DV간 관계를 알고 싶음.
만약 흡연 IV에 대해서, OR을 구했을 때 4가 나왔다면, 비흡연자에 비해 흡연자가 4배 정도 더 폐암에 걸리기 쉽다는 뜻이다.
아래는 실제 모델을 돌린 결과이다.
결과표를 다시 보면, 각 모델의 독립변수(IV) 별로 odds ratio를 구해준다.
이때, 4가지 센서 중에서 유의미한(p.<0.001) CO2, Human, Light만 보자
Odds ratio가 각각 1.82, 2.26, 3.27으로 DV중 라벨(1)에 어느 정도 긍정적인 영향을 미친다고 볼 수 있다.
-> 안 사용했을 때보다 사용했을 때 각각 1.82배, 2.26배, 3.27배 더 설문에 응답함(라벨1)
Fixed Effect & Random Effect
멀티 레벨 로지스틱 회귀 결과를 보면 Fixed Effect와 Random Effect에 따라서 표가 다르게 나온다.
이 두 개념은 위에서 설명한 멀티 레벨과 관련이 있다.
Fixed Effect(고정 효과)
: 말 그대로 고정된 효과, 즉 모든 개체들에 동일하게 영향을 주는 IV 변수라고 생각하면 된다.
- 예를 들어, 암환자 예시의 경우에는 개인 특성(성별, 결혼 여부)가 fixed effect를 만들고
- 학생 성취도의 경우 학생 개인의 특성(기존 성적, IQ 등) 이 fixed effect를 만드는 변수가 된다.
Random Effect(임의 효과)
: 우리가 알고 싶은 IV 변수 제외하고 임의로 DV에 영향을 주는 변수이다.
- 예를 들어, 우리는 학생의 특성에 따른 성취도를 예측하고 싶다. 그런데, 우리가 미쳐 고려하지 못한 소속 지역이나 학교에 따라 성취도가 달라질 수 있다. 따라서, 이런 변수가 만들 수 있는 변화를 랜덤 효과라고 하는 것이다.
Random slope/intercept(임의 효과)?
Random intercept(임의 절편)
- 집단 간의 기본적인 차이를 나타낸다.
예를 들어 학교 별 성적 수준이 다를 수 있다. 이러한 집단 간 기본적인 차이를 나타내주는 것이 임의 절편이다.
Random slope(임의 기울기)
- 변수의 상호작용이 각 집단에 따라서 달라질 때를 반영
- 예를 들어 학교 마다 학생들의 성적이 공부 시간에 따라 달라지는 정도가 다르다.
- 예를 들어 학교 A에서는 학생들이 5시간 공부하면 +10점이지만, B에서는 학생들이 5시간 공부하면 평균이 +20이 된다.
=> random intercept는 집단 간의 차이를 반영하고, random slope는 집단 간에 변수의 효과가 다를 때 주목한다.
Reference
Section 14 Multilevel Logistic Regression | Comm 640 Class Notes
Welcome to Comm 640. These are your class notes in book(down) form.
commresearch.arizona.edu
https://study-easy.tistory.com/45
언제 multilevel modeling (다층 모델링)을 해야할까?
[통계 이야기/Multilevel model (다층 모형)] - Multilevel Modeling (다층 모델링)이 뭐임? [통계 이야기/Multilevel model (다층 모형)] - 언제 multilevel modeling (다층 모델링)을 해야할까? ◁ 현재 포스팅 [통계 이야
study-easy.tistory.com