Data Analysis/Stats

Multilevel logistic Regression

jihuSunbae 2024. 10. 13. 21:52

 

 
 

목차


    학습 목표

    멀티 레벨 로지스틱 리그레션을 왜 써야하는지 알 수 있다. 

    선수 정보

    - 로지스틱 리그레션의 개념

    멀티 레벨 로지스틱 회귀(Multi-level logistic Regression)?

    멀티 레벨과 로지스틱 회귀를 각각 이해하면 쉽다!

     

     

    로지스틱 회귀 모델 

    - 회귀 모델은?

    continuous한 값을 예측하는 (함수)이다. 

    예) 집값 예측, 몸무게, 키 예측

     

    로지스틱 회귀 모델은? 

    범주형 값을 예측하고 싶을 때 사용한다. 

    - 시그모이드 함수를 적용하여, 클래스 1일 확률(0~1)로 출력

    예) 성별, 합격 여부 예측

    멀티 레벨은 무슨 의미인가? 

    여러 차원의 변수를 고려해서 예측 모델을 만든다는 뜻이다. 

    무슨 말일까? 다음의 과제를 보자 

    과제: 암환자들의 암이 완화 상태에 있는지를 판단할 것이다. 
    - 이때, 각 환자의 개인 특성(성별, 결혼 여부 등)도 암의 완화 상태에 영향을 줄 수 있다. 
    - 또한, 각 환자들이 진찰 받고 있는 의사에 따라서 암의 완화 상태에 영향을 줄 수 있다. (의사에 따라서, 환자들은 nested, 그룹화 되어 있음)

    즉 이와 같이, 개인 레벨 뿐만 아니라 집단 수준의 영향도 고려하여 예측하고 싶을 때, 멀티 레벨 모델을 쓰는 것이다!

     

    또 다른 예시를 보자 

    과제: 학생들의 성취도를 예측
    - 이때, 학생 개인의 특성 뿐만 아니라 학교나 지역이라는 다양한 수준에서 영향을 받을 수 있다. 
    => 멀티 레벨 모델 사용!

    실습하기: R

    실제로 R에서 glmer 모델을 통해서 아래와 같이 멀티 레벨 리그레션을 돌릴 수 있다. 

    이때, glmer 함수에서 + (1|uid)data의 의미는 무엇일까? -> Random effect와 fixed effect를 지정해주는 것이다. 

     

    모델링

     

    모델링 결과

    위를 보면 odds ratio와 Random Effect가 나오는데, 관련해서 알아보자. 

    Odds Ratio

    결과를 해석하는 중요한 지표이다. 

    - 두 집단을 비교할 때 사용하는 통계 지표(상대적인 발생 가능성을 비교)

    - Odds ratio를 구하기 위해서는 다음과 같은 과정을 거친다. 

     

     

    1. 먼저, 각 그룹에 대해서 Odds를 구한다. 

    -  (어떤 사건이 일어날 확률)/(일어나지 않을 확률)이다. 

     

     

    2. 두 집단을 비교하기 위해 Odds ratio를 구한다. 

    : 두 집단의 상대적 발생 가능성을 비교한다. 

     

    OR = (해당 사건의 odds)/(여집합의 Odds)

     

    결과 해석

     

    • OR > 1: 해당 사건의 발생 가능성이 크다. (DV에 대해서 IV의 영향력이 있다.)
    • OR = 1: 두 그룹에서 사건 발생 가능성이 같음(DV에 대해서 IV의 영향력이 아예 없다.)
    • OR < 1: 해당 사건의 발생 가능성이 적다.  (DV에 대해서 IV의 영향력이 있다.)

    예를 들어)

    흡연이라는 IV가 있고, DV는 폐암 발병률이다. 이때 IV와 DV간 관계를 알고 싶음. 

    만약 흡연 IV에 대해서, OR을 구했을 때 4가 나왔다면, 비흡연자에 비해 흡연자가 4배 정도 더 폐암에 걸리기 쉽다는 뜻이다. 

     

     

     

    아래는 실제 모델을 돌린 결과이다. 

    결과표를 다시 보면, 각 모델의 독립변수(IV) 별로 odds ratio를 구해준다. 

    이때, 4가지 센서 중에서 유의미한(p.<0.001) CO2, Human, Light만 보자

    모델링 결과

     

    Odds ratio가 각각 1.82, 2.26, 3.27으로 DV중 라벨(1)에 어느 정도 긍정적인 영향을 미친다고 볼 수 있다. 

    -> 안 사용했을 때보다 사용했을 때 각각 1.82배, 2.26배, 3.27배 더 설문에 응답함(라벨1)

    Fixed Effect & Random Effect

    멀티 레벨 로지스틱 회귀 결과를 보면 Fixed Effect와 Random Effect에 따라서 표가 다르게 나온다. 

    이 두 개념은 위에서 설명한 멀티 레벨과 관련이 있다. 

     

    Fixed Effect(고정 효과)

    : 말 그대로 고정된 효과, 즉 모든 개체들에 동일하게 영향을 주는 IV 변수라고 생각하면 된다. 

    - 예를 들어, 암환자 예시의 경우에는 개인 특성(성별, 결혼 여부)가 fixed effect를 만들고

    - 학생 성취도의 경우 학생 개인의 특성(기존 성적, IQ 등) 이 fixed effect를 만드는 변수가 된다. 

     

    Random Effect(임의 효과)

    : 우리가 알고 싶은 IV  변수 제외하고 임의로 DV에 영향을 주는 변수이다. 

    - 예를 들어, 우리는 학생의 특성에 따른 성취도를 예측하고 싶다. 그런데, 우리가 미쳐 고려하지 못한 소속 지역이나 학교에 따라 성취도가 달라질 수 있다. 따라서, 이런 변수가 만들 수 있는 변화를 랜덤 효과라고 하는 것이다. 

     

    Random slope/intercept(임의 효과)?

    Random intercept(임의 절편)

    - 집단 간의 기본적인 차이를 나타낸다. 

    예를 들어 학교 별 성적 수준이 다를 수 있다. 이러한 집단 간 기본적인 차이를 나타내주는 것이 임의 절편이다. 

     

    Random slope(임의 기울기)

    - 변수의 상호작용이 각 집단에 따라서 달라질 때를 반영 

    - 예를 들어 학교 마다 학생들의 성적이 공부 시간에 따라 달라지는 정도가 다르다.

        - 예를 들어 학교 A에서는 학생들이 5시간 공부하면 +10점이지만, B에서는 학생들이 5시간 공부하면 평균이 +20이 된다. 

        

    => random intercept는 집단 간의 차이를 반영하고, random slope는 집단 간에 변수의 효과가 다를 때 주목한다. 

     


    Reference

     

    https://commresearch.arizona.edu/classes/comm640/640_Book/docs/multilevel-logistic-regression.html#multilevel-logistic-regression-models

     

    Section 14 Multilevel Logistic Regression | Comm 640 Class Notes

    Welcome to Comm 640. These are your class notes in book(down) form.

    commresearch.arizona.edu

     

     

    https://study-easy.tistory.com/45

     

    언제 multilevel modeling (다층 모델링)을 해야할까?

    [통계 이야기/Multilevel model (다층 모형)] - Multilevel Modeling (다층 모델링)이 뭐임? [통계 이야기/Multilevel model (다층 모형)] - 언제 multilevel modeling (다층 모델링)을 해야할까? ◁ 현재 포스팅 [통계 이야

    study-easy.tistory.com