통계분석

[통계분석]로지스틱 회귀에서 피어슨 잔차, 디비언스, 디비언스 잔차(residuals)

dondon-a 2024. 6. 20. 01:20
반응형

로지스틱 회귀 분석에서는 모델의 적합도를 평가하고 진단하기 위해 다양한 잔차와 통계량을 사용합니다. 여기서는 피어슨 잔차, 디비언스(Deviance), 디비언스 잔차에 대해 설명하겠습니다.

1. 피어슨 잔차 (Pearson Residuals)

피어슨 잔차는 관측된 값과 예측된 값의 차이를 표준화한 것입니다. 로지스틱 회귀 모델에서는 다음과 같이 정의됩니다:

[ r_i = \frac{y_i - \hat{y}_i}{\sqrt{\hat{y}_i (1 - \hat{y}_i)}} ]

여기서:

  • ( y_i )는 관측된 종속 변수의 값입니다.
  • ( \hat{y}_i )는 예측된 종속 변수의 값입니다.

피어슨 잔차는 각 관측값이 모델에서 예측된 값과 얼마나 차이가 나는지 보여줍니다.

2. 디비언스 (Deviance)

디비언스는 모델의 적합도를 평가하는 데 사용되는 통계량입니다. 디비언스는 최대 우도(최적 모델)와 비교하여 현재 모델이 얼마나 잘 설명하고 있는지를 나타냅니다. 로지스틱 회귀 모델에서는 다음과 같이 정의됩니다:

 

\[ D = 2 \sum_{i=1}^{n} \left[ y_i \log\left(\frac{y_i}{\hat{y}_i}\right) + (1 - y_i) \log\left(\frac{1 - y_i}{1 - \hat{y}_i}\right) \right] \]

여기서:

  • ( n )은 관측값의 수입니다.
  • ( y_i )는 관측된 종속 변수의 값입니다.
  • ( \hat{y}_i )는 예측된 종속 변수의 값입니다.

디비언스는 모델이 얼마나 잘 적합되는지를 나타내며, 값이 작을수록 모델이 데이터를 잘 설명한다는 것을 의미합니다.

3. 디비언스 잔차 (Deviance Residuals)

디비언스 잔차는 각 관측값에 대한 디비언스의 기여도를 나타냅니다. 이는 디비언스 통계량을 개별 관측값 수준으로 세분화한 것입니다. 로지스틱 회귀 모델에서는 다음과 같이 정의됩니다:

[ d_i = \text{sign}(y_i - \hat{y}_i) \sqrt{2 \left[ y_i \log\left(\frac{y_i}{\hat{y}_i}\right) + (1 - y_i) \log\left(\frac{1 - y_i}{1 - \hat{y}_i}\right) \right]} ]

여기서:

  • (\text{sign}(y_i - \hat{y}_i))는 관측값과 예측값의 차이의 부호를 의미합니다.

디비언스 잔차는 관측값과 예측값 사이의 차이가 디비언스에 어떻게 기여하는지를 보여줍니다. 디비언스 잔차는 일반적으로 진단 플롯에 사용되어 모델 적합성을 평가합니다.

요약

  • 피어슨 잔차: 관측된 값과 예측된 값의 차이를 표준화한 잔차.
  • 디비언스: 모델의 적합도를 평가하는 통계량으로, 값이 작을수록 모델이 데이터를 잘 설명.
  • 디비언스 잔차: 각 관측값에 대한 디비언스의 기여도를 나타내는 잔차로, 모델 진단에 사용.

이러한 통계량과 잔차를 통해 로지스틱 회귀 모델의 적합도와 예측 성능을 평가하고, 모델이 데이터의 구조를 얼마나 잘 설명하는지 판단할 수 있습니다.

 

 

 

반응형