통계/회귀분석

[단순회귀분석] 회귀선의 정도

할거없는중 2024. 1. 5. 02:09

회귀선만을 가지고는 관찰점들이 회귀선 주위에 어떻게 분포되어 있으며,

회귀선이 이 점들을 어느 정도 잘 대변하여 주고 있는가를 알기 어렵습니다.

 

위의 내용에 대해서 확인할 수 있는 방법으로 이번 글에서는

추정된 회귀선의 정도(precision)를 측정하는 여러 가지 측도에 대해서 알아보도록 하겠습니다.

 


추정값의 표준오차

이전 변수 x 와 y 간에 직선회귀모형 적합시킬 경우 2가지 

  • 가정 ① : 주어진 x에 대한 y의 기댓값들의 분포들은 모두 직선상에 위치
  • 가정 ② : 오차에 대한 가정
$$y_i = \beta_0 + \beta_1x_i +\epsilon_i $$$$\epsilon_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$

 

에 대해서 성립한다고 가정하였는데 따라서 모든 x의 값에 대하여 종속변수 y의

기대값은 $$E(y) = \mu_{y|x} = \beta_0 + \beta_1x$$
분산은 σ²이라 생각할 수 있습니다

 

y의 측정값들이 회귀선 주위에 모두 가깝게 있다면 σ의 추정값은 작아지고,

이와 반대로 y의 값들이 회귀선으로부터 멀리 떨어져 있는 것이 많으면 σ의 추정값이 커집니다.

 

회귀로부터의 평균제곱편차를 다음과 같이 정의합니다.

$$ {s_{y|x}}^2=\frac{\sum e_i^2}{n-2}=\frac{\sum (y_i-\hat y_i)^2}{n-2} $$

이것이 바로 σ² 의 불편추정값(unbiased estimate)이 됩니다.

 

따라서, 표본의 자료에서 구해지는 회귀에서의 표준편차는 다음과 같습니다.

$$ {s_{y|x}}=\sqrt{\frac{\sum (y_i-\hat y_i)^2}{n-2}} $$

이것을 추정값의 표준오차라고 합니다.

 


결정계수

추정된 회귀선의 정도를 측정하는다른 방법으로 다음의 식을 고려해 보겠습니다.

$$ (y_i - \bar y) = (y_i - \hat y) + (\hat y_i - \bar y) $$

그림으로 보면

 

제곱하여 모든 i에 대한 합으로 나타내면

$$ \sum_{i=1}^{n}(y_i-\overline{y})^2=\sum_{i=1}^{n}(y_i-\hat{y}_i\; + \; \hat{y}_i-\bar{y})^2 $$$$ =\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\; + \; \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2 + 2 \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\bar{y}) $$

 

오른쪽 마지막항에서
$$  \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i - \bar{y}) = \sum_{i=1}^{n} e_i ( \hat y_i - \bar{y} ) = \sum_{i=1}^{n} \hat y_i e_i- \bar{y} \sum_{i=1}^{n} e_i$$ 

 

적합된 회귀선의 성질중

(1) 잔차들의 합은 0이다. $$\sum e_i = 0 $$
(2) 잔차들의 xᵢ 에 의한 가중합은 0이다. $$ \sum x_i e_i = 0 $$
(3) 잔차들의 ŷ에 의한 가중합은 0이다. $$ \sum \hat y_i e_i = 0 $$

 

1번과 3번 성질에 의해서 0이 됩니다.

$$  \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i - \bar{y}) =  \sum_{i=1}^{n} \hat y_i e_i- \bar{y} \sum_{i=1}^{n} e_i = 0 $$ 

 

남은 식에 대해서 나타나면 다음과 같고

$$ \sum_{i=1}^{n}(y_i-\overline{y})^2 = \sum_{i=1}^{n}(y_i-\hat{y}_i)^2\; + \; \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2 ) $$

 

여기서 각 부분은 다음과 같습니다.

 

 

SST : 총 변동 (전체제곱합)
SSE : 회귀선에 의해서 설명 안 되는 변동 (잔차제곱합)
SSR : 회귀선에 의하여 설명되는 변동 (회귀제곱합)

 

위의 내용을 식에 표현하면 다음과 같습니다.

$$ \underbrace{\sum_{i=1}^{n}(y_i-\overline{y})^2}_{SST} = \underbrace{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}_{SSE} \; + \; \underbrace{ \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2}_{SSR} $$

 

위의 변동들에 대하여 다음의 비율은 총 변동 중에서 회귀선에 의하여 설명되는 비율입니다.

$$ r^{2}=\frac{SSR}{SST}=1-\frac{SSE}{SST}\;\;\; ,\;between\; 0\; and\; 1 $$

이때 r² 을 표본결정계수라고 정의합니다.

일반적으로 r² 의 값은 0에서 1 사이에 있으며,

x와 y 사이에 높은 상관관계가 있을수록 1에 가까워집니다.

 

결정계수는 총변동을 설명하는 데 있어서

회귀선에 의하여 설명되는 변동이 기여하는 비율을 의미하므로 

결정계수를 회귀선의 기여율이라고 부르기도 합니다.

 


정리하면

회귀선의 정도를 측정하는 데 있어서

  • 추정값의 표준오차
  • 결정계수

 

2가지 경우에 대해서 알아보았습니다.

 

이외에도 상관계수나 분산분석의 F-검정으로부터의 측정이 가능한데,

이것들은 다음의 상관분석과 분산분석에서 다루도록 하겠습니다.