회귀선만을 가지고는 관찰점들이 회귀선 주위에 어떻게 분포되어 있으며,
회귀선이 이 점들을 어느 정도 잘 대변하여 주고 있는가를 알기 어렵습니다.
위의 내용에 대해서 확인할 수 있는 방법으로 이번 글에서는
추정된 회귀선의 정도(precision)를 측정하는 여러 가지 측도에 대해서 알아보도록 하겠습니다.
추정값의 표준오차
이전 변수 x 와 y 간에 직선회귀모형 적합시킬 경우 2가지
- 가정 ① : 주어진 x에 대한 y의 기댓값들의 분포들은 모두 직선상에 위치
- 가정 ② : 오차에 대한 가정
$$y_i = \beta_0 + \beta_1x_i +\epsilon_i $$$$\epsilon_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$
에 대해서 성립한다고 가정하였는데 따라서 모든 x의 값에 대하여 종속변수 y의
기대값은 $$E(y) = \mu_{y|x} = \beta_0 + \beta_1x$$
분산은 σ²이라 생각할 수 있습니다
y의 측정값들이 회귀선 주위에 모두 가깝게 있다면 σ의 추정값은 작아지고,
이와 반대로 y의 값들이 회귀선으로부터 멀리 떨어져 있는 것이 많으면 σ의 추정값이 커집니다.
회귀로부터의 평균제곱편차를 다음과 같이 정의합니다.
$$ {s_{y|x}}^2=\frac{\sum e_i^2}{n-2}=\frac{\sum (y_i-\hat y_i)^2}{n-2} $$
이것이 바로 σ² 의 불편추정값(unbiased estimate)이 됩니다.
따라서, 표본의 자료에서 구해지는 회귀에서의 표준편차는 다음과 같습니다.
$$ {s_{y|x}}=\sqrt{\frac{\sum (y_i-\hat y_i)^2}{n-2}} $$
이것을 추정값의 표준오차라고 합니다.
결정계수
추정된 회귀선의 정도를 측정하는다른 방법으로 다음의 식을 고려해 보겠습니다.
$$ (y_i - \bar y) = (y_i - \hat y) + (\hat y_i - \bar y) $$
그림으로 보면
제곱하여 모든 i에 대한 합으로 나타내면
$$ \sum_{i=1}^{n}(y_i-\overline{y})^2=\sum_{i=1}^{n}(y_i-\hat{y}_i\; + \; \hat{y}_i-\bar{y})^2 $$$$ =\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\; + \; \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2 + 2 \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\bar{y}) $$
오른쪽 마지막항에서
$$ \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i - \bar{y}) = \sum_{i=1}^{n} e_i ( \hat y_i - \bar{y} ) = \sum_{i=1}^{n} \hat y_i e_i- \bar{y} \sum_{i=1}^{n} e_i$$
적합된 회귀선의 성질중
(1) 잔차들의 합은 0이다. $$\sum e_i = 0 $$
(2) 잔차들의 xᵢ 에 의한 가중합은 0이다. $$ \sum x_i e_i = 0 $$
(3) 잔차들의 ŷ에 의한 가중합은 0이다. $$ \sum \hat y_i e_i = 0 $$
1번과 3번 성질에 의해서 0이 됩니다.
$$ \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i - \bar{y}) = \sum_{i=1}^{n} \hat y_i e_i- \bar{y} \sum_{i=1}^{n} e_i = 0 $$
남은 식에 대해서 나타나면 다음과 같고
$$ \sum_{i=1}^{n}(y_i-\overline{y})^2 = \sum_{i=1}^{n}(y_i-\hat{y}_i)^2\; + \; \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2 ) $$
여기서 각 부분은 다음과 같습니다.
SST : 총 변동 (전체제곱합)
SSE : 회귀선에 의해서 설명 안 되는 변동 (잔차제곱합)
SSR : 회귀선에 의하여 설명되는 변동 (회귀제곱합)
위의 내용을 식에 표현하면 다음과 같습니다.
$$ \underbrace{\sum_{i=1}^{n}(y_i-\overline{y})^2}_{SST} = \underbrace{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}_{SSE} \; + \; \underbrace{ \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2}_{SSR} $$
위의 변동들에 대하여 다음의 비율은 총 변동 중에서 회귀선에 의하여 설명되는 비율입니다.
$$ r^{2}=\frac{SSR}{SST}=1-\frac{SSE}{SST}\;\;\; ,\;between\; 0\; and\; 1 $$
이때 r² 을 표본결정계수라고 정의합니다.
일반적으로 r² 의 값은 0에서 1 사이에 있으며,
x와 y 사이에 높은 상관관계가 있을수록 1에 가까워집니다.
결정계수는 총변동을 설명하는 데 있어서
회귀선에 의하여 설명되는 변동이 기여하는 비율을 의미하므로
결정계수를 회귀선의 기여율이라고 부르기도 합니다.
정리하면
회귀선의 정도를 측정하는 데 있어서
- 추정값의 표준오차
- 결정계수
2가지 경우에 대해서 알아보았습니다.
이외에도 상관계수나 분산분석의 F-검정으로부터의 측정이 가능한데,
이것들은 다음의 상관분석과 분산분석에서 다루도록 하겠습니다.
'통계 > 회귀분석' 카테고리의 다른 글
[단순회귀분석] 단순회귀에 관한 추론 (0) | 2024.01.10 |
---|---|
[단순회귀분석] 상관분석과 분산분석 (0) | 2024.01.05 |
[단순회귀분석] 회귀선의 추정 (2) | 2024.01.04 |
[단순회귀분석] 회귀분석의 기본개념 (0) | 2024.01.04 |
[머리말] 회귀분석이란 (0) | 2024.01.03 |