[단순회귀분석] 회귀선의 정도

통계/회귀분석

[단순회귀분석] 회귀선의 정도

할거없는중 2024. 1. 5. 02:09

회귀선만을 가지고는 관찰점들이 회귀선 주위에 어떻게 분포되어 있으며,

회귀선이 이 점들을 어느 정도 잘 대변하여 주고 있는가를 알기 어렵습니다.

위의 내용에 대해서 확인할 수 있는 방법으로 이번 글에서는

추정된 회귀선의 정도(precision)를 측정하는 여러 가지 측도에 대해서 알아보도록 하겠습니다.

추정값의 표준오차

이전 변수 x 와 y 간에 직선회귀모형 적합시킬 경우 2가지

가정 ① : 주어진 x에 대한 y의 기댓값들의 분포들은 모두 직선상에 위치
가정 ② : 오차에 대한 가정

$$y_i = \beta_0 + \beta_1x_i +\epsilon_i $$$$\epsilon_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$

에 대해서 성립한다고 가정하였는데 따라서 모든 x의 값에 대하여 종속변수 y의

기대값은 $$E(y) = \mu_{y|x} = \beta_0 + \beta_1x$$
분산은 σ²이라 생각할 수 있습니다

y의 측정값들이 회귀선 주위에 모두 가깝게 있다면 σ의 추정값은 작아지고,

이와 반대로 y의 값들이 회귀선으로부터 멀리 떨어져 있는 것이 많으면 σ의 추정값이 커집니다.

회귀로부터의 평균제곱편차를 다음과 같이 정의합니다.

$$ {s_{y|x}}^2=\frac{\sum e_i^2}{n-2}=\frac{\sum (y_i-\hat y_i)^2}{n-2} $$

이것이 바로 σ² 의 불편추정값(unbiased estimate)이 됩니다.

따라서, 표본의 자료에서 구해지는 회귀에서의 표준편차는 다음과 같습니다.

$$ {s_{y|x}}=\sqrt{\frac{\sum (y_i-\hat y_i)^2}{n-2}} $$

이것을 추정값의 표준오차라고 합니다.

결정계수

추정된 회귀선의 정도를 측정하는다른 방법으로 다음의 식을 고려해 보겠습니다.

$$ (y_i - \bar y) = (y_i - \hat y) + (\hat y_i - \bar y) $$

그림으로 보면

제곱하여 모든 i에 대한 합으로 나타내면

$$ \sum_{i=1}^{n}(y_i-\overline{y})^2=\sum_{i=1}^{n}(y_i-\hat{y}_i\; + \; \hat{y}_i-\bar{y})^2 $$$$ =\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\; + \; \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2 + 2 \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\bar{y}) $$

오른쪽 마지막항에서
$$ \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i - \bar{y}) = \sum_{i=1}^{n} e_i ( \hat y_i - \bar{y} ) = \sum_{i=1}^{n} \hat y_i e_i- \bar{y} \sum_{i=1}^{n} e_i$$

적합된 회귀선의 성질중

(1) 잔차들의 합은 0이다. $$\sum e_i = 0 $$
(2) 잔차들의 xᵢ 에 의한 가중합은 0이다. $$ \sum x_i e_i = 0 $$
(3) 잔차들의 ŷ에 의한 가중합은 0이다. $$ \sum \hat y_i e_i = 0 $$

1번과 3번 성질에 의해서 0이 됩니다.

$$ \sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i - \bar{y}) = \sum_{i=1}^{n} \hat y_i e_i- \bar{y} \sum_{i=1}^{n} e_i = 0 $$

남은 식에 대해서 나타나면 다음과 같고

$$ \sum_{i=1}^{n}(y_i-\overline{y})^2 = \sum_{i=1}^{n}(y_i-\hat{y}_i)^2\; + \; \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2 ) $$

여기서 각 부분은 다음과 같습니다.

SST : 총 변동 (전체제곱합)
SSE : 회귀선에 의해서 설명 안 되는 변동 (잔차제곱합)
SSR : 회귀선에 의하여 설명되는 변동 (회귀제곱합)

위의 내용을 식에 표현하면 다음과 같습니다.

$$ \underbrace{\sum_{i=1}^{n}(y_i-\overline{y})^2}_{SST} = \underbrace{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}_{SSE} \; + \; \underbrace{ \sum_{i=1}^{n} (\hat{y}_i-\bar{y})^2}_{SSR} $$

위의 변동들에 대하여 다음의 비율은 총 변동 중에서 회귀선에 의하여 설명되는 비율입니다.

$$ r^{2}=\frac{SSR}{SST}=1-\frac{SSE}{SST}\;\;\; ,\;between\; 0\; and\; 1 $$

이때 r² 을 표본결정계수라고 정의합니다.

일반적으로 r² 의 값은 0에서 1 사이에 있으며,

x와 y 사이에 높은 상관관계가 있을수록 1에 가까워집니다.

결정계수는 총변동을 설명하는 데 있어서

회귀선에 의하여 설명되는 변동이 기여하는 비율을 의미하므로

결정계수를 회귀선의 기여율이라고 부르기도 합니다.

정리하면

회귀선의 정도를 측정하는 데 있어서

추정값의 표준오차
결정계수

2가지 경우에 대해서 알아보았습니다.

이외에도 상관계수나 분산분석의 F-검정으로부터의 측정이 가능한데,

이것들은 다음의 상관분석과 분산분석에서 다루도록 하겠습니다.

'통계 > 회귀분석' 카테고리의 다른 글

[단순회귀분석] 단순회귀에 관한 추론 (0)	2024.01.10
[단순회귀분석] 상관분석과 분산분석 (0)	2024.01.05
[단순회귀분석] 회귀선의 추정 (2)	2024.01.04
[단순회귀분석] 회귀분석의 기본개념 (0)	2024.01.04
[머리말] 회귀분석이란 (0)	2024.01.03

현재글[단순회귀분석] 회귀선의 정도

통계학, 컴퓨터공학을 전공중인 학부생 대학강의 내용을 나름대로 정리하려 블로그를 시작합니다.

단순회귀분석, 중회귀, 다중회귀, 단순회귀분석 추론, 적합된 회귀선의 성질, 다중회귀분석, 추정값의 표준오차, 결정계수, 기본 가정, 회귀선의 정도, 다중회귀 구간추정, 중회귀 구간추정, 최대가능도추정법, 회귀분석, 중회귀분석, 분산분석표, 신뢰구간, 다중회귀 검정, 중회귀 검정, 다중회귀 추론,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

할거없는 블로그