통계/회귀분석

[단순회귀분석] 회귀선의 정도

할거없는중 2024. 1. 5. 02:09

회귀선만을 가지고는 관찰점들이 회귀선 주위에 어떻게 분포되어 있으며,

회귀선이 이 점들을 어느 정도 잘 대변하여 주고 있는가를 알기 어렵습니다.

 

위의 내용에 대해서 확인할 수 있는 방법으로 이번 글에서는

추정된 회귀선의 정도(precision)를 측정하는 여러 가지 측도에 대해서 알아보도록 하겠습니다.

 


추정값의 표준오차

이전 변수 x 와 y 간에 직선회귀모형 적합시킬 경우 2가지 

  • 가정 ① : 주어진 x에 대한 y의 기댓값들의 분포들은 모두 직선상에 위치
  • 가정 ② : 오차에 대한 가정
yi=β0+β1xi+ϵiϵi~iidN(0,σ2)

 

에 대해서 성립한다고 가정하였는데 따라서 모든 x의 값에 대하여 종속변수 y의

기대값은 E(y)=μy|x=β0+β1x
분산은 σ²이라 생각할 수 있습니다

 

y의 측정값들이 회귀선 주위에 모두 가깝게 있다면 σ의 추정값은 작아지고,

이와 반대로 y의 값들이 회귀선으로부터 멀리 떨어져 있는 것이 많으면 σ의 추정값이 커집니다.

 

회귀로부터의 평균제곱편차를 다음과 같이 정의합니다.

sy|x2=ei2n2=(yiy^i)2n2

이것이 바로 σ² 의 불편추정값(unbiased estimate)이 됩니다.

 

따라서, 표본의 자료에서 구해지는 회귀에서의 표준편차는 다음과 같습니다.

sy|x=(yiy^i)2n2

이것을 추정값의 표준오차라고 합니다.

 


결정계수

추정된 회귀선의 정도를 측정하는다른 방법으로 다음의 식을 고려해 보겠습니다.

(yiy¯)=(yiy^)+(y^iy¯)

그림으로 보면

 

제곱하여 모든 i에 대한 합으로 나타내면

i=1n(yiy)2=i=1n(yiy^i+y^iy¯)2=i=1n(yiy^i)2+i=1n(y^iy¯)2+2i=1n(yiy^i)(y^iy¯)

 

오른쪽 마지막항에서
i=1n(yiy^i)(y^iy¯)=i=1nei(y^iy¯)=i=1ny^ieiy¯i=1nei 

 

적합된 회귀선의 성질중

(1) 잔차들의 합은 0이다. ei=0
(2) 잔차들의 xᵢ 에 의한 가중합은 0이다. xiei=0
(3) 잔차들의 ŷ에 의한 가중합은 0이다. y^iei=0

 

1번과 3번 성질에 의해서 0이 됩니다.

i=1n(yiy^i)(y^iy¯)=i=1ny^ieiy¯i=1nei=0 

 

남은 식에 대해서 나타나면 다음과 같고

i=1n(yiy)2=i=1n(yiy^i)2+i=1n(y^iy¯)2)

 

여기서 각 부분은 다음과 같습니다.

 

 

SST : 총 변동 (전체제곱합)
SSE : 회귀선에 의해서 설명 안 되는 변동 (잔차제곱합)
SSR : 회귀선에 의하여 설명되는 변동 (회귀제곱합)

 

위의 내용을 식에 표현하면 다음과 같습니다.

i=1n(yiy)2SST=i=1n(yiy^i)2SSE+i=1n(y^iy¯)2SSR

 

위의 변동들에 대하여 다음의 비율은 총 변동 중에서 회귀선에 의하여 설명되는 비율입니다.

r2=SSRSST=1SSESST,between0and1

이때 r² 을 표본결정계수라고 정의합니다.

일반적으로 r² 의 값은 0에서 1 사이에 있으며,

x와 y 사이에 높은 상관관계가 있을수록 1에 가까워집니다.

 

결정계수는 총변동을 설명하는 데 있어서

회귀선에 의하여 설명되는 변동이 기여하는 비율을 의미하므로 

결정계수를 회귀선의 기여율이라고 부르기도 합니다.

 


정리하면

회귀선의 정도를 측정하는 데 있어서

  • 추정값의 표준오차
  • 결정계수

 

2가지 경우에 대해서 알아보았습니다.

 

이외에도 상관계수나 분산분석의 F-검정으로부터의 측정이 가능한데,

이것들은 다음의 상관분석과 분산분석에서 다루도록 하겠습니다.