통계/통계의 첫 한입 물었을 시기

회귀적합도

할거없는중 2023. 1. 15. 03:16

앞 내용에서 반응변수(y) 값의 좋은 예측변수(x)를 찾기 위해

최소제곱(Least Squares)을 이용하였는데

이때 최선의 적합(the best possible fit)이라 할 수 있지만

좋은 예측력(predictive power)이라 할 수 없다.

(예시로 x말고 z가 있는 다른 예측변수가 있는 경우)

 

이번 글에서는 적합도에 대해 알아보고자 한다.

먼저 평균에 대한 y의 변동을 식으로 표현하면

i=1n(yiy¯)2

이러한 식을 SST(Total Sum of Squares)(전체제곱합)이라고 한다.

 

평균으로부터 y값의 일탈(deviation)을

회귀선으로부터 y값의 일탈과 평균으로부터 회귀선의 일탈의 합으로 표현하면

yiy=yiy^i+y^iy¯

그림으로 보면

 

 

 

위의 식을 양변 제곱하여 더한 값을 표현하면 

i=1n(yiy)2=i=1n(yiy^i+y^iy¯)2

=i=1n(yiy^i)2+i=1n(y^iy¯)2+2i=1n(yiy^i)(y^iy¯)

이때

2i=1n(yiy^i)(y^iy¯)=2i=1ny^i(yiy^i)2y¯i=1n(yiy^i)

 

위의 식의 값을 구하기 위해 이전 최소제곱추정을 했던 식에서

 

 

다음을 이용하여

Qb0=(2)i=1n(yiy^i)=(2)i=1ne^i=0

Qb1=(2)i=1n(yiy^i)xi=(2)i=1ne^ixi=0

다음과 같이 나타낼 수 있고 두 식을 이용해

i=1ne^iy^i=i=1ne^i(b0+b1xi)

=b0i=1ne^i=0+b1i=1ne^ixi=0=0

 

다시 돌아가서 다음의 식에서

i=1n(yiy^i)(y^iy¯)=2i=1ny^i(yiy^ie^i)2y¯i=1n(yiy^ie^i)

최소제곱추정을 통해 구한 값을 대입하면=2i=1ny^iei=02y¯i=1nei=0=0

 

따라서 위의 식을

i=1n(yiy)2=i=1n(yiy^i)2+i=1n(y^iy¯)2+2i=1n(yiy^i)(y^iy¯)=0

 

평균으로부터 회귀선의 일탈의 제곱합은
SSE(The Sum of Squares Error)(오차제곱합)라 하고

회귀선으로부터 y값의 일탈의 제곱합은
SSR(The Regression Sum of Squares)(회귀제곱합)라 하는데

 

이러한 내용을 식에서 보면

i=1n(yiy)2SST=i=1n(yiy^i)2SSE+i=1n(y^iy¯)2SSR

 

그림으로 표현하면

 

 

이러한 값을 이용하여 회귀식의 적합도 평가를 유용하게 하는 분산분석표를 작성할 수 있다.

 

분산분석표는 ANOVA Table(ANalysis Of VAriance table)로

표로 다음과 같이 작성한다.

 

SSR은 회귀선에 의해 설명되는 변동이고

SSE은 회귀선에 의해 설명되지 않는 변동으로

 

만약 x와 y 간에 정확한 관계(exact relationship)이면

SSE=0이 되므로 SST=SSR이 되는데 이러한 경우는 거의 없을 것이다.

 

그러기에 얼마나 정확한 관계에 근접하는지를 측정하기 위해

전체 변동에서 회귀선에 의해 설명되는 변동의 비율

즉 SST에서의 SSR의 비율인

R² (the coefficient of determination)(결정계수)을 이용한다.

R² (결정계수)
R2=SSRSST(=1SSESST)between0and1
R² 이 0에 가까울수록 회귀선의 의미가 떨어지고
R² 이 1에 가까울수록 회귀선의 의미가 높아진다.

 

 (결정계수)를 이용하는 방법 말고 적합도에 대한 측정으로

F 통계량(F value)(F ratio)(F₀)을 이용하여 F Test 통해 측정할 수도 있다.F0=MSRMSE

 

가설이 아래와 같다 하면H0:β1=0Ha:β10

이때 다음과 같으면

F0>Fα(1,n2)

귀무가설을 기각해서 β₁ ≠ 0 라고 할 수 있다.

 

지난번 부동산 자료의 SAS output을 이용하여 적합도를 측정하면

 

 

 R² 이용한 적합도 측정

 

R² = 0.6647 or 66.47%

=> 회귀선이 자료의 66.47% 설명한다,

 

 F 이용한 적합도 측정

 

가설이 다음과 같을때

 

F₀ = 194.25이고

 

F분포표를 통해

***

 

유의수준 5%에서

F.₅(1, 98)의 값은 약 (4.00+3.92)/2=3.96

 

194.25 > 3.96 임으로 귀무가설을 기각할수 있다.

따라서 β₁ ≠ 0 

즉 "size(x)와 value(y)간에 유의미한 관계이다." 라고 할 수 있다.

'통계 > 통계의 첫 한입 물었을 시기' 카테고리의 다른 글

중회귀분석  (0) 2023.01.28
신뢰 구간 vs 예측 구간  (0) 2023.01.18
단순회귀분석에서의 검정  (0) 2023.01.13
단순회귀분석에서의 추론  (0) 2023.01.10
최소제곱추정량  (0) 2023.01.03