회귀적합도

통계/통계의 첫 한입 물었을 시기

회귀적합도

할거없는중 2023. 1. 15. 03:16

앞 내용에서 반응변수(y) 값의 좋은 예측변수(x)를 찾기 위해

최소제곱(Least Squares)을 이용하였는데

이때 최선의 적합(the best possible fit)이라 할 수 있지만

좋은 예측력(predictive power)이라 할 수 없다.

(예시로 x말고 z가 있는 다른 예측변수가 있는 경우)

이번 글에서는 적합도에 대해 알아보고자 한다.

먼저 평균에 대한 y의 변동을 식으로 표현하면

$$\sum_{i=1}^{n}(y_i-\bar{y})^{2}$$

이러한 식을 SST(Total Sum of Squares)(전체제곱합)이라고 한다.

평균으로부터 y값의 일탈(deviation)을

회귀선으로부터 y값의 일탈과 평균으로부터 회귀선의 일탈의 합으로 표현하면

$$y_i-\overline{y}=y_i-\hat{y}_i\; + \; \hat{y}_i-\bar{y}$$

그림으로 보면

위의 식을 양변 제곱하여 더한 값을 표현하면

$$\sum_{i=1}^{n}(y_i-\overline{y})^2=\sum_{i=1}^{n}(y_i-\hat{y}_i\; + \; \hat{y}_i-\bar{y})^2$$

$$=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\; + \; \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2 + 2\sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\bar{y})$$

이때

$$2\sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\bar{y})=2\sum_{i=1}^{n}\hat{y}_i(y_i-\hat{y}_i)-2\bar{y}\sum_{i=1}^{n}(y_i-\hat{y}_i)$$

위의 식의 값을 구하기 위해 이전 최소제곱추정을 했던 식에서

다음을 이용하여

$$\frac{\partial Q}{\partial b_0}=(-2)\sum_{i=1}^{n}(y_i-\widehat{y}_i)=(-2)\sum_{i=1}^{n}\widehat{e}_i=0$$

$$\frac{\partial Q}{\partial b_1}=(-2)\sum_{i=1}^{n}(y_i-\widehat{y}_i)x_i=(-2)\sum_{i=1}^{n}\widehat{e}_ix_i=0$$

다음과 같이 나타낼 수 있고 두 식을 이용해

$$\sum_{i=1}^{n}\widehat{e}_i\; \widehat{y}_i=\sum_{i=1}^{n}\widehat{e}_i\; (b_0+b_1x_i)$$

$$=b_0\underbrace{\sum_{i=1}^{n}\widehat{e}_i}_{=0}+b_1\underbrace{\sum_{i=1}^{n}\widehat{e}_i\; x_i}_{=0}=0$$

다시 돌아가서 다음의 식에서

$$\sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\bar{y})=2\sum_{i=1}^{n}\hat{y}_i(\underbrace{y_i-\hat{y}_i}_{\hat{e}_i})-2\bar{y}\sum_{i=1}^{n}(\underbrace{y_i-\hat{y}_i}_{\hat{e}_i})$$

최소제곱추정을 통해 구한 값을 대입하면$$=2\underbrace{\sum_{i=1}^{n}\hat{y}_ie_i}_{=\, 0}-2\bar{y}\underbrace{\sum_{i=1}^{n}e_i}_{=\, 0}=0$$

따라서 위의 식을

$$\sum_{i=1}^{n}(y_i-\overline{y})^2=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\; + \; \sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2 + \underbrace{2\sum_{i=1}^{n}(y_i-\hat{y}_i)(\hat{y}_i-\bar{y})}_{=\, 0}$$

평균으로부터 회귀선의 일탈의 제곱합은
SSE(The Sum of Squares Error)(오차제곱합)라 하고

회귀선으로부터 y값의 일탈의 제곱합은
SSR(The Regression Sum of Squares)(회귀제곱합)라 하는데

이러한 내용을 식에서 보면

$$\underbrace{\sum_{i=1}^{n}(y_i-\overline{y})^2}_{SST}=\underbrace{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}_{SSE}\; + \; \underbrace{\sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2}_{SSR}$$

그림으로 표현하면

이러한 값을 이용하여 회귀식의 적합도 평가를 유용하게 하는 분산분석표를 작성할 수 있다.

분산분석표는 ANOVA Table(ANalysis Of VAriance table)로

표로 다음과 같이 작성한다.

SSR은 회귀선에 의해 설명되는 변동이고

SSE은 회귀선에 의해 설명되지 않는 변동으로

만약 x와 y 간에 정확한 관계(exact relationship)이면

SSE=0이 되므로 SST=SSR이 되는데 이러한 경우는 거의 없을 것이다.

그러기에 얼마나 정확한 관계에 근접하는지를 측정하기 위해

전체 변동에서 회귀선에 의해 설명되는 변동의 비율

즉 SST에서의 SSR의 비율인

R² (the coefficient of determination)(결정계수)을 이용한다.

R² (결정계수)
$$R^{2}=\frac{SSR}{SST}(=1-\frac{SSE}{SST})\; \; \; between\; 0\; and\; 1$$
R² 이 0에 가까울수록 회귀선의 의미가 떨어지고
R² 이 1에 가까울수록 회귀선의 의미가 높아진다.

R² (결정계수)를 이용하는 방법 말고 적합도에 대한 측정으로

F 통계량(F value)(F ratio)(F₀)을 이용하여 F Test 통해 측정할 수도 있다.$$F_{0}=\frac{MSR}{MSE}$$

가설이 아래와 같다 하면$$H_0:\beta_1=0$$$$H_a:\beta_1\neq 0 $$

이때 다음과 같으면

$$F_{0}> F_\alpha(1,n-2)$$

귀무가설을 기각해서 β₁ ≠ 0 라고 할 수 있다.

지난번 부동산 자료의 SAS output을 이용하여 적합도를 측정하면

① R² 이용한 적합도 측정

R² = 0.6647 or 66.47%

=> 회귀선이 자료의 66.47% 설명한다,

② F₀ 이용한 적합도 측정

가설이 다음과 같을때

F₀ = 194.25이고

F분포표를 통해

***

유의수준 5%에서

F₀.₀₅(1, 98)의 값은 약 (4.00+3.92)/2=3.96

194.25 > 3.96 임으로 귀무가설을 기각할수 있다.

따라서 β₁ ≠ 0

즉 "size(x)와 value(y)간에 유의미한 관계이다." 라고 할 수 있다.

'통계 > 통계의 첫 한입 물었을 시기' 카테고리의 다른 글

중회귀분석 (0)	2023.01.28
신뢰 구간 vs 예측 구간 (0)	2023.01.18
단순회귀분석에서의 검정 (0)	2023.01.13
단순회귀분석에서의 추론 (0)	2023.01.10
최소제곱추정량 (0)	2023.01.03

현재글회귀적합도

통계학, 컴퓨터공학을 전공중인 학부생 대학강의 내용을 나름대로 정리하려 블로그를 시작합니다.

중회귀, 중회귀 구간추정, 결정계수, 다중회귀 추론, 신뢰구간, 추정값의 표준오차, 적합된 회귀선의 성질, 중회귀분석, 회귀선의 정도, 다중회귀 검정, 기본 가정, 단순회귀분석, 단순회귀분석 추론, 최대가능도추정법, 다중회귀, 회귀분석, 다중회귀분석, 중회귀 검정, 분산분석표, 다중회귀 구간추정,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

할거없는 블로그