통계/회귀분석

[단순회귀분석] 상관분석과 분산분석

할거없는중 2024. 1. 5. 14:20

먼저 이번 내용은 회귀선의 정도의 글에서의 연장선의 내용으로
회귀선의 정도를 측정하는 데 있어서

  • 추정값의 표준오차
  • 결정계수

 

2가지 경우에 대해서 알아보았었습니다.

 

이번에는 상관분석에서의 상관계수와
분산분석에서의 F-검정으로부터 측정하는 내용에 대해서 다루어 보려고 합니다

 


상관분석

상관계수

두 변수 x와 y 사이의 상관관계를 설명하는 데 결정계수가 쓰이기도 하지만,

결정계수는 x와 y의 관계가 음의 상관관계인지 양의 상관관계인지를 구별하지 못하는 단점을 가지고 있습니다.

 

이와 같은 단점을 보완하여 두 변량 간의 상호관계를 측정하는 측도로서 상관관계가 있습니다.

 

상관관계 r을 다음과 같이 구할 수 있습니다.

r=±r2

즉, 결정계수 r ² 의 제곱근이며,

만약 추정된 회귀선의 기울기 b₁ 이 양이면 양의 상관계수를 갖고

r=r2 기울기 b₁ 이 음이면 음의 상관계수를 가집니다.

r=r2 

결정계수 r ² 의 값이 0에서 1까지이므로 상관계수 r의 값은 -1에서 1까지이며

x와 y의 상관정도에 따라서 r의 값이 결정됩니다.

 

단순회귀분석에서는 x와 y의 함수관계를 

y=β0+β1x+ϵ

이와 같은 회귀모형식으로 나타내고

 

이때 y 만 확률 변수이고 x는 확률변수가 아니었는데(수학변수)

만약 x 도 또한 확률변수이고 x와 y 가 어떤 이변량분포를 하고 있다면

 

x와 y의 모집단상관계수는 다음과 같이 정의합니다.

ρxy=Cov(x,y)Var(x)Var(y)=σxyσxσy

 

모집단으로부터 크기가 n인 표본을 뽑았을 때 n개의 자료점이 얻어졌다면 이 두 변수 사이의 표본상관계수는 

rxy=S(xy)S(xx)S(yy)

다음과 같이 정의됩니다.

 

이때 상관계수는 두 변수 간의 선형관계가 어느 정도인가를 재는 측도이지

함수관계를 알아보는 측도는 아닙니다. (두 변수 간의 직선적인 관련성만을 측정하는 도구)

 

아래의 그림은 상관계수 값에 대한 예시로 상관계수에 대한 이해를 돕고자 가지고 왔습니다.
[출처] https://otexts.com/fppkr/graphics-scatterplots.html

 

 

이후 알아보게 될 중회귀나 곡선회귀에서 얻어지는 결정계수로부터는

상관계수 r을 구할 수 없기 때문에 상관계수 r을 구할 때에는

결정계수 r ² 의 값이 반드시 단순회귀분석에서 얻어지는 결정계수인가를 확인하여야 합니다.

 


분산분석

주어진 자료를 적합시키는 데 있어서 회귀직선이 유의한가 하는 것은 SSR이 상대적으로 SSE보다 어느 정도 큰가를 분산분석표를 만들어 알아볼 수 있습니다

 

이때 이전의 내용을 다시 가져와보면 SSR과 SSE의 의미는 다음과 같습니다.

SST : 총 변동 (전체제곱합)
SSE : 회귀선에 의해서 설명 안 되는 변동 (잔차제곱합)
SSR : 회귀선에 의하여 설명되는 변동 (회귀제곱합)

 

분산분석표를 보면 다음과 같습니다.

 

 

위의 분산분석표에서 MSE(Mean Squared Error) 에 대해서 보면

MSE=SSEn2이 부분에 대해 추정값의 표준오차를 구하는 과정에서의

회귀로부터의 평균제곱편차를 다음과 같이 정의했었는데

sy|x2=ei2n2=(yiy^i)2n2

다시 표현하면 다음과 같이 나타낼수 있다
sy|x2=ei2n2=(yiy^i)2n2=SSEn2=MSE

 

다음으로 F₀ (F-ratio)보면
F₀ (F-ratio)는 회귀의 평균제곱 MSR과 잔차의 평균제곱 MSE 와의 비율입니다.

 

F0=MSRMSE

이 비율이 크면 회귀제곱합이 잔차제곱합보다 상대적으로 커서 회귀선이 x와 y 간의 관계를 설명하는 데 유의하다는 의미가 됩니다.

 

가설검정의 내용을 추가하여 학습해 보면


가설이 다음과 같을 때

H0:β1=0Ha:β10

이와 같은 식이 성립한다면

F0>Fα(1,n2)

 

귀무가설을 기각해서 β₁ ≠ 0라고 할 수 있고

회귀선이 유의하다고 말합니다.

 


예제를 통한 회귀선의 정도 측정

예제를 통해 추정된 회귀선의 정도를 측정하는 방법을 적용시켜 보겠습니다.

 

예시로 부동산 자료의 회귀분석에 대한 SAS output을 이용하면

 

 

 R² (결정계수)를 이용

 

R² = 0.6647 or 66.47%

=> 회귀선이 자료의 66.47% 설명한다,

 

 F 이용

 

가설이 다음과 같을 때

 

F₀ = 194.25이고

 

F분포표를 통해

***

 

유의 수준 5%에서

F.₅(1, 98)의 값은 약 (4.00+3.92)/2=3.96

 

194.25 > 3.96 임으로 귀무가설을 기각할 수 있다.

따라서 β₁ ≠ 0 

즉 "size(x)와 value(y) 간에 유의미한 관계이다."라고 할 수 있다.

 


정리하면

회귀선의 정도를 측정하는 데 있어 
상관분석과 분산분석에 대해서 배움으로써

  • 추정값의 표준오차
  • 결정계수
  • 상관계수
  •  F₀ (F-ratio)

 

기존내용에서 추가적으로 2가지에 대해서 더 알아보았습니다.