통계/통계의 첫 한입 물었을 시기

단순회귀분석에서의 검정

할거없는중 2023. 1. 13. 23:27

지난 글에서 b₀, b₁의 표본분포를 구함으로서 회귀 방정식에 대한 검정을 할 수 있다.

(즉 회귀 방정식에 대해 추론을 할 수 있다.)

가장 흔한 test는 x의 변수가 y의 변수에 영향을 주는지에 대한 것으로 

β₁에 대한 가설검정을 다음과 같이 나타낸다.

H0:β1=0Ha:β10

만약 H₀가 true라면, 회귀 방정식은 x의 값에 상관없이 y는 같은 값인 평평한 선이다.

T-test는 다음과 같은데 (n은 자료의 수)

t0=b1β10S.E.(b1)tn2
ifHo:β1=β10istrue

만약 H : β₁=0라면

t0=b1MSE/Sxxtn2

 

절편인 β₀에 대해서도 가설검정을 할 수 있는데

절편은 x=0에서의 y의 값으로

예를 들어 가로등 설치수(x)에 따른 설치비용(y)이라고 하고

y는 독립변수인 x에 의해서만 영향받는다고 할 때

x의 영향을 받지 않는 비용을 고정비용이라 하고 이는 절편에 해당한다.

 

부동산 시세에 대한 자료를 이용해 여러 검정들을 해보기 위해

부동산 시세에 대한 자료를 SAS를 통해 보면

 

***

 

다음과 같은 엑셀형식의 자료를 사용하였고

이때 자료수는 총 100개 x=size(평수), y=value(가격)이다.

 

SAS코드를 통해서 t value를 구해보면

 

결과값으로

 

 

먼저 size와 value이 유의미한 관계가 있는지 알아보기 위해

귀무가설을 "size와 value 간에 유의미한 관계가 없다."라고 하면

가설검정은 다음과 같다.

H0:β1=0

Ha:β10

 

다음으로 유의 수준 5%에서 검정한다고 했을 때

먼저 t분포표에서 유의 수준 0.025에 자유도 98(100-2)인 부분을 찾으면

(이때 양측검정이므로 α=0.025인 부분을 찾아야 한다.)

***

 

t₀.₀₂₅(98)는 1.9845 임을 구할 수 있고

Dicision rule은 다음과 같다.

RejectH0ift0>1.9845ort0<1.9845

t₀의 값은 위에서 SAS코드를 통해 구한 값을 보면

 

 

t₀는 13.94 임을 알 수 있다.

따라서 13.94>1.9845 임으로

"size와 value 간에 유의미한 관계가 있다."라고 할 수 있다.

 

위에서 β₁에 대해 양측검정에 대한 예시를 보았고

다음으로 단측검정에 대해 보면

H0:β1=0

Ha:β1>0

유의 수준 5%에서 검정한다고 했을 때

t분포표에서 유의 수준 0.05에 자유도 98(100-2)인 부분을 찾으면

(이때 단측검정이므로 α=0.05인 부분을 찾아야 한다.)

 

 

t₀.₅(98)는 1.6606

Dicision rule은

RejectH0ift0>1.6606

 

 

t₀는 13.94으로 13.94>1.6606 H₀(귀무가설)을 기각(reject)할 수 있으므로

"size가 증가함에 따라 value이 증가한다."라고 할 수 있다.

 

0이 아닌 다른 값에 대해 보면

귀무가설을 "size당 value가 50 이상이다."라고 했을 때

H0:β150

Ha:β1<50

유의 수준 5%에서 검정한다고 했을 때

t분포표에서 유의 수준 0.05에 자유도 98(100-2)인 부분을 찾으면

(이때 단측검정이므로 α=0.05인 부분을 찾아야 한다.)

위와 마찬가지로 t₀.₅(98)는 1.6606

Dicision rule은

RejectH0ift0>1.6606

이때 t₀의 값은 SAS코드의 결과값을 이용할 수 없는데

 

 

위의 결과값의 경우

t0=b1β10S.E.(b1)tn2

ifHo:β1=β10istrue

β₁₀=0인 경우에 나타낸 것으로

β₁₀=0이 아닌 다른 값일 경우 직접 구해야 된다.

t0=b150Sb1=72.82505.22=4.37

t₀는 4.37으로 4.37>1.6606 H₀(귀무가설)을 기각(reject)할 수 있으므로

"size당 value가 50보다 적은값이다."라고 할 수 있다.

 

귀무가설을 "size당 value가 50 이하이다."라고 했을 때

H0:β150

Ha:β1>50

t₀는 4.37으로 4.37>1.6606 H₀(귀무가설)을 기각(reject)할 수 있으므로

"size당 value가 50보다 적은값이다."라고 할 수 있고

귀무가설을 "size당 value가 50 이상이다."라고 했을 때와 같은 결과가 나온다.

 

마지막으로 절편에 대해서 보면 

절편이 0인지 알아보기 위해

귀무가설을 "고정비용이 0이다."라고 했을 때

H0:β0=0

Ha:β00

유의 수준 5%에서 검정한다고 했을 때

먼저 t분포표에서 유의 수준 0.025에 자유도 98(100-2)인 부분을 찾으면

(이때 양측검정이므로 α=0.025인 부분을 찾아야 한다.)

t₀.₀₂₅(98)는 1.9845 임을 구할 수 있고

 

Dicision rule은 다음과 같다.

RejectH0ift0>1.9845ort0<1.9845

t₀의 값은 위에서 SAS코드를 통해 구한 값을 보면

 

 

t₀는 -6.74 임을 알 수 있다.

따라서 -6.74 < -1.9845 임으로 H₀(귀무가설)을 기각(reject) 할 수 있으므로

"고정비용이 0이 아니다."라고 할 수 있다.

 

β₀, β₁ 신뢰구간의 경우 저번 글에서 구했었는데

다시 한번 적어보면

β₀의 신뢰구간b0±tn2,α/2×S.E.(β^0)β₁의 신뢰구간b1±tn2,α/2×S.E.(β^1)

부동산 시세  자료값에서 신뢰수준 95%인 신뢰구간을 구하면

 

 

이때 α = 0.05이고 α/2=0.025이므로 

t₀.₀₂₅(98)는 1.9845 값을 이용해서 구하면

 

β₀의 95% 신뢰구간

50035±1.9845×7422.678

β₁의 95% 신뢰구간

72.82±1.9845×5.225

 

 

 

정리하면

지난 글에 이여서 단순회귀분석에서의 추론에 대해 알아보았는데

 

지난 글에서 추론을 위해 2가지의 가정들이 필요했고

이러한 가정들을 통해 b₀, b₁의 표본분포를 구했다.

 

이번 글에서는 이렇게 구한 b₀, b₁의 표본분포를 통해서

β₀, β₁에 대해서 가설검정과 신뢰구간을 구할 수 있음을 알 수 있었다.

 

'통계 > 통계의 첫 한입 물었을 시기' 카테고리의 다른 글

신뢰 구간 vs 예측 구간  (0) 2023.01.18
회귀적합도  (0) 2023.01.15
단순회귀분석에서의 추론  (0) 2023.01.10
최소제곱추정량  (0) 2023.01.03
회귀분석이란  (0) 2023.01.02