지난 글에서 b₀, b₁의 표본분포를 구함으로서 회귀 방정식에 대한 검정을 할 수 있다.
(즉 회귀 방정식에 대해 추론을 할 수 있다.)
가장 흔한 test는 x의 변수가 y의 변수에 영향을 주는지에 대한 것으로
β₁에 대한 가설검정을 다음과 같이 나타낸다.
만약 H₀가 true라면, 회귀 방정식은 x의 값에 상관없이 y는 같은 값인 평평한 선이다.
T-test는 다음과 같은데 (n은 자료의 수)
만약 H₀ : β₁=0라면
절편인 β₀에 대해서도 가설검정을 할 수 있는데
절편은 x=0에서의 y의 값으로
예를 들어 가로등 설치수(x)에 따른 설치비용(y)이라고 하고
y는 독립변수인 x에 의해서만 영향받는다고 할 때
x의 영향을 받지 않는 비용을 고정비용이라 하고 이는 절편에 해당한다.
부동산 시세에 대한 자료를 이용해 여러 검정들을 해보기 위해
부동산 시세에 대한 자료를 SAS를 통해 보면

***

다음과 같은 엑셀형식의 자료를 사용하였고
이때 자료수는 총 100개 x=size(평수), y=value(가격)이다.
SAS코드를 통해서 t value를 구해보면


결과값으로

먼저 size와 value이 유의미한 관계가 있는지 알아보기 위해
귀무가설을 "size와 value 간에 유의미한 관계가 없다."라고 하면
가설검정은 다음과 같다.
다음으로 유의 수준 5%에서 검정한다고 했을 때
먼저 t분포표에서 유의 수준 0.025에 자유도 98(100-2)인 부분을 찾으면
(이때 양측검정이므로 α=0.025인 부분을 찾아야 한다.)

***

t₀.₀₂₅(98)는 1.9845 임을 구할 수 있고
Dicision rule은 다음과 같다.
t₀의 값은 위에서 SAS코드를 통해 구한 값을 보면

t₀는 13.94 임을 알 수 있다.
따라서 13.94>1.9845 임으로
"size와 value 간에 유의미한 관계가 있다."라고 할 수 있다.
위에서 β₁에 대해 양측검정에 대한 예시를 보았고
다음으로 단측검정에 대해 보면
유의 수준 5%에서 검정한다고 했을 때
t분포표에서 유의 수준 0.05에 자유도 98(100-2)인 부분을 찾으면
(이때 단측검정이므로 α=0.05인 부분을 찾아야 한다.)

t₀.₀₅(98)는 1.6606
Dicision rule은

t₀는 13.94으로 13.94>1.6606 H₀(귀무가설)을 기각(reject)할 수 있으므로
"size가 증가함에 따라 value이 증가한다."라고 할 수 있다.
0이 아닌 다른 값에 대해 보면
귀무가설을 "size당 value가 50 이상이다."라고 했을 때
유의 수준 5%에서 검정한다고 했을 때
t분포표에서 유의 수준 0.05에 자유도 98(100-2)인 부분을 찾으면
(이때 단측검정이므로 α=0.05인 부분을 찾아야 한다.)
위와 마찬가지로 t₀.₀₅(98)는 1.6606
Dicision rule은
이때 t₀의 값은 SAS코드의 결과값을 이용할 수 없는데

위의 결과값의 경우
β₁₀=0인 경우에 나타낸 것으로
β₁₀=0이 아닌 다른 값일 경우 직접 구해야 된다.
t₀는 4.37으로 4.37>1.6606 H₀(귀무가설)을 기각(reject)할 수 있으므로
"size당 value가 50보다 적은값이다."라고 할 수 있다.
귀무가설을 "size당 value가 50 이하이다."라고 했을 때
t₀는 4.37으로 4.37>1.6606 H₀(귀무가설)을 기각(reject)할 수 있으므로
"size당 value가 50보다 적은값이다."라고 할 수 있고
귀무가설을 "size당 value가 50 이상이다."라고 했을 때와 같은 결과가 나온다.
마지막으로 절편에 대해서 보면
절편이 0인지 알아보기 위해
귀무가설을 "고정비용이 0이다."라고 했을 때
유의 수준 5%에서 검정한다고 했을 때
먼저 t분포표에서 유의 수준 0.025에 자유도 98(100-2)인 부분을 찾으면
(이때 양측검정이므로 α=0.025인 부분을 찾아야 한다.)
t₀.₀₂₅(98)는 1.9845 임을 구할 수 있고
Dicision rule은 다음과 같다.
t₀의 값은 위에서 SAS코드를 통해 구한 값을 보면

t₀는 -6.74 임을 알 수 있다.
따라서 -6.74 < -1.9845 임으로 H₀(귀무가설)을 기각(reject) 할 수 있으므로
"고정비용이 0이 아니다."라고 할 수 있다.
β₀, β₁의 신뢰구간의 경우 저번 글에서 구했었는데
다시 한번 적어보면
β₀의 신뢰구간β₁의 신뢰구간
부동산 시세 자료값에서 신뢰수준 95%인 신뢰구간을 구하면

이때 α = 0.05이고 α/2=0.025이므로
t₀.₀₂₅(98)는 1.9845 값을 이용해서 구하면
β₀의 95% 신뢰구간
β₁의 95% 신뢰구간
정리하면
지난 글에 이여서 단순회귀분석에서의 추론에 대해 알아보았는데
지난 글에서 추론을 위해 2가지의 가정들이 필요했고
이러한 가정들을 통해 b₀, b₁의 표본분포를 구했다.
이번 글에서는 이렇게 구한 b₀, b₁의 표본분포를 통해서
β₀, β₁에 대해서 가설검정과 신뢰구간을 구할 수 있음을 알 수 있었다.
'통계 > 통계의 첫 한입 물었을 시기' 카테고리의 다른 글
신뢰 구간 vs 예측 구간 (0) | 2023.01.18 |
---|---|
회귀적합도 (0) | 2023.01.15 |
단순회귀분석에서의 추론 (0) | 2023.01.10 |
최소제곱추정량 (0) | 2023.01.03 |
회귀분석이란 (0) | 2023.01.02 |