독립변수(x)에 따라 반응변수(y)가 변화하는 선형 관계를 취하는
$$y = b_0 + b_1x$$
이와 같은 형태의 식을 단순선형회귀(Simple Linear Regression)이라고 한다.
이번 글에서는 단순회귀의 추론과 추론을 하기 위해 필요한 가정에 대해 다루어보려고 한다.
추론은 이미 알거나 확인된 정보로부터 논리적 결론을 도출하는 행위나 과정을 말하는데 이러한 추론을 단순회귀에 적용하려고 하면 2가지의 가정이 필요하다.
먼저 자료가 다음과 같이 있다고 한다면
x의 값이 30일 때 자료에 나타난 y값 이외에도 잠재적인 y값이 나타날 수 있다.
다른 x의 값에 대해서도 잠재적인 y값들의 분포가 나타날 수 있는데,
여기서 우리는 첫 번째 가정으로 이러한 y값들의 평균의 분포들은 모두 직선에 있어야 한다.
$$\mu_{y|x} = \beta_0 + \beta_1x$$
x가 30이면
$$\mu_{y|x=30} = \beta_0 + 30\beta_1$$
개별 yᵢ값의 경우 평균에 대한 편차를 추가한 다음과 같은 형태이다.
$$y_i = \mu_{y|x} + e_i$$
조건부 기댓값을 대입해 정리하면
$$y_i = \beta_0 + \beta_1x + e_i$$
( eᵢ는 오차(Error) )
x가 30이면
$$y_i = \beta_0 + 30\beta_1 + e_i$$
위의 내용을 그림으로 표현하면 아래와 같다.
이때 두번째로 오차에 대한 가정이 필요하다.
1. 오차의 평균은 0이다.
2. 오차는 등분산(Constant Variance)이다.
3. 오차는 정규분포를 따른다.
4. 오차는 독립이다.
위의 4가지 내용을 정리해서 쓰면
$$e_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$
iid는 독립(independent) + 동일(identically) 분포(distributed)이다.
yᵢ|xᵢ의 분포는
$$y_i|x_i\sim N(\beta_0+\beta_1x_i, \sigma^2)$$
이때 평균이 바뀜으로 동일분포라 할 수 없어 iid라 할 수 없고 독립의 특성만 가진다.
다시 한번 정리해서 2가지의 가정을 나타내면
$$y_i = \beta_0 + \beta_1x_i + e_i$$
$$e_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$
이러한 회귀모형식을 통해
β₀, β₁의 추정량의 표본분표와 β₀, β₁의 신뢰구간을 구할수 있다.
b₀, b₁의 표본분포
$$b_0\sim N(\beta_0,(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}})\sigma^2)$$
$$b_1\sim N(\beta_1,\frac{\sigma^2}{S_{xx}})$$
β₀, β₁의 신뢰구간(Confidence Interval)
$$b_0\: \pm\: t_{\frac{\alpha}{2}}(\nu)\sqrt{(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}})MSE}$$
$$b_1\: \pm\: t_{\frac{\alpha}{2}}(\nu)\sqrt{\frac{MSE}{S_{xx}}}$$
( ν는 자유도 )
MSE는 Mean Squared Error로 SSE/(n-2) 이다. SSE는 Sum of Squares Error(Residual)로 잔차제곱합인$$\sum_{i=1}^{n}(y_i-\widehat{y}_i)^2$$MSE을 정리해서 식으로 나타내면
$$MSE = \frac{SSE}{n-2}=\widehat{\sigma}^2$$
조건부 기댓값의 분포의 경우
$$E(\widehat{\beta}_0+\widehat{\beta}_1x_i)=E(\widehat{\beta}_0)+x_iE(\widehat{\beta}_1)=\beta_0 + \beta_1x_i$$
$$V(\widehat{\beta}_0+\widehat{\beta}_1x_i)=V(\bar{y}+\widehat{\beta}_1(x_i-\bar{x}))$$
$$=V(\overline{y})+(x_i-\bar{x})^2V(\widehat{\beta}_1)+2cov(\overline{y},\, \widehat{\beta}_1(x_i-\bar{x})) $$
$$=\frac{\sigma ^2}{n}+(x_{i}-\bar{x})^2\frac{\sigma ^2}{S_{xx}}=(\frac{1}{n}+\frac{(x_i-\bar{x})^2}{S_{xx}})\sigma^2$$
그러므로
$$\widehat{\mu}_{y_i|x_i}=\widehat{\beta}_0+\widehat{\beta}_1x_i\sim N(\beta_0 + \beta_1x_i,\: (\frac{1}{n}+\frac{(x_i-\bar{x})^2}{S_{xx}})\sigma^2)$$
그림으로 보면
+) 학부수업내용을 공부하고 블로그에 정리하면서 잔차와 오차의 개념에 대해 헷갈려 정리해 보면
잔차의 경우
표본집단에서 구한 회귀식의 예측된 값에서 실제 관측된 값을 뺀 값
오차의 경우
모집단에서 구한 회귀식의 예측된 값에서 실제 관측값을 뺀 값
'통계 > 통계의 첫 한입 물었을 시기' 카테고리의 다른 글
신뢰 구간 vs 예측 구간 (0) | 2023.01.18 |
---|---|
회귀적합도 (0) | 2023.01.15 |
단순회귀분석에서의 검정 (0) | 2023.01.13 |
최소제곱추정량 (0) | 2023.01.03 |
회귀분석이란 (0) | 2023.01.02 |