통계/통계의 첫 한입 물었을 시기 8

중회귀분석에서의 추론

이번 글에서는 중회귀분석에 대한 추론에 대해 알아보고자 한다. 단순회석에서 추론을 하기 위해서 가정들이 필요했는데 중회귀에서도 마찬가지로 추론을 하기 위해서 2가지의 가정이 필요하다. 중회귀분석에서의 필요한 가정 이전글에서 단순회귀에 대하여 추론을 할 때 다음의 가정을 했었는데 이러한 가정을 확장하여 중회귀에서는 다음의 가정을 통해 추론을 할 수 있다. 신뢰구간은 다음과 같이 구할 수 있다. +) 위의 식에서 단순회귀는 n-k-1 대신에 n-2를 했었는데 단순회귀에서는 독립변수(k)가 1 임으로 n-2였다. bⱼ의 표준편차는 다음과 같고 이전의 글에서 봤던 SAS 결과창에서 다음의 부분에서 값이 나타난다. 중회귀분석에서의 검정 종속변수 y에 대한 xⱼ의 검정은 다음과 같다. $$H_0:\; \beta_j..

중회귀분석

지금까지 독립변수 1개에 대하여 종속변수의 변화를 보는 단순회귀를 보았는데 이번 글에서는 독립변수 2개 이상에 대한 종속변수의 변화에 대한 내용을 대해 알아보자 독립변수(예측변수)가 2개 이상을 가지는 회귀를 다중회귀(중회귀)(Multiple Regression)이라고 하고 식으로 표현하면 다음과 같다. $$\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_kx_k$$ 이전 단순회귀에서 최소제곱법을 이용해 추정량을 구한 값인 위의 식의 경우 독립변수가 1개일 때 구한 추정량임으로 다음과 같은 식을 중회귀에 적용할수 없다. 그래서 중회귀도 단순회귀와 마찬가지로 잔차제곱합에 대한 최소제곱법을 이용해 구해야 되는데 이때 계산을 용이하게 하기 위해서 행렬을 이용하면 중회귀의 회귀모..

신뢰 구간 vs 예측 구간

구간에 대한 추정을 y에 대한 평균인 조건부기댓값에 대한 예측과 y의 각각의 값에 대한 예측으로 나누어질수 있는데 각각의 경우에 대해서 알아보자 조건부 기댓값에서의 추정 구간에 대한 추정을 구하기 위해서 표준편차가 필요하다. 이전 "단순회귀분석에서의 추론"라는 글에서 조건부기댓값의 분포를 구했었는데 이러한 분포에서의 표준편차를 다시 써보면 $$S_m=S_e\sqrt{\frac{1}{n}+\frac{(x_m-\bar{x})^2}{(n-1)S_x^2}}$$ (이때 Sₘ은 평균에 대한 표준편차(Standard Error of the Mean)) 다른 형태로 다음과 같이 표현도 가능하다. $$S_m=\sqrt{MSE(\frac{1}{n}+\frac{(x_m-\bar{x})^2}{S_{xx}})}$$ 조건부 기댓..

회귀적합도

앞 내용에서 반응변수(y) 값의 좋은 예측변수(x)를 찾기 위해 최소제곱(Least Squares)을 이용하였는데 이때 최선의 적합(the best possible fit)이라 할 수 있지만 좋은 예측력(predictive power)이라 할 수 없다. (예시로 x말고 z가 있는 다른 예측변수가 있는 경우) 이번 글에서는 적합도에 대해 알아보고자 한다. 먼저 평균에 대한 y의 변동을 식으로 표현하면 $$\sum_{i=1}^{n}(y_i-\bar{y})^{2}$$ 이러한 식을 SST(Total Sum of Squares)(전체제곱합)이라고 한다. 평균으로부터 y값의 일탈(deviation)을 회귀선으로부터 y값의 일탈과 평균으로부터 회귀선의 일탈의 합으로 표현하면 $$y_i-\overline{y}=y_i-..

단순회귀분석에서의 검정

지난 글에서 b₀, b₁의 표본분포를 구함으로서 회귀 방정식에 대한 검정을 할 수 있다. (즉 회귀 방정식에 대해 추론을 할 수 있다.) 가장 흔한 test는 x의 변수가 y의 변수에 영향을 주는지에 대한 것으로 β₁에 대한 가설검정을 다음과 같이 나타낸다. $$H_0: \beta_1 = 0$$$$H_a: \beta_1 \neq 0$$ 만약 H₀가 true라면, 회귀 방정식은 x의 값에 상관없이 y는 같은 값인 평평한 선이다. T-test는 다음과 같은데 (n은 자료의 수) $$t_0=\frac{b_1-\beta_{10}}{S.E.(b_1)}\sim t_{n-2} $$ $$if\; H_o : \beta_1 = \beta_{10}\; is\; true$$ 만약 H₀ : β₁=0라면 $$t_0=\frac{b..

단순회귀분석에서의 추론

독립변수(x)에 따라 반응변수(y)가 변화하는 선형 관계를 취하는 $$y = b_0 + b_1x$$ 이와 같은 형태의 식을 단순선형회귀(Simple Linear Regression)이라고 한다. 이번 글에서는 단순회귀의 추론과 추론을 하기 위해 필요한 가정에 대해 다루어보려고 한다. 추론은 이미 알거나 확인된 정보로부터 논리적 결론을 도출하는 행위나 과정을 말하는데 이러한 추론을 단순회귀에 적용하려고 하면 2가지의 가정이 필요하다. 먼저 자료가 다음과 같이 있다고 한다면 x의 값이 30일 때 자료에 나타난 y값 이외에도 잠재적인 y값이 나타날 수 있다. 다른 x의 값에 대해서도 잠재적인 y값들의 분포가 나타날 수 있는데, 여기서 우리는 첫 번째 가정으로 이러한 y값들의 평균의 분포들은 모두 직선에 있어야..

최소제곱추정량

최소제곱추정량을 이용해 회귀선 구해보기 이전 글에서 언급한 최소제곱법을 이용하여 최소제곱추정량(Least Squares Estimators)을 구하면 β₀, β₁의 추정량을 구할 수 있다. $$y_i = \beta_0 + \beta_1x_i + \epsilon_i$$ 다음과 같이 가정하고 이 식을 회귀모형식(Regression Model Equation)이라고 한다. (이때 εᵢ는 잔차이다.) 추정된 회귀선(Estimated Regression Line)은 다음과 같다. $$\widehat{y_i} = \widehat{\beta_0} + \widehat{\beta_1}x_i = b_0 + b_1x_i$$ 이 식을 회귀모형식에 대입하여 전개를 하면 (잔차제곱합을 Q라고 하자) $$minimize\; Q =..

회귀분석이란

회귀분석(Regression Analysis)이란 무엇일까? 회귀분석은 변수들 간의 관계를 설명하는 데 사용되는 통계적인 기술을 말한다. 가장 간단한 경우로 반응변수(Y)가 독립변수 또는 설명변수(X)에 관련되있는 경우로 이 관계를 표현하는 방정식은 $$ y = b_0 + b_1x $$ 으로 표현된다. 자료형태가 위와 같이 나타나고, 이 자료들의 관계를 설명하는 방정식을 y = 1 + 2x 로 설정했을 때 그래프는 다음과 같이 나타나게 된다. 이때 직선이 모든 자료값을 지나게 되는데 이것을 "perfect relationship" 또는 "exact relationship"이라고 말한다. 하지만 다음과 같이 완벽한 관계는 잘 일어나지 않는다. 다른 예시를 통해 살펴보면 자료형태가 위와 같이 나타나고, 이 ..