통계/통계의 첫 한입 물었을 시기

중회귀분석

할거없는중 2023. 1. 28. 23:00

지금까지 독립변수 1개에 대하여 종속변수의 변화를 보는 단순회귀를 보았는데

이번 글에서는 독립변수 2개 이상에 대한 종속변수의 변화에 대한 내용을 대해 알아보자

 

독립변수(예측변수)가 2개 이상을 가지는 회귀를

다중회귀(중회귀)(Multiple Regression)이라고 하고

식으로 표현하면 다음과 같다.

$$\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_kx_k$$

 

이전 단순회귀에서 최소제곱법을 이용해 추정량을 구한 값인

 

 

위의 식의 경우 독립변수가 1개일 때 구한 추정량임으로

다음과 같은 식을 중회귀에 적용할수 없다.

 

그래서 중회귀도 단순회귀와 마찬가지로

잔차제곱합에 대한 최소제곱법을 이용해 구해야 되는데

 

이때 계산을 용이하게 하기 위해서

행렬을 이용하면

 

중회귀의 회귀모형식인 

 

$$y = \beta_0 + \beta_1x_{1i} + \beta_2x_{2i} + \cdots + \beta_kx_{ki}+\epsilon_i$$

$$i=1,2,\cdots ,n$$

위와 같은 식을 행렬로 표현하면

$$\begin{pmatrix}y_1
 \\y_2
 \\\vdots 
 \\y_n
\end{pmatrix}=\begin{pmatrix}
1 & x_{11} & x_{21} & \cdots & x_{k1} \\
1 & x_{12} & x_{22} & \cdots & x_{k2}\\
\vdots & \vdots & \vdots & \cdots & \vdots \\
1 & x_{1n} & x_{2n} & \cdots & x_{kn} \\
\end{pmatrix}\begin{pmatrix}\beta_0
 \\\beta_1
 \\\vdots 
 \\\beta_k
\end{pmatrix}+\begin{pmatrix}\epsilon_1
 \\\epsilon_2
 \\\vdots 
 \\\epsilon_n
\end{pmatrix}$$

 

$$y = X\beta  + \epsilon $$

 

β의 최솟값을 구하기 위해 최소제곱법을 이용하면

 

잔차제곱합을 Q라고 했을 때

$$Minimize\; \; \; Q =\sum_{i=1}^{n}\epsilon_i^2=\epsilon^T\epsilon=(y-X\beta)^T(y-X\beta)$$

위의 값이 최소가 되는 값은

$$\frac{\partial Q}{\partial \beta}=0\; \to\;  \frac{\partial Q}{\partial \beta}=-2X^T(y-X\beta)=0$$

전개하여 표현하면

$$X^TX\beta=X^Ty$$

다음의 식이 정규방정식(Normal Equation)이다.

 

정규방정식에서 양변에  (XᵀX)⁻¹을 곱하여 표현하면

(XᵀX 가 비특이 행렬일 경우에 가능)

 

$$\hat{\beta} = (X^TX)^{-1}X^Ty$$

 

위의 식을 이용하여 행렬의 형태로

제곱합 공식을 표현하면 다음과 같다.$$SST=\sum_{i=1}^{n}(y_i-\bar{y})^2=y^T(I_n-\frac{J_n}{n})y$$$$SSR=\sum_{i=1}^{n}(\hat{y}_i-\bar{y})^2=y^T(P-\frac{J_n}{n})y$$$$SSE=\sum_{i=1}^{n}(y_i-\hat{y}_i)^2=y^T(I_n-P)y$$이때 Iₙ(항등행렬)과 Jₙ 는

$$I_n=\begin{pmatrix}
1 & 0 & 0 & \cdots  & 0 \\
0 & 1 & 0 & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots  & 0 \\
0 & 0 & 0 & \cdots & 1 \\
\end{pmatrix}_{n\times n} J_n=\begin{pmatrix}
1 & 1& 1& \cdots  & 1\\
1& 1 & 1& \cdots & 1\\
\vdots & \vdots & \vdots & \ddots  & \vdots\\
1& 1& 1& \cdots & 1 \\
\end{pmatrix}_{n\times n}$$

P는

$$P = X(X^TX)^{-1}X^T$$

 

ANOVA Table를 작성하면 다음과 같다.

 

 

 

다음으로 SAS를 통해

중회귀의 회귀식을 구해보자

 

다음과 같은 자료를 예시로 사용한다

 

***

 

SAS코드를 다음과 같이 입력하면

 

 

(독립변수로 adv bonus / 종속변수로 sales)

 

결과창은

 

 

따라서 회귀식은 다음과 같다.

sales_hat = -516.44428 + 2.47318 * adv + 1.85618 * bonus

 

 

 

 

 

 

 

'통계 > 통계의 첫 한입 물었을 시기' 카테고리의 다른 글

중회귀분석에서의 추론  (0) 2023.02.02
신뢰 구간 vs 예측 구간  (0) 2023.01.18
회귀적합도  (0) 2023.01.15
단순회귀분석에서의 검정  (0) 2023.01.13
단순회귀분석에서의 추론  (0) 2023.01.10