회귀분석(Regression Analysis)이란 무엇일까?
회귀분석은 변수들 간의 관계를 설명하는 데 사용되는 통계적인 기술을 말한다.
가장 간단한 경우로 반응변수(Y)가 독립변수 또는 설명변수(X)에 관련되있는 경우로
이 관계를 표현하는 방정식은
$$ y = b_0 + b_1x $$
으로 표현된다.
자료형태가 위와 같이 나타나고,
이 자료들의 관계를 설명하는 방정식을 y = 1 + 2x 로 설정했을 때 그래프는
다음과 같이 나타나게 된다. 이때 직선이 모든 자료값을 지나게 되는데
이것을 "perfect relationship" 또는 "exact relationship"이라고 말한다.
하지만 다음과 같이 완벽한 관계는 잘 일어나지 않는다.
다른 예시를 통해 살펴보면
자료형태가 위와 같이 나타나고, 이 자료을 설명하는 방정식을 y = 1 + 2.5x로 설정하여
이 방정식이 자료값을 잘 설명할 것이라 추측하여 나타냈을 때 그래프는
다음과 같이 나타나게 되는데 이전 예시와는 달리 직선상에 모든 자료값이 들어오지 않는다.
이렇게 방정식과 각각의 자료값들과의 차이인 적합오류(fit error)가 생기는데
이것을 잔차(Residual)라고 한다.
잔차를 최소화하여 회귀선을 구하는 방법으로는
자료들 간의 완벽한 관계가 아닌 경우 잔차가 발생하게 되는데
이렇게 발생하는 잔차를 최소화하면서 회귀선을 구하는 방법을 알아보면
첫 번째로 직관적으로 보이는 실제값에서 예측값을 뺀 값들의 합 다시 말해 잔차들의 합으로
$$ \sum_{i=1}^{n}\left ( y_i-\widehat{y_i} \right ) $$
다음과 같은 값을 최소화하는 방법을 구하려고 하면
$$ \widehat{y_i} = \overline{y} + b(x_i - \overline{x}) $$
이 값을 위의 수식에 대입하여
$$ \sum_{i=1}^{n}\left ( y_i-\widehat{y_i} \right ) = 0$$
인 값을 만족하는 선을 구하려고 하면
$$ \left ( \overline{x}, \overline{y} \right ) $$
다음의 점을 통과하는 많은 선들이 존재하게 되어 적용할 수 없다.
두 번째 방법으로
$$ \sum_{i=1}^{n}\left| y_i-\widehat{y_i} \right | $$
잔차의 절댓값의 합을 최소화하는 방법이 있는데 이 방법을 사용하기에는 어려워 다른 방안을 사용한다.
세 번째 방법으로는 지금까지 가장 인기 있는 접근방식으로
$$ \sum_{i=1}^{n}\left ( y_i-\widehat{y_i} \right )^2 $$
다음과 같이 잔차를 제곱하여 더하는 값을
잔차제곱합(Sum of Squares of Residuals)이라 하고
이 값을 최소화시키는 값을 구하는 것을 최소제곱법(Least Squares Method)라고 한다.
'통계 > 통계의 첫 한입 물었을 시기' 카테고리의 다른 글
신뢰 구간 vs 예측 구간 (0) | 2023.01.18 |
---|---|
회귀적합도 (0) | 2023.01.15 |
단순회귀분석에서의 검정 (0) | 2023.01.13 |
단순회귀분석에서의 추론 (0) | 2023.01.10 |
최소제곱추정량 (0) | 2023.01.03 |