결정계수 2

[단순회귀분석] 회귀선의 정도

회귀선만을 가지고는 관찰점들이 회귀선 주위에 어떻게 분포되어 있으며, 회귀선이 이 점들을 어느 정도 잘 대변하여 주고 있는가를 알기 어렵습니다. 위의 내용에 대해서 확인할 수 있는 방법으로 이번 글에서는 추정된 회귀선의 정도(precision)를 측정하는 여러 가지 측도에 대해서 알아보도록 하겠습니다. 추정값의 표준오차 이전 변수 x 와 y 간에 직선회귀모형 적합시킬 경우 2가지 가정 ① : 주어진 x에 대한 y의 기댓값들의 분포들은 모두 직선상에 위치 가정 ② : 오차에 대한 가정 $$y_i = \beta_0 + \beta_1x_i +\epsilon_i $$$$\epsilon_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$ 에..

통계/회귀분석 2024.01.05

회귀적합도

앞 내용에서 반응변수(y) 값의 좋은 예측변수(x)를 찾기 위해 최소제곱(Least Squares)을 이용하였는데 이때 최선의 적합(the best possible fit)이라 할 수 있지만 좋은 예측력(predictive power)이라 할 수 없다. (예시로 x말고 z가 있는 다른 예측변수가 있는 경우) 이번 글에서는 적합도에 대해 알아보고자 한다. 먼저 평균에 대한 y의 변동을 식으로 표현하면 $$\sum_{i=1}^{n}(y_i-\bar{y})^{2}$$ 이러한 식을 SST(Total Sum of Squares)(전체제곱합)이라고 한다. 평균으로부터 y값의 일탈(deviation)을 회귀선으로부터 y값의 일탈과 평균으로부터 회귀선의 일탈의 합으로 표현하면 $$y_i-\overline{y}=y_i-..