분산분석표 2

[단순회귀분석] 상관분석과 분산분석

먼저 이번 내용은 회귀선의 정도의 글에서의 연장선의 내용으로 회귀선의 정도를 측정하는 데 있어서 추정값의 표준오차 결정계수 2가지 경우에 대해서 알아보았었습니다. 이번에는 상관분석에서의 상관계수와 분산분석에서의 F-검정으로부터 측정하는 내용에 대해서 다루어 보려고 합니다 상관분석 상관계수 두 변수 x와 y 사이의 상관관계를 설명하는 데 결정계수가 쓰이기도 하지만, 결정계수는 x와 y의 관계가 음의 상관관계인지 양의 상관관계인지를 구별하지 못하는 단점을 가지고 있습니다. 이와 같은 단점을 보완하여 두 변량 간의 상호관계를 측정하는 측도로서 상관관계가 있습니다. 상관관계 r을 다음과 같이 구할 수 있습니다. $$ r = \pm \sqrt {r^2} $$ 즉, 결정계수 r ² 의 제곱근이며, 만약 추정된 회귀..

통계/회귀분석 2024.01.05

회귀적합도

앞 내용에서 반응변수(y) 값의 좋은 예측변수(x)를 찾기 위해 최소제곱(Least Squares)을 이용하였는데 이때 최선의 적합(the best possible fit)이라 할 수 있지만 좋은 예측력(predictive power)이라 할 수 없다. (예시로 x말고 z가 있는 다른 예측변수가 있는 경우) 이번 글에서는 적합도에 대해 알아보고자 한다. 먼저 평균에 대한 y의 변동을 식으로 표현하면 $$\sum_{i=1}^{n}(y_i-\bar{y})^{2}$$ 이러한 식을 SST(Total Sum of Squares)(전체제곱합)이라고 한다. 평균으로부터 y값의 일탈(deviation)을 회귀선으로부터 y값의 일탈과 평균으로부터 회귀선의 일탈의 합으로 표현하면 $$y_i-\overline{y}=y_i-..