전체 글 14

[단순회귀분석] 단순회귀에 관한 추론

앞서 기본 가정에 대한 내용으로 $$y_i = \beta_0 + \beta_1x_i +\epsilon_i $$$$\epsilon_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$ 위와 같은 가정을 성립한다고 전제로 하였었는데 단순회귀 추론부분에서도 이에 대한 가정을 성립한다는 전제합니다. 이를 통해 모수들에 대한 구간추정과 가설검정을 할 수있게 됩니다. 구간추정 β₁ 의 신뢰구간

통계/회귀분석 2024.01.10

[단순회귀분석] 상관분석과 분산분석

먼저 이번 내용은 회귀선의 정도의 글에서의 연장선의 내용으로 회귀선의 정도를 측정하는 데 있어서 추정값의 표준오차 결정계수 2가지 경우에 대해서 알아보았었습니다. 이번에는 상관분석에서의 상관계수와 분산분석에서의 F-검정으로부터 측정하는 내용에 대해서 다루어 보려고 합니다 상관분석 상관계수 두 변수 x와 y 사이의 상관관계를 설명하는 데 결정계수가 쓰이기도 하지만, 결정계수는 x와 y의 관계가 음의 상관관계인지 양의 상관관계인지를 구별하지 못하는 단점을 가지고 있습니다. 이와 같은 단점을 보완하여 두 변량 간의 상호관계를 측정하는 측도로서 상관관계가 있습니다. 상관관계 r을 다음과 같이 구할 수 있습니다. $$ r = \pm \sqrt {r^2} $$ 즉, 결정계수 r ² 의 제곱근이며, 만약 추정된 회귀..

통계/회귀분석 2024.01.05

[단순회귀분석] 회귀선의 정도

회귀선만을 가지고는 관찰점들이 회귀선 주위에 어떻게 분포되어 있으며, 회귀선이 이 점들을 어느 정도 잘 대변하여 주고 있는가를 알기 어렵습니다. 위의 내용에 대해서 확인할 수 있는 방법으로 이번 글에서는 추정된 회귀선의 정도(precision)를 측정하는 여러 가지 측도에 대해서 알아보도록 하겠습니다. 추정값의 표준오차 이전 변수 x 와 y 간에 직선회귀모형 적합시킬 경우 2가지 가정 ① : 주어진 x에 대한 y의 기댓값들의 분포들은 모두 직선상에 위치 가정 ② : 오차에 대한 가정 $$y_i = \beta_0 + \beta_1x_i +\epsilon_i $$$$\epsilon_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$ 에..

통계/회귀분석 2024.01.05

[단순회귀분석] 회귀선의 추정

표본자료로부터 선형식을 추정하여 얻은 직선은 다음과 같습니다. $$y = b_0 + b_1x$$ 이와 같은 직선을 추정된 회귀직선, 또는 간단히 회귀선이라고 합니다. 이때 b₀, b₁ 는 각각 β₀, β₁ 의 추정값으로 b₀는 절편, b₁는 기울기에 해당합니다. 이번 글에서는 b₀, b₁ 를 구하는 방법을 소개하려고 합니다. 최소제곱법 최소제곱법(Least Square Method)이란 오차를 최소화하여 회귀계수인 β₀, β₁를 추정하는 기법을 말합니다. 최소제곱법을 이용하여 최소제곱추정량(Least Squares Estimators)을 구하면 β₀, β₁의 추정량을 구할 수 있습니다. $$ y_i = \beta_0 + \beta_1x_i + \epsilon_i$$ 이와 같이 가정하고 이 식을 회귀모형식..

통계/회귀분석 2024.01.04

[단순회귀분석] 회귀분석의 기본개념

산점도 두 변수 간의 함수 관계를 연구하는 첫 단계로 먼저 도표상에 관찰점들을 그려보는 일인데 이러한 도표를 산점도라고 합니다. 이러한 산점도로부터 두 변수 간의 관계를 대략적을 짐작할 수 있습니다. 상점 번호 광고료 (단위 : 10 만 원) 총 판매액 (단위 : 100 만 원) 1 4 9 2 8 20 3 9 22 4 8 15 5 8 17 6 12 30 7 6 18 8 10 25 9 6 10 10 9 20 예시로 광고료를 독립변수 x로 하고 총 판매액을 종속변수 y로 하여 산점도를 그려보면 x가 증가하면 일반적으로 y가 증가한다는 사실을 쉽게 알 수 있습니다. 기본 가정 변수 x 와 y 간에 직선회귀모형을 적합시킬 경우에는 일반적으로 다음과 같은 가정이 전제조건을 이루고 있습니다. 1. 변수 x 와 y ..

통계/회귀분석 2024.01.04

[머리말] 회귀분석이란

회귀분석이란? 변수들 간의 함수관계를 추구하는 통계적 방법을 말합니다. 회귀라는 용어의 유래는? 19세기말에 유전학자인 프랜시스 골턴(Sir Francis Galton)이 부모와 자식 간의 키에 대한 연구에서 어떤 특성이 부모의 평균보다 높거나 낮을 경우, 그 특성이 다음 세대에서 다시 부모의 평균으로 '회귀(regression)' 한다는 개념을 도입합니다. 이는 특이한 특성이 나타났을 때 그 특성이 다음 세대에서는 더 일반적인 평균값으로 되돌아가는 경향을 의미합니다. 이러한 개념이 통계학에서 도입되어, 변수들 간의 관계를 설명하고 예측하는 분석 방법을 나타내는 '회귀분석'이라는 용어가 만들어지게 됩니다. 단순회귀분석 회귀분석은 여러 개의 변수들 간의 함수관계를 규명하는 데에도 많이 쓰이지만 간단한 경우..

통계/회귀분석 2024.01.03

중회귀분석에서의 추론

이번 글에서는 중회귀분석에 대한 추론에 대해 알아보고자 한다. 단순회석에서 추론을 하기 위해서 가정들이 필요했는데 중회귀에서도 마찬가지로 추론을 하기 위해서 2가지의 가정이 필요하다. 중회귀분석에서의 필요한 가정 이전글에서 단순회귀에 대하여 추론을 할 때 다음의 가정을 했었는데 이러한 가정을 확장하여 중회귀에서는 다음의 가정을 통해 추론을 할 수 있다. 신뢰구간은 다음과 같이 구할 수 있다. +) 위의 식에서 단순회귀는 n-k-1 대신에 n-2를 했었는데 단순회귀에서는 독립변수(k)가 1 임으로 n-2였다. bⱼ의 표준편차는 다음과 같고 이전의 글에서 봤던 SAS 결과창에서 다음의 부분에서 값이 나타난다. 중회귀분석에서의 검정 종속변수 y에 대한 xⱼ의 검정은 다음과 같다. $$H_0:\; \beta_j..

중회귀분석

지금까지 독립변수 1개에 대하여 종속변수의 변화를 보는 단순회귀를 보았는데 이번 글에서는 독립변수 2개 이상에 대한 종속변수의 변화에 대한 내용을 대해 알아보자 독립변수(예측변수)가 2개 이상을 가지는 회귀를 다중회귀(중회귀)(Multiple Regression)이라고 하고 식으로 표현하면 다음과 같다. $$\hat{y} = b_0 + b_1x_1 + b_2x_2 + \cdots + b_kx_k$$ 이전 단순회귀에서 최소제곱법을 이용해 추정량을 구한 값인 위의 식의 경우 독립변수가 1개일 때 구한 추정량임으로 다음과 같은 식을 중회귀에 적용할수 없다. 그래서 중회귀도 단순회귀와 마찬가지로 잔차제곱합에 대한 최소제곱법을 이용해 구해야 되는데 이때 계산을 용이하게 하기 위해서 행렬을 이용하면 중회귀의 회귀모..

신뢰 구간 vs 예측 구간

구간에 대한 추정을 y에 대한 평균인 조건부기댓값에 대한 예측과 y의 각각의 값에 대한 예측으로 나누어질수 있는데 각각의 경우에 대해서 알아보자 조건부 기댓값에서의 추정 구간에 대한 추정을 구하기 위해서 표준편차가 필요하다. 이전 "단순회귀분석에서의 추론"라는 글에서 조건부기댓값의 분포를 구했었는데 이러한 분포에서의 표준편차를 다시 써보면 $$S_m=S_e\sqrt{\frac{1}{n}+\frac{(x_m-\bar{x})^2}{(n-1)S_x^2}}$$ (이때 Sₘ은 평균에 대한 표준편차(Standard Error of the Mean)) 다른 형태로 다음과 같이 표현도 가능하다. $$S_m=\sqrt{MSE(\frac{1}{n}+\frac{(x_m-\bar{x})^2}{S_{xx}})}$$ 조건부 기댓..

회귀적합도

앞 내용에서 반응변수(y) 값의 좋은 예측변수(x)를 찾기 위해 최소제곱(Least Squares)을 이용하였는데 이때 최선의 적합(the best possible fit)이라 할 수 있지만 좋은 예측력(predictive power)이라 할 수 없다. (예시로 x말고 z가 있는 다른 예측변수가 있는 경우) 이번 글에서는 적합도에 대해 알아보고자 한다. 먼저 평균에 대한 y의 변동을 식으로 표현하면 $$\sum_{i=1}^{n}(y_i-\bar{y})^{2}$$ 이러한 식을 SST(Total Sum of Squares)(전체제곱합)이라고 한다. 평균으로부터 y값의 일탈(deviation)을 회귀선으로부터 y값의 일탈과 평균으로부터 회귀선의 일탈의 합으로 표현하면 $$y_i-\overline{y}=y_i-..