통계/회귀분석

[단순회귀분석] 회귀분석의 기본개념

할거없는중 2024. 1. 4. 01:56

산점도

두 변수 간의 함수 관계를 연구하는 첫 단계로 먼저 도표상에 관찰점들을 그려보는 일인데 이러한 도표를 산점도라고 합니다. 이러한 산점도로부터 두 변수 간의 관계를 대략적을 짐작할 수 있습니다.

 

<표본상점의 광고료와 총판매액>

상점
번호
광고료
(단위 : 10 만 원)
총 판매액
(단위 : 100 만 원)
1 4 9
2 8 20
3 9 22
4 8 15
5 8 17
6 12 30
7 6 18
8 10 25
9 6 10
10 9 20

 

예시로 광고료를 독립변수 x로 하고 총 판매액을 종속변수 y로 하여 산점도를 그려보면
x가 증가하면 일반적으로 y가 증가한다는 사실을 쉽게 알 수 있습니다.

 

 

 


 

기본 가정

변수 x 와 y 간에 직선회귀모형을 적합시킬 경우에는 일반적으로 다음과 같은 가정이 전제조건을 이루고 있습니다.

1. 변수 x 와 y 사이에 존재하는 관련성은 주어진 x의 값에서 y의 기댓값을 다음과 같이 선형식으로 표현할 수 있다.
$$ \mu_{y|x} = \beta_0 + \beta_1x $$
2. 주어진 x의 값에서 변수 y는 정규분포를 하며, 평균은  x에 따라서 변하나 분산은 x의 값에 관계없이 일정하다.

3. 독립변수 x는 오차 없이 측정할수 없는 변수이며, 종속변수 y는 측정오차를 수반하는 변수이다. 또한 y의 측정 오차들은 서로 독립이다.

 

 

위의 가정 아래 단순 회귀모형을 표현하면 다음과 같습니다.

$$ y_i = \beta_0 + \beta_1x_i + \epsilon_i $$

 

 

다음의 전제조건을 예시를 통해 이해하며 2가지 가정으로 나타내보겠습니다.

먼저 자료가 다음과 같이 있다고 한다면

 

 

x의 값이 30일 때 자료에 나타난 y값 이외에도 잠재적인 y값이 나타날 수 있습니다.

 

 

다른 x의 값에 대해서도 잠재적인 y값들의 분포가 나타날 수 있는데,

여기서 첫 번째 가정으로 이러한 y값들의 평균의 분포들은 모두 직선에 있어야 합니다.

$$\mu_{y|x} = \beta_0 + \beta_1x$$

 

x가 30이면 

$$\mu_{y|x=30} = \beta_0 + 30\beta_1$$

 

개별 y값의 경우 평균에 대한 편차를 추가한 다음과 같은 형태입니다.

$$y_i = \mu_{y|x}  + \epsilon_i $$

 

조건부 기댓값을 대입해 정리하면

$$y_i = \beta_0 + \beta_1x + \epsilon_i $$ (εᵢ 는 i번째 측정된 y의 오차항(Error) )

 

x가 30이면 

$$y_i = \beta_0 + 30 \beta_1x + \epsilon_i $$

 

위의 내용을 그림으로 표현하면 아래와 같습니다.

 

 

이때 두번째로 오차에 대한 가정이 필요합니다.

1. 오차의 평균은 0이다.
2. 오차는 등분산(Constant Variance)이다.
3. 오차는 정규분포를 따른다.
4. 오차는 독립이다.

 

위의 4가지 내용을 정리해서 쓰면

$$\epsilon_i  \: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$
( 이때 iid는 독립(independent) + 동일(identically) 분포(distributed)이다. )

 

y|xᵢ의 분포

$$y_i|x_i\sim N(\beta_0+\beta_1x_i, \sigma^2)$$

이때 평균이 바뀜으로 동일분포라 할 수 없어 iid라 할 수 없고 독립의 특성만 가집니다.

 

다시 한번 정리해서 2가지의 가정으로 나타내면

$$y_i = \beta_0 + \beta_1x_i +\epsilon_i $$$$\epsilon_i\: \overset{\underset{\mathrm{iid}}{}}{\tilde{}}\: N(0,\sigma^{2})$$

 


정리하면

  • 산점도를 통해 두 변수간의 함수관계를 대략적으로 짐작 가능
  • 변수 x 와 y 간에 직선회귀모형 적합시킬 경우 2가지 가정 필요
    • 가정 ① : 주어진 x에 대한 y의 기댓값들의 분포들은 모두 직선상에 위치
    • 가정 ② : 오차에 대한 가정