통계/회귀분석

[단순회귀분석] 회귀선의 추정

할거없는중 2024. 1. 4. 16:25

표본자료로부터 선형식을 추정하여 얻은 직선은 다음과 같습니다.

y=b0+b1x

이와 같은 직선을 추정된 회귀직선, 또는 간단히 회귀선이라고 합니다.

 

이때 b₀, b₁ 는 각각 β₀, β₁ 의 추정값으로 b₀는 절편, b₁는 기울기에 해당합니다.

이번 글에서는 b₀, b₁ 를 구하는 방법을 소개하려고 합니다.

 


최소제곱법 

최소제곱법(Least Square Method)이란 오차를 최소화하여 회귀계수인 β₀, β₁를 추정하는 기법을 말합니다.

 

최소제곱법을 이용하여 최소제곱추정량(Least Squares Estimators)을 구하면 β₀, β₁의 추정량을 구할 수 있습니다.

 

yi=β0+β1xi+ϵi

이와 같이 가정하고 이 식을 회귀모형식(Regression Model Equation)이라고 합니다.

 

추정된 회귀선(Estimated Regression Line)은 다음과 같습니다.

y^i=β^0+β^1xi=b0+b1xi

 

이 식을 회귀모형식에 대입하여 전개를 하면 (오차제곱합을 Q라고 하자)

minimizeQ=i=1nϵi2=i=1n(yiyi^)2=i=1n(yib0b1xi)2

Q(오차제곱합)의 최소값을 구하려면 기울기가 0이 되는 값을 찾으면 됨으로

Qb0=2i=1n(yib0b1xi)(1)=0

Qb1=2i=1n(yib0b1xi)(xi)=0

두 식을 전개하면

i=1nyib0nb1i=1nxi=0

i=1nxiyib0i=1nxib1i=1nxi2=0

 

정리하면

i=1nyi=b0n+b1i=1nxi

i=1nxiyi=b0i=1nxi+b1i=1nxi2

이 식을 정규방정식이라고 합니다.

 

다음으로 위의 식에서 b₀ 와 b₁을 구하면

b0=yb1x

b1=i=1n(xix)(yiy)i=1n(xix)2=letSxySxx

 

이와 같은 방법으로 얻어진 β₀, β₁의 추정량을 최소제곱추정량이라고 합니다.

 

이때 표현의 편의를 위해 다음과 같이 나타낸다.

 

Sxx=i=1n(xix)2=xi2(xi)2nSyy=i=1n(yiy)2=yi2(yi)2nSxy=i=1n(xix)(yiy)=xiyixiyin

 

 

위의 내용을 정리하면 다음과 같습니다.

절편의 추정량(β₀의 추정량)
b0=β^0=yb1x
기울기 추정량(β₁의 추정량)
b1=β^1=SxySxx

 

따라서 b₀ 와 b₁값을 알 수 있기 때문에 추정된 회귀선을 구할 수 있게 됩니다.

 

 

 

다음으로 예시를 통해 위의 개념을 적용해 보겠습니다.

 

자료가 다음과 같이 주어졌을 때

 

b1=i=1nxiyi1ni=1nxii=1nyii=1nxi21n(i=1nxi)2=33517(28)(75)14017(28)2=1.25

b0=yb1x=5.714

따라서 추정된 회귀선은 다음과 같습니다.

y^=5.714+1.25x

 


최대가능도추정법

최소제곱법에 의하여 회귀계수인 β₀, β₁를 추정하는 방법은 오차항 ε가 정규분포를 한다는 가정이 없을 때에도 적용되는 추정량법입니다.


이제 오차항 ε 가 정규분포를 하는 확률변수로서 0을 평균으로 하고  σ² 을 분산으로 하는 성질을 가진다고 가정합니다.

ϵN(0,σ2)

 

εᵢ 의 확률밀도함수는

f(ϵi)=12πσ2exp(ϵi22σ2)

 

f(ε) , i = 1,2,...,n 들의 곱은L=i=1nf(ϵi)=1(2πσ2)n/2exp[ϵi22σ2]=1(2πσ2)n/2exp[(yiβ0β1xi)22σ2]

 

이 함수는 가능도함수(likelihood function)이고 이 함수를 최대로 크게 하는 β₀ 와 β₁ 의 추정량을 최대가능도추정량 (maximum likelihood estimator)입니다.

 

가능도함수에 로그를 취한 로그가능도함수(log-likelihood function)는 다음과 같습니다.

lnL=n2ln2πσ212σ2(yiβ0β1xi)2

 

각각 β₀, β₁ 으로 편미분 하면

lnLβ0=1σ2(yiβ0β1xi)

lnLβ1=1σ2xi(yiβ0β1xi)

 

이후로는 각각 0으로 놓고 푸는 것과 동일하고 이 내용은 최대가능도추정량의 b₀ 와 b₁ 은 최소제곱추정량과 동일함을 알 수 있습니다 

 

이때 최대가능도추정량과 최소제곱추정량과의 차이는 최대가능도추정량은 오차항 εᵢ 의 분포를 정규분포 N(0, σ² )이라고 가정하고 얻어지는 값이고, 최소제곱추정량은 이러한 가정이 전제되어있지 않다는 점입니다.


 

적합된 회귀선의 성질

추정된 회귀선은 다음과 같은데

y^i=β^0+β^1xi=b0+b1xi

 

여기서 xᵢ 에서 관찰된 yᵢ와 추정된  ŷ 과의 차이는 다음과 같고

ei=yiy^i

이를 잔차라고 합니다.

b₀ 와 b₁ 의 값이 최소제곱법을 통해 구해진 최소제곱추정값이면 다음의 성질을 성립합니다

 

(1) 잔차들의 합은 0이다.

ei=0

 

이 성질은 다음과 같이 증명할 수 있습니다.

ei=(yiy^i)=(yib0b1xi)=yinb0b1xi

 

이때의 이 부분의 식은

yinb0b1xi

 

정규방정식을 이용하여 증명을 하면

i=1nyib0nb1i=1nxi=0

i=1nxiyib0i=1nxib1i=1nxi2=0

 

정규방정식의 첫 번째 식에 의해 
ei=yinb0b1xi=0

 

이와 같이 증명이 됩니다.

 

(2) 잔차들의 xᵢ 에 의한 가중합은 0이다.

xiei=0

 

이 성질은 다음과 같이 증명할 수 있습니다.

 

식을 먼저 전개하면 다음과 같고

xiei=xi(yiy^i)=xi(yib0b1xi)=xiyib0xib1xi2

정규방정식을 이용하여 증명을 하면

i=1nyib0nb1i=1nxi=0

i=1nxiyib0i=1nxib1i=1nxi2=0

 

정규방정식의 두 번째 식에 의해 

xiei=xiyib0xib1xi2=0

 

이와 같이 증명이 됩니다.

 

(3) 잔차들의 ŷ에 의한 가중합은 0이다.

y^iei=0

 

이 성질은 다음과 같이 증명할 수 있습니다.

y^iei=(bo+b1xi)ei=b0ei+b1xiei

 

이때 위 2가지 성질에 의해서

ei=0xiei=0

 

위의 성질을 이용하면

y^iei=b0ei+b1xiei=0

 

이와 같이 증명이 됩니다.

 

따라서 다음의 성질을 만족하게 됩니다.

(1) 잔차들의 합은 0이다. ei=0
(2) 잔차들의 xᵢ 에 의한 가중합은 0이다. xiei=0
(3) 잔차들의 ŷ에 의한 가중합은 0이다. y^iei=0

 

 


 

정리하면

  • 최소제곱법
오차를 최소화하여 회귀계수인 β₀, β₁를 추정하는 기법
최소제곱법을 이용하여 최소제곱추정량을 구하면 β₀, β₁의 추정량인 b₀ 와 b₁값을 구할 수 있다. 
  • 최대가능도추정법
최대가능도추정량은 오차항 εᵢ 의 분포를 정규분포 N(0, σ²)이라고 가정하고 얻어지는 값
  • 적합된 회귀선의 성질 
성질 ① :  잔차들의 합은 0이다.
성질 ② :  잔차들의 xᵢ 에 의한 가중합은 0이다.
성질 ③ :  잔차들의 ŷ에 의한 가중합은 0이다.