Data Analysis

통계

[통계] 회귀분석 (Regression Analysis)

Holy_Water 2022. 11. 3. 17:04

summary

1)회귀분석

2)최소자승법

3) 회귀선

4) 회귀분석의 기본가정

 

회귀분석

- 두 변수간의 관계를 분석하기 위한 통계 기법

- 최소자승법을 통해 절편과 기울기를 추정

 

회귀분석의 특징

1) 가장 강력하고 사용범위가 넓은 분석 방법

2) 독립변수가 종속변수에 영향을 미치는 변수를 규명하고, 이들 변수에 의해서 회귀방정식(Y=a+bX where a: 상수, b: 회귀계수, X: 독립변수, Y: 종속변수)을 도출하여 회귀선을 추정

3) 회귀계수는 단위시간에 따라 변하는 양(기울기)이며, 회귀선을 추정함에 있어 최소자승법을 이용

4) 독립변수와 종속변수가 모두 등간척도 또는 비율척도로 구성되어 있어야 한다.

 

X1=(1,2), X2(4,3) 이 두 수를 통화하는선을 어떻게 찾나? (점 두개 연결)

Y= 2X-4 방정식은? X에 숫자를 대입해서 풀면된다. (여기서 -4가 절편이다, 앞에2인 계수는 기울기를 나타낸다)

(선형 회귀분석에서는 이 절편과 귀울기를 구하는 것이 목적임.)

 

최소자승법: 데이터들의 패턴을 가장 잘 설명하는 것이 휘귀선. 여러 점들을 가장 잘 나타내줄 수 있는 선. 점과 선을 직각으로 내렸을 때, 점에서 선 위치값을 뺀 제곱값들의 합이 가장 적은 선을 구하는 방법이 최소자승법.

최소자승법 활용예시

 

X = 독립변수, Y = 종속변수

 

회귀분석은 변수들간의 인과관계에 초점

상관분석은 단순한 상관관계에 초점

 

확률적모형: 독립변수의 값에의해서 종속변수가 설명되지만, 임의성을 포함하고 있는 모형

 

회귀선

1) 한 변수의 증감이 다른 변수의 단위증가에 대해 어느 정도인가를 나타내는 선

2) 두 집단의 분포에서 잔차(각 값들의 편차)들의 제곱의 합을 최소화시키는(최소자승법) 회귀방정식에 의해 만들어진다.

3) 두 변수 간의 예측 관계에 있어서 한 변수에 의해서 예측되는 다른 변수의 예측치들이 그 변수의 평균치로 회귀하는 경향이 있다고 하여 갈튼(Galton)에 의해서 명명되었다.

 

선형회귀모형

단순 선형회귀모형: 설명변수가 한 개인 선형회귀모형

다중 선형회귀모형

설명변수(독립변수)2개 이상인 선형회귀모형

 

비선형희귀모형의 반대개념

설명변수와 종속변수의 관계를 비선형으로 나타낸 경우

이차회귀모형, 로지스특(logistic) 회기모형 등

  

회귀분석의 기본 가정

선형성: 독립변수와 종속변수가 선형적, 회귀선 확인

잔차 정규성: 잔차(종속변수의 관측값과 회귀모델의 예측값 간의 차이)의 정규성. 정규성 검정

잔차 독립성: 잔차들은 서로 독립적. 더빈-왓슨 값 확인

잔차 등분산성: 잔차들의 분산이 일정. 표준잔차와 표준예측치 도표

다중 공선성: 독립변수 간의 강한 상관관계로 인한 문제 발생 여부. 분산팽창요인(VIF) 확인