변수선택
회귀모델에서 독립변수의 증가는 모델의 결정계수를 증가시켜 설명력을 높이는 장점이 있지만 다중 공선성 문제를 일으킬 수 있어서 추정의 신뢰도를 저하시킬 수 있고, 독립변수가 많을 경우 예측성능이 좋지 않을 가능성이 많고 독립성, 등분산성 등의 가정을 만족시키기 어렵기 때문에 독립변수를 줄일 필요가 있다.
전진 선택법(Forward Selection): 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가
- 유의성이 높은 변수 순으로 추가(한번 들어가면 제거가 안됨)
- 반응 y에 가장 영향이 큰 x변수부터 하나씩 추가시키면서 최종모형을 찾는 방법.
- 한번 모형에 들어간 x변수는 다시 제거되지 못함.
- 따라서 모형에 들어간 x변수는 재평가되지 않음.
후진 제거법(Backward elimination): 모든 변수가 포함된 모델에서 기준 통계치에 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법
- 한번 제거되면 다시 고려대상이 될 수 없음
- 전체 x변수들이 포함된 완전모형으로부터 출발함.
- . 유의하지 않은 변수들을 하나씩 제거해가는 방법
- . 한번 제거된 변수는 다시 모형에 포함되지 못함
단계선택법(Stepwise selction): 모든 변수가 포함된 모델에서 출발하여 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선시키는 변수를 추가. 이렇게 변수의 추가 또는 삭제를 반복. 또는 절편만 포함된 모델에서 시작해 변수의 추가, 삭제를 반복할 수 도 있다.
모형 선택 –변수선택법
변수가 무조건 많다고 좋은데 아님, 나중에 데이터처리할 때 런닝타임도 길어지고 다중 동선성의 문제가 발생하기 때문
변수선택 방법으로부터 도출된 최종모형은 최적은 아니지만 관찰값을충분히 설명할 수 있는 훌륭한 모형임
모든 가능한 회귀 방법
모든 가능한x변수 조합을 고려
설명 변수의 수가 많을 때에는 수많은 조합이 피요함
기준에 따라 선택된 변수만을 고려한 모형만을 분석 모형으로 이용
모든 가능한회귀 방법에는 R**2 , MSE, Cp 등의 방법이 있음
'통계' 카테고리의 다른 글
[통계] 시계열 분석 Timeseries Analysis(2) (0) | 2022.11.07 |
---|---|
[통계] 시계열 분석 Timeseries Analysis(1) (0) | 2022.11.07 |
[통계] 로지스틱 회귀분석 (Logistic Regression) (0) | 2022.11.04 |
[통계] 요인분석 (Factor Analysis) (0) | 2022.11.04 |
[통계] 회귀분석 (Regression Analysis) (0) | 2022.11.03 |