로지스틱 회귀분석
말은 회귀분석인데, 로지스틱 회귀분석은 분류를 한다. 예측이 아니라 분류목적으로 만든 것.
확률의 추정치(0~1사이의 값)을 에측
로지스틱 회귀분석의 특징
- 분석 목적: 종속변수와 독립변수 간의 관계를 통해서 예측 모델 생성
- 회귀분석과 차이점: 종속변수는 반드시 범주형 변수(예, Yes/No, iris데이터의 species)
- 정규성: 정규분포 대신에 이항분포를 따른다.
- 로짓 변환: 종속변수의 출력범위를 0과 1로 조정하는 과정(예, 혈액형 A -> [1, 0, 0, 0] -> 활용분야: 의료, 통신, 날씨 등 다양한 분야
로지스틱 회귀분석: 분류 (Y: 범주형) vs. 회귀분석: 예측 (Y: 연속형)
로지스틱 회귀분석 과정
– 1단계: 각 집단에 속하는 확률의 추정치(0~1 사이의 값)를 예측. 이진 분류(binary classification)의 경우 집단 1에 속하는 확률 P(Y=1)의 추정치로 얻음
– 2단계: 추정 확률 -> 분류기준값(cut-off) 적용 -> 특정 범주로 분류
– 예를 들면, 이진의 경우 0.5의 분류기준값은
P(Y=1)≥0.5 -> 집단 1로 분류
P(Y=1)<0.5 -> 집단 0으로 분류
로짓(logit) 함수 : log(odds) – 종속 변수로 Y를 사용하는 대신에 로짓 함수를 사용
– 집단 0과 반대되는 집단 1에 속하는 확률인 p를 구한다.
– 집단번호를 오직 0과 1의 값을 갖는 Y와는 대조적으로, p는 [0,1]사이의 값을 갖는 다.
– 그러나 만약 p를 다음의 식과 같이 q개의 예측변수들의 선형함수로 표현한다면 우 변항이 0과 1사이의 값이 되는 것을 보장할 수 없게 된다.
'통계' 카테고리의 다른 글
[통계] 시계열 분석 Timeseries Analysis(2) (0) | 2022.11.07 |
---|---|
[통계] 시계열 분석 Timeseries Analysis(1) (0) | 2022.11.07 |
[통계] 변수선택 (Variable Selection) (0) | 2022.11.04 |
[통계] 요인분석 (Factor Analysis) (0) | 2022.11.04 |
[통계] 회귀분석 (Regression Analysis) (0) | 2022.11.03 |