Data Analysis

통계

[통계] 로지스틱 회귀분석 (Logistic Regression)

Holy_Water 2022. 11. 4. 15:34

로지스틱 회귀분석

말은 회귀분석인데, 로지스틱 회귀분석은 분류를 한다. 예측이 아니라 분류목적으로 만든 것.

확률의 추정치(0~1사이의 값)을 에측

 

로지스틱 회귀분석의 특징

- 분석 목적: 종속변수와 독립변수 간의 관계를 통해서 예측 모델 생성

- 회귀분석과 차이점: 종속변수는 반드시 범주형 변수(예, Yes/No, iris데이터의 species)

- 정규성: 정규분포 대신에 이항분포를 따른다.

- 로짓 변환: 종속변수의 출력범위를 0과 1로 조정하는 과정(예, 혈액형 A -> [1, 0, 0, 0] -> 활용분야: 의료, 통신, 날씨 등 다양한 분야

 

로지스틱 회귀분석: 분류 (Y: 범주형) vs. 회귀분석: 예측 (Y: 연속형)

로지스틱 회귀분석 과정

1단계: 각 집단에 속하는 확률의 추정치(0~1 사이의 값)를 예측. 이진 분류(binary classification)의 경우 집단 1에 속하는 확률 P(Y=1)의 추정치로 얻음

2단계: 추정 확률 -> 분류기준값(cut-off) 적용 -> 특정 범주로 분류

– 예를 들면, 이진의 경우 0.5의 분류기준값은

P(Y=1)≥0.5 -> 집단 1로 분류

P(Y=1)<0.5 -> 집단 0으로 분류

 

로짓(logit) 함수 : log(odds) – 종속 변수로 Y를 사용하는 대신에 로짓 함수를 사용

– 집단 0과 반대되는 집단 1에 속하는 확률인 p를 구한다.

– 집단번호를 오직 0과 1의 값을 갖는 Y와는 대조적으로, p는 [0,1]사이의 값을 갖는 다.

– 그러나 만약 p를 다음의 식과 같이 q개의 예측변수들의 선형함수로 표현한다면 우 변항이 0과 1사이의 값이 되는 것을 보장할 수 없게 된다.

로짓함수 식