Data Analysis

통계 7

[통계] 상관분석 (Correlation Analysis)

상관분석 상관분석이란? 변인 간의 관련성을 경험적으로 분석하는 것 변인 간의 상호 관련성의 정도를 밝혀 보려는 것 두 변인 간의 선형적인 관계를 알아보는 것 : 정적 상관 / 부적 상관 상관분석의 목적 변인 간의 관계를 규명함으로써 주위 현상을 이해하고 해석함. 상관분석의 결과를 인과관계 확인을 위한 실험연구의 가설로 사용할 수 있음. 두 변인 사이에 충분한 관계가 있을 때 한 변인의 측정치에서 다른 변인의 측정치를 예측함. 상관관계 분석 수행 시, 회귀분석에서 변수 간의 인과관계를 분석하기 전에 변수 간의 관련성을 분석하는 선행자료 (가설검정 전 수행) 로 이용 변수 간의 관련성을 위해 상관계수인 피어슨(Pearson) r 계수를 이용하여 관련성 유무와 정도를 파악 단순상관분석 두 변인(준거변인, 예언..

통계 2022.11.08

[통계] 시계열 분석 Timeseries Analysis(2)

시계열의 분석 기법 이동평균법 단순이동평균법 단순이동평균법은 예측값을 계산하기 위해 사용하는 과거관측값의 개수로 그 종류가 구분됨. 일반적으로 시계열자료에 뚜렷한 추세가 나타나 있거나 불규칙변동이 심하지 않은 경우에는 작은 n의 개수를 사용하고, 그렇지 않은 경우에는 n의 개수를 크게 함. 가중이동평균법 관측값에 따라 가중치를 다르게 한 이동평균법임. 가중평균이동법의 다른 요소는 단순이동평균법과 동일하지만 관측값마다 다른 가중치를 적용한다는 것이 차이임. 지수평활법 과거의 모든 자료를 사용하여 평균을 구하면서 최근의 자료에 더 높은 가중치를 부여하는 방법 • 단기간에 발생하는 파동이나 충격을 완화하는 평활법(smoothing method)임. 예측오차를 비교하여 예측오차가 작은a값을 선택하는 것이 바람직..

통계 2022.11.07

[통계] 시계열 분석 Timeseries Analysis(1)

시계열분석 일종의 회귀분석이라할 수 있음, x축이 시간과 연관된, 변동된 것들을 분석하는데에 쓰임. 어떤 현상에 대해서 시간의 변화량을 기록한 시계열 자료를 대상으로 미래의 변화에 대한 추세를 분석하는 방법 시계열 자료 시간의 변화에 따라 관측치 또는 통계량의 변화를 기록해 놓은 자료 시계열 분석은 현재의 현상 이해를 기초로 미래를 예측하는 분석 방법 경기예측, 판매예측, 주식시장분석, 예산 및 투자 분석 등의 분야에서 활용 시계열 분석의 특징 시계열분석은 설명변수와 반응변수를 토대로 유의수준에 의해서 판단하는 추론 통계방식 시계열분석의 특징과 분석에 사용되는 데이터 셋의 전제조건: 1. y변수 존재: 시간 t를 설명변수(x)로 시계열을 반응변수(y)로 사용 2. 미래추정: 과거와 현재의 현상을 파악하고..

통계 2022.11.07

[통계] 로지스틱 회귀분석 (Logistic Regression)

로지스틱 회귀분석 말은 회귀분석인데, 로지스틱 회귀분석은 분류를 한다. 예측이 아니라 분류목적으로 만든 것. 확률의 추정치(0~1사이의 값)을 에측 로지스틱 회귀분석의 특징 - 분석 목적: 종속변수와 독립변수 간의 관계를 통해서 예측 모델 생성 - 회귀분석과 차이점: 종속변수는 반드시 범주형 변수(예, Yes/No, iris데이터의 species) - 정규성: 정규분포 대신에 이항분포를 따른다. - 로짓 변환: 종속변수의 출력범위를 0과 1로 조정하는 과정(예, 혈액형 A -> [1, 0, 0, 0] -> 활용분야: 의료, 통신, 날씨 등 다양한 분야 로지스틱 회귀분석: 분류 (Y: 범주형) vs. 회귀분석: 예측 (Y: 연속형) 로지스틱 회귀분석 과정 – 1단계: 각 집단에 속하는 확률의 추정치(0~1..

통계 2022.11.04

[통계] 변수선택 (Variable Selection)

변수선택 회귀모델에서 독립변수의 증가는 모델의 결정계수를 증가시켜 설명력을 높이는 장점이 있지만 다중 공선성 문제를 일으킬 수 있어서 추정의 신뢰도를 저하시킬 수 있고, 독립변수가 많을 경우 예측성능이 좋지 않을 가능성이 많고 독립성, 등분산성 등의 가정을 만족시키기 어렵기 때문에 독립변수를 줄일 필요가 있다. 전진 선택법(Forward Selection): 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가 - 유의성이 높은 변수 순으로 추가(한번 들어가면 제거가 안됨) - 반응 y에 가장 영향이 큰 x변수부터 하나씩 추가시키면서 최종모형을 찾는 방법. - 한번 모형에 들어간 x변수는 다시 제거되지 못함. - 따라서 모형에 들어간 x변수는 재평가되지 않음. 후진 제거법(Back..

통계 2022.11.04

[통계] 요인분석 (Factor Analysis)

요인분석 - 변수들의 상관성을 바탕으로 변수를 정제하여 상관관계 분석이나 회귀분석에서 설명변수(독립변수)로 사용된다 - 다수의 변수를 대상으로 변수 간의 관계를 분석하여 공통 차원으로 축약하는 통계기법 1) 탐색적 요인분석: 요인 분석을 할 때 사전에 어떤 변수들끼리 묶어야 한다는 전제를 두지 않고 분석하는 방법 2) 확인적 요인 분석: 사전에 묶일 것으로 기대되는 항목끼리 묶였는지를 조사하는 방법 요인분석을 위한 전제조건 1. 하위요인으로 구성되는 데이터 셋이 준비되어 있어야 한다. 2. 분석에 사용되는 변수는 등간척도나 비율척도여야 하며, 표본의 크기는 최소 50개 이상이 바람직하다. 3. 요인 분석은 상관관계가 높은 변수들끼리 그룹화하는 것이므로 변수 간의 상관관계가 매우 낮다면(보통 ±3이하), ..

통계 2022.11.04

[통계] 회귀분석 (Regression Analysis)

summary 1)회귀분석 2)최소자승법 3) 회귀선 4) 회귀분석의 기본가정 회귀분석 - 두 변수간의 관계를 분석하기 위한 통계 기법 - 최소자승법을 통해 절편과 기울기를 추정 회귀분석의 특징 1) 가장 강력하고 사용범위가 넓은 분석 방법 2) 독립변수가 종속변수에 영향을 미치는 변수를 규명하고, 이들 변수에 의해서 회귀방정식(Y=a+bX where a: 상수, b: 회귀계수, X: 독립변수, Y: 종속변수)을 도출하여 회귀선을 추정 3) 회귀계수는 단위시간에 따라 변하는 양(기울기)이며, 회귀선을 추정함에 있어 최소자승법을 이용 4) 독립변수와 종속변수가 모두 등간척도 또는 비율척도로 구성되어 있어야 한다. X1=(1,2), X2(4,3) 이 두 수를 통화하는선을 어떻게 찾나? (점 두개 연결) Y=..

통계 2022.11.03