연관성 규칙(Association Rules)
– “어떤 항목이 어떤 항목을 동반하는가”에 대한 연구
– 거래 데이터베이스로부터 구매항목들 사이의 연관성에 대한 규칙을 추론하는 방법
– 하나의 거래나 사건에 포함된 항목 간의 관련성을 파악하여 둘 이상의 항목들로 구성된 연관성 규칙을 도출하는 탐색적인 분석 방법
연관분석 특징
- 사건의 연관규칙을 찾는 데이터마이닝 기법
- y변수가 없으며, 비지도학습에 의한 패턴 분석 방법
- 거래 사실이 기록된 트랜잭션(Transaction)형식의 데이터 셋을 이용
- 사건과 사건 간의 연관성을 찾는 방법
- 예) 기저귀와 맥주(Diapers vs. Beer) 이야기: Karen Heath는 1992년 맥주와 기저귀의
상관관계 발견
- 지지도(제품의 동시 구매패턴), 신뢰도(A제품 구매 시 B제품 구매패턴),
향상도(A제품과 B제품간의 상관성)을 연관규칙의 평가도구로 사용
- 활용분야: 상품구매 규칙을 통한 구매패턴 예측(상품 연관성)
연관성 규칙 방법이 주는 장점
– “만약 X가 구매되었다면, Y 또한 구매될 것이다”라는 형태의 간단하고 명확한 규
칙들을 생성하는 것
– 이 방법은 아주 명쾌하며 이해하기가 쉽다.
장바구니 분석 (Market Basket Analysis) 또는 친화성 분석(affinity analysis) 이라고도 함.
하나의 거래나 사건에 포함된 항목 간의 관련성을 파악하여 둘 이상의 항목들로 구성된
연관성 규칙을 도출하는 탐색적인 분석 방법
연관성규칙
– if-then 형식으로 항목들 사이의 모든 가능한 규칙들을 조사 가장 의존적인 관계
를 나타낼 것 같은 규칙들을 선정
– 이때 "if"절(조건절)은 “선행(antecedent)” 이라는 용어로, "then"절(주절)은
“후행(consequent)"이라는 용어로 지칭
– 연관성규칙에서 선행과 후행은 (어떤 공통의 항목들을 갖지 않는) 공통원소가 없는
항목들의 집합(‘항목집합’이라고 함)이다. (예. 선행: 빨간색과 흰색, 후행: 초록색)
2.1 연관규칙 평가척도
(1) 지지도(support)
전체에 대한 품목A와 품목B가 동시에 일어나는 확률
Support = P(A∩B) = 품목 A와 품목 B가 동시에 포함된 거래 수 / 전체 거래수
일반적으로 지지도가 낮다는 의미는 A와 B를 동시에 구매하는 거래가 자주 발생하지 않음을 의미
Support(A->B) 와 Support(B -> A)가 상호 대칭적으로 서로 같은 값을 가진다.
(2) 신뢰도(confidence)
품목 A가 구매될 때 품목 B가 동시에 구매되는 경우의 조건부확률
Confidence (A -> B) = P(B|A) = 품목 A와 품목 B가 동시에 포함된 거래 수 / 품목 A를 포함한 거래수
지지도는 상호 대칭적으로 서로 같은 값을 가지기 때문에 포함 비중이 낮은 경우에는 연관성을 판단하는데 어려움이 있어 이를 보완한 것이 신뢰도
품목 A가 포함된 거래 중에서 품목 B를 포함한 거래의 비율
(3) 향상도(lift)
하위 항목들이 독립에서 얼마나 벗어나는지의 정도를 측정한 값
Lift(A -> B) = 신뢰도 / 품목 B를 포함한 거래율
지지도 또는 신뢰도가 높은 연관성 규칙 중에서 우연히 연관성이 높게 보이는 것들이 나타날 수 있는데 이를 보완하기 위해서 향상도가 사용된다.
향상도가 1에 가까우면 두 상품은 서로 독립적
향상도가 1보다 작으면 두 상품은 음의 상관성
향상도가 1보다 크면 두 상품은 양의 상관성
연관규칙에 의미가 있으려면 향상도가 1보다 큰 값이어야 한다.
향상도의 값이 클수록 상품 간의 연관성이 높다고 볼 수 있다.
'Python > 머신러닝 & 딥러닝' 카테고리의 다른 글
[딥러닝] 텍스트 분류(순환신경망) (0) | 2022.12.19 |
---|---|
[머신러닝] Xgboost (0) | 2022.11.15 |
[머신러닝] 앙상블 (Ensemble) (0) | 2022.11.12 |
[머신러닝] 군집분석 (Cluster Analysis) (0) | 2022.11.11 |
[머신러닝] 인공신경망 (0) | 2022.11.10 |