안녕하세용
오늘은 연관분석에 대해 알아보고자 합니다. 시작~
1. 연관규칙
1) 연관 분석(Association Analysis)
- 연관성 분석은 흔히 장바구니분석(Market Basket Analysis) 또는 서열 분석(Sequence Analysis) 이라고 불린다.
2) 연관규칙의 개념
- 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용한다.
- 장바구니 분석 : '장바구니에 무엇이 같이 들어 있는지에 대한 분석'
- 서열 분석 : 'A를 산 다음에 B를 산다'
3) 연관규칙의 개념
- 조건과 반응의 형태(if-then)
if A then B : A가 일어나면 B가 일어난다.
- 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다.
- 샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다.
4) 연관분석의 측도
- 산업의 특성에 따라 지지도, 신뢰도, 향상도 값을 잘 보고 규칙을 선택해야 한다.
- 지지도(support) : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의한다.
- 신뢰도(confidence) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률. 연관성의 정도를 파악할 수 있다.
- 향상도(Lift) : A를 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율.
연관규칙 A=>B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 된다.
5) 연관규칙의 절차
- 최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는 것이다.
= 처음에는 5%로 잡고 규칙이 충분히 도출되는 지를 보고 다양하게 조절하여 시도한다.
= 처음부터 너무 낮은 최소 지지도를 선정하는 것은 많은 리소스가 소모되어 불필요하다.
- 절차 : 최소 지지도 결정 -> 품목 중 최소 지지도를 넘는 품목 분류 -> 2가지 품목 집합 생성 -> 반복적 수행으로 빈발품목 집합 탐색
6) 연관규칙의 장점
- 탐색적인 기법 : 조건 반응으로 표현되는 연관성분석의 결과를 쉽게 이해할 수 있다.
- 강력한 비목적성 분석기법 : 분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 유용하게 활용된다.
- 사용이 편리한 분석 데이터의 형태 : 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료구조를 갖는다.
- 계산의 용이성 : 분석을 위한 계산이 상당히 간단하다.
7) 연관규칙의 단점
- 상당한 수의 계산과정 : 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.
* 이를 개선하기 위해 유사한 품목을 한 범주로 일반화한다.
* 연관 규칙의 신뢰도 하한을 새롭게 정의해 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외한다.
- 적절한 품목의 결정 : 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미 없는 분석이 될 수 있다.
* 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함 시킨 후 , 그 결과 중에서 세부적으로 연관을 찾는 작업을 수행할 수 있다.
- 품목의 비율 차이 : 거래량이 적은 품목은 당연히 포함된 거래 수가 적을 것이고, 규칙 발견 시 제외하기가 쉽다.
* 이런 경우, 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 연관성 규칙의 과정에 포함 시킬 수 있다.
8) 순차패턴
- 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것읻.
- 연관성분석에서의 데이터 형태에서 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함된다.
2. 기존 연관성분석의 이슈
- 대용량 데이터에 대한 연관성 분석이 불가능하다.
- 시간이 많이 걸리거나 기존 시스템에서 실행 시 시스템 다운되는 현상
3. 최근 연관성분석 동향
- 1세대 알고리즘인 Apriori 나 2세대인 FP Tree가 아닌 3세대 FPV를 이용해 메모리를 효율적으로 사용함으로서 SKU레벨의 연관성 분석을 성공적으로 적용
4. 연관성분석 활용방안
- 장바구니 분석이 경우는 실시간 상품추천을 통한 교차판매에 응용
- 시차분석은 A를 구매한 사람인데 B를 구매하지 않은 경우, B를 추천하는 교차판매 캠페인에 활용.
#연관성 분석의 예시는 나와있지 않아서 이전 제가 포스팅한 연관분석 포스팅을 참고해주시면 되겠습니당..^.^ 개념만 알고 가요~
'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글
47. 비정형 데이터 마이닝 - 텍스트마이닝 (2) | 2018.11.23 |
---|---|
45. 데이터마이닝-군집분석 (0) | 2018.11.22 |
44. 데이터마이닝-분류분석 3 (0) | 2018.11.22 |
43. 데이터마이닝 - 분류분석 2 (0) | 2018.11.22 |
42. 데이터마이닝-분류 분석 (0) | 2018.11.22 |