본문 바로가기
R

46. 연관분석

by #Glacier 2018. 11. 23.
반응형

안녕하세용

오늘은 연관분석에 대해 알아보고자 합니다. 시작~


1. 연관규칙


 1) 연관 분석(Association Analysis)

 - 연관성 분석은 흔히 장바구니분석(Market Basket Analysis) 또는 서열 분석(Sequence Analysis) 이라고 불린다.

 

 2) 연관규칙의 개념

 - 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용한다.

 - 장바구니 분석 : '장바구니에 무엇이 같이 들어 있는지에 대한 분석'

 - 서열 분석 : 'A를 산 다음에 B를 산다'


 3) 연관규칙의 개념

 - 조건과 반응의 형태(if-then)
 if A then B : A가 일어나면 B가 일어난다.


 - 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다.

 - 샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다.


 4) 연관분석의 측도

 - 산업의 특성에 따라 지지도, 신뢰도, 향상도 값을 잘 보고 규칙을 선택해야 한다.

 - 지지도(support) : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의한다.


  %EC%A7%80%EC%A7%80%EB%8F%84%5Cquad%20%3D%5Cquad%20P(A%5Ccap%20B)%3D%5Cfrac%20%7B%20A%EC%99%80%5Cquad%20B%EA%B0%80%5Cquad%20%EB%8F%99%EC%8B%9C%EC%97%90%5Cquad%20%ED%8F%AC%ED%95%A8%EB%90%9C%5Cquad%20%EA%B1%B0%EB%9E%98%5Cquad%20%EC%88%98%20%7D%7B%20%EC%A0%84%EC%B2%B4%5Cquad%20%EA%B1%B0%EB%9E%98%5Cquad%20%EC%88%98%20%7D%20 


 - 신뢰도(confidence) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률. 연관성의 정도를 파악할 수 있다.

 

  %EC%8B%A0%EB%A2%B0%EB%8F%84%5Cquad%20%3D%5Cquad%20%5Cfrac%20%7B%20P(A%5Ccap%20B)%20%7D%7B%20P(A)%20%7D%3D%5Cfrac%20%7B%20A%EC%99%80%5Cquad%20B%EA%B0%80%5Cquad%20%EB%8F%99%EC%8B%9C%EC%97%90%5Cquad%20%ED%8F%AC%ED%95%A8%EB%90%9C%5Cquad%20%EA%B1%B0%EB%9E%98%5Cquad%20%EC%88%98%20%7D%7B%20A%EB%A5%BC%5Cquad%20%ED%8F%AC%ED%95%A8%ED%95%98%EB%8A%94%5Cquad%20%EA%B1%B0%EB%9E%98%5Cquad%20%EC%88%98%20%7D%20


 - 향상도(Lift) : A를 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율.

                    연관규칙 A=>B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 된다.


  %ED%96%A5%EC%83%81%EB%8F%84%5Cquad%20%3D%5Cquad%20%5Cfrac%20%7B%20P(B%7CA)%20%7D%7B%20P(B)%20%7D%5Cquad%20%3D%5Cquad%20%5Cfrac%20%7B%20P(A%5Ccap%20B)%20%7D%7B%20P(A)P(B)%20%7D%3D%5Cfrac%20%7B%20A%EC%99%80%5Cquad%20B%EA%B0%80%5Cquad%20%EB%8F%99%EC%8B%9C%EC%97%90%5Cquad%20%ED%8F%AC%ED%95%A8%EB%90%9C%5Cquad%20%EA%B1%B0%EB%9E%98%5Cquad%20%EC%88%98%20%7D%7B%20A%EB%A5%BC%5Cquad%20%ED%8F%AC%ED%95%A8%ED%95%98%EB%8A%94%5Cquad%20%EA%B1%B0%EB%9E%98%5Cquad%20%EC%88%98%5Cquad%20X%5Cquad%20B%EB%A5%BC%5Cquad%20%ED%8F%AC%ED%95%A8%ED%95%98%EB%8A%94%5Cquad%20%EA%B1%B0%EB%9E%98%5Cquad%20%EC%88%98%20%7D%20


 5) 연관규칙의 절차

 - 최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는 것이다.

  = 처음에는 5%로 잡고 규칙이 충분히 도출되는 지를 보고 다양하게 조절하여 시도한다.

  = 처음부터 너무 낮은 최소 지지도를 선정하는 것은 많은 리소스가 소모되어 불필요하다.

 - 절차 : 최소 지지도 결정 -> 품목 중 최소 지지도를 넘는 품목 분류 -> 2가지 품목 집합 생성 -> 반복적 수행으로 빈발품목 집합 탐색

 

 6) 연관규칙의 장점

 - 탐색적인 기법 : 조건 반응으로 표현되는 연관성분석의 결과를 쉽게 이해할 수 있다.

 - 강력한 비목적성 분석기법 : 분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 유용하게 활용된다.

 - 사용이 편리한 분석 데이터의 형태 : 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료구조를 갖는다.

 - 계산의 용이성 : 분석을 위한 계산이 상당히 간단하다.


 7) 연관규칙의 단점

 - 상당한 수의 계산과정 : 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.

  * 이를 개선하기 위해 유사한 품목을 한 범주로 일반화한다.

  * 연관 규칙의 신뢰도 하한을 새롭게 정의해 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외한다.

 - 적절한 품목의 결정 : 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미 없는 분석이 될 수 있다.

  * 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함 시킨 후 , 그 결과 중에서 세부적으로 연관을 찾는 작업을 수행할 수 있다.

 - 품목의 비율 차이 : 거래량이 적은 품목은 당연히 포함된 거래 수가 적을 것이고, 규칙 발견 시 제외하기가 쉽다.

  * 이런 경우, 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 연관성 규칙의 과정에 포함 시킬 수 있다.



 8) 순차패턴

 - 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것읻.

 - 연관성분석에서의 데이터 형태에서 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함된다.

 

 2. 기존 연관성분석의 이슈


 - 대용량 데이터에 대한 연관성 분석이 불가능하다.

 - 시간이 많이 걸리거나 기존 시스템에서 실행 시 시스템 다운되는 현상

 

 3. 최근 연관성분석 동향

 

 - 1세대 알고리즘인 Apriori 나 2세대인 FP Tree가 아닌 3세대 FPV를 이용해 메모리를 효율적으로 사용함으로서 SKU레벨의 연관성 분석을 성공적으로 적용


 4. 연관성분석 활용방안


 - 장바구니 분석이 경우는 실시간 상품추천을 통한 교차판매에 응용

 - 시차분석은 A를 구매한 사람인데 B를 구매하지 않은 경우, B를 추천하는 교차판매 캠페인에 활용.


 #연관성 분석의 예시는 나와있지 않아서 이전 제가 포스팅한 연관분석 포스팅을 참고해주시면 되겠습니당..^.^ 개념만 알고 가요~

반응형