본문 바로가기
## 오래된 게시글 (미관리) ##/R

41. 데이터마이닝 개요

by #Glacier 2018. 11. 22.
반응형

안녕하세요. 요새 날씨가 미친듯이 덥네요. 에어컨 없이는 잠도 안옵니다. 그리고는 다시 비염이 도져서는....

ㅠㅠ


오늘은 데이터마이닝을 알아보고자 하는데, 개요 부분만 간단하게 알아보도록 하겠습니다.


1. 데이터마이닝의 개요

 *데이터마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다.

 *통계분석과 데이터마이닝의 차이점 : 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터로부 의미 있는 정보를 찾아내는 방법을 통칭한다.

 *데이터마이닝의 종류

  1) 정보를 찾는 방법론에 따라 : 인공지능, 의사결정나무, K-평균 군집화, 연관분석, 회귀 분석, 로짓 분석, 최근접 이웃

  2) 분석대상이나 활용 목적, 표현에 따라 : 시각화 분석, 분류, 군집화, 포케스팅(예측)


 *데이터마이닝 사용 분야 예시

  1) 병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측

  2) 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야하는지를 결정

  3) 고객 데이터를 이용해 해당 고객의 우량/불량을 예측해 대출적격을 판단

  4) 세관 검사에서 입국자의 이력과 데이터를 이용해 관세물품 반입 여부를 예측


 *최근의 데이터마이닝 환경

  1) 데이터마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능하다.

  2) 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.

  3) 분석 결과의 품질은 분석가의 경험과 역량에 따라서 차이가 나기 때문에 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요가 있다.


 *대한민국의 데이터마이닝 환경

  1) 한국에서 적용된 시기는 1990년대 중반이다.

  2) 2000년대에 비즈니스 관점에서 데이터마이닝이 CRM의 중요한 요소로 부각되었다.

  3) 대중화를 위해 많은 시도가 있었으나, 통계학 전문가와 대기업 위주로 진행되었다.


 *비즈니스 관점의 데이터마이닝의 가장 큰 어려움

  1) 경영진에 대한 설득 : 데이터 분석과 관련된 전문 내용들이다보니 경영진들과 소통하기 쉽지 않다.

  2) 데이터 준비 : 데이터 기반으로 데이터 추출과 가공 등의 일이 많은 부담

  3) 이해 부족으로 비즈니스 관점에서 정의하고 활용 방안을 도출하는 데 여러 시행착오가 발생한다.


 발전단계

요구사항 

사용가능기술 

상용 제품 

특징 

데이터수집

(1960년대) 

지난 5년간의 총 이익은? 

컴퓨터, 테이프, 디스크 

IMB, CDC

 정적 데이터 공급

 데이터접근

(1970년대)

지난달 미국 지사의 매출? 

RDBMS, SQL, ODBC 

Oracle, IBM, Sybase, MS Infomix 

 동적 데이터 공급

 데이터 웨어하우징 &

의사결정지원

(1980년대)

 지난달 미국 지사의 매출은 얼마이고, 그 중 뉴욕에서의 매출은 얼마인가?

OLAP, 데이터 웨어하우스, 다차원 데이터베이스 

Pilot Comshare, Abor,

Cognos, Microstrategy

다양한 차원의 

동적 데이터 공급 

 데이터마이닝

(1990년대 이후)

다음달 뉴욕의 매출은 얼마가 되고, 그 이유는? 

고급 알고리즘,

멀티프로세서 컴퓨터,

대용량 데이터베이스 

Pilot, Lockheed, IBM,

SGI... 

예측 정보의 공급 

<참조 : Data Mining 발전단계, www.seri.org>


 Supervised Data Prediction (교사 학습)

Unsupervised Data Prediction (비교사 학습)

의사결정나무 (Decision tree)

인공신경망(Neural Network)

일반화 선형 모형(GLM, Generalized Linear Model)

회귀 분석(Regression Analysis)

로지스틱 회귀분석(Logistic Regression Analysis)

사례기반 추론(Case-Based Reasoning)

k-Nearest Neighbor 

OLAP(On-Line Analytic Processing)

연관 규칙 분석(Association Rule Discovery, Market Basket)

군집 분석(k-Means Clustering)
SOM(Self Organizing Map) 



 목적

작업유형 

설명 

사용기법 

 예측

Predictive Modeling

분류 규칙

Classification 

가장 많이 사용되는 작업으로 과거의 데이터로부터 고객특성을 찾아내어 분류모형을 만들어 이를 토대로 새로운 레코드의 결과값을 예측하는 것으로 목표

마케팅 및 고객 신용평가 모형에 활용됨 

회귀분석, 판별분석, 신경망, 의사결정나무 

 설명

Descriptive Modeling

연관 규칙

Association 

데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업으로, 제품이나 서비스의 교차판매(Cross Selling), 매장 진열(Display), 첨부우편(Attached Mailings), 사기적발(Fraud Detection)등의 다양한 분야에 활용됨 

동시발생 매트릭스 

 연속 규칙

Sequence

연관 규칙에 시간관련 정보가 포함된 형태로, 고객의 구매이력(History) 속성이 반드시 필요하며, 목표 마케팅(Target Marketing)이나 일대일 마케팅

(One to One Marketing)에 활용됨 

동시발생 매트릭스 

 데이터 군집화

Clustering

고객 레코드들을 유사한 특징을 지닌 몇 개의 소그룹으로 분할하는 작업으로 작업의 특성이 분류규칙(Classification)과 유사하나, 분석대상 데이터에 결과 값이 없으며, 판촉활동이나 이벤트 대상을 선정하는 데 활용됨 

K-means

Clustering 


1. 데이터마이닝 추진 단계


 *데이터마이닝은 일반적으로 목적 정의, 데이터 준비, 데이터 가공, 데이터 마이닝 기법 적용, 검증 단계로 추진된다.

 

1) 1단계 : 목적 설정

 : 데이터마이닝을 통해 무엇을 왜 하는지 명확한 목적(이해관계자 모두 동의하고 이해할 수 있는)을 설정한다.

 : 전문가가 참여해 목적에 따라 사용할 모델과 필요한 데이터를 정의한다.


2) 2단계 : 데이터 준비

 : 고객정보, 거래정보, 상품 마스터정보, 웹로그 데이터, 소셜 네트워크 데이터 등 다양한 데이터에 활용한다.

 : IT부서와 사전 협의하고 일정을 조율하여 데이터 접근 부하에 유의하여야 하며, 필요시 다른 서버에 저장하여 운영에 지장이 없도록 데이터를 준비한다.

 : 데이터 정제를 통해 데이터품질을 보장하고, 필요시 데이터를 보강하여 충분한 양의 데이터를 확보한다.


3) 3단계 : 가공

 : 모델링 목적에 따라 목적 변수를 정의한다.

 : 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있는 형식으로 가공한다.


4) 4단계 : 기법 적용

 : 1단계에서 명확화한 목적에 맞게 데이터마이닝 기법을 적용하여 정보를 추출한다.


5) 5단계 : 검증

 : 마이닝으로 추출된 정보를 검증한다.

 : 테스트 마케팅과 과거 데이터를 활용하여 최적의 모델을 선정한다.

 : 검증이 완료되면 IT부서와 협의해 상시 데이터마이닝 결과를 업무에 적용하고 보고서를 작성하여 추가수익과 투자대비성과(ROI) 등으로 기대효과를 전파한다.


6) CRISP-DM (앞서 나온 내용)


7) SEMMA 프로세스

 SAS의 데이터마이닝 프로세스 : Sample<->Explore<->Modify<->Model<->Assess


2. 데이터마이닝을 위한 데이터분할


 *모델 평가 방법 : 테스트 데이터와 구축용 데이터로 분할하여 구축용 데이터로 모형을 생성하고 테스트 데이터로 얼마나 적합한지를 판단한다.

 *구축용 : 50%, 추정용, 훈련용 데이터라고도 불리우며 데이터 마이닝 모델을 만드는 데 활용한다.

 *검정용 : 30%, 구축된 모형의 과대추정 또는 과소추정을 미세 조정하는 데 활용한다.

 *시험용 : 20%, 테스트 데이터나 과거 데이터를 활용하여 모델의 성능 검증에 활용한다.

 *데이터의 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우

 1) 구축용과 시험용으로 분리하여 사용하기도 한다.

 2) 교차 확인(Cross-validation)을 통해 모형을 평가하기도 한다.


3. 데이터마이닝 모형 평가


 * 현업에서 사용할 수 있을 지 주어진 자료로 모형을 평가한다.

 * 데이터 분할을 통해 확보한 테스트데이터를 통해 오분류율을 구한다.

 * 오분류율에 따라서 모형을 사용할지 다른 모형을 생성할지 판단한다.

 * 오분류율은 분석 목적이나 사용되는 용도에 따라 기준이 다르게 적용된다.


#오늘은 여기까지 알아보겠습니당!






반응형

'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글

43. 데이터마이닝 - 분류분석 2  (0) 2018.11.22
42. 데이터마이닝-분류 분석  (0) 2018.11.22
40. 다차원척도법 , 주성분분석  (4) 2018.11.22
39. 시계열 분석  (0) 2018.11.22
38. 회귀 분석  (2) 2018.11.22