안녕하세요. 요새 날씨가 미친듯이 덥네요. 에어컨 없이는 잠도 안옵니다. 그리고는 다시 비염이 도져서는....
ㅠㅠ
오늘은 데이터마이닝을 알아보고자 하는데, 개요 부분만 간단하게 알아보도록 하겠습니다.
1. 데이터마이닝의 개요
*데이터마이닝은 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다.
*통계분석과 데이터마이닝의 차이점 : 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만, 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터로부 의미 있는 정보를 찾아내는 방법을 통칭한다.
*데이터마이닝의 종류
1) 정보를 찾는 방법론에 따라 : 인공지능, 의사결정나무, K-평균 군집화, 연관분석, 회귀 분석, 로짓 분석, 최근접 이웃
2) 분석대상이나 활용 목적, 표현에 따라 : 시각화 분석, 분류, 군집화, 포케스팅(예측)
*데이터마이닝 사용 분야 예시
1) 병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측
2) 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야하는지를 결정
3) 고객 데이터를 이용해 해당 고객의 우량/불량을 예측해 대출적격을 판단
4) 세관 검사에서 입국자의 이력과 데이터를 이용해 관세물품 반입 여부를 예측
*최근의 데이터마이닝 환경
1) 데이터마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능하다.
2) 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.
3) 분석 결과의 품질은 분석가의 경험과 역량에 따라서 차이가 나기 때문에 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요가 있다.
*대한민국의 데이터마이닝 환경
1) 한국에서 적용된 시기는 1990년대 중반이다.
2) 2000년대에 비즈니스 관점에서 데이터마이닝이 CRM의 중요한 요소로 부각되었다.
3) 대중화를 위해 많은 시도가 있었으나, 통계학 전문가와 대기업 위주로 진행되었다.
*비즈니스 관점의 데이터마이닝의 가장 큰 어려움
1) 경영진에 대한 설득 : 데이터 분석과 관련된 전문 내용들이다보니 경영진들과 소통하기 쉽지 않다.
2) 데이터 준비 : 데이터 기반으로 데이터 추출과 가공 등의 일이 많은 부담
3) 이해 부족으로 비즈니스 관점에서 정의하고 활용 방안을 도출하는 데 여러 시행착오가 발생한다.
발전단계 | 요구사항 | 사용가능기술 | 상용 제품 | 특징 |
데이터수집 (1960년대) | 지난 5년간의 총 이익은? | 컴퓨터, 테이프, 디스크 | IMB, CDC | 정적 데이터 공급 |
데이터접근 (1970년대) | 지난달 미국 지사의 매출? | RDBMS, SQL, ODBC | Oracle, IBM, Sybase, MS Infomix | 동적 데이터 공급 |
데이터 웨어하우징 & 의사결정지원 (1980년대) | 지난달 미국 지사의 매출은 얼마이고, 그 중 뉴욕에서의 매출은 얼마인가? | OLAP, 데이터 웨어하우스, 다차원 데이터베이스 | Pilot Comshare, Abor, Cognos, Microstrategy | 다양한 차원의 동적 데이터 공급 |
데이터마이닝 (1990년대 이후) | 다음달 뉴욕의 매출은 얼마가 되고, 그 이유는? | 고급 알고리즘, 멀티프로세서 컴퓨터, 대용량 데이터베이스 | Pilot, Lockheed, IBM, SGI... | 예측 정보의 공급 |
<참조 : Data Mining 발전단계, www.seri.org>
Supervised Data Prediction (교사 학습) | Unsupervised Data Prediction (비교사 학습) |
의사결정나무 (Decision tree) 인공신경망(Neural Network) 일반화 선형 모형(GLM, Generalized Linear Model) 회귀 분석(Regression Analysis) 로지스틱 회귀분석(Logistic Regression Analysis) 사례기반 추론(Case-Based Reasoning) k-Nearest Neighbor | OLAP(On-Line Analytic Processing) 연관 규칙 분석(Association Rule Discovery, Market Basket) 군집 분석(k-Means Clustering) |
목적 | 작업유형 | 설명 | 사용기법 |
예측 Predictive Modeling | 분류 규칙 Classification | 가장 많이 사용되는 작업으로 과거의 데이터로부터 고객특성을 찾아내어 분류모형을 만들어 이를 토대로 새로운 레코드의 결과값을 예측하는 것으로 목표 마케팅 및 고객 신용평가 모형에 활용됨 | 회귀분석, 판별분석, 신경망, 의사결정나무 |
설명 Descriptive Modeling | 연관 규칙 Association | 데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업으로, 제품이나 서비스의 교차판매(Cross Selling), 매장 진열(Display), 첨부우편(Attached Mailings), 사기적발(Fraud Detection)등의 다양한 분야에 활용됨 | 동시발생 매트릭스 |
연속 규칙 Sequence | 연관 규칙에 시간관련 정보가 포함된 형태로, 고객의 구매이력(History) 속성이 반드시 필요하며, 목표 마케팅(Target Marketing)이나 일대일 마케팅 (One to One Marketing)에 활용됨 | 동시발생 매트릭스 | |
데이터 군집화 Clustering | 고객 레코드들을 유사한 특징을 지닌 몇 개의 소그룹으로 분할하는 작업으로 작업의 특성이 분류규칙(Classification)과 유사하나, 분석대상 데이터에 결과 값이 없으며, 판촉활동이나 이벤트 대상을 선정하는 데 활용됨 | K-means Clustering |
1. 데이터마이닝 추진 단계
*데이터마이닝은 일반적으로 목적 정의, 데이터 준비, 데이터 가공, 데이터 마이닝 기법 적용, 검증 단계로 추진된다.
1) 1단계 : 목적 설정
: 데이터마이닝을 통해 무엇을 왜 하는지 명확한 목적(이해관계자 모두 동의하고 이해할 수 있는)을 설정한다.
: 전문가가 참여해 목적에 따라 사용할 모델과 필요한 데이터를 정의한다.
2) 2단계 : 데이터 준비
: 고객정보, 거래정보, 상품 마스터정보, 웹로그 데이터, 소셜 네트워크 데이터 등 다양한 데이터에 활용한다.
: IT부서와 사전 협의하고 일정을 조율하여 데이터 접근 부하에 유의하여야 하며, 필요시 다른 서버에 저장하여 운영에 지장이 없도록 데이터를 준비한다.
: 데이터 정제를 통해 데이터품질을 보장하고, 필요시 데이터를 보강하여 충분한 양의 데이터를 확보한다.
3) 3단계 : 가공
: 모델링 목적에 따라 목적 변수를 정의한다.
: 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있는 형식으로 가공한다.
4) 4단계 : 기법 적용
: 1단계에서 명확화한 목적에 맞게 데이터마이닝 기법을 적용하여 정보를 추출한다.
5) 5단계 : 검증
: 마이닝으로 추출된 정보를 검증한다.
: 테스트 마케팅과 과거 데이터를 활용하여 최적의 모델을 선정한다.
: 검증이 완료되면 IT부서와 협의해 상시 데이터마이닝 결과를 업무에 적용하고 보고서를 작성하여 추가수익과 투자대비성과(ROI) 등으로 기대효과를 전파한다.
6) CRISP-DM (앞서 나온 내용)
7) SEMMA 프로세스
SAS의 데이터마이닝 프로세스 : Sample<->Explore<->Modify<->Model<->Assess
2. 데이터마이닝을 위한 데이터분할
*모델 평가 방법 : 테스트 데이터와 구축용 데이터로 분할하여 구축용 데이터로 모형을 생성하고 테스트 데이터로 얼마나 적합한지를 판단한다.
*구축용 : 50%, 추정용, 훈련용 데이터라고도 불리우며 데이터 마이닝 모델을 만드는 데 활용한다.
*검정용 : 30%, 구축된 모형의 과대추정 또는 과소추정을 미세 조정하는 데 활용한다.
*시험용 : 20%, 테스트 데이터나 과거 데이터를 활용하여 모델의 성능 검증에 활용한다.
*데이터의 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우
1) 구축용과 시험용으로 분리하여 사용하기도 한다.
2) 교차 확인(Cross-validation)을 통해 모형을 평가하기도 한다.
3. 데이터마이닝 모형 평가
* 현업에서 사용할 수 있을 지 주어진 자료로 모형을 평가한다.
* 데이터 분할을 통해 확보한 테스트데이터를 통해 오분류율을 구한다.
* 오분류율에 따라서 모형을 사용할지 다른 모형을 생성할지 판단한다.
* 오분류율은 분석 목적이나 사용되는 용도에 따라 기준이 다르게 적용된다.
#오늘은 여기까지 알아보겠습니당!
'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글
43. 데이터마이닝 - 분류분석 2 (0) | 2018.11.22 |
---|---|
42. 데이터마이닝-분류 분석 (0) | 2018.11.22 |
40. 다차원척도법 , 주성분분석 (4) | 2018.11.22 |
39. 시계열 분석 (0) | 2018.11.22 |
38. 회귀 분석 (2) | 2018.11.22 |