본문 바로가기

R47

47. 비정형 데이터 마이닝 - 텍스트마이닝 안녕하세요. 이제 거의 막바지입니다.. 곧 시험을 보고 개강도 할테죠..ㅎㅎ..오늘은 비정형 데이터마이닝 파트, 텍스트마이닝을 알아보도록 하겠습니다. 텍스트마이닝은 1980년대에 부상하였지만, 당시만 해도 노동집약적이고 수동적인 방법으로 취급받아 텍스트마이닝의 열풍이 시들해졌습니다.국내에는 데이터마이닝 기술이 발전했던 1990년대 후반부터 연구가 진행되었다가,데이터마이닝 기술에 자연어처리(Natural Language Process)기술이 접목되면서 발전하기 시작하였습니다. 텍스트마이닝은 문서에 텍스트를 분리하여 그 문서를 요약/분류/군집으로 나눌 수 있도록 함으로서 회사의 전용메일로 들어온 메일들을 부서별로 분류하거나,음성인식을 통한 자동 요약, 트위터의 트윗들을 분석해서 감성분석을 하는 등 다양하게 .. 2018. 11. 23.
46. 연관분석 안녕하세용오늘은 연관분석에 대해 알아보고자 합니다. 시작~ 1. 연관규칙 1) 연관 분석(Association Analysis) - 연관성 분석은 흔히 장바구니분석(Market Basket Analysis) 또는 서열 분석(Sequence Analysis) 이라고 불린다. 2) 연관규칙의 개념 - 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용한다. - 장바구니 분석 : '장바구니에 무엇이 같이 들어 있는지에 대한 분석' - 서열 분석 : 'A를 산 다음에 B를 산다' 3) 연관규칙의 개념 - 조건과 반응의 형태(if-then) if A then B : A가 일어나면 B가 일어난다. - 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다. - .. 2018. 11. 23.
45. 데이터마이닝-군집분석 안녕하세요. 오늘은 군집분석에 대해서 알아보겠습니다. 1. 군집분석의 개요 -각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법. -특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것이다. -결과는 구체적인 군집분석 방법에 따라 차이가 나타날 수 있다. -군집의 개수나 구조에 대한 가정 없이 데이터로부터 거리를 기준으로 군집화를 유도한다. -마케팅 조사에서 소비자들의 상품구매행동이나 life style에 따른 소비자군을 분류하여 시장 전략 수집 등에 활용한다. 1) 군집분석 특징 -요인분석과의 차이점 : 요인분석은 유사한 변수를 함께 묶어주는 것이 목적 -판별분석과의 차이점 : 판별분석은.. 2018. 11. 22.
44. 데이터마이닝-분류분석 3 안녕하세요 오늘은 분류분석 3번째 파트 인공신경망에 대해 알아보고자 합니다.저도 이부분에 대해서는 거의 문외한인데요..같이 알아가보도록 하지용.. 1. 인공신경망분석(ANN)"인간의 놀라운 인식력과 판단력은 단순한 기능을 가진 몇 개의 신경세포 조합에 의해 행해진다." 1) 인공신경망의 연구 -1943년 매컬럭(McCulloch)과 피츠(Pitts) : 인간의 뇌를 수많은 신경세포가 연결되 하나의 디지털 네트워크 모형으로 간주하고 신경세포의 신호처리 과정을 모형화 하여 단순 패턴분류 모형을 개발했다. -헵(Hebb) : 신경세포(뉴런) 사이의 연결강도(weight)를 조정하여 학습규칙을 개발했다. -로젠블럿(Rosenblatt, 1955) : 퍼셉트론(Perceptron)이라는 인공세포를 개발했다. -비.. 2018. 11. 22.