본문 바로가기

전체 글141

29. 비정형 데이터마이닝 - 텍스트마이닝 안녕하셍요. 오늘은 비정형 데이터마이닝을 공부해보도록 하겠습니다. # 참고.빅데이터 중 비정형 데이터인 로그성 데이터는 - R의 parsing 기능을 이용하여 입수가 가능하며, 기업의 내부 서술형 데이터나 소셜 미디어 등에서 입수하는 텍스트 형식의 정보를 분석하는 데는 텍스트마이닝이 필요하다. 또 다른 비정형 형태인 소셜 미디어나 기타 관계로 표현되는 데이터는 소셜 네트워크 분석을 통해 수행할 수 있다. (SNA분석) - 텍스트 데이터에서의 단어 패턴을 이용해서 내용을 파악하거나 분류 및 핵심단어 주제를 추출하는 경우 연관된 단어나 빈번하게 나오는 단어와, 부정/긍정 단어에 따른 기업이나 제품, 브랜드를 평가하는데 활용한다. 텍스트 마이닝에서는 분석 가능한 document term matrix를 만들기 .. 2018. 11. 21.
28. 정형 데이터마이닝 - 연관성 분석#2 (Association Analysis) 안녕하세요. 오랜만입니다..오늘은 연관성 분석의 2번째 파트, 순차연관성 분석에 대해서 공부해 볼게여 install.packages("arulesSequences") library(arulesSequences) data(zaki) ​# arulesSequences라는 패키지를 이용하고 zaki라는 데이터를 사용합니다.arulesSequences가 무슨 패키지일까 쳐봤는데,Add-on for arules to handle and mine frequent sequences. Provides interfaces to the C++ implementationof cSPADE by Mohammed J. Zaki. 라고 나와있네요. #빈번한 순서를 좀더 잘 다루기 위한 arules의 추가기능이면서, C++의 원활한.. 2018. 11. 21.
27. 정형 데이터마이닝 - 연관성 분석(Association Analysis) 안녕하세요.오늘은 연관성 분석에 대해서 알아볼게요! #연관성 분석​연관성 분석은 동시 또는 순차적으로 발생하는 이벤트 패턴을 파악하는 방법으로 구매나 사건의 발생에 대한 패턴분석을 하는 데 사용됩니다. 이를 이용해서 상품추천에 사용할 수 있습니다. 요즘 실시간이 중요하다고 하는데, 사실 실시간 추천엔진이 실시간으로 분석을 해서 유의미한 변화를 감지할 정도로추천의 변화가 매우 짧은 초단위, 분단위로 이루어지지 않는다고 합니다. 따라서 모델링과 결과값을 비즈니스적인 업무주기에 맞추어 일, 주, 월단위로 실행해도 된다고 합니다. 이제 연관성 분석이 무엇인지 알아볼게요~ #연관성 분석이란? -데이터 간의 관계에서 조건과 반응을 연결하는 분석으로 장바구니 분석(Market Basket Analysis), 혹은 서.. 2018. 11. 21.
26. 정형 데이터마이닝 - 군집분석(Clustering) 안녕하세요. 이번 시간에는 군집분석 (Clustering) 에 대해서 알아보도록 하겠습니다. 군집분석은 분류예측과 같이 타겟 값은 없는 데이터에서,데이터 특성에 따라 집단을 분리하는 방식으로 거리를 측정하여 집단의 이질성과 동질성을 평가하여 그룹화한다.이질성으로 거리를 산출하고, 동질성으로 묶음으로서 집단을 구분하고, 집단을 구분하는데 사용된 변수들의 집단 간 차이를 통해 profiling 하여 데이터에 대한 구조적인 특성을 파악한다. 이런 방식을 데이터에 대해 이해하지 못하는 상태에서 시도를 하면 전체적인 데이터가 어떻게 구성되어 있는지 쉽게 파악할 수 있다. 1.정의 # 관찰 대상에 대해 수집된 정보를 이용해 유사한 특성을 가진 그룹으로 나누어 집단의 특성을 도출하는 기법 2. 분석 목적 -각 집단의.. 2018. 11. 21.