본문 바로가기

#비정형데이터마이닝2

47. 비정형 데이터 마이닝 - 텍스트마이닝 안녕하세요. 이제 거의 막바지입니다.. 곧 시험을 보고 개강도 할테죠..ㅎㅎ..오늘은 비정형 데이터마이닝 파트, 텍스트마이닝을 알아보도록 하겠습니다. 텍스트마이닝은 1980년대에 부상하였지만, 당시만 해도 노동집약적이고 수동적인 방법으로 취급받아 텍스트마이닝의 열풍이 시들해졌습니다.국내에는 데이터마이닝 기술이 발전했던 1990년대 후반부터 연구가 진행되었다가,데이터마이닝 기술에 자연어처리(Natural Language Process)기술이 접목되면서 발전하기 시작하였습니다. 텍스트마이닝은 문서에 텍스트를 분리하여 그 문서를 요약/분류/군집으로 나눌 수 있도록 함으로서 회사의 전용메일로 들어온 메일들을 부서별로 분류하거나,음성인식을 통한 자동 요약, 트위터의 트윗들을 분석해서 감성분석을 하는 등 다양하게 .. 2018. 11. 23.
29. 비정형 데이터마이닝 - 텍스트마이닝 안녕하셍요. 오늘은 비정형 데이터마이닝을 공부해보도록 하겠습니다. # 참고.빅데이터 중 비정형 데이터인 로그성 데이터는 - R의 parsing 기능을 이용하여 입수가 가능하며, 기업의 내부 서술형 데이터나 소셜 미디어 등에서 입수하는 텍스트 형식의 정보를 분석하는 데는 텍스트마이닝이 필요하다. 또 다른 비정형 형태인 소셜 미디어나 기타 관계로 표현되는 데이터는 소셜 네트워크 분석을 통해 수행할 수 있다. (SNA분석) - 텍스트 데이터에서의 단어 패턴을 이용해서 내용을 파악하거나 분류 및 핵심단어 주제를 추출하는 경우 연관된 단어나 빈번하게 나오는 단어와, 부정/긍정 단어에 따른 기업이나 제품, 브랜드를 평가하는데 활용한다. 텍스트 마이닝에서는 분석 가능한 document term matrix를 만들기 .. 2018. 11. 21.