## 오래된 게시글 (미관리) ##/R47 31. 데이터 구조와 데이터 프레임 II 안녕하세요.포스팅합니다! 오늘도 데이터 구조와 데이터 프레임에 대해 알아볼텐데요~오늘은 구조를 이해하고, 열과 행 데이터 추출/제거/변경, 여러 프레임 분할/결합/재생산, 구조 변경을 목적으로 알아보고자 합니다. 데이터 프레임을 잘 다룰줄 알아야 하는 이유는, 우리가 데이터를 분석하기 전에, 여러 데이터들을 분석하기 위한 최적의 구조로 만들어야 하기 때문입니다.따라서 데이터 분석보다 선행되어야 하는 것이죠.. #처음으로, 데이터프레임을 생성해봅니다. data.frame(1,2,3)# X1 X2 X3 #1 1 2 3 #이렇게 생성됩니다. #레코드 생성 new1 2018. 11. 22. 30. (NEW) 데이터 구조와 데이터 프레임 오늘은 데이터 구조와 데이터 프레임에 대해 알아보고자 합니다. 1. 벡터 (Vector) 데이터 분석의 가장 기본적인 데이터 구조는 벡터입니다. 여기서, 벡터는 여러 개의 원소를 가지는 하나의 변수입니다.R에서는 외부 데이터 Set이나 큰 데이터를 불러올 때 데이터프레임 구조로 불러와 분석을 실행하게 됩니다.벡터의 특징은, 1) 동질적이다 - 한 벡터의 모든 원소는 같은 자료형 또는 같은 모드(mode)를 가집니다. 2) 벡터는 위치로 인덱스 된다 - V[2]는 V벡터의 2번째 원소입니다. 3) 벡터는 인덱스를 통해 여러 개의 원소로 구성된 하위 벡터를 반환할 수 있다 - V[c(2,3)]은 v벡터의 2, 3번째 원소로 구성된 하위벡터입니다. 4) 벡터 원소들은 이름을 가질 수 있다 - V 2018. 11. 21. 29. 비정형 데이터마이닝 - 텍스트마이닝 안녕하셍요. 오늘은 비정형 데이터마이닝을 공부해보도록 하겠습니다. # 참고.빅데이터 중 비정형 데이터인 로그성 데이터는 - R의 parsing 기능을 이용하여 입수가 가능하며, 기업의 내부 서술형 데이터나 소셜 미디어 등에서 입수하는 텍스트 형식의 정보를 분석하는 데는 텍스트마이닝이 필요하다. 또 다른 비정형 형태인 소셜 미디어나 기타 관계로 표현되는 데이터는 소셜 네트워크 분석을 통해 수행할 수 있다. (SNA분석) - 텍스트 데이터에서의 단어 패턴을 이용해서 내용을 파악하거나 분류 및 핵심단어 주제를 추출하는 경우 연관된 단어나 빈번하게 나오는 단어와, 부정/긍정 단어에 따른 기업이나 제품, 브랜드를 평가하는데 활용한다. 텍스트 마이닝에서는 분석 가능한 document term matrix를 만들기 .. 2018. 11. 21. 28. 정형 데이터마이닝 - 연관성 분석#2 (Association Analysis) 안녕하세요. 오랜만입니다..오늘은 연관성 분석의 2번째 파트, 순차연관성 분석에 대해서 공부해 볼게여 install.packages("arulesSequences") library(arulesSequences) data(zaki) # arulesSequences라는 패키지를 이용하고 zaki라는 데이터를 사용합니다.arulesSequences가 무슨 패키지일까 쳐봤는데,Add-on for arules to handle and mine frequent sequences. Provides interfaces to the C++ implementationof cSPADE by Mohammed J. Zaki. 라고 나와있네요. #빈번한 순서를 좀더 잘 다루기 위한 arules의 추가기능이면서, C++의 원활한.. 2018. 11. 21. 이전 1 2 3 4 5 6 7 8 ··· 12 다음