본문 바로가기

전체 글141

21. 데이터마트 - 2 안녕하세요. 오늘은 어제에 이어서 데이터마트 두 번째 파트를 알아보겠습니다. 오늘 해볼 내용 중 첫 번째인 sqldf package 부터 시작할게요. 저는 R프로그램을 껐다가 켰으니 다시 reshape 패키지를 설치해야됩니다. 이어하시는분은 안설치하셔도되요 reshape 패키지만., -sql에 익숙하고, programming에 능숙하지 않은 사용자, SAS에서 proc sql로 작업을 하던 사용자를 위한 패키지라고 합니다. -표준 sql에서 사용되는 문장이 모두 가능하다. 단 데이터 이름에 "."과 같은 특수문자가 들어간 경우 "로 묶어주면 table처럼 간단히 처리 가능. -nested query등 다양한 내용 처리 가능 install.packages("reshape") library(reshape) .. 2018. 11. 21.
20. 데이터 마트 - 1 오늘은 데이터마트 개념에 대해서 알아볼 텐데요~! 데이터마트 음 어렵죠. 저도 처음 볼 땐 생소했습니다. 그럼 개념이 뭘까 한번 알아볼까요~ # 데이터 마트를 알아보는 이유? -데이터 분석을 위해서는 분석기법에 맞게 데이터의 상세한 소스 정보와 가공된 분석용 데이터 셋(data set)이 필요하다. 이러한 자료가 DW에서는 Data mart로 주제별로 정리되어 있는 경우가 많으며, 빅데이터 분석에서도 이와 같은 형태로 변경해서 활용해야 한다. 변경하는 이유는 성능의 문제가 아니라 알고리즘에서 필요로 하는 데이터 형식을 충족시키기 위해서이다. -빅데이터라고 해서 데이터 마트 없이 그대로 사용하여 데이터 마이닝의 classification model 등의 분석을 수행할 수 있는 것은 아니며, 가장 변경이 적.. 2018. 11. 21.
19. 주성분 분석(Principal Component Analysis, PCA) 안녕하세요. 오늘은 주성분 분석에 대해서 알아보려고 합니다. SPSS를 이용해보신 분은 (제가 SAS는 이용해 본 적이 없어서..) 아시다시피 요인분석 하다가 주성분분석 하고, 회전된 성분행렬 이런 것들을 많이 보신적 있죠? 베리맥스 방식..등등.. 사실 이 부분도 다변량 파트에서 되게 깊게 가려면 깊게 가는데.. 아시다시피.. 깊게 하나만 파도 넘~나 오래 걸리고, 제가 그만큼 아는 지식인도 아니구요..ㅎㅎ;; 오늘은 간단하게 R을 통해 어떻게 하는지 개념설명과 실습을 해볼게요. 1. 주성분 분석의 개념 -상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로, 분산을 극대화하는 변수이다. 선형 결합을 하여 변수를 축약하는 데 사용한다. # 여기서 이해가 안되실 수도 있는데, 즉 주성분 분석은 분산을 .. 2018. 11. 21.
18. 다차원척도법 (Multidimensional Scaling, MDS) 안녕하세요~ 오늘은 다차원척도법을 알아 보겠습니다. 다차원척도법은 여러 대상 간의 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 구조화하는 방법입니다. 따라서 다차원척도법은 2차원 혹은 3차원에서의 특정 위치에 관측치를 배치게 눈에 보기 쉽게 척도화 하는 거죠~ 한번 알아볼까요??? 1. 전통적 다차원척도법(Classical MDS)은 Numeric data로만 이루어진다. cmdscale 함수를 사용한다 (stats 패키지) 2. 비계량적 다차원척도법(nonmetric MDS)은 투입변수로 numeric이 아닌 data를 포함한다. isoMDS함수를 사용한다 (MASS 패키지) ##----R분석 사례----## (1) 전통적 다차원 척도법 (Classical MDS) ​ #전통.. 2018. 11. 21.