## 오래된 게시글 (미관리) ##/R47 23. Missing Data, 이상치 안녕하세요. 오늘은 기초 분석 및 데이터 관리에 대해서 포스팅합니다.바로 시작할게요. 1. Missing Data 처리-Missing Data 처리 방법은 전체 작업 시간에 많은 영향을 준다.-R의 Missing Data처리 패키지는 Amelia II, Mice, mistools, Missing Data 처리방안, Missing Data를 포함한 관측치(record) 삭제 해당 변수의 대푯값을 imputation, 변수간의 관계를 이용한 imputation이 있다.# 여기서 imputation은 결측값 대체의 의미입니다. #확인-NA : Not Available (값이 없음)-NaN : Not a Number, 불가능한 값 (Ex, infinite, 0/0) #확인법-NA로 입력-is.na()로 확인 .. 2018. 11. 21. 22. 데이터 가공 안녕하세요~ 오늘도 쓸쓸히 혼자 인사합니다ㅋㅋ 오늘은 데이터 가공에 대해서 알아보겠습니다. 1. Data Exploration #제가 매 번 언급하듯이, 데이터를 일단 loading한 순간, 데이터가 어떻게 생겼는지 알아보아야 합니다. 아무것도 모르고 데이터를 가공할 수는 없죠. 앞서서 사용해봤던 reshape패키지의 tips 데이터를 불러들입니다. install.packages("reshape") library(reshape) data(tips, package="reshape") #요렇게 불러들인 후에, 데이터를 살펴보는 방법은 앞에서도 자주 사용했던 방식들로 살펴봅니다. 1) head(), tail() 2) summary() 3) str() 4) tabplot() #일단 첫 번째 head()함수부터.. 2018. 11. 21. 21. 데이터마트 - 2 안녕하세요. 오늘은 어제에 이어서 데이터마트 두 번째 파트를 알아보겠습니다. 오늘 해볼 내용 중 첫 번째인 sqldf package 부터 시작할게요. 저는 R프로그램을 껐다가 켰으니 다시 reshape 패키지를 설치해야됩니다. 이어하시는분은 안설치하셔도되요 reshape 패키지만., -sql에 익숙하고, programming에 능숙하지 않은 사용자, SAS에서 proc sql로 작업을 하던 사용자를 위한 패키지라고 합니다. -표준 sql에서 사용되는 문장이 모두 가능하다. 단 데이터 이름에 "."과 같은 특수문자가 들어간 경우 "로 묶어주면 table처럼 간단히 처리 가능. -nested query등 다양한 내용 처리 가능 install.packages("reshape") library(reshape) .. 2018. 11. 21. 20. 데이터 마트 - 1 오늘은 데이터마트 개념에 대해서 알아볼 텐데요~! 데이터마트 음 어렵죠. 저도 처음 볼 땐 생소했습니다. 그럼 개념이 뭘까 한번 알아볼까요~ # 데이터 마트를 알아보는 이유? -데이터 분석을 위해서는 분석기법에 맞게 데이터의 상세한 소스 정보와 가공된 분석용 데이터 셋(data set)이 필요하다. 이러한 자료가 DW에서는 Data mart로 주제별로 정리되어 있는 경우가 많으며, 빅데이터 분석에서도 이와 같은 형태로 변경해서 활용해야 한다. 변경하는 이유는 성능의 문제가 아니라 알고리즘에서 필요로 하는 데이터 형식을 충족시키기 위해서이다. -빅데이터라고 해서 데이터 마트 없이 그대로 사용하여 데이터 마이닝의 classification model 등의 분석을 수행할 수 있는 것은 아니며, 가장 변경이 적.. 2018. 11. 21. 이전 1 ··· 4 5 6 7 8 9 10 ··· 12 다음