본문 바로가기

전체 글141

25. 정형 데이터마이닝 - 예측 분석(Prediction) 안녕하세요. 오늘은 정형데이터마이닝의 두 번째 파트, 예측분석에 대해서 알아보도록 하겠습니다. 예측분석은 분류예측 방식을 연속형 값에 적용하는데 회귀분석과는 달리 연속적인 값을 하나하나 예측하는 것이 아니라, 집단별로 평균값을 예측합니다. 저번시간에 이어서 party패키지를 사용하므로 쭉 이어서 해도 되실 듯 합니당~ 1. 정의​# 관찰 대상의 변수를 이용하여 연속적인 값을 예측하는 분석으로 분류 분석이 범주를 예측하는데 비해 예측분석은 연속적인 수치를 예측한다.​# 활용 분야 : 금융기관 고객의 소득 수준, 자녀의 키 등 연속적인 결과 값에 대한 예측 ​2. party 패키지 분석 사례​classification의 사례에서 아래의 범주형 변환을 제외하고 실행하면 연속형으로 예측하게 된다.####ㅋㅋㅋㅋ.. 2018. 11. 21.
24. 정형 데이터마이닝 - 분류분석(Classification) ​안녕하세요. 이번 파트는 정형 데이터마이닝 - 분류분석에 대해서 알아보고자 합니다.분류분석을 바로 알아보기에 앞서, 정형 데이터마이닝에 어떤 것이 있는가 부터 차근히 알아가볼께요.. 정형 데이터마이닝 학습? 분석기법으로 활용도가 가장 높고, 지속적으로 주목받고 있는 데이터 마이닝 기법.모든 산업과 다양한 문제해결에 즉각적 적용이 가능한 내용들로 CRM 분야에서 많이 사용되었으며, 빅데이터 시대에 더욱 각광받고 있다.비정형 데이터와 정형 데이터 결합까지 고려하면 활용도가 매우 높아 깊이 있게 파악해야할 내용이다. 데이터마이닝의 개념과 분류? ​개념 : 데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것 (위키피디아) 분류 : 1).. 2018. 11. 21.
23. Missing Data, 이상치 안녕하세요. 오늘은 기초 분석 및 데이터 관리에 대해서 포스팅합니다.바로 시작할게요. 1. Missing Data 처리​-Missing Data 처리 방법은 전체 작업 시간에 많은 영향을 준다.-R의 Missing Data처리 패키지는 Amelia II, Mice, mistools, Missing Data 처리방안, Missing Data를 포함한 관측치(record) 삭제 해당 변수의 대푯값을 imputation, 변수간의 관계를 이용한 imputation이 있다.# 여기서 imputation은 결측값 대체의 의미입니다. #확인-NA : Not Available (값이 없음)-NaN : Not a Number, 불가능한 값 (Ex, infinite, 0/0) #확인법-NA로 입력-is.na()로 확인 .. 2018. 11. 21.
22. 데이터 가공 안녕하세요~ 오늘도 쓸쓸히 혼자 인사합니다ㅋㅋ 오늘은 데이터 가공에 대해서 알아보겠습니다. 1. Data Exploration ​#제가 매 번 언급하듯이, 데이터를 일단 loading한 순간, 데이터가 어떻게 생겼는지 알아보아야 합니다. 아무것도 모르고 데이터를 가공할 수는 없죠. 앞서서 사용해봤던 reshape패키지의 tips 데이터를 불러들입니다. install.packages("reshape") library(reshape) data(tips, package="reshape") #요렇게 불러들인 후에, 데이터를 살펴보는 방법은 앞에서도 자주 사용했던 방식들로 살펴봅니다. 1) head(), tail() 2) summary() 3) str() 4) tabplot() #일단 첫 번째 head()함수부터.. 2018. 11. 21.