본문 바로가기

#klaR2

35. 데이터 가공 오늘은 데이터 가공에 대해 알아보도록 하겠습니다.데이터를 훑어보는 법, 결측값과 이상값 처리에 대해 알아볼게요. -변수의 중요도: 분석용 데이터 마트를 구축함에 있어서 가장 중요한 부분은 변수의 중요도를 체크하는 것입니다. 모든 변수를 사용하여 모델을 만들 수 없으므로, 최적의 변수셋을 모형개발에 활용하는 것이 좋습니다. -연속형 변수의 구간화: 연속형 변수를 구간화 하는 이유는, 결과를 잘 해석할 수 있도록 적용하는 것입니다. -결측치와 이상치의 처리방안: 데이터마트에 결측치와 이상치가 있는 경우, 반드시 데이터클린징을 해야 합니다. 클린징에는 결측치와 이상치를 삭제하는 방법도 있지만, 특정 값으로 대치하거나 그냥 쓸 수도 있습니다. 데이터가 적은 경우 가급적 대치하는 것이 좋습니다. 1. Data E.. 2018. 11. 22.
22. 데이터 가공 안녕하세요~ 오늘도 쓸쓸히 혼자 인사합니다ㅋㅋ 오늘은 데이터 가공에 대해서 알아보겠습니다. 1. Data Exploration ​#제가 매 번 언급하듯이, 데이터를 일단 loading한 순간, 데이터가 어떻게 생겼는지 알아보아야 합니다. 아무것도 모르고 데이터를 가공할 수는 없죠. 앞서서 사용해봤던 reshape패키지의 tips 데이터를 불러들입니다. install.packages("reshape") library(reshape) data(tips, package="reshape") #요렇게 불러들인 후에, 데이터를 살펴보는 방법은 앞에서도 자주 사용했던 방식들로 살펴봅니다. 1) head(), tail() 2) summary() 3) str() 4) tabplot() #일단 첫 번째 head()함수부터.. 2018. 11. 21.