본문 바로가기

R47

35. 데이터 가공 오늘은 데이터 가공에 대해 알아보도록 하겠습니다.데이터를 훑어보는 법, 결측값과 이상값 처리에 대해 알아볼게요. -변수의 중요도: 분석용 데이터 마트를 구축함에 있어서 가장 중요한 부분은 변수의 중요도를 체크하는 것입니다. 모든 변수를 사용하여 모델을 만들 수 없으므로, 최적의 변수셋을 모형개발에 활용하는 것이 좋습니다. -연속형 변수의 구간화: 연속형 변수를 구간화 하는 이유는, 결과를 잘 해석할 수 있도록 적용하는 것입니다. -결측치와 이상치의 처리방안: 데이터마트에 결측치와 이상치가 있는 경우, 반드시 데이터클린징을 해야 합니다. 클린징에는 결측치와 이상치를 삭제하는 방법도 있지만, 특정 값으로 대치하거나 그냥 쓸 수도 있습니다. 데이터가 적은 경우 가급적 대치하는 것이 좋습니다. 1. Data E.. 2018. 11. 22.
34. 데이터 마트 II 아아.. 이노무 또옹커엄.. 몇 년 전에는 젤 좋은 노트북이었는데.. 이제는 고물이 되었군요.노트북에 임시저장해두고 나갔는데.. 날아가버렸어요 ㅠㅠ 흑흑 무튼. 오늘은 sqldf 패키지부터 알아가보도록 할게요.. 1. sqldf 패키지 : R에서 sql의 명령어를 사용가능하게 해주는 패키지입니다.-SAS에서의 proc sql같이 R에서 활용 가능합니다. 예시로,sql : select*from [data frame]- R : sqldf("select*from [data frame]")sql : select*from [data frame] numrows 10- R : sqldf("select*from[data frame] limit 10")sql : select*from [data frame] where [.. 2018. 11. 22.
33. 데이터마트 ​안녕하세요. 오늘은 데이터마트에 대해 알아보고자 합니다. 데이터마트의 중요한 부분 중 하나인 요약변수와 파생변수의 구분에 대해 알아볼까요??모형을 개발할 때 문제를 가장 잘 해석할 수 있는 변수를 찾는 것이 중요하다는 것은 알고 계실테죠~! 그래서 데이터를 특정 기준에 따라 사칙연산을 통해 만들어 낸 변수가 요약변수이고, 사용자의 노하우를 기반으로 새롭게 만들어 낸 변수가 파생변수입니다.​또 하나 알아볼 점은 Reshape 패키지 입니다. 이 패키지의 melt, cast() 함수는 아시는 분은 아실거라 생각합니다. 1. R reshape를 통한 데이터 마트 개발. ​데이터마트란 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 .. 2018. 11. 22.
32. 데이터 변형 요번엔 데이터 변형에 대해 알아보도록 하겠습니다. a,b,c라는 곳에 Numeric 값을 집어넣어 볼게요~a 2018. 11. 22.