전체 글141 37. 기초통계분석 1. 기술통계 (Descriptive Statistics) 1) 기술통계의 정의 -자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것 -자료를 요약하는 기초적 통계를 의미한다. -데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로서 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다. 2) 통계량에 의한 자료 정리 -자료(데이터) : x1, x2, x3, ... , x -표본평균(sample mean) : -중앙값(median) : 자료를 크기순으로 나열할 때 중앙에 위치하는 자료값이다. (중앙값의 순위는 (n+1)/2 , n이 홀수인 경우와 짝수인 경우에 따른 유의) -산포의 측도 : 대표적인 산포도(dispersion)는 분산,.. 2018. 11. 22. 36. 데이터분석의 이해 안녕하세요. 오늘은 데이터분석의 이해. 기초부분을 알아보도록 하겠습니당. 그럼 바로 들어가겠습니다. 1. 통계 -정의 : 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현.-조사 또는 실험을 통해 확보, 조사대상에 따라 총조사(census)와 표본조사로 구분한다.-총 조사는 대상 집산 모두를 조사하는 전수조사인데, 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 안는다.-표본조사는 대부분의 조사인데, 표본조사에서의 모집단은 조사하고자 하는 대상의 집단 전체를 의미한다.-원소는 모집단을 구성하는 개체이다.-표본은 조사하기 위해 추출한 모집단의 일부 원소이다.-모수는 표본 관측에 의해 구하고자 하는 모집단에 대한 정보이다.-모집단의 정의, 표본의 크기, 조사.. 2018. 11. 22. 35. 데이터 가공 오늘은 데이터 가공에 대해 알아보도록 하겠습니다.데이터를 훑어보는 법, 결측값과 이상값 처리에 대해 알아볼게요. -변수의 중요도: 분석용 데이터 마트를 구축함에 있어서 가장 중요한 부분은 변수의 중요도를 체크하는 것입니다. 모든 변수를 사용하여 모델을 만들 수 없으므로, 최적의 변수셋을 모형개발에 활용하는 것이 좋습니다. -연속형 변수의 구간화: 연속형 변수를 구간화 하는 이유는, 결과를 잘 해석할 수 있도록 적용하는 것입니다. -결측치와 이상치의 처리방안: 데이터마트에 결측치와 이상치가 있는 경우, 반드시 데이터클린징을 해야 합니다. 클린징에는 결측치와 이상치를 삭제하는 방법도 있지만, 특정 값으로 대치하거나 그냥 쓸 수도 있습니다. 데이터가 적은 경우 가급적 대치하는 것이 좋습니다. 1. Data E.. 2018. 11. 22. 34. 데이터 마트 II 아아.. 이노무 또옹커엄.. 몇 년 전에는 젤 좋은 노트북이었는데.. 이제는 고물이 되었군요.노트북에 임시저장해두고 나갔는데.. 날아가버렸어요 ㅠㅠ 흑흑 무튼. 오늘은 sqldf 패키지부터 알아가보도록 할게요.. 1. sqldf 패키지 : R에서 sql의 명령어를 사용가능하게 해주는 패키지입니다.-SAS에서의 proc sql같이 R에서 활용 가능합니다. 예시로,sql : select*from [data frame]- R : sqldf("select*from [data frame]")sql : select*from [data frame] numrows 10- R : sqldf("select*from[data frame] limit 10")sql : select*from [data frame] where [.. 2018. 11. 22. 이전 1 ··· 24 25 26 27 28 29 30 ··· 36 다음