1. 기술통계 (Descriptive Statistics)
1) 기술통계의 정의
-자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것
-자료를 요약하는 기초적 통계를 의미한다.
-데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로서 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다.
2) 통계량에 의한 자료 정리
-자료(데이터) : x1, x2, x3, ... , x
-표본평균(sample mean) :
-중앙값(median) : 자료를 크기순으로 나열할 때 중앙에 위치하는 자료값이다. (중앙값의 순위는 (n+1)/2 , n이 홀수인 경우와 짝수인 경우에 따른 유의)
-산포의 측도 : 대표적인 산포도(dispersion)는 분산, 표준편차, 범위 및 사분위수범위
분산(variance) :
(표준편차(standard deviation) : 분산에 루트를 씌우면 됩니다. 즉 s.)
-사분위수범위(interquartile range) : IQR = Q3-Q1
-사분위수(제1사분위수(Q1)=25백분위수, 제2사분위수(Q2)=50백분위수, 제3사분위수(Q3)=75백분위수)
-백분위수(percentile) : {(n-1)p/100+1}번째 값
-변동계수(coefficient of variation) : v= s/bar(x)
-평균의 표준오차 : SE() =
-분포의 형태에 관한 측도 : 왜도(skewness) : 분포의 비대칭정도를 나타내는 측도.
왜도 > 0 = 오른쪽으로 긴 꼬리를 갖는 분포 ,
왜도 = 0 = 좌우가 대칭인 분포
왜도 < 0 = 왼쪽으로 긴 꼬리를 갖는 분포
왜도 > 0, 즉 양수인 경우, 최빈값<중앙값<평균 순으로 위치합니다.
왜도가 0과 같은 경우, 최빈값=중앙값=평균이 같습니다.
왜도가 < 0 , 즉 음슁ㄴ 경우, 평균<중앙값<최빈값 순으로 위치하겠죠.
-첨도 (kurtosis) : 분포의 중심에서 뾰족한 정도를 나타내는 측도이다.
첨도=0 : 정규분포 , 첨도>0 : 긴 꼬리, 표준정규분포보다 뾰족함, 첨도 <0 : 짧은 꼬리,
표준정규분포보다 완만한 뾰족함(퍼짐)
3) 그래프를 이용한 자료 정리
-히스토그램(histogram) : 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것. 도수분포표를 그래프로 나타낸 것이다.
-막대그래프는 범주(category)형으로 구분된 데이터를 표현하며, 범주의 순서를 의도에 따라 바꿀 수 있다.
-히스토그램은 연속(continuous)형으로 표시된 데이터를 표현하며 임의로 순수를 바꿀 수 없고 막대의 간격이 없다.
-히스토그램(histogram) : 데이터의 수를 활용해서 계급의 수와 계급간격을 계산하여 도수분포표를 만들고 히스토그램을 생성한다.
계급의 수 : 2k >= n을 만족하는 최소의 정수 log2n=k 에서 최소의 정수(k는 계급의 수, n은 데이터 수)
계급의 간격 : (최대값-최소값)/계급의 수
계급의 수와 간격이 변하면 히스토그램의 모양이 변한다.
-줄기-잎 그림 (stem and leaf plot) : 데이터를 줄기와 잎의 모양으로 그린 그림.
#이걸 보니까 시험 성적 발표가 생각나네요.. 통계 시험 점수를 정규분포표와..
줄기-잎 그림 등으로 보여주시던 기억이...ㄷㄷ
-상자 그림(Box plot) : 다섯 숫자 요약을 통해 그림으로 표현( 최소값, Q1, Q2, Q3, 최대값 )
-사분위수범위(IQR) : Q3-Q1
-안울타리(inner fence) : Q1-1.5*IQR 또는 Q3+1.5*IQR
-바깥울타리(outer fence) : Q1-3*IQR 또는 Q3+3*IQR
-보통이상점(mild outlier) : 안쪽 울타리와 바깥 울타리 사이에 있는 자료.
-극단이상점(extreme outlier) : 바깥울타리 밖의 자료
# 그림으로 이해하는 것은 뒤에서 기회가 있을거에요.....ㅎㅎ.^.^
2. 인과관계의 이해
1) 용어
-종속변수(반응변수, y) : 다른 변수의 영향을 받는 변수
-독립변수(설명변수, x) : 영향을 주는 변수
-산점도(scatter plot) : 좌표평면 위에 점들로 표현
-산점도에서 확인할 사항 : 두 변수간의 선형관계 성립?, 두 변수 사이의 함수관계가 성립?, 이상값이 존재하나?, 몇 개의 집단으로 구분되는가?
2) 공분산
-두 확률변수 X,Y의 방향의 조합(선형성)이다.
-X,Y가 서로 독립이면 Cov(X,Y)=0이다.
3. 상관 분석(Correlation Analysis)
1) 상관분석의 정의
-데이터 안의 두 변수 간의 관계를 알아보기 위한 분석방법
-두 변수 간의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용한다.
2) 상관관계의 특성
-상관계수가 1에 가까울수록 데이터가 강한 양의 상관관계를 갖는다.
-상관계수가 -1에 가까울수록 데이터가 강한 음의 상관관계를 갖는다.
-상관계수가 0인 경우 데이터 간의 상관관계가 없다.
3) 상관분석의 유형
구분 | 피어슨 | 스피어만 |
개념 | 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식 | 서열척도인 두 변수들의 상관관계 측정 방식 |
특징 | -연속형변수, 정규성 가정 -대부분 많이 사용 | -순서형 변수, 비모수적 방법 -순위를 기준으로 상관관계 측정 |
상관계수 | 피어슨 r(적률상관계수) | 순위상관계수 (, 로) |
4) R code
-분산 : var(x, y=NULL, na.rm = FALSE)
-공분산 : cov(x, y=NULL, use="everything", method=c("pearson", "kendall", "spearman"))
-상관관계 : cor(x, y=NULL, use="everything", method=c("pearson", "kendall", "spearman"))
Hmisc패키지의 rcorr 사용
rcorr(matrix(data명), type=c("pearson", "kendall", "spearman"))
x=숫자형 변수, y=NULL(default) 또는 변수, na.rm=결측값 처리
오늘은 여기까지 알아볼게요. 내일은 회귀분석에 대해 알아보겠습니다.
'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글
39. 시계열 분석 (0) | 2018.11.22 |
---|---|
38. 회귀 분석 (2) | 2018.11.22 |
36. 데이터분석의 이해 (0) | 2018.11.22 |
35. 데이터 가공 (0) | 2018.11.22 |
34. 데이터 마트 II (0) | 2018.11.22 |