본문 바로가기
## 오래된 게시글 (미관리) ##/R

11. R을 이용한 추정과 검정

by #Glacier 2018. 11. 20.
반응형

저번시간에 이어서, 이번엔 R을 이용한 추정과 검정을 해보겠습니다.


# 단일 표본 평균에 대한 추정 및 검정




#단일 표본 평균 검정

x<-rnorm(500)
t.test(x)


        One Sample t-test

data:  x
t = 1.919, df = 499, p-value = 0.05556
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 -0.002006154  0.170338529
sample estimates:
 mean of x 
0.08416619


# x라는 임의의 변수에 정규분포를따르는 500개의 수를 무작위표본추출하여 집어넣었습니다.

 그리고 t.test(x) 하면, default값으로 단일 표본 평균 검정을 합니다. 추정과 검정을 동시에 수행하게 됩니다.

 여기서는 가설이 H0 : 모평균=0이 되고, 대립가설은 당연하게 Ha : 모평균=0이 아니다 가 됩니다.

 저기 위에 alternative hypothesis : true mean is not equal to 0 라고 나오죠~?^^

 95% 신뢰구간도 나오고 있구요. 95%의 신뢰구간이 나왔다는 것은 우리가 유의수준을 5%로 잡았단 것을 알 수 있죠.

 유의수준은 5% 즉 0.05인데 유의확률이 0.05556이므로 p값이 더 크다는 것을 알 수 있죠?

 따라서 귀무가설을 기각할 수 없습니다. 따라서 H0 : 모평균=0이다가 참이 됩니다.

 + 여기서 저랑 값이 다르다고 틀린 게 아닙니다. 해석만 올바르게 할 수 있으면 됩니다. 표본을 무작위추출한 것이기 때문에

   결과도 달라질 수 밖에 없다는 점을 이해하시면 좋겠습니다.


#독립 2표본 평균검정

data(sleep)

t.test(extra~group, data=sleep, paired=F, var.equal=T)

        Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33


#R 내장데이터인 sleep을 이용하여 t.test(extra~group, data=sleep, paried=F, var.equal=T)를 해줍니다.

 조금 더 이해하기 위해서 sleep이라는 데이터를 쓱 훑어보면 extra와 group이라는 독립된 두 집단을 볼 수 있습니다.

 그 두 집단간에 평균 차이가 있는지 검증하는 거고, data=sleep이라고

 정해줍니다. paired는 짝을 이룬 (대응 표본 평균검정) 케이스인데 이거 다음에 하겠습니다. 그러므로 paired=FALSE이고,

 var.equal=T는 동분산(homoskedasticity)를 의미합니다. 두 개가 동일한 분산을 가져야 비교가 가능하겠죠.

 그럼 결과 값을 보면 95%신뢰수준 즉 a=0.05일때, p값이 0.08이므로 귀무가설을 기각할 수 없습니다.

 그렇다면 여기서 우리가 귀무가설을 뭐라고 했을까요? 당연히 Ho :  두 표본의 평균차이=0이다. 반대는 아시겠죠~

 따라서 두 표본의 평균차이는=0이다가 참입니다.


#대응 표본 평균검정은 이미지 파일 없이 바로 하겠습니다. 명령어가 거의 비슷하거든요~

 t.test(extra~group, data=sleep, paired=T, var.equal=T)


        Paired t-test

data:  extra by group
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.4598858 -0.7001142
sample estimates:
mean of the differences 
                  -1.58


#아까 독립 2표본 평균검정을 보셨을 때와 paired=T로 바뀐거 밖에 차이가 없죠?

 방금 보셨다시피 아까 두 표본의 평균 차이가 있는 거 같은데 왜 귀무가설을 채택했을까? 이거 이상하네?? 이렇게 생각하셨죠?

 이렇게 생각 안하셨다면 그냥 아무 생각 없이 따라만 하고 있는 겁니다 ㅠㅠ. 왜냐면 아까 sleep 데이터를 쓱~ 보셨다면

 대응표본이라는 것을 알 수 있었죠. 5%유의수준 하에서 p값이 0.002833이므로 매~우 유의하다는 것을 알 수 있죠?

 따라서 귀무가설 H0 : 두 표본간 평균차이가 없다 를 매~우 강하게 기각할 수 있습니다. 즉 두 표본의 평균차이가 있다는 것을

 알 수 있죠!


########--

 (3) 기타사례

 이표본분산검정을 해볼까요?




#이표본분산

data(iris)
var.test(iris$Sepal.Width, iris$Sepal.Length)


        F test to compare two variances

data:  iris$Sepal.Width and iris$Sepal.Length
F = 0.27706, num df = 149, denom df = 149, p-value = 3.595e-14
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.2007129 0.3824528
sample estimates:
ratio of variances 
         0.2770617

# 전에 써봤던 iris 데이터를 가지고 붓꽃에 대한 꽃받침 너비와 길이를 가지고 두 변수의 분산 비율이 1이 아닌 분산이 같지 않다는 검정입니다. (예측만 해봐도 다르겠죠? 꽃받침의 너비와 길이가 분산이 같다면..... 이상하겠죠.. 과연 결과가 우리 생각처럼 나올까요?)

간단하게 sample of variances 를 보면 분산비율이 1이 아니죠~? 5%유의수준 하에서 p값은 3.595*10의 -14승 이므로..0에 한없이 가까우므로 두 표본의 분산은 같지 않다고 할 수 있습니다 . (귀무가설 기각)


오늘은 단일표본평균검증과 대응표본평균검증, 독립2표본평균검증 등을 해봤는데요~

다음시간에는 기초통계분석에 대해서 알아보고 다양한 시각화를 한 번 해보겠습니다~



반응형

'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글

13. 상관분석  (2) 2018.11.20
12. 기초통계분석의 개념과 시각화 방법  (0) 2018.11.20
10. 추정과 검정  (0) 2018.11.20
9. 통계분석의 개념  (0) 2018.11.20
+ R명령어 조금 더 알아보기  (0) 2018.11.20