저번시간에 이어서, 이번엔 R을 이용한 추정과 검정을 해보겠습니다.
# 단일 표본 평균에 대한 추정 및 검정
#단일 표본 평균 검정
x<-rnorm(500)
t.test(x)
One Sample t-test
data: x
t = 1.919, df = 499, p-value = 0.05556
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.002006154 0.170338529
sample estimates:
mean of x
0.08416619
# x라는 임의의 변수에 정규분포를따르는 500개의 수를 무작위표본추출하여 집어넣었습니다.
그리고 t.test(x) 하면, default값으로 단일 표본 평균 검정을 합니다. 추정과 검정을 동시에 수행하게 됩니다.
여기서는 가설이 H0 : 모평균=0이 되고, 대립가설은 당연하게 Ha : 모평균=0이 아니다 가 됩니다.
저기 위에 alternative hypothesis : true mean is not equal to 0 라고 나오죠~?^^
95% 신뢰구간도 나오고 있구요. 95%의 신뢰구간이 나왔다는 것은 우리가 유의수준을 5%로 잡았단 것을 알 수 있죠.
유의수준은 5% 즉 0.05인데 유의확률이 0.05556이므로 p값이 더 크다는 것을 알 수 있죠?
따라서 귀무가설을 기각할 수 없습니다. 따라서 H0 : 모평균=0이다가 참이 됩니다.
+ 여기서 저랑 값이 다르다고 틀린 게 아닙니다. 해석만 올바르게 할 수 있으면 됩니다. 표본을 무작위추출한 것이기 때문에
결과도 달라질 수 밖에 없다는 점을 이해하시면 좋겠습니다.
#독립 2표본 평균검정
data(sleep)
t.test(extra~group, data=sleep, paired=F, var.equal=T)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
#R 내장데이터인 sleep을 이용하여 t.test(extra~group, data=sleep, paried=F, var.equal=T)를 해줍니다.
조금 더 이해하기 위해서 sleep이라는 데이터를 쓱 훑어보면 extra와 group이라는 독립된 두 집단을 볼 수 있습니다.
그 두 집단간에 평균 차이가 있는지 검증하는 거고, data=sleep이라고
정해줍니다. paired는 짝을 이룬 (대응 표본 평균검정) 케이스인데 이거 다음에 하겠습니다. 그러므로 paired=FALSE이고,
var.equal=T는 동분산(homoskedasticity)를 의미합니다. 두 개가 동일한 분산을 가져야 비교가 가능하겠죠.
그럼 결과 값을 보면 95%신뢰수준 즉 a=0.05일때, p값이 0.08이므로 귀무가설을 기각할 수 없습니다.
그렇다면 여기서 우리가 귀무가설을 뭐라고 했을까요? 당연히 Ho : 두 표본의 평균차이=0이다. 반대는 아시겠죠~
따라서 두 표본의 평균차이는=0이다가 참입니다.
#대응 표본 평균검정은 이미지 파일 없이 바로 하겠습니다. 명령어가 거의 비슷하거든요~
t.test(extra~group, data=sleep, paired=T, var.equal=T)
Paired t-test
data: extra by group
t = -4.0621, df = 9, p-value = 0.002833
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.4598858 -0.7001142
sample estimates:
mean of the differences
-1.58
#아까 독립 2표본 평균검정을 보셨을 때와 paired=T로 바뀐거 밖에 차이가 없죠?
방금 보셨다시피 아까 두 표본의 평균 차이가 있는 거 같은데 왜 귀무가설을 채택했을까? 이거 이상하네?? 이렇게 생각하셨죠?
이렇게 생각 안하셨다면 그냥 아무 생각 없이 따라만 하고 있는 겁니다 ㅠㅠ. 왜냐면 아까 sleep 데이터를 쓱~ 보셨다면
대응표본이라는 것을 알 수 있었죠. 5%유의수준 하에서 p값이 0.002833이므로 매~우 유의하다는 것을 알 수 있죠?
따라서 귀무가설 H0 : 두 표본간 평균차이가 없다 를 매~우 강하게 기각할 수 있습니다. 즉 두 표본의 평균차이가 있다는 것을
알 수 있죠!
########--
(3) 기타사례
이표본분산검정을 해볼까요?
#이표본분산
data(iris)
var.test(iris$Sepal.Width, iris$Sepal.Length)
F test to compare two variances
data: iris$Sepal.Width and iris$Sepal.Length
F = 0.27706, num df = 149, denom df = 149, p-value = 3.595e-14
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.2007129 0.3824528
sample estimates:
ratio of variances
0.2770617
# 전에 써봤던 iris 데이터를 가지고 붓꽃에 대한 꽃받침 너비와 길이를 가지고 두 변수의 분산 비율이 1이 아닌 분산이 같지 않다는 검정입니다. (예측만 해봐도 다르겠죠? 꽃받침의 너비와 길이가 분산이 같다면..... 이상하겠죠.. 과연 결과가 우리 생각처럼 나올까요?)
간단하게 sample of variances 를 보면 분산비율이 1이 아니죠~? 5%유의수준 하에서 p값은 3.595*10의 -14승 이므로..0에 한없이 가까우므로 두 표본의 분산은 같지 않다고 할 수 있습니다 . (귀무가설 기각)
오늘은 단일표본평균검증과 대응표본평균검증, 독립2표본평균검증 등을 해봤는데요~
다음시간에는 기초통계분석에 대해서 알아보고 다양한 시각화를 한 번 해보겠습니다~
'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글
13. 상관분석 (2) | 2018.11.20 |
---|---|
12. 기초통계분석의 개념과 시각화 방법 (0) | 2018.11.20 |
10. 추정과 검정 (0) | 2018.11.20 |
9. 통계분석의 개념 (0) | 2018.11.20 |
+ R명령어 조금 더 알아보기 (0) | 2018.11.20 |