안녕하세요. 오늘은 데이터분석의 이해. 기초부분을 알아보도록 하겠습니당.
그럼 바로 들어가겠습니다.
1. 통계
-정의 : 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현.
-조사 또는 실험을 통해 확보, 조사대상에 따라 총조사(census)와 표본조사로 구분한다.
-총 조사는 대상 집산 모두를 조사하는 전수조사인데, 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 안는다.
-표본조사는 대부분의 조사인데, 표본조사에서의 모집단은 조사하고자 하는 대상의 집단 전체를 의미한다.
-원소는 모집단을 구성하는 개체이다.
-표본은 조사하기 위해 추출한 모집단의 일부 원소이다.
-모수는 표본 관측에 의해 구하고자 하는 모집단에 대한 정보이다.
-모집단의 정의, 표본의 크기, 조사 방법, 조사 기간, 표본추출방법을 정확히 명시해야 한다.
1) 표본 추출 방법
-단순랜덤추출법(simple random sampling)
: 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률은 동일하다. (복원, 비복원 추출)
-계통추출법(systematic sampling)
: 단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 (K=N/n) n개의 구간으로 나누고,
첫 구간 (1,2,...K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 선택, 임의 위치에서 매 k번째 항목 추출.
-집락추출법(cluster random sampling)
: 군집을 구분하고, 군집별로 단순랜덤추출법을 한 후, 모든 자료를 활용하거나 샘플링하는 방법. (지역표본추출, 다단계표본추출)
-층화추출법(stratified random sampling)
: 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리
몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법. (비례층화추출법, 불비례층화추출법)
#위에 표본추출방법은 꽤나 헷갈리기 때문에 잘 알아두셔야 할 것 같아요..
2) 측정 :
표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것이다.
-명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분 등)
-순서척도 : 측정 대상의 서열관계를 측정하는 척도 (만족도, 선호도, 학년, 신용등급)
-구간척도 : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있는 자료 (온도, 지수 등)
-비율척도 : 간격(차이)에 대한 비율이 의미를 가지는 자료. 절대적인 기준 0이 존재하며, 사칙연산이 가능하고 제일 많은 정보를 가지는 자료 (무게, 나이, 시간, 거리 등)
2. 통계분석
1) 통계분석의 정의
-특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정.
-기술통계(descriptive statistic) : 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관을 배제하고 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로
나타내는 통계분석 방법론이다. (평균, 표준편차, 중위수, 최빈값, 그래프 등)
-통계적 추론(추측통계, inference statistic) : 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것이다.
-모수 추정 : 표본집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 분석하여 모집단을 추론한다.
-가설 검정(hypothesis test) : 대상집단에 대해 특정한 가설을 설정한 후에 그 가설이 옳고 그른지에 대한 채택여부를 결정하는 방법론이다.
-예측(forecasting) : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행한다.
3. 확률 및 확률분포
1) 확률 : 특정사건이 일어날 가능성의 척도
-표본공간 (Sample space, ) : 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합.
-사건(event) : 관찰자가 관심이 있는 사건으로 표본공간의 부분집합
-원소(element) : 나타날 수 있는 개개의 결과들
-표본공간 의 부분집합인 사건 E의 확률은 표본공간의 원소의 개수에 대한 사건 E의 개수의 비율로 확률을 P(E)라고 할 때, 다음과 같이 정의한다.
-확률변수(random variable)
: 특정값이 나타날 가능성이 확률적으로 주어지는 변수이다.
: 정의역(domain)이 표본공간, 치역(range)이 실수값인 함수
: 0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수(discrete random variable)와 연속형 확률변수(continuous random variable)로 구분된다.
-이산형 확률변수 : 0이 아닌 확률값을 갖는 실수값이 셀 수 있는 경우(확률질량함수)
: 베르누이 확률분포(Bernoulli distribution) : 결과가 2개만 나오는 경우 ( 동전의 앞뒷면, 시험의 합/불합격 등)
: 이항분포(Binomial distribution) : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률.
성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크다면, 이항분포는 정규분포에 가까워진다.
성공할 확률 p가 0.5에 가까우면 종모양이 된다.
: 기하분포(Geometric distribution) : 성공확률이 p인 베르누이 시행에서 첫번 째 성공이 있기까지 x번 실패할 확률 (야구선수가 5번째 타석에서 홈런 칠 확률)
: 다항분포(Multinomial distribution) : 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
: 포아송 분포(Poisson distribution) : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포
(책에 오타가 5페이지에 10개나온다고 할 때, 한페이지에 3개의 오타가 나올 확률)
#--여기까지가 이산형 확률변수
- 연속형 확률변수 : 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수 (확률밀도함수)
: 균일 분포 (일양분포, Uniform distribution) : 모든 확률변수 X가 균일한 확률을 가지는 확률분포 (다트의 확률분포)
E(x) = (a+b)/2 , var(x) = (b-a)2/12
: 정규 분포(Normal distribution) :
: 지수 분포(Exponential distribution)
: t-분포(t-distribution) : 두 집단의 평균이 동일한 지 알고자 할 때 활용하는 검정통계량. 정규분포보다 더 퍼져있고, 자유도가 커질 수록 정규분포에 가까워짐.
: 카이제곱분포 ( distribution) : 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포.
두 집단 간의 동질성 검정에 활용된다. (범주형 자료에 대해 얻어진 관측값과 기대값의
차이를 보는 적합성 검정에 활용) 자유도가 작을 때는 왼쪽에 치우친 형태의 그래프, 자유도가 커질 수록 정규분포 형태가 된다.
: F-분포 (F-distribution) : 두 집단간의 분산의 동일성 검정에 사용되는 검정통계량의 분포
정규분포 형태와 비슷하나 오른쪽 꼬리가 긴 모양을 하고 있다. 두 개의 자유도가 증가할수록 정규분포에 가까워진다.
4. 추정과 가설검정
1) 추정의 개요
-확률 표본(random sample)
: 확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다.
: 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.
: 각 관찰값들은 서로 독립적이며 동일한 분포를 갖는다.
-추정 : 표본으로부터 미지의 모수를 추측하는 것이다.
: 추정에는 점 추정(point estimation)과 구간추정(interval estimation)으로 구분한다.
-점 추정 : '모수가 특정한 값일 것'이라고 추정하는 것
: 표본의 평균, 중위수, 최빈값 등을 사용한다.
-점추정량의 조건 :
1) 불편성 (unbiasedness) : 모든 가능한 표본에서 얻은 추정량의 기댓값이다.
2) 효율성 (efficiency) : 추정량의 분산이 작을수록 좋다.
3) 일치성 (consistency) : 표본의 크기가 아주 커지면, 추정값이 모수와 거의 같아진다.
4) 충족성 (sufficient) : 추정량이 모수에 대하여 모든 정보를 제공한다.
-표본평균(Sample Mean) : 확률표본의 평균값
-표본분산(Sample Variance) : 모집단의 분산(모분산)을 추정하기 위한 추정량
-구간추정(interval estimation)
: 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것이다.
: 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준(confidence interval))가 주어져야 함.
: 95% 신뢰수준 하에서 모평균 의 신뢰구간
(1) 모분산 알려져 있는 경우
표준정규분포 N(0,1) 을 따르는 통계량 이용.
(2) 모분산 이 알려져 있지 않은 경우에 모분산 대신 표본분산을 사용
자유도가 n-1인 t-분포를 따르는 통계량 이용.
2) 가설검정
-모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
: 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이다.
: 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정
: 귀무가설(Null Hypothesis, H0) : 비교하는 값과 차이가 있다, 동일하다를 기본개념으로 하는 가설
: 대립가설(Alternative Hypothesis, H1) : 뚜렷한 증거가 있을 때 주장하는 가설
: 검정통계량 ( test statistic, T(X)) : 관찰된 표본으로부터 구하는 통계량
: 유의수준(significance level, ) : 귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은 데도 이를 기각하는
확률의 크기
: 기각역(critical region, C) : 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 인 부분
(반대는 채택역(acceptance region))
-제 1종오류 (Type I error) : 귀무가설이 옳은데도 귀무가설을 기각하게되는 오류
-제 2종오류 (Type II error) : 귀무가설이 옳지 않은데도 귀무가설을 채택하게되는 오류
: 두 가지의 오류는 서로 상충관계가 있어서 일반적으로 가설검정에서는 제1종 오류 a의 크기를 0.1, 0.05, 0.01 등으로 고정시킨 뒤 제2종 오류 b가
최소가 되도록 기각역을 설정한다.
5. 비모수 검정
1) 모수적 방법 (Parametric method)
- 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다.
2) 비모수적 방법 (nonparametric method)
- 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 검정방법이다.
- 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우
- 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우에 이용한다.
3) 비모수검정과 모수적 검정의 차이점
-가설의 설정
: 모수적 검정 : 가정된 분포의 모수에 대한 가설을 설정
: 비모수적 검정 : 가정된 분포가 없으므로 가설은 단지 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다' 와 같이 분포의 형태에 대해 설정.
- 검정 방법
: 모수적 검정 : 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시한다.
: 비모수 검정 : 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측 값 차이의 부호 등을 이용해 검정한다.
4) 비모수 검정의 예
: 부호 검정(sign test), 윌콕슨의 순위합검정(rank sum test), 윌콕슨의 부호순위합검정(Wilcoxon signed rank test),
만-위트니의 U검정, 런 검정(run test), 스피어만의 순위상관계수
'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글
38. 회귀 분석 (2) | 2018.11.22 |
---|---|
37. 기초통계분석 (0) | 2018.11.22 |
35. 데이터 가공 (0) | 2018.11.22 |
34. 데이터 마트 II (0) | 2018.11.22 |
33. 데이터마트 (0) | 2018.11.22 |