36. 데이터분석의 이해

안녕하세요. 오늘은 데이터분석의 이해. 기초부분을 알아보도록 하겠습니당.

그럼 바로 들어가겠습니다.

1. 통계

-정의 : 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현.

-조사 또는 실험을 통해 확보, 조사대상에 따라 총조사(census)와 표본조사로 구분한다.

-총 조사는 대상 집산 모두를 조사하는 전수조사인데, 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 안는다.

-표본조사는 대부분의 조사인데, 표본조사에서의 모집단은 조사하고자 하는 대상의 집단 전체를 의미한다.

-원소는 모집단을 구성하는 개체이다.

-표본은 조사하기 위해 추출한 모집단의 일부 원소이다.

-모수는 표본 관측에 의해 구하고자 하는 모집단에 대한 정보이다.

-모집단의 정의, 표본의 크기, 조사 방법, 조사 기간, 표본추출방법을 정확히 명시해야 한다.

1) 표본 추출 방법

-단순랜덤추출법(simple random sampling)

: 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률은 동일하다. (복원, 비복원 추출)

-계통추출법(systematic sampling)

: 단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 (K=N/n) n개의 구간으로 나누고,

첫 구간 (1,2,...K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 선택, 임의 위치에서 매 k번째 항목 추출.

-집락추출법(cluster random sampling)

: 군집을 구분하고, 군집별로 단순랜덤추출법을 한 후, 모든 자료를 활용하거나 샘플링하는 방법. (지역표본추출, 다단계표본추출)

-층화추출법(stratified random sampling)

: 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법. 유사한 원소끼리

몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법. (비례층화추출법, 불비례층화추출법)

#위에 표본추출방법은 꽤나 헷갈리기 때문에 잘 알아두셔야 할 것 같아요..

2) 측정 :

표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것이다.

-명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분 등)
-순서척도 : 측정 대상의 서열관계를 측정하는 척도 (만족도, 선호도, 학년, 신용등급)
-구간척도 : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있는 자료 (온도, 지수 등)

-비율척도 : 간격(차이)에 대한 비율이 의미를 가지는 자료. 절대적인 기준 0이 존재하며, 사칙연산이 가능하고 제일 많은 정보를 가지는 자료 (무게, 나이, 시간, 거리 등)

2. 통계분석

1) 통계분석의 정의

-특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정.

-기술통계(descriptive statistic) : 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관을 배제하고 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로

나타내는 통계분석 방법론이다. (평균, 표준편차, 중위수, 최빈값, 그래프 등)

-통계적 추론(추측통계, inference statistic) : 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것이다.

-모수 추정 : 표본집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 분석하여 모집단을 추론한다.

-가설 검정(hypothesis test) : 대상집단에 대해 특정한 가설을 설정한 후에 그 가설이 옳고 그른지에 대한 채택여부를 결정하는 방법론이다.

-예측(forecasting) : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행한다.

3. 확률 및 확률분포

1) 확률 : 특정사건이 일어날 가능성의 척도

-표본공간 (Sample space, ) : 어떤 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합.

-사건(event) : 관찰자가 관심이 있는 사건으로 표본공간의 부분집합

-원소(element) : 나타날 수 있는 개개의 결과들

-표본공간 의 부분집합인 사건 E의 확률은 표본공간의 원소의 개수에 대한 사건 E의 개수의 비율로 확률을 P(E)라고 할 때, 다음과 같이 정의한다.

-확률변수(random variable)

: 특정값이 나타날 가능성이 확률적으로 주어지는 변수이다.

: 정의역(domain)이 표본공간, 치역(range)이 실수값인 함수

: 0이 아닌 확률을 갖는 실수값의 형태에 따라 이산형 확률변수(discrete random variable)와 연속형 확률변수(continuous random variable)로 구분된다.

-이산형 확률변수 : 0이 아닌 확률값을 갖는 실수값이 셀 수 있는 경우(확률질량함수)

: 베르누이 확률분포(Bernoulli distribution) : 결과가 2개만 나오는 경우 ( 동전의 앞뒷면, 시험의 합/불합격 등)

: 이항분포(Binomial distribution) : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률.

성공할 확률 p가 0이나 1에 가깝지 않고 n이 충분히 크다면, 이항분포는 정규분포에 가까워진다.

성공할 확률 p가 0.5에 가까우면 종모양이 된다.

: 기하분포(Geometric distribution) : 성공확률이 p인 베르누이 시행에서 첫번 째 성공이 있기까지 x번 실패할 확률 (야구선수가 5번째 타석에서 홈런 칠 확률)

: 다항분포(Multinomial distribution) : 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

: 포아송 분포(Poisson distribution) : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포

(책에 오타가 5페이지에 10개나온다고 할 때, 한페이지에 3개의 오타가 나올 확률)

#--여기까지가 이산형 확률변수

- 연속형 확률변수 : 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수 (확률밀도함수)

: 균일 분포 (일양분포, Uniform distribution) : 모든 확률변수 X가 균일한 확률을 가지는 확률분포 (다트의 확률분포)

E(x) = (a+b)/2 , var(x) = (b-a)2/12

: 정규 분포(Normal distribution) :

: 지수 분포(Exponential distribution)

: t-분포(t-distribution) : 두 집단의 평균이 동일한 지 알고자 할 때 활용하는 검정통계량. 정규분포보다 더 퍼져있고, 자유도가 커질 수록 정규분포에 가까워짐.

: 카이제곱분포 ( distribution) : 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포.

두 집단 간의 동질성 검정에 활용된다. (범주형 자료에 대해 얻어진 관측값과 기대값의

차이를 보는 적합성 검정에 활용) 자유도가 작을 때는 왼쪽에 치우친 형태의 그래프, 자유도가 커질 수록 정규분포 형태가 된다.

: F-분포 (F-distribution) : 두 집단간의 분산의 동일성 검정에 사용되는 검정통계량의 분포

정규분포 형태와 비슷하나 오른쪽 꼬리가 긴 모양을 하고 있다. 두 개의 자유도가 증가할수록 정규분포에 가까워진다.

4. 추정과 가설검정

1) 추정의 개요

-확률 표본(random sample)
: 확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다.

: 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.

: 각 관찰값들은 서로 독립적이며 동일한 분포를 갖는다.

-추정 : 표본으로부터 미지의 모수를 추측하는 것이다.

: 추정에는 점 추정(point estimation)과 구간추정(interval estimation)으로 구분한다.

-점 추정 : '모수가 특정한 값일 것'이라고 추정하는 것

: 표본의 평균, 중위수, 최빈값 등을 사용한다.

-점추정량의 조건 :

1) 불편성 (unbiasedness) : 모든 가능한 표본에서 얻은 추정량의 기댓값이다.

2) 효율성 (efficiency) : 추정량의 분산이 작을수록 좋다.

3) 일치성 (consistency) : 표본의 크기가 아주 커지면, 추정값이 모수와 거의 같아진다.

4) 충족성 (sufficient) : 추정량이 모수에 대하여 모든 정보를 제공한다.

-표본평균(Sample Mean) : 확률표본의 평균값

-표본분산(Sample Variance) : 모집단의 분산(모분산)을 추정하기 위한 추정량

-구간추정(interval estimation)

: 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것이다.

: 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준(confidence interval))가 주어져야 함.

: 95% 신뢰수준 하에서 모평균 의 신뢰구간

(1) 모분산 알려져 있는 경우

표준정규분포 N(0,1) 을 따르는 통계량 이용.

(2) 모분산 이 알려져 있지 않은 경우에 모분산 대신 표본분산을 사용

자유도가 n-1인 t-분포를 따르는 통계량 이용.

2) 가설검정

-모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

: 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이다.

: 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정

: 귀무가설(Null Hypothesis, H0) : 비교하는 값과 차이가 있다, 동일하다를 기본개념으로 하는 가설

: 대립가설(Alternative Hypothesis, H1) : 뚜렷한 증거가 있을 때 주장하는 가설

: 검정통계량 ( test statistic, T(X)) : 관찰된 표본으로부터 구하는 통계량

: 유의수준(significance level, ) : 귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은 데도 이를 기각하는

확률의 크기

: 기각역(critical region, C) : 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 인 부분

(반대는 채택역(acceptance region))

-제 1종오류 (Type I error) : 귀무가설이 옳은데도 귀무가설을 기각하게되는 오류

-제 2종오류 (Type II error) : 귀무가설이 옳지 않은데도 귀무가설을 채택하게되는 오류

: 두 가지의 오류는 서로 상충관계가 있어서 일반적으로 가설검정에서는 제1종 오류 a의 크기를 0.1, 0.05, 0.01 등으로 고정시킨 뒤 제2종 오류 b가

최소가 되도록 기각역을 설정한다.

5. 비모수 검정

1) 모수적 방법 (Parametric method)

- 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다.

2) 비모수적 방법 (nonparametric method)

- 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 검정방법이다.

- 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우

- 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우에 이용한다.

3) 비모수검정과 모수적 검정의 차이점

-가설의 설정

: 모수적 검정 : 가정된 분포의 모수에 대한 가설을 설정

: 비모수적 검정 : 가정된 분포가 없으므로 가설은 단지 '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다' 와 같이 분포의 형태에 대해 설정.

- 검정 방법

: 모수적 검정 : 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시한다.

: 비모수 검정 : 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측 값 차이의 부호 등을 이용해 검정한다.

4) 비모수 검정의 예

: 부호 검정(sign test), 윌콕슨의 순위합검정(rank sum test), 윌콕슨의 부호순위합검정(Wilcoxon signed rank test),

만-위트니의 U검정, 런 검정(run test), 스피어만의 순위상관계수

저작자표시 (새창열림)

'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글

38. 회귀 분석 (2)	2018.11.22
37. 기초통계분석 (0)	2018.11.22
35. 데이터 가공 (0)	2018.11.22
34. 데이터 마트 II (0)	2018.11.22
33. 데이터마트 (0)	2018.11.22

Mars-Developer

36. 데이터분석의 이해

'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글

티스토리툴바

36. 데이터분석의 이해

'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글

관련글

티스토리툴바