안녕하세요~ 하루 거르고 오늘 포스팅할 내용은 회귀분석입니다.
이런 분석들은 항상 가정을 잘 이해하고 가정에 잘 맞는지 확인하는 절차가 중요합니다. 그럼 이제 회귀분석에 대해 알아볼까요?
1. 회귀분석의 개념
-하나 혹은 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법이다.
-변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 방법이다.
-영향을 받는 변수 (Y) : 반응변수(response variable), 종속변수(dependent variable), 결과변수(outcome variable)
-영향을 주는 변수 (X) : 설명변수(explanatory variable), 독립변수(independent variable), 예측변수(predictor variable)
2. 단순 회귀분석 (X가 한개)
-단순 회귀분석은 한 개의 종속변수와 한 개의 독립변수 간의 관계를 직선으로 표현하여 분석하는 방법.
-단순 회귀분석의 모형
#베타0 : 절편 , 베타1 : 기울기, 에러 : 잔차(residual)
#그리고, 잔차(residual)가 평균이 0, 분산이 시그마인 정규분포를 따름.
#잔차 : (예측값 -관측값
), 회귀분석에서는 잔차를 최소화하는 최소자승법을 이용하여 절편과 기울기를 구한다.
# 그리하여, 회귀식은 설명변수에 의해 설명되는 부분과, 설명되지 않는 오차항으로 나뉘게된다.
3. 단순 회귀분석 오차에 대한 가정
1) 오차의 평균값은 0이다.
2) 정규성 : 오차 E는 정규분포를 따른다.
3) 독립성 : 오차 는 서로 독립이다.
4) 등분산성 : 오차 의 분산은
으로 동일하다.
4. 회귀계수의 추정
-최소자승법(LSE : Least Square Estimate)을 활용하여 잔차제곱의 합을 최소로 하는 절편과 기울기를 추정한다.
-적합된 회귀직선 :
5. 회귀직선의 적합도 검토
-결정계수()를 통해 추정된 회귀식이 얼마나 타당한지 검토.
-독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표.
-F 통계량
6. 회귀분석의 장단점
1) 장점 : 결과를 통해 유효한 정보를 획득할 수 있고, 필요 없는 변수 선택을 통해 모델의 안정성을 높일 수 있음
2) 단점 : 사전에 결측치 처리 및 변수 간 교호작용의 유무 및 비선형 여부를 파악해야 함.
7. 회귀분석의 절차
8. 회귀모형에 대한 검토방법
9. 회귀분석의 가정
1) 선형성 : 독립변수의 변화에 따라 종속변수도 일정크기로 변화.
2) 독립성 : 독립변수와 오차항은 서로 독립
3) 등분산성 : 독립변인의 모든 값에 대해 오차들의 분산이 일정.
4) 비상관성 : 관측치들의 잔차끼리 상관이 없어야 함.
5) 정상성 : 잔차 항이 정규분포를 이루어야 함.
- # 회귀분석의 가정조건을 검증해보는 가장 쉬운 방법은 각 가정조건에 해당하는 그래프를 그려보는 것.
10. 회귀분석의 체크포인트
1) 모형이 통계적으로 유의미한가 ? F통계량 확인
2) 회귀계수들이 유의미한가 ? 계수에 대한 p-value, t 통계량, 신뢰구간 확인
3) 모형이 얼마나 설명력이 있는가 ? , Adjusted
여기서 대부분 수정된 결정계수를 씁니다! 왜냐하면, 회귀분석의 경우 독립변수를 많이 추가할수록 설명력이 조금씩이라도 높아지는
특성이 있는데, 수정된 결정계수를 사용하게 되면 수식 내에서 분모가 자유도로 나누어지기 때문에 설명력이 무조건 높아지지 않게
됩니다. 따라서 좀 더 정확하다고 할 수 있겠죠?
4) 모형이 데이터를 잘 적합하고 있는가? Residual plot, 회귀진단
5) 데이터가 전제하고 있는 가정을 잘 만족시키는가 ? 회귀진단
#오늘은 회귀분석의 개념에 대해서 알아봤는데요~ 개념을 잘 알아야 다음시간에 알아볼 회귀분석의 실습을 잘 해볼 수 있습니다!
개념적인 부분은 서적이 더 잘 설명하고 있기에 제가 설명을 덧붙이거나 살짝 정리하는 정도로만 하였구요~ 사실 회귀분석에 대해서
이런 기본적인 부분은 아시고나서, 나중에 계량 게시판에 조금 더 심화된 회귀분석 등 심화된 내용을 포스팅 할 겁니다!
그러므로 요렇게 기본적인 데이터분석 게시판에 올라오는 내용을 이해해주셔야 합니다!
다음시간에 뵐게요.
'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글
16. 시계열분석의 개념과 간단한 분석 (1) | 2018.11.21 |
---|---|
15. R을 통한 회귀분석 실습 (0) | 2018.11.20 |
13. 상관분석 (2) | 2018.11.20 |
12. 기초통계분석의 개념과 시각화 방법 (0) | 2018.11.20 |
11. R을 이용한 추정과 검정 (0) | 2018.11.20 |