17. 시계열 분석-2

안녕하세요~ 오늘은 시계열 분석의 두 번째 파트, 실습을 조금 더 해보려고 합니다.

바로 시작해보도록 하겠습니다.

저 또한 여기서 쓰이는 패키지는 어떻게 구성되어있는지 몰라서 예제에 쓰이는 데이터가 무엇인지 직접찾아봅니다.

함수가 궁금할 경우 앞에 ? 를, 데이터가 궁금할 경우 앞에 ??를 치면 R이 검색해줍니다.

install.packages("fpp")

library(fpp)

data(elecequip)

# elecequip은 Manufacture of electrical equipment: computer, electronic and optical products. Data adjusted by working days; Euro area (16 countries). Industry new orders index. 2005=100. 라고 나와있네요. 유럽 16개국의 컴퓨터와 같은 전기 혹은 광학제품 제조량에 대한 데이터이며, 2005년도를 100으로 index하여 비교한 데이터 같군요?...

#stl 함수는 seasonal, trend and irregular components를 분해하는 함수이네요.

#seasadj함수는 Returns seasonally adjusted data constructed by removing the seasonal component. 라고 설명되어있습니다.

#즉 계절적 요인을 조정한 데이터를 도출해주는 함수인거 같습니다.

#따라서 stl함수로 seasonal component를 분해하고 seasadj함수로 조정하는 것인 것 같습니다.

#그래서 elecequip데이터가 시계열 데이터이므로 각종 요인들을 제거한 데이터를 eeadj라는 변수에 저장하고 plot을 찍어보겠습니다.

eeadj <- seasadj(stl(elecequip, s.window="periodic"))
plot(eeadj)

#이렇게 플랏을 찍어봤는데요~ 꾸준히 상승과 하락을 반복하다가 2000년대 들어서 급증하게되고, 급락하였다가 다시 증가했다가,

2008~2009년도에 크~게 하락하는 모습을 보이고 있습니다. 아무래도 2000년대 들어서 IT버블이 일어났기 때문에 제조량에서도 크게 증가했을까요?

2008~2009년도에는 금융위기가 있어서 전 세계적으로 큰 풍파를 맞았었죠. 일명 '서브프라임 모기지' 사태라고도 하죠.

아무래도 그런 영향이 있어서 그렇지 않을까 생각해봅니다.

tsdisplay(diff(eeadj), main="")

# tsdisplay()함수를 통해서 1차 차분한 후 정상성을 확인하고, PACF로부터 lag확인 결과, AR(3)정도가 적합할 것으로 보입니다.

이를 확인해보기 위해서 유사한 ARIMA Order의 AIC값을 확인해봅니다.

fit_310<-Arima(eeadj, order=c(3,1,0))

fit_410<-Arima(eeadj, order=c(4,1,0))

fit_210<-Arima(eeadj, order=c(2,1,0))

fit_311<-Arima(eeadj, order=c(3,1,1))

fit_310$aic;fit_410$aic;fit_210$aic;fit_311$aic;

#즉, 전에 알아보았듯이 ARIMA(p,d,q)모형을 알아보았었죠,

#자기회귀누적이동평균모형(Autoregressive integrated moving average model), 즉 1번 차분하고, p기를 2~4까지로 잡고,

q를 0~1까지 잡은 것입니다. 무엇이 적절한지 비정상시계열에서 forecasting을 위해 하는 작업입니다..

여기서는 p=2, d=1, q=0일때 AIC값이 가장 높네요.
[1] 979.3314
[1] 978.9048
[1] 996.6795
[1] 978.1664

다음으로 넘어가서,

Acf(residuals(fit_311))

#ARIMA(3,1,1)모델의 ACF plot에서 잔차가 whith noise임을 확인합니다.

#그리고 portmanteau test를 통해서 잔차가 white noise임을 재확인 합니다.

#portmanteau test는 귀무가설이 well speicified 되었다/ 대립가설은 loosely specified입니다.

Box.test(residuals(fit_311), lag=24, fitdf=4, type="Ljung")

Box-Ljung test

data: residuals(fit_311)
X-squared = 20.496, df = 20, p-value = 0.4273

#그 결과, p값이 0.4273으로 크죠? 따라서 귀무가설을 기각할수 없습니다. 따라서 well specified 된 것을 알 수 있죠. 따라서 white noise임을

재 확인합니다.

#이제 모델을 이용한 예측을 해봅니다.

#auto.arima가 위의 과정과 같은 결과를 얻는지 확인해봅니다.

library(forecast)
fit_eeadj<-auto.arima(eeadj)
plot(forecast(fit_eeadj))

# 매우 흡사합니다~ 예측도 되었죠.

# 앞선 시간에 했던 lynx도 똑같은 방식으로 해볼 수 있습니다.

AR model 의 data인 lynx를 auto.arima에 적용해봅니다.

fit_lynx<-auto.arima(lynx)

plot(lynx_fit_lynx$residuals)

lines(lynx, col=2)

summary(fit_lynx)

Series: lynx
ARIMA(2,0,2) with non-zero mean

Coefficients:
         ar1      ar2      ma1      ma2 intercept
      1.3421 -0.6738 -0.2027 -0.2564 1544.4039
s.e. 0.0984   0.0801   0.1261   0.1097   131.9242

sigma^2 estimated as 761965: log likelihood=-932.08
AIC=1876.17 AICc=1876.95 BIC=1892.58

Training set error measures:
ME RMSE MAE MPE MAPE MASE
Training set -1.608903 853.5488 610.1112 -63.90926 140.7693 0.7343143
ACF1
Training set -0.01267127

# 요렇게 비슷하게 할 수 있죠.

#오늘은 시계열분석에대해서 실습을 한번 더 해봤는데요~ 전보다 시계열 들어오고나서 많이 좀 어려워진 느낌이 들죠?..

#저도 그렇습니다. ㅋㅋㅋㅋ 익숙치 않아서 그래요. 하지만 갈길이 멀기에..

#다음 시간에는 다차원척도법을 알아보도록 하겠습니다.

#BYEBYE

저작자표시 (새창열림)

'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글

19. 주성분 분석(Principal Component Analysis, PCA) (5)	2018.11.21
18. 다차원척도법 (Multidimensional Scaling, MDS) (4)	2018.11.21
16. 시계열분석의 개념과 간단한 분석 (1)	2018.11.21
15. R을 통한 회귀분석 실습 (0)	2018.11.20
14. 회귀분석의 개념 (0)	2018.11.20

Mars-Devops Developer

17. 시계열 분석-2

'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글

티스토리툴바

17. 시계열 분석-2

'## 오래된 게시글 (미관리) ## > R' 카테고리의 다른 글

관련글

티스토리툴바