텍스트북 예시 - 항공사 승객 데이터

이 논문에서는 시계열 교재에 언급된 국제 여객 데이터 시리즈(G)를 분석할 것입니다: 예측과 통제(Box, Jenkins, Reinsel)(ISBN: 978-0470272848)에 나오는 시계열을 분석합니다. 이 교과서는 1960년대 후반에 처음 출판되었으며 많은 실무자들이 시계열 주제에 대한 확실한 기초 교과서로 간주하고 있습니다.

국제 항공사 승객 시리즈는 1949년 1월부터 1960년 12월까지 국제선 승객의 월별 총합계를 나타냅니다.

여기서 목표는 책에서와 동일한 분석을 따르고 NumXL 계산의 정확성을 입증하는 것입니다. 또한, 선도적인 통계 소프트웨어 공급업체인 SAS에서 동일한 데이터 집합에 대한 자체 분석을 시연하고 있으므로, 이 링크를 통해 사용자도 그 결과를 검토해 보시기를 적극 권장합니다:

SAS 절차 참조 - 항공사 시리즈의 계절별 모델 예제 7.2

이 그림은 항공사 승객 데이터 플롯을 보여줍니다.

1단계: 데이터 변환

설명 통계 마법사(아래 그림)를 사용하여 샘플 데이터의 다양한 요약 통계를 검토합니다.

이 그림은 NumXL Desc 통계 마법사를 보여줍니다.

요약 통계 표(아래 그림)에서 데이터 계열은 직렬 상관관계(즉, 백색 잡음 테스트에 실패)와 팻테일(유의미한 초과 첨도 및 ARCH 효과)을 나타냅니다.

이 그림은 항공사 승객 데이터에 대한 요약 통계 출력을 보여줍니다.

원래 분석은 자연 로그 함수(즉, LN)를 사용하여 데이터 계열을 변환합니다. 아래 그래프와 같이 동일한 기법을 따릅니다:

이 그림은 로그 항공사 승객 데이터의 플롯을 보여줍니다.

이 기법을 사용하면 다음과 같은 요약 통계를 얻을 수 있습니다:

이 그림은 로그 항공사 승객 데이터에 대한 요약 통계를 보여줍니다.
변환된 데이터 계열이 원본 데이터보다 더 매끄럽고 시간 추세가 원본보다 더 선형적으로 보입니다.

2단계: 상관관계 분석

NumXL 툴바를 사용하여 상관도 마법사를 시작합니다.

이 그림은 NumXL 상관도 마법사를 보여줍니다.

로그 데이터를 강조 표시하고 ACF 및 PACF에 대해 24개의 지연을 선택합니다. 그런 다음 데이터에 대한 상관도를 만듭니다.

이 그림은 로그 항공사 승객 데이터에 대한 상관도 출력을 보여줍니다.

ACF 플롯을 분석한 결과, 데이터는 1차 지연(1)과 12차 지연(12)에서 통합된 것으로 보입니다. 두 지연에 대한 데이터를 차분하여 계산한 결과(즉, $ \left(1-L\right)\left(1-L^{12}\right) $)는 아래 그래프에 표시되어 있습니다:

이 그림은 항공사별 승객 데이터 차이를 보여줍니다.

서로 다른 데이터 세트는 다음과 같은 상관도를 생성해야 합니다:

이 그림은 서로 다른 로그 항공사 승객 데이터에 대한 상관도를 보여줍니다.

또한 서로 다른 데이터 계열의 ACF 플롯에서 지연 1(1)과 지연 12(12)에서 유의미한 자기 상관 관계가 있음을 알 수 있습니다.

3단계: 항공사 모델링

로그 승객 데이터 시리즈에 대해 제안된 모델은 시즌 길이가 12개월인 항공사 모델입니다.

$$\left(1-L\right)\left(1-l^{12}\right)\ln{X_t}=\mu \left(1+\theta L\right)\left(1+\Theta L^{12}\right)a_t$$

어디

  • L = 백시프트 연산자(일명 B).
  • $a_t$ = 오차 항, 충격, 혁신 또는 단순히 모델 잔차 t 시점의 잔차.
  • $\mu$ = 계절에 따른 시계열의 평균입니다.

NumXL 툴바에서 항공사 아이콘을 클릭하여 항공사 모델 마법사를 실행합니다.

이 그림은 항공사 모델 마법사를 보여줍니다.

이 그림은 항공사 모델 초기값 표를 보여줍니다.

4단계: 보정

항공사 모델 표 상단의 셀(예: "AIRLINE(12)")을 선택하고 도구 모음에서 보정 아이콘을 클릭합니다.

이 그림은 항공사 승객 데이터 보정을 보여줍니다.

Excel 솔버는 항공기 모델의 매개변수(즉, $\theta,\Theta$)에 대한 최적의 값을 결정하려고 시도합니다.

이 그림은 Excel 솔버 결과 대화 상자를 보여줍니다.

모델 매개변수에 대한 새로운 최적값은 아래와 같습니다:

이 그림은 항공사 승객 데이터의 보정된 값을 보여줍니다.

잔차 분석 표를 살펴보면 보정된 값은 기본 모델의 모든 가정(즉, 가우스 분포 잔차)을 충족합니다.

SAS 웹 사이트의 보정된 모델의 매개 변수 값은 앞서 계산한 값과 약간 다릅니다:

이 그림은 SAS 항공사 모델 파라미터를 보여줍니다.이 그림은 항공사 모델의 착용감 우수성을 보여줍니다.

하지만 이 값은 오차 허용 한도(즉, ) 내에 있으며 Akaike의 정보 기준(AIC)이 더 우수합니다.

NumXL과 SAS 값의 핵심적인 차이는, 우리가 절편($\mu$) 값을 0으로 설정하지 않았기 때문이라고 생각합니다.

5단계: 예측

보정된 모델의 잔차는 항공사 모델의 가정을 만족합니다. 이제 월별 국제 항공사 승객 총계에 대한 24개월 예측을 수행할 준비가 되었습니다.

예측은 두 단계로 진행됩니다:

  • 월별 합계 로그에 대한 예측
  • 예측을 다시 일반 월별 총합으로 변환하기

도구 모음에서 "AIRLINE(12)"라고 표시된 셀을 선택하고 예측 아이콘을 클릭합니다.

이 그림은 항공사 승객 예측 마법사를 보여줍니다.

참고로, 예측 목적으로 이 입력 시계열은 최신 13개월 또는 1959년 11월부터 1960년 12월까지의 관측치를 의미합니다. 출력 표는 아래에 표시되어 있습니다:

이 그림은 로그 항공사 월별 승객 총계에 대한 예측 표를 보여줍니다.

이 그림은 로그 항공사 월별 총 승객 수에 대한 예측을 보여줍니다.

일반 월별 총합으로 다시 변환하려면 다음 공식을 사용하세요:

$$UL=e^{UL_{log}}$$

$$LL=e^{LL_{log}}$$

$$\mu=e^{\mu_{log}+\frac{\sigma_{log}^2}{2}}$$

이 그림은 월별 총 항공사 승객 예측 표를 보여줍니다.

이 그림은 월별 총 항공사 승객 예측 플롯을 보여줍니다.

  첨부 파일

댓글

댓글을 남기려면 로그인하세요.

도움이 되었습니까?
1명 중 1명이 도움이 되었다고 했습니다.