정상성 테스트 - 사실과 오해

Mohamad

2016년 12월 27일 20:32

시계열 및 계량 경제학 모델링에서는 모델의 가정을 검증하기 위한 잔차 진단의 일부로 정규성 테스트를 자주 접하게 됩니다.

이 그림은 잔여 진단 테스트가 포함된 항공사 모델 출력 테이블을 보여줍니다.

정규성 테스트는 표준화된 잔차가 가우스 분포를 따르는지 여부를 알려주나요? 정확히는 아닙니다.

그렇다면 이 테스트는 정확히 어떤 기능을 할까요? 정상성을 테스트하는 여러 가지 방법이 있는 이유는 무엇일까요?

데이터 집합의 비정규성을 평가하는 비공식적인 수단으로 정규 확률 플롯(즉, Q-Q 플롯)을 사용할 수 있습니다. 하지만 어느 정도 확신을 가지고 판단하려면 상당한 연습이 필요할 수 있습니다.

참고: 설명을 위해 Excel의 분석 팩을 사용하여 5개의 난수 시리즈를 시뮬레이션했습니다. 각 계열은 서로 다른 기본 분포를 가집니다: 정규, 균등, 이항, 푸아송, 학생의 t 및 F 분포입니다.

배경

일차원 데이터 집합($\left \{ x_t \right \}$)이 주어졌다고 가정하고, 이 데이터 집합이 가우시안 분포로 잘 모델링되었는지 판단하고자 합니다.

$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$

Where

$H_o=$ 귀무 가설(X는 정규 분포)
$H_1=$ 대체 가설(X 분포가 가우스에서 벗어남)
$N(.)=$ 가우스 또는 정규 분포

본질적으로 정규성 검정은 (1) 정규성에 대한 귀무가설($H_o$)을 거부하거나 (2) 귀무가설을 거부하지 못하는 두 가지 가능한 결과가 있을 수 있는 가설에 대한 일반 검사입니다.

실제로 정규성에 대한 귀무가설을 거부할 수 없다는 것은 테스트가 이 샘플에 대해 정규 분포에서 벗어난 것을 찾지 못했다는 의미입니다. 따라서 데이터가 정규 분포일 가능성이 있습니다.

일반적으로 직면하는 문제는 표본 크기가 작으면 정상에서 크게 벗어나도 감지되지 않고, 반대로 표본 크기가 크면 정상에서 아주 작은 편차도 거부된 널로 이어진다는 점입니다.

정상 테스트

정규성 테스트는 어떻게 하나요? 원칙적으로 경험적(표본) 분포를 이론적 정규 분포와 비교합니다. 편차 측정은 분포 모멘트, Q-Q 플롯 또는 두 분포 함수 간의 차이 요약에 따라 정의할 수 있습니다.

다음 정상성 테스트를 살펴보겠습니다:

- Jarque-Bera 테스트

- Shapiro-Wilk 테스트

- Anderson – Darling 테스트

Jarque-Bera

자크-베라 테스트는 표본의 첨도 및 스큐를 기반으로 정규성에서 벗어난 정도를 측정하는 적합도 측정법입니다. 즉, JB는 데이터의 스큐와 첨도가 정규 분포와 일치하는지 여부를 판단합니다.

이 테스트는 Carlos M. Jarque와 Anil K. Bera의 이름을 따서 명명되었습니다. JB에 대한 테스트 통계는 다음과 같이 정의됩니다:

$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$

어디

$S=$샘플 왜곡
$K=$샘플 초과 첨도
$n=$샘플에서 누락되지 않은 값의 수입니다.
$JB=$검정 통계량; $JB$는 무한대 분포에서 카이제곱 분포를 가집니다.

참고: 작은 표본의 경우, 카이제곱 근사치는 지나치게 민감하여 실제로는 귀무가설(즉, 정규성)을 거부하는 경우가 많습니다.

이 그림은 Jarque-Bera 정규성 테스트 테이블을 보여줍니다.

위 표에서 우리는 정규성 검정(NumXL의 정규성 검정 함수를 사용)의 P-값을 계산했습니다. 주의할 점은 JB 검정이 작은 표본 크기($n\leq50$)에서 대칭 분포(예: 균일 분포 및 Student 분포)에서 정규성으로부터의 편차를 탐지하지 못했다는 것입니다.

Shapiro-Wilk

정상성을 판단하는 비공식적인 접근 방식에 따르면, Q-Q 플롯의 선형성에 가까운지 판단하는 다소 명확한 방법 중 하나는 "상관 계수"를 계산하는 것입니다(그림 1 참조).

이 그림은 샤피로-윌크 정규성 테스트의 Q-Q 플롯 예시를 보여줍니다.

정규 확률(Q-Q) 플롯에 대해 이 작업을 수행하면 강력한 샤피로-윌크 테스트 W 및 그 근사치 W와 본질적으로 동등한 공식적인 테스트를 얻을 수 있습니다.

$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$

어디

$X_{(i)}=$ $i$ 번째 순서 (표본 내 가장 작은 수)
$a_{i}=$ 에 의해 주어진 상수

$$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$

$m=$ 가우스 분포에서 샘플링된 독립적이고 동일한 분포의 확률 변수의 순서 통계의 예상 값입니다.
$V=$ ${m}$ 차원 순서 통계량의 공분산 행렬

이 그림은 샤피로-윌크 정규성 테스트 표를 보여줍니다.

위 표에서 SW P-값은 표본 크기($n\leq 50$)가 작은 경우 정규성 편차 검출에서 유의미하게 우수한 성능을 보이지만, 대칭 분포(예: 균일 분포, Student의 t 분포)에서는 유사한 문제를 나타냅니다.

Anderson-Darling

정규성에 대한 앤더슨-달링 테스트는 경험적 분포 함수(EDF)를 기반으로 합니다. 테스트 통계는 정상과 경험적 분포의 제곱 차이에 기반합니다:

$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$

요약하자면, 정렬된 샘플 데이터를 사용하여 경험적 분포를 구축하고, 각 점($X_{i}$)에서 이론적(가우시안) 누적 분포($U_{i}$)를 계산한 후, 최종적으로 검정 통계를 계산합니다.

이 그림은 경험적 분포 함수(EDF 대 정규 분포) 그래프를 보여줍니다.

정규 분포의 분산과 평균을 모두 알 수 없는 경우, 검정 통계는 다음과 같이 표현됩니다:

$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$

참고: AD 테스트는 현재 다음 NumXL 릴리스에서 계획 중이며, 아직 재현할 수 없으므로 여기서는 결과를 보여드리지 않습니다.

결론

(1) JB는 모멘트 기반 비교를 사용하고, (2) SW는 Q-Q 플롯의 상관관계를 검사하며, (3) AD는 경험 분포와 이론 분포의 차이를 테스트하는 등 이 세 가지 테스트는 매우 다른 접근 방식을 사용하여 정규성을 테스트합니다.

어떤 면에서 테스트는 서로를 보완하지만, 어떤 테스트는 특정 상황에서 다른 테스트보다 더 유용합니다. 예를 들어, JB는 표본 크기가 작거나(n<50) 표본 크기가 매우 큰 경우(n>5000)에는 제대로 작동하지 않습니다.

SW 방식은 작은 샘플 크기(n>3, 5000 미만)에 더 효과적입니다.

전력 측면에서 StephensStephens, M. A. (1974). “EDF 통계량과 적합도 평가 및 일부 비교”. Journal of the American Statistical Association 69: 730–737에서 AD 통계량($A^{2}$)이 작은 표본 크기($n\leq 25$)에서도 정규성 편차를 탐지하는 데 가장 우수한 EDF 통계량 중 하나임을 발견했습니다. 그러나 AD 검정은 큰 표본 크기에서 동일한 문제를 가지고 있으며, 약간의 결함이 무효 가설의 기각으로 이어집니다.

튜토리얼 비디오

배경

정상 테스트

Jarque-Bera

Shapiro-Wilk

Anderson-Darling

결론

튜토리얼 비디오

관련 문서

댓글