正規性検定-事実と神話

Mohamad

2016年12月27日 20:32

時系列や計量経済学のモデリングでは、モデルの仮定を検証するための残差診断の一部として、正規性検定に遭遇することがよくあります。

この図は、残留診断テストによるエアラインモデル出力表である。

正規性検定は、標準化残差がガウス分布に従うかどうかを教えてくれるのか？正確ではありません。

では、このテストはいったい何をするのだろうか？なぜ正規性を検定するためにいくつかの異なる方法があるのでしょうか？

正規確率プロット（すなわちQ-Qプロット）は、データ・セットの非正規性を評価する非公式な手段として使うことができる。しかし，ある程度の信頼性をもって判断できるようになるには，かなりの練習が必要であろう．

注：説明のために、エクセルの分析パックを使って5系列の乱数をシミュレートした。それぞれの系列は，異なる基礎分布を持っている．正規分布，一様分布，二項分布，ポアソン分布，スチューデントのt分布とF分布である．

背景

ある一変量データセット（$\left \{ x_t \right \}$）があり、このデータセットがガウス分布で適切にモデル化されているかどうかを判断したいとします。

$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$

どこで

$H_o=$ 帰無仮説（Xは正規分布）
$H_1=$ 対立仮説（X分布がガウス分布から外れている）
$N(.)=$ ガウス分布または正規分布

要するに、正規性の検定は、2つの可能な結果を持ちうる仮説の通常の検定である：(1) 正規性の帰無仮説（$H_o$）の棄却、または(2) 帰無仮説の棄却の失敗。

実際には、正規性の帰無仮説を棄却できないときは、検定がこの標本の正規分布からの逸脱を見つけられなかったことを意味します。したがって、データが正規分布している可能性があります。

一般的に我々が直面する問題は、サンプル・サイズが小さいと、正規性からの大きな逸脱も検出されないということです。逆にサンプル・サイズが大きいと、正規性からのわずかな逸脱も棄却された帰無につながります。

正規性検定

どのようにして正規性を検定するのか？原理的には、経験的（標本）分布を理論的正規分布と比較します。偏差の尺度は、分布モーメント、Q-Qプロット、または2つの分布関数の差の要約に基づいて定義することができます。

次の正規性検定を見てみよう：

- Jarque-Bera テスト

- Shapiro-Wilk テスト

- Anderson – Darling テスト

Jarque-Bera

Jarque-Bera検定は、標本の尖度と歪度に基づく正規性からの逸脱の適合度測定である。言い換えると、JBは、データが正規分布に一致するスキューと尖度を持つかどうかを決定します。

この検定は Carlos M. Jarque と Anil K. Bera にちなんで命名された。JBの検定統計量は次式で定義される：

$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$

どこで

$S=$サンプルの傾き
$K=$サンプル過剰尖度
$n=$サンプル中の欠損していない値の数
$JB=$JB$は漸近カイ二乗分布である。

備考: 小さな標本の場合、カイ2乗近似は過敏で、しばしば帰無仮説（すなわち正規性）が実際には真であるにもかかわらず棄却してしまう。

この図はJarque-Bera正規性検定表である。

上記の表では、NumXLの「Normality Test」関数を使用して、正規性検定のP値を計算しています。注意：JB検定は、対称分布（例：一様分布や学生のt分布）において、サンプルサイズが小さい場合（$n\leq50$）には、正規性からの逸脱を検出できませんでした。

Shapiro-Wilk

正規性を判断するための非公式なアプローチに基づくと、Q-Qプロット（図1参照）の直線性に近いかどうかを判断する一つの明白な方法は、その "相関係数 "を計算することである。

この図は、シャピロ・ウィルク正規性検定のQ-Qプロットの例である。

これを正規確率（Q-Q）プロットで行うと、強力なShapiro-Wilk検定Wとその近似Wに本質的に等しい公式検定が得られる。

$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$

Where

$X_{(i)}=$ その $i^{th}$ 次
$a_{i}=$ で与えられる定数である。

$$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$

$m=$ ガウス分布からサンプリングされた独立同一分布確率変数の順序統計量の期待値
$V=$ の共分散行列である ${m}$ オーダー統計

この図はシャピロ・ウィルク正規性検定表である。

上記の表では、SWのP値はサンプルサイズが小さい場合（$n\leq 50$）において正規性からの逸脱を検出する際に有意に優れていますが、対称分布（例：一様分布、Studentのt分布）に対しては同様の問題を示しています。

Anderson-Darling

正規性のAnderson-Darling 検定は，経験分布関数（EDF）に基づく．検定統計量は，正規分布と経験分布の差の2乗に基づく．

$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$

要約すると、並べ替えたサンプルデータを使用して経験分布を構築し、各点（$X_{i}$）における理論的（ガウス）累積分布（$U_{i}$）を計算し、最後に検定統計量を算出する。

この図は、経験分布関数（EDF vs. 正規分布）のグラフです。

また、正規分布の分散と平均がともに未知である場合、検定統計量は次のように表される：

$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$

注：ADテストは現在、NumXLの次回のリリースを予定しています。

結論

これらの3つの検定は、正規性を検定するために全く異なるアプローチを用いている：(1)JBはモーメントに基づく比較を用い、(2)SWはQ-Qプロットにおける相関を調べ、(3)ADは経験的分布と理論的分布の差を検定する。

ある意味で、これらの検定は互いに補完しあっているが、ある種の状況では他の検定よりも有用である。例えば、JBは標本サイズが小さい（n<50）、または標本サイズが非常に大きい（n>5000）場合にはうまく機能しない。

SW法は、サンプルサイズが小さい場合（n>3、5000以下）に有効である。

パワーの観点から、StephensStephens, M. A. (1974). 「EDF Statistics for Goodness of Fit and Some Comparisons」. Journal of the American Statistical Association 69: 730–737は、AD統計量（$A^{2}$）が、特に小標本（$n\leq 25$）の場合でも、正規性からの逸脱を検出するEDF統計量の一つとして最も優れたものの一つであることが示されました。ただし、AD検定は標本サイズが大きい場合にも同様の問題を抱えており、わずかな不完全性が帰無仮説の棄却を引き起こす可能性があります。

チュートリアル・ビデオ

背景

正規性検定

Jarque-Bera

Shapiro-Wilk

Anderson-Darling

結論

チュートリアル・ビデオ

関連記事

コメント