Normalitätstest - Fakten und Mythen

Mohamad

27. Dezember 2016 20:32

In der Zeitreihen- und ökonometrischen Modellierung begegnet uns der Normalitätstest häufig als Teil der Residuen-Diagnose, um die Annahmen eines Modells zu überprüfen.

Diese Abbildung zeigt die Ausgabetabelle des Airline-Modells mit Restdiagnosetest.

Sagt der Normalitätstest aus, ob die standardisierten Residuen einer Gaußverteilung folgen? Nicht genau.

Was genau macht dieser Test also? Warum gibt es mehrere verschiedene Methoden zur Prüfung der Normalität?

Sie können die Normalwahrscheinlichkeitsdiagramme (d. h. Q-Q-Diagramme) als informelles Mittel zur Beurteilung der Nicht-Normalität eines Datensatzes verwenden. Sie benötigen jedoch möglicherweise viel Übung, bevor Sie sie mit einem gewissen Grad an Sicherheit beurteilen können.

Hinweis: Zur Veranschaulichung haben wir 5 Reihen von Zufallszahlen mit dem Analysis Pack in Excel simuliert. Jede Reihe hat eine andere zugrunde liegende Verteilung: Normal-, Uniform-, Binomial-, Poisson-, Student's t- und F-Verteilung.

Hintergrund

Nehmen wir an, wir haben einen Datensatz einer univariaten Variablen ($\left \{ x_t \right \}$) und möchten feststellen, ob der Datensatz gut durch eine Gaußsche Verteilung modelliert werden kann.

$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$

Where

$H_o=$ Nullhypothese (X ist normalverteilt)
$H_1=$ Alternativhypothese (X-Verteilung weicht von der Gaußschen Verteilung ab)
$N(.)=$ Gaußsche oder normale Verteilung

Im Wesentlichen handelt es sich bei der Normalitätsprüfung um eine regelmäßige Überprüfung einer Hypothese, die zwei mögliche Ergebnisse haben kann: (1) Ablehnung der Nullhypothese der Normalität ($H_o$) oder (2) Nichtablehnung der Nullhypothese.

Wenn die Nullhypothese der Normalität nicht zurückgewiesen werden kann, bedeutet dies in der Praxis, dass der Test keine Abweichung von einer Normalverteilung für diese Stichprobe feststellen kann. Daher ist es möglich, dass die Daten normalverteilt sind.

Das Problem, mit dem wir typischerweise konfrontiert sind, ist, dass bei einem kleinen Stichprobenumfang selbst große Abweichungen von der Normalität nicht erkannt werden; umgekehrt führen bei einem großen Stichprobenumfang selbst die kleinsten Abweichungen von der Normalität zu einer Zurückweisung der Null.

Normalitätstests

Wie prüft man auf Normalität? Im Prinzip vergleicht man die empirische (Stichproben-)Verteilung mit einer theoretischen Normalverteilung. Das Maß der Abweichung kann auf der Grundlage von Verteilungsmomenten, einer Q-Q-Darstellung oder der Zusammenfassung der Differenz zwischen zwei Verteilungsfunktionen definiert werden.

Untersuchen wir die folgenden Normalitätstests:

- Jarque-Bera test

- Shapiro-Wilk test

- Anderson – Darling test

Jarque-Bera

Der Jarque-Bera-Test ist ein Anpassungsmaß für die Abweichung von der Normalverteilung auf der Grundlage der Wölbung und Schiefe der Stichprobe. Mit anderen Worten: JB bestimmt, ob die Daten die Schiefe und Wölbung aufweisen, die einer Normalverteilung entsprechen.

Der Test ist nach Carlos M. Jarque und Anil K. Bera benannt. Die Teststatistik für JB ist definiert als:

$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$

Where

$S=$die Stichprobenverzerrung
$K=$die Exzesswölbung der Stichprobe
$n=$die Anzahl der nicht fehlenden Werte in der Stichprobe
$JB=$die Teststatistik; $JB$ hat eine asymptotische Chi-Quadrat-Verteilung

Anmerkungen: Bei kleinen Stichproben ist die Chi-Quadrat-Approximation übermäßig empfindlich und lehnt oft die Nullhypothese (d. h. Normalität) ab, obwohl sie tatsächlich wahr ist.

Diese Abbildung zeigt die Jarque-Bera-Normalitätstesttabelle.

In der obigen Tabelle berechnen wir den P-Wert des Normalitätstests (unter Verwendung der Funktion „Normality Test” in NumXL). Beachten Sie, dass der JB-Test bei symmetrischen Verteilungen (z. B. Gleichverteilung und Student-Verteilung) mit einer kleinen Stichprobengröße ($n\leq50$) keine Abweichung von der Normalität feststellen konnte.

Shapiro-Wilk

Auf der Grundlage des informellen Ansatzes zur Beurteilung der Normalität besteht eine recht offensichtliche Möglichkeit, die annähernde Linearität eines Q-Q-Diagramms (siehe Abbildung 1) zu beurteilen, darin, seinen "Korrelationskoeffizienten" zu berechnen.

Diese Abbildung zeigt das Q-Q-Plot-Beispiel für den Shapiro-Wilk-Normalitätstest.

Wenn dies für Normalwahrscheinlichkeitsdiagramme (Q-Q) durchgeführt wird, kann ein formaler Test erhalten werden, der im Wesentlichen dem leistungsstarken Shapiro-Wilk-Test W und seiner Annäherung W entspricht.

$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$

$X_{(i)}=$ die $i^{th}$ Reihenfolge (kleinste Zahl in der Stichprobe)
$a_{i}=$ eine Konstante, die durch

$$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$

$m=$ die Erwartungswerte der Ordnungsstatistiken unabhängiger und identisch verteilter Zufallsvariablen, die der Gaußschen Verteilung entnommen wurden
$V=$ die Kovarianzmatrix von ${m}$ Auftragsstatistiken

Diese Abbildung zeigt die Tabelle des Shapiro-Wilk-Normalitätstests.

In der obigen Tabelle sind die SW-P-Werte bei kleinen Stichprobengrößen ($n\leq 50$) bei der Erkennung von Abweichungen von der Normalität deutlich besser, weisen jedoch ähnliche Probleme bei symmetrischen Verteilungen (z. B. Gleichverteilung, Student-t-Verteilung) auf.

Anderson-Darling

Die Anderson-Darling-Tests auf Normalität basieren auf der empirischen Verteilungsfunktion (EDF). Die Teststatistik basiert auf der quadrierten Differenz zwischen normal und empirisch:

$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$

Wir konstruieren also eine empirische Verteilung unter Verwendung der sortierten Stichprobendaten, berechnen die theoretische (Gaußsche) kumulative Verteilung ($U_{i}$) an jedem Punkt ($X_{i}$) und berechnen schließlich die Teststatistik

Diese Abbildung zeigt das Diagramm der empirischen Verteilungsfunktion (EDF vs. normal).

Und für den Fall, dass sowohl die Varianz als auch der Mittelwert der Normalverteilung unbekannt sind, wird die Teststatistik wie folgt ausgedrückt:

$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$

Hinweis: Der AD-Test ist derzeit für die nächste NumXL-Version geplant; wir werden die Ergebnisse hier nicht zeigen, da Sie sie noch nicht reproduzieren können.

Schlussfolgerung

Diese drei Tests verwenden sehr unterschiedliche Ansätze, um die Normalität zu prüfen: (1) JB verwendet den momentenbasierten Vergleich, (2) SW untersucht die Korrelation im Q-Q-Diagramm und (3) AD prüft die Differenz zwischen empirischen und theoretischen Verteilungen.

In gewisser Weise ergänzen sich die Tests gegenseitig, aber einige sind in bestimmten Situationen nützlicher als andere. Zum Beispiel funktioniert JB schlecht bei kleinen Stichprobengrößen (n<50) oder sehr großen Stichprobengrößen (n>5000).

Die SW-Methode funktioniert besser bei kleinen Stichprobengrößen (n>3, aber weniger als 5000).

In Bezug auf die Aussagekraft hat StephensStephens, M. A. (1974). „EDF Statistics for Goodness of Fit and Some Comparisons”. Journal of the American Statistical Association 69: 730–737, dass AD-Statistiken ($A^{2}$) eine der besten EDF-Statistiken zur Erkennung von Abweichungen von der Normalität sind, selbst wenn sie mit kleinen Stichproben ($n\leq 25$) verwendet werden. Dennoch hat der AD-Test das gleiche Problem bei großen Stichproben, wo geringfügige Unvollkommenheiten zur Ablehnung einer Nullhypothese führen.

Lehrvideo