Test de normalité - Faits et mythes

Mohamad

27 décembre 2016 20:32

Dans les séries chronologiques et la modélisation économétrique, nous rencontrons souvent le test de normalité dans le cadre du diagnostic des résidus pour valider les hypothèses d'un modèle.

Cette figure montre la table de sortie du modèle de compagnie aérienne avec le test de diagnostic résiduel.

Le test de normalité nous indique-t-il si les résidus standardisés suivent une distribution gaussienne ? Pas exactement.

Alors, à quoi sert exactement ce test ? Pourquoi existe-t-il plusieurs méthodes différentes pour tester la normalité ?

Vous pouvez utiliser les diagrammes de probabilité normale (c'est-à-dire les diagrammes Q-Q) comme moyen informel d'évaluer la non-normalité d'un ensemble de données. Cependant, il vous faudra peut-être beaucoup de pratique avant de pouvoir les évaluer avec un certain degré de confiance.

Remarque : à titre d'illustration, nous avons simulé 5 séries de nombres aléatoires à l'aide du pack d'analyse d'Excel. Chaque série a une distribution sous-jacente différente : Normale, Uniforme, Binomiale, Poisson, et distribution t et F de Student.

Contexte

Supposons que nous disposons d'un ensemble de données univariées ($\left \{ x_t \right \}$) et que nous souhaitons déterminer si cet ensemble de données est bien modélisé par une distribution gaussienne.

$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$

Where

$H_o=$ hypothèse nulle (X est normalement distribué)
$H_1=$ hypothèse alternative (la distribution des X s'écarte de la gaussienne)
$N(.)=$ Distribution gaussienne ou normale

En substance, le test de normalité est un test régulier d'une hypothèse qui peut avoir deux résultats possibles : (1) rejet de l'hypothèse nulle de normalité ($H_o$), ou (2) non-réjection de l'hypothèse nulle.

En pratique, lorsque nous ne pouvons pas rejeter l'hypothèse nulle de normalité, cela signifie que le test ne parvient pas à déceler une déviation par rapport à une distribution normale pour cet échantillon. Il est donc possible que les données soient normalement distribuées.

Le problème auquel nous sommes généralement confrontés est que lorsque la taille de l'échantillon est petite, même les écarts importants par rapport à la normalité ne sont pas détectés ; inversement, lorsque la taille de l'échantillon est grande, même les écarts les plus faibles par rapport à la normalité conduiront au rejet de la nullité.

Tests de normalité

Comment tester la normalité ? En principe, nous comparons la distribution empirique (échantillon) à une distribution normale théorique. La mesure de la déviance peut être définie sur la base des moments de la distribution, d'un graphique Q-Q ou du résumé de la différence entre deux fonctions de distribution.

Examinons les tests de normalité suivants :

- Test de Jarque-Bera

- Test de Shapiro-Wilk

- Test Anderson - Darling

Jarque-Bera

Le test de Jarque-Bera est une mesure d'adéquation de l'écart par rapport à la normalité basée sur l'aplatissement et l'asymétrie de l'échantillon. En d'autres termes, JB détermine si les données ont l'asymétrie et l'aplatissement correspondant à une distribution normale.

Ce test porte le nom de Carlos M. Jarque et Anil K. Bera. La statistique de test pour JB est définie comme suit :

$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$

Où

$S=$l'asymétrie de l'échantillon
$K=$l'excès d'aplatissement de l'échantillon
$n=$le nombre de valeurs non manquantes dans l'échantillon
$JB=$la statistique du test ; $JB$ a une distribution asymptotique chi-carré

Notes: Pour les petits échantillons, l'approximation du chi-carré est trop sensible, rejetant souvent l'hypothèse nulle (c'est-à-dire la normalité) alors qu'elle est en fait vraie.

Cette figure montre le tableau du test de normalité de Jarque-Bera.

Dans le tableau ci-dessus, nous calculons la valeur P du test de normalité (à l'aide de la fonction Normality Test dans NumXL). Notez que le test JB n'a pas détecté d'écart par rapport à la normalité pour les distributions symétriques (par exemple, uniformes et de Student) à partir d'un petit échantillon ($n\leq50$).

Shapiro-Wilk

Sur la base de l'approche informelle de l'évaluation de la normalité, une façon assez évidente d'évaluer la quasi-linéarité d'un graphique Q-Q (voir figure 1) est de calculer son "coefficient de corrélation".

Cette figure montre l'exemple de graphique Q-Q pour le test de normalité de Shapiro-Wilk.

Lorsque l'on procède ainsi pour les graphiques de probabilité normale (Q-Q), on obtient un test formel qui est essentiellement équivalent au puissant test de Shapiro-Wilk W et à son approximation W.

$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$

Where

$X_{(i)}=$ les $i^{th}$ ordre (plus petit nombre dans l'échantillon)
$a_{i}=$ une constante donnée par

$$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$

$m=$ les valeurs attendues des statistiques d'ordre de variables aléatoires indépendantes et identiques échantillonnées à partir d'une distribution gaussienne
$V=$ la matrice de covariance de ${m}$ statistiques des commandes

Cette figure montre le tableau du test de normalité de Shapiro-Wilk.

Dans le tableau ci-dessus, les valeurs P SW sont nettement meilleures pour les petits échantillons ($n\leq 50$) dans la détection des écarts par rapport à la normalité, mais présentent des problèmes similaires avec les distributions symétriques (par exemple, uniforme, t de Student).

Anderson-Darling

Les tests de normalité d'Anderson-Darling sont basés sur la fonction de distribution empirique (FDE). La statistique du test est basée sur le carré de la différence entre la normale et l'empirique :

$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$

En résumé, nous construisons une distribution empirique en utilisant les données de l'échantillon trié, nous calculons la distribution cumulative théorique (gaussienne) ($U_{i}$) en chaque point ($X_{i}$) et, enfin, nous calculons la statistique de test.

Cette figure montre le graphique de la fonction de distribution empirique (EDF vs. normale).

Et, dans le cas où la variance et la moyenne de la distribution normale sont toutes deux inconnues, la statistique de test est exprimée comme suit :

$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$

Note : Le test AD est actuellement prévu pour la prochaine version de NumXL ; nous ne montrerons pas les résultats ici, car vous ne pouvez pas encore les reproduire.

Conclusion

Ces trois tests utilisent des approches très différentes pour tester la normalité : (1) JB utilise la comparaison basée sur les moments, (2) SW examine la corrélation dans le graphique Q-Q et (3) AD teste la différence entre les distributions empiriques et théoriques.

D'une certaine manière, les tests se complètent, mais certains sont plus utiles dans certaines situations que d'autres. Par exemple, JB fonctionne mal pour les échantillons de petite taille (n<50) ou de très grande taille (n>5000).

La méthode SW fonctionne mieux pour les échantillons de petite taille (n>3 mais moins de 5000).

En termes de puissance, StephensStephens, M. A. (1974). "EDF Statistics for Goodness of Fit and Some Comparisons". Journal of the American Statistical Association 69 : 730-737, la statistique AD ($A^{2}$) est l'une des meilleures statistiques EDF pour détecter les écarts par rapport à la normalité, même lorsqu'elle est utilisée avec de petits échantillons ($n\leq 25$). Néanmoins, le test AD présente le même problème avec un échantillon de grande taille, où de légères imperfections entraînent le rejet de l'hypothèse nulle.

Tutoriel vidéo