En series de tiempo y modelos econométricos, a menudo encontramos la prueba de normalidad como parte del diagnóstico de residuos para validar las hipótesis de un modelo.
Prueba de normalidad. Usted puede utilizar las gráficas de probabilidad normal (es decir, las gráficas Q-Q) como medio informal para evaluar la no normalidad de un conjunto de datos. Sin embargo, es posible que necesite una práctica considerable antes de poder juzgarlos con cualquier grado de confianza. Díganos si los residuos estandarizados siguen una distribución gaussiana? No exactamente
Entonces, ¿qué hace exactamente esta prueba? ¿Por qué tenemos varios métodos diferentes para probar la normalidad?
Nota:Por ejemplo, hemos simulado 5 series de números aleatorios utilizando el paquete de análisis en Excel. Cada serie tiene una distribución subyacente diferente: Normal, Uniforme, Binomial, Poisson, T de Student y distribución F.
Antecedentes
Vamos a asumir que nosotros tenemos un conjunto de datos de un univariante ($\left \{ x_t \right \}$), y nosotros queremos determinar si el conjunto de datos está bien modelado por una distribución Gaussiana.
$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$
Donde
- $H_o=$ hipótesis nula (X está normalmente distribuida)
- $H_1=$ hipótesis alternativa (distribución X se desvía de Gaussian)
- $N(.)=$ Distribución Gaussiana o normal
En esencia, la prueba de normalidad es una prueba regular de una hipótesis que puede tener dos resultados posibles: (1) rechazo de la hipótesis nula de normalidad ($ H_o $), o (2) no rechazo de la hipótesis nula.
En la práctica, cuando no podemos rechazar la hipótesis nula de normalidad, significa que la prueba no encuentra desviación de una distribución normal para esta muestra. Por lo tanto, es posible que los datos sean distribuidos normalmente.
El problema que normalmente enfrentamos es que cuando el tamaño de la muestra es pequeño, no se detectan grandes desviaciones de la normalidad. Por el contrario, cuando su tamaño de la muestra es grande, incluso las desviaciones más pequeñas de la normalidad conducirán a un nulo rechazado.
Pruebas de normalidad
¿Cómo probamos la normalidad? En principio, comparamos la distribución empírica (muestra) con una distribución teórica normal. La medida de la desviación se puede definir con base en los momentos de distribución, una gráfica Q-Q, o el resumen de la diferencia entre dos funciones de distribución.
Examinemos las siguientes pruebas de normalidad:
- Jarque-Bera test
- Shapiro-Wilk test
- Anderson – Darling test
Jarque-Bera
La prueba Jarque-Bera Es una medida de bondad de ajuste de la salida de la normalidad basada en la kurtosis de muestra y sesgo. En otras palabras, JB determina si los datos tienen el sesgo y la curtosis que coinciden con una distribución normal.
La prueba lleva el nombre de Carlos M. Jarque y Anil K. Bera. La estadística de prueba para JB se define como:
$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$
Donde
- $S=$el sesgo de la muestra
- $K=$el exceso de kurtosis de la muestra
- $n=$el número de valores no faltantes en la muestra
- $JB=$la estadística de prueba; $JB$ tiene una distribución asintótica de chi-cuadrado
Notas:Para muestras pequeñas, la aproximación chi-cuadrada es excesivamente sensible, rechazando a menudo la hipótesis nula (es decir, normalidad) cuando es de hecho verdadero.
En la tabla anterior, calculamos el valor P de la prueba de normalidad (Usando la función Prueba de Normalidad en NumXL). Obsérvese que la prueba JB falló al detectar un alejamiento de la normalidad para las distribuciones simétricas (por ejemplo Uniforme y Estudiantes) usando un pequeño tamaño de muestra($n\leq50$).
Shapiro-Wilk
Basado en el enfoque informal para juzgar la normalidad, una manera bastante obvia de juzgar la cercana linealidad de cualquier gráfica Q-Q (ver Figura 1) es calcular su "coeficiente de correlación".
Cuando se hace esto para las parcelas de probabilidad normal (Q-Q), se puede obtener una prueba formal que es esencialmente equivalente a la potente prueba de Shapiro-Wilk W y su aproximación W.
$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$
Donde
- $X_{(i)}=$ the $i^{th}$ orden (Número más pequeño en la muestra)
- $a_{i}=$ Una constante dada por $$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$
- $m=$ los valores esperados de las estadísticas de orden de variables aleatorias distribuidas independientes e idénticas muestreadas de la distribución gaussiana
- $V=$ la matriz de covarianza de ${m}$ estadísticas de orden
En la tabla superior, los valores SW P Son significativamente mejores para muestras pequeñas ($n\leq 50$) en la detección de la salida de la normalidad, pero presentan problemas similares con la distribución simétrica (por ejemplo, Uniforme, t de Student).
Anderson-Darling
La prueba Anderson-Darling para la normalidad se basan en funciones de distribución empírica (FDE). Las estadísticas de la prueba se basan en la diferencia cuadrática entre normal y empírico:
$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$
En resumen, se construye una distribución empírica utilizando los datos de la muestra ordenada, se calcula la distribución teórica (Gaussiana) acumulativa ($U_{i}$) en cada punto ($X_{i}$) y, finalmente, calcula la estática de prueba
Y, en el caso en que la varianza y la media de la distribución normal son ambas desconocidas, la estadística de prueba se expresa de la siguiente manera:
$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$
Nota: La prueba AD está actualmente planificada para la próxima versión de NumXL; No mostraremos resultados aquí, ya que usted aún no puede reproducirlos.
Conclusión
Estas tres pruebas usan enfoques muy diferentes para probar la normalidad: (1) JB uses the moments-based comparisonUtiliza la comparación basada en momentos , (2) SW Examina la correlación en la gráfica Q-Q y (3) AD Prueba la diferencia entre las distribuciones empíricas y teóricas.
De alguna manera, las pruebas se complementan, pero algunas son más útiles en ciertas situaciones que otras. Por ejemplo, JB funciona mal para tamaños de muestra pequeños (n<50) O tamaños de muestra muy grandes (n>5000).
El método SW funciona mejor para muestras pequeñas(n>3 pero menos que 5000).
En términos de poder, Stephens, M. A. 1974. EDF Estadísticas de bondad de ajuste y algunas comparaciones. Revista de la Asociación Americana de Estadística 69: 730–737 Estadísticas AD encontradas ($A^{2}$) Para ser una de las mejores estadísticas de EDF para detectar la salida de la normalidad, incluso cuando se utiliza con muestras pequeñas($n\leq 25$). Sin embargo, la prueba AD tiene el mismo problema con un gran tamaño de muestra, en el que pequeñas imperfecciones conducen a un rechazo de una hipótesis nula.
Comentarios
El artículo está cerrado para comentarios.