Teste de normalidade - fatos e mitos

Mohamad

27 de Dezembro de 2016 20:32

Nas séries temporais e na modelagem econométrica, frequentemente encontramos o teste de normalidade como parte do diagnóstico dos resíduos para validar as suposições de um modelo.

Esta figura mostra a tabela de saída do modelo da companhia aérea com o teste de diagnóstico residual.

O teste de normalidade nos diz se os resíduos padronizados seguem uma distribuição gaussiana? Não exatamente.

Então, o que exatamente esse teste faz? Por que temos vários métodos diferentes para testar a normalidade?

Você pode usar os gráficos de probabilidade normal (ou seja, os gráficos Q-Q) como um meio informal de avaliar a não normalidade de um conjunto de dados. No entanto, talvez você precise de bastante prática antes de poder julgá-los com algum grau de confiança.

Observação: Para fins de ilustração, simulamos 5 séries de números aleatórios usando o Analysis Pack no Excel. Cada série tem uma distribuição subjacente diferente: Normal, Uniforme, Binomial, Poisson e distribuição t e F de Student.

Histórico

Vamos supor que temos um conjunto de dados univariados ($\left \{ x_t \right \}$) e queremos determinar se o conjunto de dados é bem modelado por uma distribuição gaussiana.

$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$

Where

$H_o=$ hipótese nula (X é normalmente distribuído)
$H_1=$ hipótese alternativa (a distribuição de X se desvia da gaussiana)
$N(.)=$ Distribuição gaussiana ou normal

Em essência, o teste de normalidade é um teste regular de uma hipótese que pode ter dois resultados possíveis: (1) rejeição da hipótese nula de normalidade ($H_o$), ou (2) não rejeição da hipótese nula.

Na prática, quando não podemos rejeitar a hipótese nula de normalidade, isso significa que o teste não consegue encontrar o desvio de uma distribuição normal para essa amostra. Portanto, é possível que os dados sejam distribuídos normalmente.

O problema que normalmente enfrentamos é que, quando o tamanho da amostra é pequeno, até mesmo grandes desvios da normalidade não são detectados; por outro lado, quando o tamanho da amostra é grande, até mesmo os menores desvios da normalidade levarão à rejeição da resposta nula.

Testes de normalidade

Como testamos a normalidade? Em princípio, comparamos a distribuição empírica (amostra) com uma distribuição normal teórica. A medida de desvio pode ser definida com base nos momentos de distribuição, em um gráfico Q-Q ou no resumo da diferença entre duas funções de distribuição.

Vamos examinar os seguintes testes de normalidade:

- Jarque-Bera teste

- Shapiro-Wilk teste

- Anderson – Darling teste

Jarque-Bera

O teste Jarque-Bera é uma medida de ajuste de desvio da normalidade com base na curtose e na inclinação da amostra. Em outras palavras, o JB determina se os dados têm a inclinação e a curtose correspondentes a uma distribuição normal.

O nome do teste foi dado em homenagem a Carlos M. Jarque e Anil K. Bera. A estatística de teste para JB é definida como:

$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$

Onde

$S=$a inclinação da amostra
$K=$o excesso de curtose da amostra
$n=$o número de valores não ausentes na amostra
$JB=$a estatística do teste; $JB$ tem uma distribuição qui-quadrada assintótica

Notas: Para amostras pequenas, a aproximação do qui-quadrado é excessivamente sensível, muitas vezes rejeitando a hipótese nula (ou seja, normalidade) quando ela é de fato verdadeira.

Esta figura mostra a tabela do teste de normalidade Jarque-Bera.

Na tabela acima, calculamos o valor P do teste de normalidade (usando a função Teste de Normalidade no NumXL). Observe que o teste JB não conseguiu detectar um desvio da normalidade para distribuições simétricas (por exemplo, Uniforme e Estudantes) usando uma amostra pequena ($n\leq50$).

Shapiro-Wilk

Com base na abordagem informal para avaliar a normalidade, uma maneira bastante óbvia de avaliar a quase linearidade de qualquer gráfico Q-Q (consulte a Figura 1) é calcular seu "coeficiente de correlação".

Esta figura mostra o exemplo de gráfico Q-Q para o teste de normalidade de Shapiro-Wilk.

Quando isso é feito para gráficos de probabilidade normal (Q-Q), é possível obter um teste formal que é essencialmente equivalente ao poderoso teste Shapiro-Wilk W e sua aproximação W.

$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$

Onde

$X_{(i)}=$ a ordem $i^{th}$ (o menor número na amostra)
$a_{i}=$ uma constante dada por

$$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$

$m=$ os valores esperados das estatísticas de ordem de variáveis aleatórias distribuídas independentes e idênticas amostradas a partir da distribuição gaussiana
$V=$ a matriz de covariância das estatísticas de ordem ${m}$

Esta figura mostra a tabela do teste de normalidade de Shapiro-Wilk.

Na tabela acima, os valores P do SW são significativamente melhores para amostras pequenas ($n\leq 50$) na detecção de desvios da normalidade, mas apresentam problemas semelhantes com distribuições simétricas (por exemplo, uniforme, t de Student).

Anderson-Darling

Os testes de Anderson-Darling para normalidade são baseados na função de distribuição empírica (EDF). A estatística do teste se baseia na diferença ao quadrado entre a normal e a empírica:

$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$

Em suma, construímos uma distribuição empírica utilizando os dados da amostra ordenados, calculamos a distribuição cumulativa teórica (gaussiana) ($U_{i}$) em cada ponto ($X_{i}$) e, finalmente, calculamos a estatística de teste.

Esta figura mostra o gráfico da função de distribuição empírica (EDF vs. normal).

E, no caso em que a variância e a média da distribuição normal são desconhecidas, a estatística de teste é expressa da seguinte forma:

$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$

Observação: o teste AD está planejado para a próxima versão do NumXL; não mostraremos os resultados aqui, pois ainda não é possível reproduzi-los.

Conclusão

Esses três testes usam abordagens muito diferentes para testar a normalidade: (1) JB usa a comparação baseada em momentos, (2) SW examina a correlação no gráfico Q-Q e (3) AD testa a diferença entre as distribuições empíricas e teóricas.

De certa forma, os testes se complementam, mas alguns são mais úteis em determinadas situações do que outros. Por exemplo, o JB funciona mal em amostras de tamanho pequeno (n<50) ou muito grande (n>5000).

O método SW funciona melhor para amostras pequenas (n>3, mas menos de 5000).

Em termos de poder, StephensStephens, M. A. (1974). “Estatísticas EDF para adequação e algumas comparações”. Journal of the American Statistical Association 69: 730–737 descobriu que as estatísticas AD ($A^{2}$) são uma das melhores estatísticas EDF para detectar desvios da normalidade, mesmo quando usadas com amostras pequenas ($n\leq 25$). No entanto, o teste AD tem o mesmo problema com amostras grandes, onde pequenas imperfeições levam à rejeição da hipótese nula.

Vídeo tutorial