Тест на нормальность - факты и мифы

При моделировании временных рядов и эконометрических моделей мы часто сталкиваемся с тестом на нормальность как частью диагностики остатков для подтверждения предположений модели.

На этом рисунке показана выходная таблица модели авиакомпании с тестом остаточной диагностики.

Говорит ли тест на нормальность о том, что стандартизированные остатки имеют гауссово распределение? Не совсем.

Итак, что именно делает этот тест? Почему у нас есть несколько разных методов проверки нормальности?

Вы можете использовать графики нормальной вероятности (т. е. графики Q-Q) в качестве неформального средства оценки ненормальности набора данных. Однако вам может потребоваться значительная практика, прежде чем вы сможете оценивать их с какой-либо степенью уверенности.

Примечание: Для примера мы смоделировали 5 серий случайных чисел с помощью пакета анализа в Excel. Каждая серия имеет свое базовое распределение: Нормальное, равномерное, биномиальное, Пуассона, а также t- и F-распределение Стьюдента.

Фон

Предположим, что у нас есть набор данных одномерной переменной ($\left \{ x_t \right \}$), и мы хотим определить, хорошо ли этот набор данных моделируется гауссовым распределением.

$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$

Where

  • $H_o=$ нулевая гипотеза (X нормально распределена)
  • $H_1=$ альтернативная гипотеза (X распределение отклоняется от гауссовского)
  • $N(.)=$ Гауссово или нормальное распределение

По сути, тест на нормальность - это обычная проверка гипотезы, которая может иметь два возможных результата: (1) отвержение нулевой гипотезы о нормальности ($H_o$) или (2) невозможность отвергнуть нулевую гипотезу.

На практике, когда мы не можем отвергнуть нулевую гипотезу о нормальности, это означает, что тест не смог найти отклонение от нормального распределения для данной выборки. Следовательно, возможно, данные распределены нормально.

Проблема, с которой мы обычно сталкиваемся, заключается в том, что при малом объеме выборки даже значительные отклонения от нормальности не обнаруживаются; и наоборот, при большом объеме выборки даже самые незначительные отклонения от нормальности приводят к отвергнутому нулю.

Тесты на нормальность

Как мы проверяем нормальность? В принципе, мы сравниваем эмпирическое (выборочное) распределение с теоретическим нормальным распределением. Мера отклонения может быть определена на основе моментов распределения, графика Q-Q или суммарной разности между двумя функциями распределения.

Рассмотрим следующие тесты на нормальность:

- Тест Жарке-Бера

- Тест Шапиро-Уилка

- Андерсон - Дарлинг тест

Jarque-Bera

Тест Jarque-Bera - это показатель отклонения от нормальности, основанный на эксцессе и перекосе выборки. Другими словами, JB определяет, соответствуют ли перекос и эксцесс данных нормальному распределению.

Тест назван в честь Карлоса М. Жарка и Анила К. Бера. Тестовая статистика для JB определяется как:

$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$

Where

  • $S=$перекос выборки
  • $K=$выборочный избыточный эксцесс
  • $n=$количество не пропущенных значений в выборке
  • $JB=$the test statistic; $JB$ has an asymptotic chi-square distribution

Примечания: Для малых выборок приближение хи-квадрат оказывается слишком чувствительным, часто отвергая нулевую гипотезу (т.е. нормальность), когда она на самом деле верна.

На этом рисунке показана таблица теста нормальности Жарка-Бера.

В таблице выше мы вычислили P-значение теста нормальности (с помощью функции Normality Test в NumXL). Обратите внимание, что тест JB не смог обнаружить отклонение от нормальности для симметричных распределений (например, равномерного и студенческого) при использовании небольшого размера выборки ($n\leq50$).

Шапиро-Уилка

Исходя из неформального подхода к оценке нормальности, один из довольно очевидных способов оценить близкую линейность любого графика Q-Q (см. рис. 1) - это вычислить его "коэффициент корреляции".

На этом рисунке показан пример графика Q-Q для теста нормальности Шапиро-Уилка.

Когда это делается для графиков нормальной вероятности (Q-Q), можно получить формальный тест, который по сути эквивалентен мощному тесту Шапиро-Уилка W и его аппроксимации W.

$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$

Where

  • $X_{(i)}=$ the $i^{th}$ порядок (наименьшее число в выборке)
  • $a_{i}=$ постоянная, определяемая

$$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$

  • $m=$ ожидаемые значения порядковых статистик независимых и одинаково распределенных случайных величин, отобранных из гауссова распределения
  • $V=$ матрица ковариации статистики порядка ${m}$

На этом рисунке показана таблица теста нормальности Шапиро-Уилка.

В приведенной выше таблице значения SW P-значений значительно лучше для небольших выборок ($n\leq 50$) при обнаружении отклонения от нормальности, но демонстрируют аналогичные проблемы с симметричным распределением (например, равномерное, t-распределение Стьюдента).

Андерсон-Дарлинг

Тесты Андерсона-Дарлинга на нормальность основаны на эмпирической функции распределения (EDF). Статистика теста основана на квадратичной разнице между нормальным и эмпирическим показателями:

$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$

В итоге мы строим эмпирическое распределение на основе отсортированных данных выборки, вычисляем теоретическое (гауссово) кумулятивное распределение ($U_{i}$) в каждой точке ($X_{i}$) и, наконец, вычисляем тестовую статистику

На этом рисунке показан график эмпирической функции распределения (EDF против нормальной).

А в случае, когда дисперсия и среднее нормального распределения неизвестны, тестовая статистика выражается следующим образом:

$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$

Примечание: Тест AD в настоящее время запланирован на следующий выпуск NumXL; мы не будем показывать результаты здесь, поскольку вы пока не можете их воспроизвести.

Заключение

Эти три теста используют совершенно разные подходы для проверки нормальности: (1) JB использует сравнение на основе моментов, (2) SW исследует корреляцию на графике Q-Q и (3) AD проверяет разницу между эмпирическим и теоретическим распределением.

В некотором смысле тесты дополняют друг друга, но в определенных ситуациях некоторые из них более полезны, чем другие. Например, JB плохо работает при малых объемах выборки (n<50) или очень больших (n>5000).

Метод SW лучше работает при небольших объемах выборки (n>3, но менее 5000).

С точки зрения мощности, СтивенсСтивенс, М. А. (1974). "EDF Statistics for Goodness of Fit and Some Comparisons". Journal of the American Statistical Association 69: 730-737 обнаружил, что статистика AD ($A^{2}$) является одной из лучших EDF-статистик для обнаружения отклонения от нормальности, даже при использовании с небольшими выборками ($n\leq 25$). Тем не менее, тест AD имеет ту же проблему при большом объеме выборки, когда незначительные погрешности приводят к отклонению нулевой гипотезы.


Обучающее видео

Комментарии

Статья закрыта для комментариев.

Была ли эта статья полезной?
Пользователи, считающие этот материал полезным: 12 из 13