При моделировании временных рядов и эконометрических моделей мы часто сталкиваемся с тестом на нормальность как частью диагностики остатков для подтверждения предположений модели.
Говорит ли тест на нормальность о том, что стандартизированные остатки имеют гауссово распределение? Не совсем.
Итак, что именно делает этот тест? Почему у нас есть несколько разных методов проверки нормальности?
Вы можете использовать графики нормальной вероятности (т. е. графики Q-Q) в качестве неформального средства оценки ненормальности набора данных. Однако вам может потребоваться значительная практика, прежде чем вы сможете оценивать их с какой-либо степенью уверенности.
Примечание: Для примера мы смоделировали 5 серий случайных чисел с помощью пакета анализа в Excel. Каждая серия имеет свое базовое распределение: Нормальное, равномерное, биномиальное, Пуассона, а также t- и F-распределение Стьюдента.
Фон
Предположим, что у нас есть набор данных одномерной переменной ($\left \{ x_t \right \}$), и мы хотим определить, хорошо ли этот набор данных моделируется гауссовым распределением.
$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$
Where
- $H_o=$ нулевая гипотеза (X нормально распределена)
- $H_1=$ альтернативная гипотеза (X распределение отклоняется от гауссовского)
- $N(.)=$ Гауссово или нормальное распределение
По сути, тест на нормальность - это обычная проверка гипотезы, которая может иметь два возможных результата: (1) отвержение нулевой гипотезы о нормальности ($H_o$) или (2) невозможность отвергнуть нулевую гипотезу.
На практике, когда мы не можем отвергнуть нулевую гипотезу о нормальности, это означает, что тест не смог найти отклонение от нормального распределения для данной выборки. Следовательно, возможно, данные распределены нормально.
Проблема, с которой мы обычно сталкиваемся, заключается в том, что при малом объеме выборки даже значительные отклонения от нормальности не обнаруживаются; и наоборот, при большом объеме выборки даже самые незначительные отклонения от нормальности приводят к отвергнутому нулю.
Тесты на нормальность
Как мы проверяем нормальность? В принципе, мы сравниваем эмпирическое (выборочное) распределение с теоретическим нормальным распределением. Мера отклонения может быть определена на основе моментов распределения, графика Q-Q или суммарной разности между двумя функциями распределения.
Рассмотрим следующие тесты на нормальность:
- Тест Жарке-Бера
- Тест Шапиро-Уилка
- Андерсон - Дарлинг тест
Jarque-Bera
Тест Jarque-Bera - это показатель отклонения от нормальности, основанный на эксцессе и перекосе выборки. Другими словами, JB определяет, соответствуют ли перекос и эксцесс данных нормальному распределению.
Тест назван в честь Карлоса М. Жарка и Анила К. Бера. Тестовая статистика для JB определяется как:
$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$
Where
- $S=$перекос выборки
- $K=$выборочный избыточный эксцесс
- $n=$количество не пропущенных значений в выборке
- $JB=$the test statistic; $JB$ has an asymptotic chi-square distribution
Примечания: Для малых выборок приближение хи-квадрат оказывается слишком чувствительным, часто отвергая нулевую гипотезу (т.е. нормальность), когда она на самом деле верна.
В таблице выше мы вычислили P-значение теста нормальности (с помощью функции Normality Test в NumXL). Обратите внимание, что тест JB не смог обнаружить отклонение от нормальности для симметричных распределений (например, равномерного и студенческого) при использовании небольшого размера выборки ($n\leq50$).
Шапиро-Уилка
Исходя из неформального подхода к оценке нормальности, один из довольно очевидных способов оценить близкую линейность любого графика Q-Q (см. рис. 1) - это вычислить его "коэффициент корреляции".
Когда это делается для графиков нормальной вероятности (Q-Q), можно получить формальный тест, который по сути эквивалентен мощному тесту Шапиро-Уилка W и его аппроксимации W.
$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$
Where
- $X_{(i)}=$ the $i^{th}$ порядок (наименьшее число в выборке)
- $a_{i}=$ постоянная, определяемая
$$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$
- $m=$ ожидаемые значения порядковых статистик независимых и одинаково распределенных случайных величин, отобранных из гауссова распределения
- $V=$ матрица ковариации статистики порядка ${m}$
В приведенной выше таблице значения SW P-значений значительно лучше для небольших выборок ($n\leq 50$) при обнаружении отклонения от нормальности, но демонстрируют аналогичные проблемы с симметричным распределением (например, равномерное, t-распределение Стьюдента).
Андерсон-Дарлинг
Тесты Андерсона-Дарлинга на нормальность основаны на эмпирической функции распределения (EDF). Статистика теста основана на квадратичной разнице между нормальным и эмпирическим показателями:
$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$
В итоге мы строим эмпирическое распределение на основе отсортированных данных выборки, вычисляем теоретическое (гауссово) кумулятивное распределение ($U_{i}$) в каждой точке ($X_{i}$) и, наконец, вычисляем тестовую статистику
А в случае, когда дисперсия и среднее нормального распределения неизвестны, тестовая статистика выражается следующим образом:
$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$
Примечание: Тест AD в настоящее время запланирован на следующий выпуск NumXL; мы не будем показывать результаты здесь, поскольку вы пока не можете их воспроизвести.
Заключение
Эти три теста используют совершенно разные подходы для проверки нормальности: (1) JB использует сравнение на основе моментов, (2) SW исследует корреляцию на графике Q-Q и (3) AD проверяет разницу между эмпирическим и теоретическим распределением.
В некотором смысле тесты дополняют друг друга, но в определенных ситуациях некоторые из них более полезны, чем другие. Например, JB плохо работает при малых объемах выборки (n<50) или очень больших (n>5000).
Метод SW лучше работает при небольших объемах выборки (n>3, но менее 5000).
С точки зрения мощности, СтивенсСтивенс, М. А. (1974). "EDF Statistics for Goodness of Fit and Some Comparisons". Journal of the American Statistical Association 69: 730-737 обнаружил, что статистика AD ($A^{2}$) является одной из лучших EDF-статистик для обнаружения отклонения от нормальности, даже при использовании с небольшими выборками ($n\leq 25$). Тем не менее, тест AD имеет ту же проблему при большом объеме выборки, когда незначительные погрешности приводят к отклонению нулевой гипотезы.
Комментарии
Статья закрыта для комментариев.