正态性检验 - 事实与误解

Mohamad

2016年12月27日 20:32

在时间序列和计量经济学建模中，我们经常会遇到正态性检验，它是残差诊断的一部分，用于验证模型的假设。

该图显示了带有残余诊断测试的航空公司模型输出表。

正态性检验能告诉我们标准化残差是否服从高斯分布吗？不完全是。

那么，这个检验究竟是做什么的呢？为什么我们有几种不同的正态性检验方法？

您可以使用正态概率图（即 Q-Q 图）作为评估一组数据非正态性的非正式方法。不过，您可能需要大量的练习才能有把握地进行判断。

注：为便于说明，我们使用 Excel 中的分析包模拟了 5 个随机数系列。每个序列都有不同的基本分布：正态分布、均匀分布、二项分布、泊松分布、学生 t 分布和 F 分布。

背景介绍

假设我们有一个一元数据集（$\{ x_t \}$），我们希望确定该数据集是否能很好地由正态分布拟合。

$$H_o:X\sim N(.)$$ $$H_1:X\neq N(.)$$

Where

$H_o=$ 零假设（X 为正态分布）
$H_1=$ 另一假设（X 分布偏离高斯分布）
$N(.)=$ 高斯分布或正态分布

从本质上讲，正态性检验是一种常规的假设检验，可能有两种结果：(1) 否定正态性零假设 ($H_o$)，或 (2) 不能否定零假设。

实际上，当我们不能拒绝正态性零假设时，这意味着检验未能发现该样本偏离正态分布。因此，数据有可能是正态分布的。

我们通常面临的问题是，当样本量较小时，即使偏离正态性较大，也不会被发现；反之，当样本量较大时，即使偏离正态性最小，也会导致拒绝空值。

正态性检验

如何检验正态性？原则上，我们将经验（样本）分布与理论正态分布进行比较。偏差度量可以根据分布矩、Q-Q 图或两个分布函数之间的差值汇总来定义。

让我们来看看下面的正态性检验：

- 贾尔克-贝拉测试

- 夏皮罗-威尔克检验

- 安德森-达令测试

Jarque-Bera

Jarque-Bera 检验是根据样本峰度和偏度来衡量偏离正态性的拟合优度。换句话说，JB 可以确定数据的偏度和峰度是否与正态分布相匹配。

该检验以 Carlos M. Jarque 和 Anil K. Bera 命名。JB 的检验统计量定义如下

$$JB=\frac{n}{6}\left (S^{2}+\frac{K^{2}}{4}\right )\sim{X^{2}_{v=2}}$$

Where

$S=$样本偏斜
$K=$样本超峰度
$n=$样本中不遗漏的数值个数
$JB=$检验统计量；$JB$ 具有渐近的奇平方分布

说明: 对于小样本，卡方近似法过于敏感，经常会在零假设（即正态性）为真时拒绝零假设。

该图显示了 Jarque-Bera 正态性检验表。

在上表中，我们计算了正态性检验的P值（使用NumXL中的正态性检验函数）。需要注意的是，JB检验在样本量较小（$n\leq50$）的情况下，未能检测到对称分布（如均匀分布和学生分布）偏离正态性。

Shapiro-Wilk

根据判断正态性的非正式方法，判断任何 Q-Q 图（见图 1）是否接近线性的一个相当明显的方法是计算其 "相关系数"。

本图显示 Shapiro-Wilk 正态性检验的 Q-Q 图示例。

如果对正态概率（Q-Q）图进行这样的检验，就可以得到一个正式检验，它基本上等同于强大的 Shapiro-Wilk 检验 W 及其近似检验 W。

$$W=\frac{\left( \sum_{i=1}^{n} \left( {a_i}{x_{(i)}} \right) \right)^2}{\sum_{i=1}^n(x_{(i)}-\overline{X})^2}$$

Where

$X_{(i)}=$ 的 $i^{th}$ 顺序
$a_{i}=$ 常数

$$(a_{1},a_{2},...,a_{n})=\frac{m^{T}V^{-1}}{\sqrt{(m^{T}V^{-1}V^{-1}m)}}$$

$m=$ 从高斯分布中采样的独立且完全相同的分布式随机变量的阶次统计量的期望值
$V=$ 的协方差矩阵 ${m}$ 订单统计

该图显示了 Shapiro-Wilk 正态性检验表。

在上表中，SW P值在检测数据偏离正态分布时，对于小样本量（$n\leq 50$）具有显著优越性，但与对称分布（如均匀分布、学生t分布）存在类似问题。

Anderson-Darling

安德森-达林正态性检验基于经验分布函数（EDF）。检验统计量基于正态分布与经验分布之间的平方差：

$$A=-n-\frac{1}{n}\sum_{i=1}^{n}\left [ (2i-1)\ln U_{i}+(2n+1-2i)\ln(1-U_{i}) \right ]$$

总之，我们使用排序后的样本数据构建经验分布，在每个点（$X_{i}$）处计算理论（正态）累积分布（$U_{i}$），最后计算检验统计量。

该图显示了经验分布函数（EDF 与正态）图。

而在正态分布的方差和均值都未知的情况下，检验统计量的表示方法如下：

$$A^{*2}=A^{2}\times \left ( 1+\frac{4}{n}-\frac{25}{n^{2}} \right )$$

注：AD 测试目前计划在下一个 NumXL 版本中进行；由于您还无法重现测试结果，因此我们不会在此显示测试结果。

结论

这三种检验方法使用的正态性检验方法截然不同：(1) JB 使用基于矩的比较，(2) SW 检验 Q-Q 图中的相关性，(3) AD 检验经验分布与理论分布之间的差异。

从某种程度上说，这些检验是互补的，但有些检验在某些情况下比其他检验更有用。例如，JB 在样本量较小（n<50）或样本量很大（n>5000）时效果不佳。

SW 方法更适用于小样本量（n>3 但少于 5000）。

在功率方面，StephensStephens, M. A. (1974). "拟合优度的 EDF 统计和一些比较》。Journal of the American Statistical Association 69: 730-737 发现 AD 统计量（$A^{2}$）是检测偏离正态性的最佳 EDF 统计量之一，即使在使用小样本（$n\leq 25$）时也是如此。尽管如此，AD 检验在样本量较大时也会遇到同样的问题，即轻微的不完善就会导致拒绝零假设。

教程视频

背景介绍

正态性检验

Jarque-Bera

Shapiro-Wilk

Anderson-Darling

结论

教程视频

相关文章

评论