偶尔,我们的支持团队会收到关于赫斯特指数的咨询:什么是赫斯特指数?如何在Excel中使用它?以及如何解释计算出的值?在本期内容中,我们将对赫斯特指数进行深入探讨,希望能帮助您建立对赫斯特指数的直观理解和洞察力。
什么是赫斯特指数?
赫斯特指数"、"赫斯特指数 "或 "赫斯特系数 "的名称源自哈罗德-埃德温-赫斯特(1880-1978 年),他是这些研究的主要研究者。涉及赫斯特指数的研究最初是在水文学领域开展的,目的是针对尼罗河长期以来多变的雨水和干旱状况,确定大坝的最佳规模。
赫斯特指数(H)用于衡量时间序列的长期记忆。它与时间序列的自相关性以及这些自相关性随着数值对之间滞后期的增加而降低的速度有关。赫斯特指数通常被称为 "依赖指数 "或 "长程依赖指数"。
什么是进程的长期记忆?
长记忆,又称长程依赖性(LRD)或长程持久性,是时间序列数据中可能出现的一种现象。它与两点之间的统计依赖性随着时间的推移而衰减有关。
ARMA(P, Q) 过程是否具有长记忆特性? 不!具有有限 P 和 Q 阶的稳态 ARMA 过程(ARMA(P, Q))具有短记忆特性。您可以通过自相关函数(ACF)图进行验证,其值会随滞后增加呈指数衰减并在几个滞后后消失。
长记忆模型是如何工作的?
一般来说,具有长记忆的进程可能表现为缓慢的随机游走(漂移),其自相关函数呈现缓慢衰减的特征。例如,让我们考察夏威夷毛纳洛亚气象站记录的月平均二氧化碳(CO₂)浓度。
接下来,我们将每个观测值与 12 个月前的观测值进行差分,从而消除 12 个月的季节性。
在相关图中,自相关因子(ACF)正在衰减,但速度非常缓慢。
如何建模具有长记忆效应的时间序列?与非平稳ARIMA模型中的做法类似:我们提取分数积分成分,并通过ARMA模型在残差中捕捉短记忆效应。
使用分数差分算子,我们捕获了时间序列中的长记忆动态:
\[{(1 - L)^d} = \sum\limits_{k = 0}^\infty {\left( {\begin{array}{*{20}{c}} d\\ k \end{array}} \right)} {( - 1)^k}{L^k} = 1 + {\omega _1}L + {\omega _2}{L^2} + ...\]
地点:
- $L$ = 滞后或后移运算符
- ${\omega _1} = - d$
- ${\omega _2} = - \frac{{{\omega _1} \times (d - 1)}}{2}$
- ${\omega _N} = - \frac{{{\omega _{N - 1}} \times (d - N - 1)}}{N}$
对于 $\left| d \right| \le \frac{1}{2}$, 系数 ${\omega _k}$ 功率衰减相对较快(但比指数衰减慢)。
综上所述,我们得出分数 ARIMA(即 FARIMA)
\[(1 - {\phi _1}L - {\phi _2}{L^2} - ... - {\phi _p}{L^p}){(1 - L)^d}{X_t} = (1 + {\theta _1}L + {\theta _2}{L^2} + ... + {\theta _q}{L^q}){a_t}\]
地点:
- $L$ = 滞后或后移运算符
- ${X_t}$ = 时间序列数据集
- ${a_t}$ = 创新(或冲击)时间序列
- $d$ = 积分阶数,其值介于 -0.5 和 0.5 之间(不包括)。
如何确定积分阶数(d)?分数积分阶数(d)等于赫斯特指数(H)减去0.5(即,d = H - 0.5)
口译
简而言之,赫斯特指数是一个单一值 (H),我们可以用它来观察时间序列的长记忆(序列相关性):
| H | 口译 | |
|---|---|---|
| 0.5 - 1.0 | 具有长期正自相关性的时间序列 | |
| 0.0 - 0.5 | 表示在时间序列中,高值和低值在相邻两对中长期切换,这意味着一个低值很可能紧随一个高值之后,而之后的值将趋向于高值,这种在高值和低值之间切换的趋势在未来会持续很长时间。 | |
| 0.5 | 完全不相关的序列,但事实上,它是适用于小时间滞后的自相关性可以为正或负,但自相关性的绝对值以指数形式快速衰减为零的序列的值 |
重要提示:对于赫斯特指数等于0.5的时间序列,我们得出结论该时间序列不具备长记忆(或长程依赖性),但这并不意味着该时间序列是白噪声,因为在较低的滞后阶数下可能存在一个或多个显著的自相关因子。
计算
估算赫斯特指数的最原始、最著名的方法是基于赫斯特以前的水文研究成果的所谓 "重标定范围 (R/S) 分析"。
NumXL 的 Hurst(.) 函数在设置返回类型为 1 时,计算原始(经验)赫斯特指数。
=Hurst(X, Alpha, 1)
然而,众所周知,这种方法会产生有偏差的估计值。在样本量较小的情况下,与 0.5 斜率(即不相关的长程)存在显著偏差。
尺寸校正(Anis-Llyod)估算值
为了纠正原始(经验)赫斯特指数估计值的内在偏差,Anis-LIyod 引入了经尺寸校正的重标范围估计值 (R/S)。
当您设置返回类型 = 2 时,NumXL Hurst(.) 函数会计算 Anis-Llyod(校正 R/S)赫斯特指数。
= Hurst(X,Alpha,2)
统计意义
迄今为止,大多数赫斯特指数估计器都没有推导出渐近分布理论。不过,我们已经有了 Anis-Lloyd 校正 R/S 分析置信区间的近似函数形式。
为了检验计算出的赫斯特指数估计值()的统计意义,我们构建了以下假设检验:
\[\begin{array}{l} {{\rm{H}}_o}:{H_q} = {\rm{ uncorrelated}}\\ {{\rm{H}}_1}:{H_q} = {\rm{ long - memory}} \end{array}\]
接下来,我们计算给定样本量的无相关(无长记忆)时间序列的相应赫斯特指数估计值和置信区间(C.I.)限制。
如果将返回类型设置为 3,NumXL Hurst(.) 函数将计算相同大小的不相关时间序列的 Anis-Llyod(校正 R/S)赫斯特指数。
= Hurst(X,Alpha,3)
NumXL Hurst(.) 函数将返回类型分别设置为 4 和 5 时,会计算无相关时间序列的 Anis-Llyod Hurst 指数置信区间的下限和上限
LL= Hurst(X,Alpha,4)
UL= Hurst(X,Alpha,5)
最后,我们将 Anis-Llyod(校正 R/S)赫斯特指数值与 Null-假设(不相关时间序列)的 C.I. 值进行对比。
- 赫斯特指数估计值在 C.I. 范围之外,因此时间序列的记忆时间较长。
- 赫斯特指数在 C.I. 范围内,因此时间序列不会表现出明显的长时记忆特性,观测结果也可能是不相关的。
Excel 中的赫斯特指数分析
让我们来看看 1958 年 3 月至 2020 年 11 月期间 12 个月的去季节化对数二氧化碳水平。
安尼斯-洛伊德校正后的R/S赫斯特指数估计值为0.84,该值超出了同等规模无相关时间序列赫斯特指数的置信区间(CI)。去季节化的二氧化碳对数浓度时间序列表现出长记忆行为,分数差分阶数(d)为0.34(即0.84 - 0.50 = 0.34)。
评论
请登录写评论。