Excel의 허스트 지수

Fayez

2020년 11월 20일 18:32

가끔 우리 지원 팀은 허스트 지수에 대한 문의가 들어옵니다: 무엇인가요? 엑셀에서 어떻게 사용하나요? 그리고 계산된 값을 어떻게 해석해야 하나요? 이번 기사에서는 허스트 지수를 자세히 설명드리며, 이를 통해 허스트 지수에 대한 직관과 이해를 키우는 데 도움이 되길 바랍니다.

허스트 지수란 무엇인가요?

'허스트 지수', '허스트 지수' 또는 '허스트 계수'라는 이름은 이 연구를 주도한 해롤드 에드윈 허스트(1880~1978)의 이름에서 유래했습니다. 허스트 지수와 관련된 연구는 수문학 분야에서 오랜 기간 동안 관찰된 나일강의 변동성이 심한 강우와 가뭄 조건에 맞는 최적의 댐 규모를 결정하기 위한 실용적인 문제를 해결하기 위해 처음 개발되었습니다.

사진은 이집트 아스완 댐과 나세르 호수 하류에 있는 아스완 저수지 저수지에 있는 섬 필레를 묘사한 것입니다.

허스트 지수(H)는 시계열의 장기 기억을 측정하는 척도로 사용됩니다. 이는 시계열의 자기 상관 관계와 값 쌍 사이의 지연이 증가함에 따라 감소하는 속도와 관련이 있습니다. 허스트 지수는 종종 "의존성 지수" 또는 "장거리 의존성 지수"라고도 불립니다.

프로세스의 긴 메모리란 무엇인가요?

장거리 의존성(LRD) 또는 장거리 지속성이라고도 하는 장거리 메모리는 시계열 데이터에서 발생할 수 있는 현상입니다. 이는 두 점 사이의 시간이 증가함에 따라 두 점의 통계적 의존성의 감쇠율과 관련이 있습니다.

ARMA(P, Q) 과정은 장기 기억 특성을 나타내나요? 아니요! 유한한 P와 Q 차수를 가진 정적 ARMA(P, Q)는 단기 기억 특성을 가집니다. 자기상관 함수(ACF) 그래프를 확인하면, 그 값이 지수적으로 감소하고 몇 개의 지연 후 사라지는 것을 확인할 수 있습니다.

롱메모리 모델은 어떻게 작동하나요?
일반적으로 메모리가 긴 프로세스는 느리게 감소하는 자기 상관 함수가 있는 느린 랜덤 워크(드리프트)처럼 보일 수 있습니다. 예를 들어 하와이 마우나로아 기상 관측소에 기록된 월평균 이산화탄소(CO2) 수치를 살펴봅시다.

이 그림은 1958년부터 2020년까지 하와이 무안 라오의 기상 관측소에서 기록한 월평균 CO2 수치의 로그를 보여줍니다.

다음으로, 각 관측값의 12개월 전 값과 12개월 전 값을 다르게 하여 12개월 계절성을 제거해 보겠습니다.

이 그림은 하와이 마우나 라오 기상 관측소의 비계절화(12개월) 로그 CO2 수준을 보여줍니다.

상관관계 그래프에서 자동 상관관계 계수(ACF)가 감소하고 있지만 그 속도는 매우 느립니다.

이 그림은 하와이 마우나 라오 기상 관측소의 비계절화 로그 CO2 수준의 자동 상관 함수(ACF)를 보여줍니다.

장기 기억 시간 시리즈를 어떻게 모델링하나요? 비정역 ARIMA 모델에서와 마찬가지로: 분수 통합 성분을 추출하고 잔차에 ARMA 모델을 적용하여 단기 기억을 포착합니다.

분수 차분 연산자를 사용하여 시간열 데이터에서 장기 기억 동역학을 포착합니다:

\[{(1 - L)^d} = \sum\limits_{k = 0}^\infty {\left( {\begin{array}{*{20}{c}} d\\ k \end{array}} \right)} {( - 1)^k}{L^k} = 1 + {\omega _1}L + {\omega _2}{L^2} + ...\]

어디:

$L$ = 지연 또는 백시프트 연산자
${\omega _1} = - d$
${\omega _2} = - \frac{{{\omega _1} \times (d - 1)}}{2}$
${\omega _N} = - \frac{{{\omega _{N - 1}} \times (d - N - 1)}}{N}$

$\left| d \right| \le \frac{1}{2}$일 때, 계수 ${\omega _k}$는 지수적 감쇠보다 느리지만, 지수 함수처럼 상대적으로 빠르게 감쇠합니다.

이 그림은 -0.5에서 0.5 사이의 주문에 대한 소수차 연산자의 계수를 보여줍니다(포함). 양수 주문의 경우 음수 주문보다 계수가 더 느리게 감소한다는 점에 유의하세요.

이 모든 것을 종합하면, 결국 분수 아리마(즉, FARIMA)가 됩니다.

\[(1 - {\phi _1}L - {\phi _2}{L^2} - ... - {\phi _p}{L^p}){(1 - L)^d}{X_t} = (1 + {\theta _1}L + {\theta _2}{L^2} + ... + {\theta _q}{L^q}){a_t}\]

어디:

$L$ = 지연 또는 백시프트 연산자
${X_t}$ = 시계열 데이터 집합
${a_t}$ = 혁신(또는 충격) 시계열
$d$ = 통합 순서와 -0.5에서 0.5 사이의 값(배타적)을 지정합니다.

통합 차수(d)를 어떻게 구하나요? 분수 통합 차수(d)는 허스트 지수(H)에서 0.5를 뺀 값과 같습니다(즉, d = H - 0.5).

해석

간단히 말해, 허스트 지수는 단일 값(H)으로, 시계열 장기기억(직렬 상관관계)에 대한 관찰을 도출하는 데 사용할 수 있습니다:

H		Interpretation
0.5 - 1.0		장기적으로 양의 자기 상관 관계를 갖는 시계열
0.0 - 0.5		는 인접한 쌍에서 높은 값과 낮은 값이 장기간 전환되는 시계열을 나타냅니다. 즉, 낮은 값이 하나의 높은 값에 뒤따르고 그 이후의 값이 높은 경향이 있으며, 이러한 높은 값과 낮은 값 사이의 전환 경향은 미래에도 오랫동안 지속될 수 있음을 의미합니다.
0.5		완전히 상관관계가 없는 계열이지만, 실제로는 작은 시간 지연에서의 자기 상관관계가 양수 또는 음수일 수 있지만 자기 상관관계의 절대값이 기하급수적으로 빠르게 0으로 감소하는 계열에 적용할 수 있는 값입니다.

중요: 허스트 지수(Hurst exponent)가 0.5인 시계열에 대해, 해당 시계열이 장기 기억(또는 장기 의존성)을 갖지 않는다고 결론지을 수 있습니다. 그러나 이는 시계열이 백색 잡음(white noise)이라고 말하는 것과 동일하지 않습니다. 왜냐하면 낮은 지연 차수(lag-order)에서 하나 이상의 유의미한 자기상관 인자(auto-correlation factor)가 존재할 수 있기 때문입니다.

계산

허스트 지수를 추정하는 가장 잘 알려진 방법은 허스트의 이전 수문학적 연구 결과를 기반으로 한 소위 재조정 범위(R/S) 분석입니다.

반환 유형을 1로 설정하면 NumXL Hurst(.) 함수는 원래 (경험적) 허스트 지수를 계산합니다.

=Hurst(X, Alpha, 1)

그러나 이 접근법은 편향된 추정치를 생성하는 것으로 알려져 있습니다. 표본 크기가 작은 경우 0.5 기울기(즉, 상관관계가 없는 장거리)에서 상당한 편차가 있습니다.

크기 보정(Anis-Llyod) 추정치

원래의 (경험적) 허스트 지수 추정치에 내장된 편향을 수정하기 위해 Anis-LIyod는 재조정된 범위(R/S)의 크기 보정 추정치를 도입했습니다.

반환 유형을 = 2로 설정하면 NumXL Hurst(.) 함수는 Anis-Llyod(수정된 R/S) 허스트 지수를 계산합니다.

= Hurst(X,Alpha,2)

통계적 유의성

지금까지 대부분의 허스트 지수 추정치에 대한 점근 분포 이론은 도출되지 않았습니다. 그러나 Anis-Lloyd 보정 R/S 분석의 신뢰 구간에 대한 대략적인 함수 형식은 있습니다.

계산된 허스트 지수 추정치()의 통계적 유의성을 검사하기 위해 다음과 같은 가설 테스트를 구성합니다:

\[\begin{array}{l} {{\rm{H}}_o}:{H_q} = {\rm{ uncorrelated}}\\ {{\rm{H}}_1}:{H_q} = {\rm{ long - memory}} \end{array}\]

다음으로, 주어진 샘플 크기에 대해 해당 허스트 지수 추정치와 상관관계가 없는(장기기억이 없는) 시계열의 신뢰 구간(C.I.) 한계를 계산합니다.

반환 유형을 3으로 설정하면 NumXL Hurst(.) 함수는 동일한 크기의 상관 관계가 없는 시계열에 대해 Anis-Llyod(보정된 R/S) 허스트 지수를 계산합니다.

= Hurst(X,Alpha,3)

반환 유형을 각각 4와 5로 설정하면 NumXL Hurst(.) 함수는 상관 관계가 없는 시계열의 Anis-Llyod 허스트 지수의 신뢰 구간 하한과 상한을 계산합니다.

LL= Hurst(X,Alpha,4)

UL= Hurst(X,Alpha,5)

마지막으로, 귀무가설(상관관계가 없는 시계열)의 C.I. 대비 Anis-Llyod(수정된 R/S) 허스트 지수 값을 살펴봅니다.

허스트 지수 추정치는 C.I. 외부에 있으므로 시계열의 메모리가 길어집니다.
허스트 지수는 C.I. 내부에 있으므로 시계열은 유의미한 장기기억 특성을 나타내지 않으며, 관측값은 서로 상관관계가 없을 수 있습니다.

Excel의 허스트 지수 분석

1958년 3월부터 2020년 11월까지 12개월간의 비계절화 로그 CO2 수준을 살펴보겠습니다.

이 표는 Microsoft Excel에서 경험적 R/S 값을 계산하여 허스트 지수 분석을 요약한 다음, Anis Lloyd R/S 값을 보정하고 마지막으로 통계적 유의성 테스트를 수행한 결과입니다.

Anis-Llyod 보정된 R/S 허스트 지수 추정치는 0.84이며, 이 값은 동일한 크기의 상관관계가 없는 시간 시리즈의 허스트 지수 신뢰 구간(C.I.) 외부에 위치합니다. 계절 요소를 제거한 이산화탄소 로그 수준 시간열은 장기 기억 특성을 나타내며, 분수 차분 차수(d)는 0.34입니다(즉, 0.84 - 0.50 = 0.34).

첨부 파일

CO2-MXX-SPY-hurst-exponent-example.xlsx (1 메가바이트)