¿Por qué la ACF tiene tres métodos de cálculo diferentes para estimar ACF?

Antes de que podamos responder a esta pregunta, tomemos una rápida descripción de la definición de autocorrelación. En principio, la autocorrelación de una serie de tiempo xtxt para el retraso k o lag k es una correlación cruzada de la serie de tiempo con su versión con retraso k o lag k (es decir, x_t) de sí misma.

$$\rho_k = \frac{\gamma_k }{\gamma_o }$$

Donde

  • $\rho_k$ is Es la autocorrelación de la población de retraso k o lag k.
  • $\gamma_k$Es la autocovariancia de la población para retraso k o lag k.
  • $\gamma_o $ Es la varianza de la población.

Utilizando una muestra de series de tiempo finito, una estimación de la autocorrelación ($\hat{\rho_k}$) puede ser obtenida de la siguiente manera.

$$\hat{\gamma_k}= E\left [ (x_{t-k}-\mu) \times (x_{t}-\mu) \right ] = \frac{\sum_{t=k+1(x_{t-k}-\mu)(x_{t}-\mu)}^{N}}{N-k}$$

$$\hat{\gamma_o }=\gamma^{2}=E\left [ (x_{t}-\bar{X})^{2} \right ]=\sigma ^{2}$$

$$\hat{\rho_k}=\frac{1}{(N-k)\sigma ^{2}}\times \sum_{t=k+1}^{N}(x_{t-\mu})(x_{t-k}-\mu)$$

Donde

  • $\mu$Es la media de la población de las series de tiempo
  • $\sigma^{2}$ Es la varianza de la población en las series de tiempo.
  • $0 <k < N$

Suena simple? Examinemos las consideraciones prácticas.

En la práctica, la verdadera varianza media y verdadera de las series de tiempo casi nunca se conocen, y tienen que ser estimadas a partir de los datos de la muestra. Esto nos dejará con pocas posibilidades:

Método 1:

$\mu$ y $\sigma^{2}$ Se sustituyen por el promedio de la muestra ($\bar{x}$) y la varianza muestral sesgada($s^{2}$)

$$\bar{x}=\frac{1}{N}\times \sum_{t=1}^{N}x_{t}$$

$$s^{2}=\frac{1}{N}\sum_{t=1}^{N}(x_{t}-\bar{x})^{2}$$

$$\hat{\rho_k}=\frac{N}{N-k}\times \frac{\sum_{t=k+1}^{N}(x_{t}-\bar{x})(x_{t-k}-\bar{x})}{\sum_{t=1}^{N}(x_{t}-\bar{x})^{2}}$$

Para $N\gg k$,La fórmula anterior se simplifica más en:

$$\hat{\rho_k}\approx \frac{\sum_{t=k+1}^{N}(x_{t}-\bar{x})(x_{t-k}-\bar{x})}{\sum_{t=1}^{N}(x_{t}-\bar{x})^{2}}$$

Aunque este método genera un estimador sesgado para la autocorrelación y, para empeorar las cosas, los valores calculados (en función de k) no forman una función de autocorrelación válida, en cierto sentido, no podemos definir un proceso teórico que tenga exactamente esos valores.

Este método es implementado en la función NumXL ACF como "método de autocorrelación de la muestra (por defecto)"

¿Por qué nos preocupamos por este método?

El método de "autocorrelación de muestra" se encuentra en muchos libros de texto académicos e implementado en muchos paquetes de software populares. NumXL incluye este método para el benchmarking y para propósitos de finalización.

Método 2: Estimación basada en el Periodograma (Densidad Espectral)

Existe una fuerte relación entre el periodograma de series temporales (análisis espectral) y su función de autocovariancia.

Aunque el método basado en periodograma calcula una estimación sesgada de la autocorrelación, el error es generalmente menor que uno de otros métodos (por ejemplo, Método 1).

Este método sufre de los mismos problemas: la estimación sesgada y los valores calculados (en función de k) no siempre forman una función de autocorrelación válida.Este método se implementa en la función NumXL ACF como "estimación basada en periodograma”.

Aunque el método basado en periodograma calcula una estimación sesgada de la autocorrelación, el error es generalmente menor que uno de otros métodos (por ejemplo, Método 1).

Método 3: Correlación cruzada

Tratamos la serie de tiempo original y su versión k-rezagada como dos series de tiempo separadas y calculamos el valor de correlación cruzada de Pearson.

Considere una serie de tiempo fijo estacionario de longitud N observaciones ${x_{t}}$

$$x_{t}=\left \{ {x_{1}, x_{2}, x_{3}\cdots, x_{N}} \right \}$$

Y su versión k-lagged o k-rezagada de la serie de tiempo ${x_{t-k}}$

$${x_{t-k}}=\left \{x_{1-k}, x_{2-k},\cdots, x_{1}\cdots, x_{N-k} \right \}$$

Puesto que los valores de las series de tiempo antes de $t=1$ no están disponibles, cortaremos la primera observación k de la serie de tiempo.

$$x_{*}^{t}=\left \{ x_{k+1,} x_{k+2,} x_{k+3}\cdots, x_{N} \right \}$$

$$x_{*}^{t}=\left \{x_{1-k}, x_{2-k},\cdots, x_{N-k} \right \}$$

Ahora, tenemos dos series de tiempo con ($N-k$) observaciones.El promedio estimado de la muestra arese calcula de la siguiente manera:

$$\bar{x}=\frac{\sum_{t=k+1}^{N}x_{t}}{N-k}$$

$$k=\frac{\sum_{t=1}^{N-k}x_{t}}{N-k}$$

Y la estimación de la muestra no sesgada de las varianzas:

$$s^{2}=\frac{\sum_{t=k+1}^{N}(x_{t}-\bar{x})^{2}}{N-k-1}$$

$$s_{k}^{2}=\frac{\sum_{t=1}^{N-k}(x_{t}-\bar{x})^{2}}{N-k-1}$$

Por lo tanto, la estimación de correlación cruzada de Pearson para las dos series temporales:

$$\hat{\rho_k}=\frac{1}{N-k-1}\times\frac{\sum_{t=k+1}^{N}(x_{t}-\bar{x})(x_{t-k}-\bar{x}_{k})}{s\times s_{k}}$$

$$\hat{\rho_k}=\frac{\sum_{t=k+1}^{N}(x_{t}-\bar{x})(x_{t-k}-\bar{x}_{k})}{\sqrt{\sum_{t=k+1}^{N}(x_{t}-\bar{x})\times \sum_{t=k+1}(x_{t-k}-\bar{x}_{k})}}$$

Estos valores de autocorrelación calculados utilizando este método (como una función de k) forman una función de autocorrelación válida, en el sentido de que es posible definir un proceso teórico que tenga exactamente esa autocorrelación. Este no es el caso con los métodos 1 y 2.

¿Qué método usar?

Depende de su objetivo.

  • Para comparar nuestros valores con los de un paquete de terceros, debe utilizar el método 1 (método de autocorrelación de muestra).
  • De lo contrario, se recomienda utilizar el método de correlación cruzada, ya que sus valores son consistentes y forman una función de autocorrelación válida.

Obsérvese que, para los grandes datos de muestra, la diferencia entre los valores calculados por los diferentes métodos es muy pequeña.

Comentarios

El artículo está cerrado para comentarios.

¿Fue útil este artículo?
Usuarios a los que les pareció útil: 0 de 1