Modelo de promedio móvil (MA o MM)

Mohamad

25 de junio de 2014 23:53

En ocasiones, recibimos solicitudes de un problema técnico sobre el modelado de ARMA más allá de nuestro soporte regular de NumXL, el cual profundiza más en la formulación matemática de ARMA. Siempre estamos encantados de ayudar a nuestros usuarios con cualquier pregunta que puedan tener, razón por la cual decidimos compartir nuestras notas técnicas internas con ustedes.

Estas notas fueron compuestas originalmente cuando nos sentamos en una clase de análisis de series de tiempo. Con los años, hemos mantenido estas notas con nuevas ideas, observaciones empíricas e intuiciones adquiridas. A menudo volvemos a estas notas para resolver problemas de desarrollo y/o para tratar adecuadamente un asunto de soporte de producto.

En este artículo examinaremos un modelo econométrico simple pero fundamental: el promedio móvil. Este modelo sirve como piedra angular para toda discusión seria sobre los modelos ARMA/ARIMA.

Antecedentes

Un modelo de media móvil de orden q (es decir, MA(q)) se define de la siguiente manera: $$x_t=\mu + a_t + \theta_1a_{t-1}+\theta_2a_{t-2}+\cdots+\theta_qa_{t-q}$$ $$a_t=\epsilon_t\times\sigma$$ $$\epsilon_t\sim\textrm{i.i.d}\sim N(0,1)$$

Donde:

$a_t$ es la innovation o choque para nuestros procesos
$\sigma$ es la desviación estándar condicional (conocida como: volatilidad)

El valor de salida ($x_t$) es solamente determinado por un promedio de largo plazo ($\mu$ ) y una suma ponderada de los pasados choques o innovations ($\{a_t\}$).

Estabilidad

Por definición el proceso MA es estable y tiene una media y varianza de largo plazo finita ($\mu$):

La media incondicional (es decir, a largo plazo) es simplemente $\mu$ $$E[x_t]=E[\mu + a_t + \theta_1a_{t-1}+\theta_2a_{t-2}+\cdots+\theta_qa_{t-q}]=\mu$$
La varianza incondicional (es decir, de largo plazo) se define de la siguiente manera: $$Var[x_t]=E[(x_t-\mu)(x_t-\mu)]=E[(a_t + \theta_1a_{t-1}+\theta_2a_{t-2}+\cdots+\theta_qa_{t-q})^2]$$ $$Var[x_t]=(1+\theta_1^2+\theta_2^2+\cdots+\theta_1^2)\sigma^2$$
1. Para un orden finito q, se garantiza que el proceso es estable (es decir, no converge al infinito).
2. Para un orden infinito (i.e. $\textrm{MA}(\infty)$), el proceso es estable sólo si la varianza de largo plazo es finita: $$Var[x_t]=(1+\theta_1^2+\theta_2^2+\cdots)\sigma^2=(1+\sum_{i=1}^\infty \theta_i^2)\sigma^2$$
  En otras palabras, la suma de los valores cuadrados de los coeficientes MA es finita.
  $$\sum_{i=1}^\infty \theta_i^2 < \infty $$

Pronóstico

Dada una muestra de datos de entrada $\{x_1,x_2,\cdots,x_T\}$, podemos calcular valores del proceso de media móvil para valores futuros ( de la muestra) de la siguiente manera:

$$x_T=\mu + a_t + \theta_1a_{T-1}+\theta_2a_{T-2}+\cdots+\theta_qa_{T-q}$$ $$E[x_{T+1}|a_1,a_2,\cdots,a_T]=\mu +\theta_1a_{T}+\theta_2a_{T-1}+\cdots+\theta_qa_{T+1-q}$$ $$E[x_{T+2}|a_1,a_2,\cdots,a_T]=\mu +\theta_2a_{T}+\theta_3a_{T-1}+\cdots+\theta_qa_{T+2-q}$$ $$\cdots$$ $$E[x_{T+q}|a_1,a_2,\cdots,a_T]=\mu+\theta_qa_{T}$$ $$E[x_{T+q+k}|a_1,a_2,\cdots,a_T]=\mu$$

La varianza (error estándar al cuadrado) de los valores fuera de muestra se expresa de la siguiente manera:

$$Var[x_{T+1}|a_1,a_2,\cdots,a_T]=Var[a_{T+1}+\theta_1a_{T}+\theta_2a_{T-1}+\cdots+\theta_qa_{T+1-q}]=\sigma^2$$ $$Var[x_{T+2}|a_1,a_2,\cdots,a_T]=Var[a_{T+2}+\theta_1a_{T+1}+\theta_2a_{T}+\theta_3a_{T-1}+\cdots+\theta_qa_{T+2-q}]=(1+\theta_1^2)\sigma^2$$ $$Var[x_{T+3}|a_1,a_2,\cdots,a_T]=Var[a_{T+3}+\theta_1a_{T+2}+\theta_2a_{T+1}+\theta_3a_{T}+\cdots+\theta_qa_{T+3-q}]=(1+\theta_1^2+\theta_2^2)\sigma^2$$ $$\cdots$$ $$Var[x_{T+q}|a_1,a_2,\cdots,a_T]=(1+\theta_1^2+\theta_2^2+\cdots+\theta_{q-1}^2a_{T+1}+\theta_qa_{T})=(1+\theta_1^2+\theta_2^2+\cdots+\theta_{q-1}^2)\sigma^2 $$ $$Var[x_{T+q+k}|a_1,a_2,\cdots,a_T]=(1+\theta_1^2+\theta_2^2+\cdots+\theta_{q}^2)\sigma^2$$

Nota:

La varianza condicional crece acumulativamente a lo largo de los pasos-q para alcanzar su variación a largo plazo (incondicional).

Estacionalidad

Por definición, un proceso estacionaro en un sentido débil (estacionaridad débil) requiere del primer momento (i.e. media) y la covarianza no varía con respecto al tiempo.

Al principio, el tiempo de la media condicional obviamente es invariable:

$$E[x_t]=E[x_{t+\tau}]=E[x_{t-\tau}]=\mu$$

Para el segundo momento (es decir, varianza y covarianza), examinemos esta suposición. Por definición, la autocovarianza para el orden del lag o desfase j se expresa de la siguiente manera:

$$\gamma_j=E[(x_t-\mu)(x_{t-j}-\mu)]$$

La autocovarianza del orden del lag cero ($\gamma_o $) es la misma que la varianza incondicional:

$$\gamma_o=(1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2)\sigma^2$$ $$\gamma_1=(\theta_1+\theta_1\theta_2+\theta_2\theta_3+\theta_3\theta_4+\cdots+\theta_{q-1}\theta_q)\sigma^2$$ $$\gamma_2=(\theta_2+\theta_1\theta_3+\theta_2\theta_4+\theta_3\theta_5+\cdots+\theta_{q-2}\theta_q)\sigma^2$$ $$\gamma_3=(\theta_3+\theta_1\theta_4+\theta_2\theta_5+\theta_3\theta_6+\cdots+\theta_{q-3}\theta_q)\sigma^2$$ $$\cdots$$ $$\gamma_q=\theta_q\sigma^2$$ $$\gamma_{k>q}=0$$

Para examinar la variabilidad con respecto al tiempo, basta con examinar lo siguiente:

$$\gamma_j=E[(x_t-\mu)(x_{t-j}-\mu)]=\gamma_{-j}=E[(x_t-\mu)(x_{t+j}-\mu)]$$ $$\gamma_j =\gamma_{-j}=F(j)$$

Utilizando cualquiera de las definiciones, podemos demostrar fácilmente que la función de autocovarianza no varía con respecto al tiempo (t), sino que está determinada únicamente por el orden del lag o desfase j. En resumen, el proceso de media móvil es un proceso estacionario de sentido débil.

Correlograma

¿Qué aspecto tienen las parcelas del correlograma medio móvil? ¿Podemos identificar un proceso de media móvil (y su orden) a partir de diagramas de correlograma (es decir, ACF y PACF)?

La función de autocorrelación (ACF) se define como la relación de covarianza y varianza incondicional:

$$\textrm{ACF}_j=\rho_j=\frac{\gamma_j}{\gamma_o}$$

Por definición;$\rho_o=1$ y el siguiente q ACF:

$$\rho_1=\frac{\theta_1+\theta_1\theta_2+\theta_2\theta_3+\theta_3\theta_4+\cdots+\theta_{q-1}\theta_q}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2}$$ $$\rho_2=\frac{\theta_2+\theta_1\theta_3+\theta_2\theta_4+\theta_3\theta_5+\cdots+\theta_{q-2}\theta_q}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2}$$ $$\rho_3=\frac{\theta_3+\theta_1\theta_4+\theta_2\theta_5+\theta_3\theta_6+\cdots+\theta_{q-3}\theta_q}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2}$$ $$\cdots$$ $$\rho_q=\frac{\theta_q}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2}$$ $$\rho_{k>q}=0$$

¿Qué significa esto? Si la gráfica ACF muestra valores significativos para los primeros lags-j y luego cae a cero, probablemente podamos modelar el proceso con un modelo de media móvil de orden j.

Usando sólo la gráfica ACF, yo debería ser capaz de construir un modelo de MA para cualquier proceso, ¿verdad?Si.

¿Pueden dos o más procesos MA diferentes tener los mismos valores de la función ACF? Sí.

¿Existe un caso especial (restringido) de procesos MA que tienen una función ACF única? Sí, se llaman procesos invertibles MA.

En teoría, no hay dos procesos invertibles MA tienen la misma función ACF.

MA Invertivilidad

Un modelo invertible MA $\textrm{MA}(q)$ es uno que puede ser representado como un modelo de orden infinito convergente autorregresivo $\textrm{AR}(\infty)$. Al converger, queremos decir que el coeficiente AR disminuye a cero a medida que retrocedemos en el tiempo.

Usando el operador de Lag/retraso ($L$) anotación, el proceso de media móvil puede ser representado de la siguiente manera:

$$x_t-\mu=y_t=(1+\theta_1L+\theta_2L^2+\cdots+\theta_qL^q)a_t$$ $$\frac{y_t}{1+\theta_1L+\theta_2L^2+\cdots+\theta_qL^q}=a_t$$

Usando la descomposición de fracción parcial:

$$\frac{y_t}{(1+\lambda_1L)(1+\lambda_qL)\cdots(1+\lambda_qL)}=a_t$$ $$[\frac{c_1}{(1+\lambda_1L)}+\frac{c_2}{(1+\lambda_2L}+\cdots+\frac{c_q}{(1+\lambda_qL}]y_t=a_t$$

Donde $\{\lambda_i\}$ es el conjunto de raíces características para el procesos MA. $\lambda_i$ puede tomar valores reales o complejos.

Ahora, si asumimos que $\lambda_i$ cae dentro del círculo de unidad (i.e. $\|\lambda_i\|<1$ ) pues $\forall i\leq q$, cada fracción puede expresarse como una serie geométrica convergente:

$$\frac{1}{1+\lambda_iL}=1-\lambda_iL+\lambda_i^2L^2-\lambda_i^3L^3+\cdots$$

Aplicando esta transformación a todas las fracciones parciales, uno puede expresar el proceso MA como un proceso de orden infinito así:

$$[(c_1+c_2+\cdots+c_q)-(c_1\lambda_1+c_2\lambda_2+\cdots+c_1\lambda_q)L-(c-1\lambda_1^2+c_2\lambda_2^2+\cdots+c_q\lambda_q^2)L^2+\cdots]y_t=a_t$$ $$[1-\phi_1L+\phi_2L^2-\cdots+(-1)^k\phi_kL^k+\cdots]y_t=a+t$$

Donde:

$\phi_k=c_1\lambda_1^k+c_2\lambda_2^k+\cdots+c_q\lambda_q^k$
$\lim_{k\rightarrow \infty}\phi_k=0$

Para buscar invertibilidad, es suficiente encontrar las raíces características $\lambda_i$ y verificar que los valores caigan dentro del círculo de unidad ($\|\lambda_i\|<1$). Avanzando un poco, consideraremos el procesos MA invertible.

Ejemplo: MA(1)

$$x_t-\mu=(1+\theta L)a_t$$

La raíz característica del proceso MA(1) es $\theta$. Asumiendo $\|\theta\|<1$ , la representación algebraica de AR del MA(1) se expresa de la siguiente manera:

$$\frac{x_t-\mu}{1+\theta L}=(1-\theta L+\theta^2L^2-\theta^3L^3+\cdots)(x_t-\mu)=a_t$$

La representación AR converge como $\lim_{k\rightarrow \infty}\theta^k=0$ for $\|\theta \|<1$

No hemos acabado aún. Hay un par de trucos matemáticos pivotales que todavía necesitamos cubrir: (1) Función Impulso Respuesta (IRF, por sus siglas en inglés) y (2) Procesos de movimiento integrado promedio

1. Función Impulso Respuesta (IRF, por sus siglas en inglés)

La función Impulso Respuesta describe el modelo salida desencadenado por un simple choque en el tiempo T.

$$a_t=\left\{\begin{matrix} 1 & {t=1}\\ 0 & {t\neq 1} \end{matrix}\right.$$

Aplicándolo a un modelo de orden de movimiento promedio q, el valor del proceso es el siguiente:

$$x_1=1$$ $$x_2=\theta_1$$ $$x_3=\theta_2$$ $$x_4=\theta_3$$ $$\cdots$$ $$x_q=\theta_{q-1}$$ $$x_{q+1}=\theta_q$$

Nota:

El IRF para un proceso MA es finito (q+1) y sus valores son equivalentes al coeficiente.

Si tenemos un IRF de algún proceso desconocido, ¿Podemos modelarlo como a un proceso MA? Tenlo por seguro!!

Encontrar los valores algebraicos del coeficiente MA puede ser tedioso y complejo, pero usar el enfoque IRF puede simplificar ampliamente esta tarea. .

Ejemplo: ARMA(p,q)

Considere el proceso general ARMA(p,q):

$$x_t=\phi_1 x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_px_{t-p}+a_t+\theta_1 a_{t-1}+ \theta_2 a_{t-2}+\cdots+\theta_q x_{t-q}$$ $$\textrm{OR}$$ $$(1-\phi_1L-\phi_2L^2-\phi_3L^3-\cdots-\phi_pL^p)x_t=(1+\theta_1L+\theta_2L^2+\theta_3L^3+\cdots+\theta_qL^q)a_t$$

Nos gustaría derivar el MA de representación del proceso. Podemos dividir los dos componentes (i.e. AR y MA) en polinomios:

$$x_t=\frac{1+\theta_1L+\theta_2L^2+\cdots+\theta_qL^q}{1-\phi_1L-\phi_2L^2-\cdots-\phi_pL^p}a_q$$

O podemos usar el IRF del proceso ARMA para derivar los valores del coeficiente MA:

$$x_t=a_t=1$$ $$x_{t+1}=\phi_1x_t+\theta_1a_t=\phi_1+\theta_1$$ $$x_{t+2}=\phi_1x_{t+1}+\phi_2x_{t}+\theta_2a_t$$ $$x_{t+3}=\phi_1x_{t+2}+\phi_2x_{t+1}+\phi_3x_{t}+\theta_3a_t$$ $$\cdots$$

Derivar los valores del coeficiente MA es un proceso reiterativo y directo que nos ahorrará divisiones polinomiales complejas.

Hasta el momento, ustedes se preguntarán ¿por qué queremos convertir un proceso ARMA de orden finito en una representación MA de orden infinito? Para los iniciados, prever (la media y el error) usando una representación MA es mucho más fácil que usar la representación original ARMA de orden mayor.

2. Integración

Integración (i.e. raíz de unidad) por lo general surge en series de tiempo (e.g. camino aleatorio, ARIMA, etc.). En estas situaciones, modelamos las series de tiempo diferenciadas con un modelo de clases ARMA

$$(1-L^s)^D(1-L)^d x_t=y_t$$ $$(1-\phi_1L-\phi_2L^2-\phi_3L^3-\cdots-\phi_pL^p)y_t=(1+\theta_1L+\theta_2L^2+\theta_3L^3+\cdots+\theta_qL^q)a_t$$

¿Pero cómo llevar de nuevo los resultados de ARMA a una escala no diferenciada?

Ejemplo 1: Consideremos una integración de primer orden del proceso MA(q):

$$(1-L)x_t=(1+\theta_1L+\theta_2L^2+\cdots+\theta_qL^q)a_t$$

Para calcular los valores fuera de muestra (i.e. predicción):

$$x_{T+1}-x_T=(1+\theta_1L+\theta_2L^2+\cdots+\theta_qL^q)a_{T+1}$$ $$x_{T+1}=x_T+a_{T+1}+\theta_1a_T+\theta_2a_{T-1}+\cdots+\theta_qa_{T+1-q}$$ $$x_{T+2}=x_{T+1}+a_{T+2}+\theta_1a_{T+1}+\theta_2a_T+\cdots+\theta_qa_{T+2-q}$$ $$x_{T+2}=x_T+a_{T+2}+(1+\theta_1)a_{T+1}+(\theta_1+\theta_2)a_T+(\theta_2+\theta_3)a_{T-1}\cdots+(\theta_{q-1}-\theta_q)a_{T+2-q}+\theta_q a_{T+1-q}$$ $$x_{T+3}=x_{T+2}+a_{T+3}+\theta_1 a_{T+2}+\theta_2 a_{T+1}+\cdots +\theta_q a_{T+3-q}$$ $$x_{T+3}=x_T+a_{T+3}+(1+\theta_1)a_{T+2}+(1+\theta_1+\theta_2)a_{T+1}+(\theta_1+\theta_2+\theta_3)a_T+\cdots+(\theta_{q-2}+\theta_{q-1}+\theta_q)a_{T+3-q}+(\theta_{q-1}+\theta_q)a_{T+2-q}+\theta_qa_{T+1-q}$$ $$\cdots$$

$$x_{T+k}=x_T+a_{T+k}+(1+\theta_1)a_{T+k-1}+(1+\theta_1+\theta_2)a_{T+k-2}+\cdots+(1+\theta_1+\theta_2+\cdots+\theta_q)a_{T+k-q}+\\(\theta_1+\theta_2+\cdots+\theta_q)a_T+(\theta_2+\theta_3+\cdots+\theta_q)a_{T+1}+\cdots+\theta_qa_{T+k-q}$$

Alternativamente,

$$x_{T+k}=(1+(1+\theta_1)L+(1+\theta_1+\theta_2)L^2+\cdots+(1+\theta_1+\theta_2+\cdots+\theta_q)L^q)a_{T+k}+M$$ $$M=x_T+(\theta_1+\theta_2+\cdots+\theta_q)a_T+(\theta_2+\cdots+\theta_q)a_{T-1}+(\theta_3+\cdots+\theta_q)a_{T-2}+\cdots+\theta_qa_{T+1-q}$$

Además, la varianza en el valor de predicción es constante luego de los pasos q:

$$\textrm{Var}[x_{T+k}]=(1+(1+\theta_1)^2+(1+\theta_1+\theta_2)^2+\cdots+(1+\theta_1+\theta_2+\cdots+\theta_q)^2)\sigma^2$$

En suma, el proceso integrado MA de media cero produjo otro proceso MA pero con una media.

¿Qué tal si la serie de tiempo diferenciada tiene una media distinta a cero?

$$(1-L)x_t=\mu+(1+\theta_1L+\theta_2L^2+\cdots+\theta_qL^q)a_t$$

En este caso, tenemos una tendencia de tiempo de índice igual a $\mu$

$$x_{T+k}=k\times\mu +(1+(1+\theta_1)L+(1+\theta_1+\theta_2)L^2+\cdots+(1+\theta_1+\theta_2+\cdots+\theta_q)L^q)a_{T+k}+M$$ $$M=x_T+(\theta_1+\theta_2+\cdots+\theta_q)a_T+(\theta_2+\cdots+\theta_q)a_{T-1}+(\theta_3+\cdots+\theta_q)a_{T-2}+\cdots+\theta_qa_{T+1-q}$$

Para la integración de orden mayor d ($d > 1$), repetimos el procedimiento sobre un número d de veces, pero necesitaremos observaciones más efectivas que la última. Por ejemplo:

$$(1-L)^2x_t=(1-L)y_t=\mu+(1+\theta_1L+\theta_2L^2+\cdots+\theta_qL^q)a_{T+k}$$ $$(1-L)x_t=y_t$$

Para resolver $y_t$, necesitaríamos $y_T$, que se calcula por $x_T-x_{T-1}$. Ahora, para resolver $x_t$ usando el proceso, necesitaríamos $X_T$. En suma, $(x_T,x_{T-1})$ se requieren como condiciones iniciales para la integración.

Conclusión

El proceso de movimiento promedio a pesar de su simplicidad, es un modelo muy útil para trabajar, especialmente cuando se trata de prever.

Armados ya con un par de trucos matemáticos (IRF e Integración), podemos abordar procesos mucho más complejos representándolos primero como un MA.

En próximas notas técnicas, discutiremos modelos avanzados pero refiriéndonos con frecuencia tanto al proceso MA como al material presentado aquí.

Archivos adjuntos

TN-MA.pdf (200 kB)