Parte I - Métodos Distintos de Suavizado

Mohamad

28 de diciembre de 2016 00:47

Suavizado y filtrado son dos de las técnicas de series de tiempo más utilizadas para eliminar el ruido de los datos subyacentes para ayudar a revelar las características importantes y los componentes de la casa (Por ejemplo, tendencia, estacionalidad, etc.). Sin embargo, también podemos usar el suavizado para rellenar los valores perdidos y / o realizar un pronóstico.

En este número, discutiremos cinco (5) diferentes métodos de suavizado: promedio móvil ponderado (WMA), suavizado exponencial simple, suavizado exponencial doble, suavizado exponencial lineal y suavizado exponencial triple.

¿Por qué deberíamos preocuparnos?

El suavizado se utiliza con frecuencia en la industria para hacer un examen visual rápido de las propiedades de los datos (por ejemplo, tendencia, estacionalidad, etc.), para añadir valores faltantes, y realizar un pronóstico rápido de la muestra.

¿Por qué tenemos tantas funciones de suavizado?

Como veremos en este artículo, cada función funciona para una suposición diferente sobre los datos subyacentes. Por ejemplo, el suavizado exponencial simple asume que los datos tienen una media estable (o por lo menos una media de movimiento lento), por lo que el suavizado exponencial simple no funcionará bien en la previsión de datos que exhiben estacionalidad o una tendencia.

En este artículo repasaremos cada función de suavizado, resaltaremos sus supuestos y parámetros y demostraremos su aplicación a través de ejemplos.

1. Promedio móvil ponderado (WMA)

Una media móvil se utiliza comúnmente con datos de series de tiempo para suavizar las fluctuaciones a corto plazo y resaltar tendencias o ciclos a largo plazo. Un promedio móvil ponderado tiene factores multiplicadores para dar diferentes ponderaciones a los datos en diferentes posiciones en la ventana de muestra.

$$Y_t=\frac{\sum_{i=1}^N{W_i X_{t-i}}}{\sum_{i=1}^N W_i}$$

Dónde

$W_i$ Es la i-ésima posición factor de peso is the i-th position weight-factor
$\{X_t\}$ es la serie de tiempo original
$\{Y_t\}$ es la serie de tiempo suavizada
$Y_t$ utiliza los valores anteriores de N de las $X_t$ observacioness (es decir, $\{X_{t-1},X_{t-2},\cdots ,X_{t-N}\}$)

El promedio móvil ponderado tiene una ventana fija (es decir, N) y los factores se eligen típicamente para dar más peso a las observaciones recientes.

El tamaño de ventana (N) determina el número de puntos promediados en cada momento, por lo que un tamaño de ventanas más grande responde menos a los nuevos cambios en la serie temporal original y un tamaño de ventana pequeño puede hacer que la salida suavizada sea ruidosa.

Para los propósitos de pronóstico de la muestra:

$$Y_{T+1}=\sum_{i=1}^N \left ( {w_i X_{T+1-i}}\right )$$ $$Y_{T+2}= w_1 Y_{T+1}+\sum_{i=2}^N \left ( {w_i X_{T+2-i}}\right ) = w_1 \sum_{i=1}^N \left ( {w_i X_{T+1-i}}\right ) + \sum_{i=2}^N \left ( {w_i X_{T+2-i}}\right )$$ $$Y_{T+3}= (w_1^2 +w_2)\sum_{i=1}^N \left ( {w_i X_{T+1-i}}\right ) + w_1 \sum_{i=2}^N \left ( {w_i X_{T+2-i}}\right ) + \sum_{i=3}^N \left ( {w_i X_{T+3-i}}\right )$$ $$Y_{T+4}=(w_1^3+2w_2w_1+w_3)\sum_{i=1}^N \left ( {w_i X_{T+1-i}}\right )+ (w_1^2+w_2)\sum_{i=2}^N \left ( {w_i X_{T+2-i}}\right )+w_1\sum_{i=3}^N \left ( {w_i X_{T+3-i}}\right )+ \sum_{i=4}^N \left ( {w_i X_{T+4-i}}\right )$$

Donde:

$\{w_i\}$ Factores de ponderación normalizados

Ejemplo 1:

Consideremos las ventas mensuales de la Compañía X, usando una media móvil de 4 meses (de igual ponderación).

Datos de ventas mensuales con 4 meses de promedio móvil (de igual ponderación).

Tenga en cuenta que el promedio móvil está siempre rezagado detrás de los datos y que el pronóstico de la muestra converge a un valor constante.

Tratemos de utilizar un esquema de ponderación (véase más adelante) que da más énfasis a la última observación.

This figure shows the monthly sales data with 4-month moving average (more weights to recent observations).

Se graficó el promedio móvil ponderado igual y WMA en el mismo gráfico. El WMA parece más sensible a los cambios recientes y el pronóstico de fuera de la muestra converge al mismo valor que el promedio móvil.

Ejemplo 2:

Examinemos la WMA en presencia de tendencia y estacionalidad. Para este ejemplo, utilizaremos los datos de la aerolínea internacional de pasajeros. La ventana del promedio móvil es de 12 meses.

Datos mensuales de la aerolínea internacional de pasajeros con una media móvil ponderada de 12 meses.

El promedio móvil (MA) y promedio móvil ponderado (WMA) siguen el ritmo de la tendencia, pero el pronóstico de la muestra se aplana. Además, aunque el promedio móvil ponderado WMA exhibe alguna estacionalidad, siempre se queda atrás de los datos originales.

2. Suavizado Simple Exponencial (Brown’s)

El suavizado simple exponencial es similar al promedio móvil ponderado (WMA) con la excepción de que el tamaño de la ventana es infinito y los factores de ponderación disminuyen exponencialmente.

$$Y_1=X_1$$ $$Y_2=(1-\alpha)Y_1+\alpha X_1=X_1$$ $$Y_3=(1-\alpha)Y_2+\alpha X_2=(1-\alpha)X_1+\alpha X_2$$ $$Y_4=(1-\alpha)Y_3+\alpha X_3=(1-\alpha)^2 X_1+\alpha (1-\alpha) X_2+\alpha X_3$$ $$Y_5=(1-\alpha)^3 X_1+\alpha (1-\alpha)^2 X_2+\alpha (1-\alpha) X_3 + \alpha X_4$$ $$Y_{T+1}=(1-\alpha)^T X_1+\alpha \sum_{i=1}^T (1-\alpha)^{T-i}X_{i+1}$$ $$\cdots$$ $$Y_{T+m}=Y_{T+1}$$

Dónde:

$\alpha$ es el factor de suavizado ($0 \prec \alpha \prec 1$

Cómo hemos visto en el WMA, el exponencial simple es adecuado para series de tiempo con una media estable, o al menos una media móvil muy lenta.

Ejemplo 1:

Vamos a usar los datos de ventas mensuales (como lo hicimos en el ejemplo de WMA).

Datos mensuales de ventas con el suavizado exponencial simple de Brown (alfa = 0,8).

En el ejemplo anterior, elegimos el factor de suavizado para que sea 0.8, lo que plantea la pregunta: ¿Cuál es el mejor valor para el factor de suavizado?

Estimando el mejor valor $\alpha$ de los datos

En la práctica, el parámetro de suavizado es escogido a menudo por una búsqueda de cuadrícula del espacio de parámetros; eso significa, que se prueban soluciones diferentes para $\alpha$ comenzando con esto, por ejemplo, $\alpha=0.1$ to $\alpha = 0.9$, con incrementos de 0.1. Entonces $\alpha$ es escogido para que produzca la suma más pequeña de cuadrado (or mean squares) for the residuals (Es decir, los valores observados menos pronósticos de un paso adelante); Esto significa que el error al cuadrado también se conoce como error cuadrático medio ex-post (ex-post ECM para abreviar)

Utilizando la función TSSUB (para calcular el error), SUMSQ, y las tablas de datos en Excel, nosotros calculamos la suma de los errores cuadráticos (SCE) y graficamos los resultados:

Trazando la suma del error cuadrático para el ajuste exponencial simple usando el valor del factor de suavizado diferente para encontrar el valor óptimo.

EL SCE alcanza su valor mínimo alrededor 0.8, Así que escogimos este valor para nuestro suavizado.

3. Suavizado doble exponencial Holt-Winters

El suavizado exponencial simple no funciona bien en presencia de una tendencia, por lo que se proponen varios métodos concebidos bajo el paraguas "doble exponencial" para manejar este tipo de datos.

NumXL admite el doble suavizado exponencial de Holt-Winter, que toma la siguiente formulación:

$$S_1=X_1$$ $$B_1=\frac{X_T-X_1}{T-1}$$ $$S_{t>1}=\alpha X_t + (1-\alpha)(S_{t-1}+B_{t-1})$$ $$B_{t>1}=\beta (S_t - S_{t-1})+(1-\beta)B_{t-1}$$ $$Y_t=\left\{\begin{matrix} S_t+B_t & t<T\\ S_T+m\times B_T & t=T+m \end{matrix}\right.$$

Dónde

$\alpha$ es el factor de suavizado ($0 \prec \alpha \prec 1$)
$\beta$ es el factor de suavizado de tendencia ($0 \prec \beta \prec 1$)

Ejemplo 1:

Examinemos los datos de las compañías aéreas internacionales de pasajeros

Datos mensuales de la aerolínea internacional de pasajeros con la función de suavización exponencial doble de Holt-winter.

Se eligió un valor Alpha de 0,9 y un Beta de 0,1. Tenga en cuenta que aunque el suavizado doble traza bien los datos originales, el pronóstico fuera de la muestra es inferior al promedio móvil simple.

¿Cómo encontramos los mejores factores de suavizado?

Tomamos un enfoque similar a nuestro ejemplo simple de suavizado exponencial, pero modificado para dos variables. Nosotros calculamos la suma de los errores cuadráticos;construimos una tabla de datos de dos variables y seleccionamos los valores alfa y beta que minimizan el SCE general.

This figure shows the sum of squared errors plot for changing the smoothing and trend smooth factors, in an attempt to find optimal values.

4. Suavizado Exponencial Lineal (Brown’s)

Este es otro método de doble función de suavizado exponencial, pero tiene un factor de suavizado:

$$S_1^{'}=X_1$$ $$S_1^{''}=X_1$$ $$S_{t>1}^{'}=\alpha X_t + (1-\alpha)S_{t-1}^{'}$$ $$S_{t>1}^{''}=\alpha S_{t}^{'}+(1-\alpha)S_{t-1}^{''}$$ $$a_{1<t<T}=2 S_{t}^{'}-S_t^{''}$$ $$b_{1<t<T}=\frac{\alpha}{1-\alpha}\times (S_t^{'}-S_t^{''})$$ $$Y_{T+m}=a_T+m\times b_T$$

Donde

$\alpha$ is the smoothing factor ($0 \prec \alpha \prec 1$)

El doble suavizado exponencial de Brown toma un parámetro menor que la función de Holt-Winter, pero puede no ofrecer un ajuste tan bueno como esa función.

Ejemplo 1:

Utilicemos el mismo ejemplo en el exponencial doble de Holt-Winter y comparemos la suma óptima del error cuadrático.

This figure shows the international passengers' airline data with brown's linear exponential smoothing function.

La doble exponencial de Brown no se ajusta a los datos de la muestra, así como al método de Holt-Winter, pero el muestreo (en este caso en particular) es mejor.

¿Cómo encontramos el mejor factor de suavizado($\alpha$)?

Nosotros utilizamos el mismo método para seleccionar el valor alfa que minimiza la suma del error al cuadrado. Para los ejemplos de datos de ejemplo, se encuentra que el alpha es 0,8.

Gráfica de la suma de errores cuadrados para cambiar los valores del factor de suavizado, en un intento por encontrar el valor óptimo.

5. Suavizado exponencial triple de Winter

El triple suavizado exponencial tiene en cuenta los cambios estacionales, así como las tendencias. Este método requiere 4 parámetros:

$\alpha$: el factor de suavizado
$\beta$: El factor de suavizado de tendencias
$\gamma$: El factor de suavizado de la estacionalidad
$\mathrm{L}$: La duración de la temporada

La formulación para el suavizado exponencial triple es más complicada que cualquiera de las anteriores. Por favor, consulte nuestro manual de referencia en línea para la formulación exacta.

Ejemplo:

Utilizando los datos de la aerolínea internacional de pasajeros, podemos aplicar el suavizado exponencial triple de Winter, encontrar los parámetros óptimos y realizar un pronóstico fuera de la muestra.

Los datos de la aerolínea de pasajeros internacionales con la triple función de suavizado exponencial triple de Winter (duración de la temporada = 12).

Obviamente, el suavizado exponencial triple de Winter se aplica mejor a esta muestra de datos, en la medida en que rastrea bien los valores y el pronóstico de la muestra exhibe estacionalidad (L=12).

¿Cómo encontramos el mejor factor de suavizado ($\alpha,\beta,\gamma$)?

De nuevo, necesitamos seleccionar los valores que minimizan la suma global de los errores cuadráticos (SCE), Pero las tablas de datos se pueden utilizar para más de dos variables, por lo que recurrir a la solución de Excel:

(1) Configurar el problema de minimización, con el SCE como la función de utilidad.

Configurar el problema de minimización, con la suma de los errores cuadraticos como la funcion de utilidad.

(2) Las restricciones de este problema:

$$ 0 < \alpha < 1 $$ $$ 0 < \beta < 1 $$ $$ 0 < \gamma < 1 $$

(3) Inicie el Solver e inicialice la utilidad y las restricciones.

Inicie el solver; establezca la utilidad, variando los argumentos y las restricciones.

(4) El solver busca la solución óptima, en última instancia, lo que lleva a su finalización.

Solver busca la solución óptima, en última instancia, lo que lleva a su finalización.

(5) Los valores óptimos son:

This figure shows the optimal alpha, beta and gamma for the triple smoothing function that minimize the sum of squared errors.

Conclusión

En este trabajo, hemos demostrado el uso de diferentes funciones de suavizado, la búsqueda de parámetros óptimos y la proyección del pronóstico para cada uno, mientras se demuestran escenarios en los cuales los métodos de suavizado puede no ser apropiados.

Usted siempre debe examinar visualmente los datos para detectar signos de estacionalidad o tendencia lineal, y seleccionar un método de suavizado basado en sus hallazgos.

En la práctica, los pronósticos basados en suavizado son a menudo utilizados para pocos pasos y son relativamente precisos (dada su simplicidad) en comparación con modelos más sofisticados.

Archivos de Soporte

¿Por qué deberíamos preocuparnos?

1. Promedio móvil ponderado (WMA)

2. Suavizado Simple Exponencial (Brown’s)

3. Suavizado doble exponencial Holt-Winters

4. Suavizado Exponencial Lineal (Brown’s)

5. Suavizado exponencial triple de Winter

Conclusión

Archivos de Soporte

Artículos relacionados

Comentarios