Homogeneidad

Mohamad

28 de diciembre de 2016 01:49

En esta entrega, el tercer tutorial de nuestra serie de preparación de datos, abordaremos la tercera suposición más importante en el análisis de series de tiempo: Homogeneidad, o la suposición de que una muestra de series de tiempo se extrae de un proceso estable / homogéneo.

Comenzaremos definiendo el proceso estocástico homogéneo y estableciendo los requisitos mínimos para nuestro análisis de series de tiempo. Luego demostraremos cómo examinar los datos de la muestra, hacer algunas observaciones y resaltar algunas intuiciones subyacentes detrás de ellas.

Antcedentes

En las estadística, se utiliza la homogeneidad para describir las propiedades estadísticas de un conjunto de datos en particular. En esencia, esto afirma que las propiedades estadísticas de cualquier parte de un conjunto de datos son los mismos que cualquier otra parte.

¿Qué entendemos por propiedades estadísticas? Una manera estricta de considerar la homogeneidad implicaría examinar los cambios en la totalidad de la distribución marginal , pero el análisis de series de tiempo sólo exige que consideremos la estabilidad de la ubicación en el tiempo (versus tendencia) y la estabilidad de la fluctuación local a través del tiempo.

¿Qué significa esto?

En el análisis de series temporales, nos interesa la estabilidad del proceso estocástico subyacente en el tiempo. ¿Tenemos cambios estructurales? Si los cambios existen pero pasan desapercibidos, nos encontramos en una de varias situaciones difíciles:

El modelo propuesto ofrece poca explicación para la variación de los datos a lo largo del tiempo
Los valores de los parámetros del modelo varían significativamente cuando se recalibra utilizando un subconjunto de la muestra o incorporando nuevas observaciones
En casos extremos, la selección de los mejor tipo de modelo u orden (s) puede ser influenciada por la selección de datos de muestra

¿Por qué nos importa?

El objetivo del análisis y modelado de series de tiempo es usualmente la construcción de pronósticos fuera de la muestra. ¿Cómo podemos generar estos pronósticos utilizando un modelo con parámetros variables en el tiempo? ¿Cuánta confianza podemos poner en esos pronósticos ? ¿El pronóstico es robusto? Vamos a averiguar.

¿Por qué ocurre?

Hay varias causas para la heterogeneidad (opuesta a la homogeneidad) en una serie de tiempo:

Las propiedades estadísticas del modelo subyacente están evolucionando con el tiempo. En este caso, tratar de ajustar un modelo con valores de parámetros fijos no sería óptimo, a pesar de nuestros mejores esfuerzos. Necesitamos examinar técnicas avanzadas de modelado para captar la dinámica de las propiedades estadísticas del proceso. Esto, por desgracia, está fuera del alcance de este documento
El proceso subyacente no es estacionario (por ejemplo, posee tendencia a lo largo del tiempo).
El proceso subyacente es heteroscedástico donde la volatilidad exhibe agrupamiento y reversión media.
El proceso subyacente ha sufrido pocos pero importantes cambios estructurales debido a eventos exógenos, como la aprobación y aplicación de nuevas leyes relevantes o un importante desarrollo en el proceso mismo.

Ejemplo 1:

Caso del nivel de Ozono en el centro de Los Angeles (refiérase al tema "¿Cómo se ajusta?")

Gráfica de los niveles de ozono en Los Angeles.

A lo largo del tiempo de muestreo entre 1955 y 1972, hubo dos acontecimientos importantes:

Regla # 76 para la mezcla de gasolina y el diseño del motor de combustión
Apertura de una autopista para desviar el tráfico del centro de LA

Obviamente, esos eventos exógenos afectan el número de vehículos en el centro de Los Ángeles, y consecuentemente la cantidad de Ozono emitida en la zona. Se puede argumentar que el proceso después de esos eventos (1972) no es el mismo que el proceso en 1960.

Ejemplo II:

Índice de precios al consumidor de Estados Unidos y su derivado, la tasa de inflación:

La tasa de inflación en los EE.UU. refleja la efectividad de las políticas públicas del gobierno, por lo que a lo largo de todo el horizonte de la muestra entre 1913 y 2009, no es sorprendente que las características de los datos antes y después de la Segunda Guerra Mundial sean fundamentalmente diferentes. Consideremos también que en la década de 1970, el repentino aumento de la inflación que se evidencia en nuestros datos refleja un cambio fundamental (o fracaso) en la política pública.

Gráfica del índice de precios al consumidor de los Estados Unidos.

Lo que es más importante, la tasa de inflación subyacente al proceso después de los años setenta es muy diferente a la de años anteriores por varias razones: (1) cambios fundamentales en las políticas públicas y (2) mandato de la Reserva Federal para combatir la inflación y Desempleo en 1977.

Gráfica de datos de tasa de inflación.

En resumen, se puede argumentar que el proceso posterior a 1977 es muy diferente del proceso previo a 1977.

Conclusión

El investigador debe tener un rico conocimiento previo y fuertes hipótesis sobre la estructura del proceso subyacente y sus impulsores a su interpretación de un conjunto de datos. La responsabilidad de poderosos métodos analíticos es el potencial para una rica diversidad de soluciones alternativas que pueden tener propiedades muy diferentes cuando se extrapolan de la situación de la cual los datos fueron originalmente muestreados.

Comprobación de la homogeneidad

Las etapas iniciales en el análisis de una serie de tiempo pueden implicar trazar valores en función del tiempo para examinar la homogeneidad de la serie de varias maneras: a saber, la estabilidad a través del tiempo (en oposición a una tendencia) y la estabilidad de fluctuaciones locales a través del tiempo.

En un sentido estadístico, una prueba de homogeneidad es equivalente a una prueba de una distribución estadística. En inglés, deseamos detectar un cambio en la distribución subyacente. Para ello, podemos examinar los momentos de distribución: media, varianza, sesgo y curtosis para los cambios.

Para el análisis de series de tiempo, examinaremos los dos primeros momentos: media y varianza, y examinaremos cualquier cambio en el tiempo. Aquí hay algunas pruebas para ayudarnos:

Prueba normal estándar de homogeneidad (SNHT) :
Q: ¿Tenemos un cambio en la media o la varianza? $$H_0:r\sim N (0,1)$$ $$H_1: \textrm{There is shift}$$
Donde $r$ son las proporciones estandarizadas (el valor de una observación comparado con el promedio).
Prueba de Pettitt -detectando un cambio en la varianza - Prueba no paramétrica (es decir, sin suposición sobre la distribución de los datos).
Q: ¿ Tenemos un cambio en la varianza? ¿Cuando?
La prueba de Pettitt es una adaptación del la prueba de Mann-Whitney basada en el rango, que le permite identificar el momento en que ocurre el cambio.
Pruebas para detectar un cambio en la media -Prueba no paramétrica (es decir, sin suposición sobre la distribución de los datos).
Q: ¿Tenemos un cambio en la media? ¿Cuando?
$$H_0:\mu_t = c$$ $$H_1:\exists\mu_k \neq c$$ Where
- $H_0$ Es la hipótesis nula, que establece que $x_t$Sigue una o más distribuciones que tienen la misma media.
- $H_1$ Es la hipótesis alternativa, la cual establece que existe un tiempo k del cual las variables cambian de media.
Prueba de Bartle (versión clasificada de la prueba de ratio de Von Neumann) para aleatoriedad –
Q: ¿Los datos de la muestra son aleatorios? ¿Tenemos patrones?
- Hipótesis Nula $(H_0)$: la serie de tiempo es homogénea.
- Hipótesis Alternativa $(H_1)$: la serie de tiempo no es homogénea.

Espera, ¿La homogeneidad no suena mucho a la estacionalidad?

Estacionalidad y homogeneidad están estrechamente relacionadas; La estacionariedad estudia la estabilidad de la distribución conjunta $F_x (x_{t_1},x_{t_2},...,x_{t_n})$, Mientras que la homogeneidad examina la estabilidad de toda la distribución marginal en el tiempo.

Una serie temporal no estacionaria no es homogénea, pero lo contrario puede no ser siempre cierto.

Mi serie de tiempo no es homogénea en el tiempo, ¿que puedo hacer?

Si una suposición homogénea no se cumple, necesitamos examinar más de cerca y entender las series temporales:

¿La serie de tiempo es estacional? Si es así, transforma los datos para llevarlos a estacionalidad.
Identifica y comprende los factores del proceso subyacente:

¿Tenemos conductores / factores exógenos (por ejemplo, leyes, eventos, etc.) que podrían afectar los valores de las observaciones?
Has the underlying process changed permanently over time?
¿Esperamos que el factor exógeno cambie de nuevo en el futuro?
¿Cuándo cambió el proceso o cambió la varianza?

En el ejemplo del IPC estadounidense, el cambio hecho en 1977 por el Congreso para obligar a la Reserva Federal a adoptar políticas públicas para controlar la inflación es un gran punto de inflexión, y estamos inclinados a concluir que el proceso sufrió un cambio permanente como resultado de ese desarrollo. En este caso, yo ignoro todas las observaciones antes de ese tiempo.

En el nivel del Ozono en el ejemplo del centro de LA, la apertura de una autopista que desvía el tráfico del centro es un cambio estructural en el proceso subyacente. Lo mismo se puede decir acerca de las leyes para la mezcla de gasolina y el diseño del motor. Nuevamente, desestimaría los datos antes de que los cambios hicieran efecto, y sólo me preocuparía de las observaciones que ocurren después de estos eventos.

Antcedentes

¿Por qué ocurre?

Conclusión

Comprobación de la homogeneidad

Artículos relacionados

Comentarios