Módulo 1: Preparación de los datos

Mohamad

30 de noviembre de 2016 23:43

En este módulo, vamos a discutir cómo preparar nuestros datos de muestra para el análisis de series de tiempo con NumXL.

Datos de muestra

Considera los precios de cierre diarios ajustados (para divisiones y dividendos) de acciones de Microsoft entre el 1/3/2000 y el 1 de mayo de 2009.

Precios de las acciones de Microsoft entre enero de 2000 y enero de 2009

Nosotros hemos descargado los datos de muestra de (MSFT) finance.yahoo.com

1.1 Diseño de datos en Excel

Una vez que tenga sus datos de muestra, el método de distribución de series de tiempo más común es mostrar las fechas y los valores en columnas adyacentes en la misma hoja de cálculo. Aunque el componente de fecha no es necesario para modelar, nos da una idea general sobre el orden cronológico de los valores.

Ascendente: El primer valor corresponde a la primera observación. NumXL asume un orden ascendente por defecto, a menos que se especifique lo contrario.

Descending order table Descendente: El primer valor (observación) corresponde a la última observación.

1.2 Muestreo de Datos

Una vez que tenga la serie de tiempo ordenada en su hoja de trabajo, debe examinar los supuestos de muestreo.

Una muestra de datos de la serie de tiempo contendrá generalmente observaciones que están espaciadas equidistantemente en el tiempo, donde el valor de cada observación está disponible (es decir, no hay valores faltantes).

Para los datos de muestreo diario de cierre de MSFT, las observaciones se añaden al final de cada día laboral. En este caso, el período de muestreo es el día de negociación (no el día calendario) y las observaciones en la muestra están igualmente espaciadas como un resultado.

Nota: En caso de que los datos de muestreo contengan uno o más valores faltantes, se requiere un tratamiento especial para imputar sus valores. Se refiere a los “Valores faltantes" expresados en los consejos de NumXL & Archivo de consejos en línea.

Una vez que tenga la serie de tiempo ordenada en su hoja de trabajo y haya tomado nota de la suposición de muestreo, debe examinar los datos visualmente para asegurarse de que cumple con los supuestos importantes definidos por teorías econométricas y series de tiempo:

¿Es estable el proceso subyacente (Homogéneo)?
¿La varianza y la autocovariancia permanecen las mismas durante toda la duración de la muestra (estacionalidad)?
¿Tenemos nosotros observaciones con valores inusuales?
¿Están bien esparcidos los valores de las observaciones?

1.3 Estacionalidad

Para la estacionalidad, nos interesa principalmente la estabilidad de las varianzas y la covarianza en toda la muestra.

El supuesto de estacionariedad es fundamental para las teorías de series de tiempo, así que ¿cómo lo comprobamos? Paradójicamente, se comienza por la prueba de las condiciones no estacionarias, principalmente: (1) la presencia de raíz unitaria (recorrido aleatorio) y/o (2) la presencia de tendencia determinística. Si no podemos encontrarlos, podemos concluir que los datos son estacionarios.

Examinemos la gráfica de los datos originales para una tendencia determinística o un recorrido aleatoro (posiblemente con una desviación).

Para la serie temporal de precios de MSFT, la gráfica de datos no muestra ninguna tendencia y la serie parece estacionaria.

This plot shows the Microsoft stock prices between Jan 2000 and Jan 2009

Nota: Para más detalles sobre la estacionalidad de las series temporales, consulte la “Estacionalidad" expresada en los consejos de NumXL& Archivo de consejos en línea.

1.4 Homogeneidad

Antes de intentar proponer un modelo para una serie de tiempo, debemos verificar que el proceso subyacente no sufrió un cambio estructural, al menos durante el lapso de los datos de la muestra.

¿Qué son los cambios estructurales? Los cambios estructurales son aquellos eventos que alteran permanentemente las propiedades estadísticas del proceso estocástico. Un cambio estructural puede ser provocado por nuevos cambios en las políticas, aprobación de nuevas leyes o cualquier desarrollo importante (exógeno) durante el lapso de la muestra.

Para examinar la homogeneidad (o la falta de ella), revise el diagrama de datos junto con WMA y EWMA e intente identificar cualquier cambio (permanente) en la media, la varianza o cualquier signo de tendencia o recorrido aleatorio.

Microsoft stock price plot with 20-day equally-weighted moving average

Además, un analista/investigador debe traer un rico conocimiento previo y fuertes hipótesis sobre la estructura de proceso subyacente a su interpretación de un conjunto de datos.

En la gráfica de abajo, hemos dibujado una media móvil ponderada de 20 días junto con los datos originales.

Revisando el gráfico de datos de la muestra y el promedio móvil ponderado (WMA), no hay evidencia de un cambio repentino permanente en la media del proceso subyacente.

Nota: Para más detalles en la homogeneidad de las series de tiempo, consulte la “Homogeneidad" expresado en los consejos de NumXL& Archivo de consejos en línea.

1.5 Outliers

Un outlier es una observación que está numéricamente distante del resto de los datos. En otras palabras, un outlier es una observación que parece desviarse marcadamente de otros miembros de la muestra en la que se producen.

La mera presencia de valores atípicos en nuestros datos puede cambiar el nivel medio en las series temporales no contaminadas, o podría sugerir que la distribución subyacente tiene colas de gruesas.

La detección de valores atípicos es un tema complejo; Para los principiantes, podemos examinar el gráfico de datos visualmente. Existen algunos métodos estadísticos para marcar posibles valores atípicos, pero es su responsabilidad verificar y, en cierta medida, explicar sus valores.

Nota: Esta es una descripción rápida de un tema muy complejo. Para obtener más detalles sobre los valores atípicos de series temporales, consulte “Atípicos" expresado en los consejos de NumX& consejos en línea.

Una forma rápida de examinar los valores atípicos en los datos es a través del uso de un cuartil Q1, Q3 (es decir, IQR). En la gráfica a continuación, la región sombreada representa los valores entre el límite superior (UL) y el límite inferior (UL).

MMicrosoft stock price plot with a shaded band represent values between 1st quartile (Q1) and third quartile (Q3)

Se puede argumentar que los valores de las observaciones al comienzo de la muestra son muy altos.

1.6 Concentración de Valores

Ocasionalmente, nos enfrentamos a una serie de tiempo en la que los valores se restringen naturalmente a un rango determinado. Por ejemplo, los datos binomiales están restringidos entre 0 y 1. Otro ejemplo son los ingresos trimestrales de la empresa, que se enumeran como enteros positivos dentro de un amplio rango.

¿Por qué deberíamos preocuparnos?

Primero el modelo de las serie de tiempo no asume ninguna barrera o límite en los valores que las series de tiempo pueden tomar, entonces utilizando aquellos modelos para conjunto de datos con restricciones puede producir un ajuste inadecuado o pobre.

Segundo, tenienfo un nivel de piso o techo en el conjunto de datos afecta la simetría ( o falta de sesgo) de los valores alrededor de la media. Este fenómeno puede también ser difícil de capturar utilizando modelos de series de tiempo.

Tercero, un conjunto de datos cuyos valores abarcan varias órdenes de magnitud pueden probar ser problemáticos para Para el modelado y pronóstico.

Finalmente, una relación entre el nivel de observación y la varizanza local puede desarrollarse y, por las mismas razones anteriores, tendremos que estabilizar la varianza antes de hacer cualquier otra cosa.

Para detectar los problemas asociados con la concentración de valores, hacemos las siguientes preguntas:

¿Está cambiando la volatilidad / varianza en relación con los niveles de observación?
¿Están los valores de los datos tapados o nivelados en el piso?
¿Muestra La distribución un sesgo en cualquier dirección?

Suponiendo que tenemos un problema de concentración de valores, ¿qué es lo siguiente? Necesitamos realizar una transformación de los datos de entrada.

Objetivo: Nos gusta que los valores de las observaciones se distribuyan cerca de una distribución normal.

Examinemos la distribución de los precios de cierre diarios de las acciones de MSFT. En primer lugar, trazar el histograma y gráfico Q-Q de los precios de cierre diarios:

Histogram for daily microsoft prices between Jan 2000 and Jan 2009 A QQ Plot for Microsft price distribution between Jan 2000 and Jan 2009

Obviamente, los datos están lejos de ser normales, pero lo que aquí se puede sacar es que el 50% de las observaciones caen en un rango estrecho (22.18 – 27.61).

A continuación, vamos a transformar los valores utilizando la función Box-Cox. Una transformación Box-Cox es una forma especial de transformación potnecial y requiere una entrada - lambda.

Al optimizar la transformación de Box-Cox para nuestros datos de muestra, nosotros encontramos que un valor lambda de cero (es decir, transformación de registro) lleva a nuestros datos cerca de la normalidad.

En la figura a continuación, hemos trazado el histograma y el gráfico Q-Q para el log-precio.

Histogram plot for log log daily prices for Microsoft stock. A QQ Plot for the distribution of Microsoft stock log prices.

La transformación log (Box-Cox con Lambda cero) mejora la distribución de los valores, especialmente el extremo derecho.

Conclusión

En este módulo, discutimos el diseño de datos de muestra en Excel, asumiendo los supuestos de los datos y destacando cuatro (4) cuestiones importantes para examinar en nuestros datos antes de realizar el análisis.

Para la concentración de valores, se utilizaron histogramas y una función de distribución empírica para mostrar que el 50% de los valores se han concentrado en una banda estrecha. Para llevar la distribución cerca de la distribución normal, nosotros utilizamos la transformación de Box-Cox y optimizado para lambda (es decir, el parámetro de Box-Cox) y se encontró que logarítmico (caso especial de Box-Cox) es la mejor transformación. Para el resto de la guía del usuario, usaremos la transformación logarítmica de los datos de muestra para llevar a cabo el análisis.

Archivos de soporte

1.1 Diseño de datos en Excel

1.2 Muestreo de Datos

1.3 Estacionalidad

1.4 Homogeneidad

1.5 Outliers

1.6 Concentración de Valores

¿Por qué deberíamos preocuparnos?

Conclusión

Archivos de soporte

Artículos relacionados

Comentarios