Concentración de Valores

Mohamad

28 de diciembre de 2016 02:03

En este tema, el cuarto tutorial de nuestra serie de preparación de datos, nosotros cubrimos conjuntos de datos para los cuales los valores están concentrados en un rango estrecho (por ejemplo, proporciones) o están ampliamente dispersos en varios órdenes de magnitud (por ejemplo, poblaciones, ingresos, volumen de precipitaciones, etc.).

Para este tutorial, empezaremos por algunos casos de concentración de valores diferentes: valores restringidos, relación media/varianza, etc. A continuación, explicamos su impacto en el análisis y pronóstico y, finalmente, presentamos métodos de transformación comunes y discutimos las preocupaciones por trazar los resultados de transformar una escala de datos a datos brutos.

Antecedentes

Ocasionalmente, nos enfrentamos a una muestra de series de tiempo en la que los valores están naturalmente restringidos para un rango dado. Por ejemplo, las tasas de mortalidad se restringen entre cero y 1, y una estrategia de negociación con una orden stop-loss (o tope de pérdida) derriba la parte de abajo, mientras mantiene la parte superior descubierta; Lo contrario es el caso en el que se utiliza una orden de venta limitada.

Gráfica de estrategia de resultados diarios.

Otros ejemplos de datos de series temporales incluyen los siguientes:

Proporciones (restringidas between 0 y 1, no incluyen los puntos finales)
Los datos de conteo (es decir, números enteros)
Valor Positivo
Valores No negativos

Además, un conjunto de datos cuyos valores abarcan varios órdenes de magnitud puede resultar problemático para el modelado y pronóstico. Ejemplos de tales datos incluyen ingresos, población, volumen de precipitaciones, etc.

Densidad de la población.

¿Por qué nos importa?

En primer lugar, el modelo de series de tiempo no asume ningún límite o límite sobre los valores que las series de tiempo pueden tomar, por lo que el uso de esos modelos para un conjunto de datos restringidos puede producir una adaptación deficiente.

En segundo lugar, tener un nivel de piso o techo en el conjunto de datos afecta a la simetría (o falta de inclinación) de los valores alrededor de la media. Este fenómeno también puede ser difícil de capturar utilizando modelos de series temporales.

En tercer lugar, puede desarrollarse una relación entre el nivel de observación y la varianza local, y por las mismas razones anteriores, tendremos que estabilizar la varianza antes de hacer otra cosa.

This figure shows the International Airline Passenger Plot.

Examina la concentración de valores

En el campo de la extracción de datos, la concentración de valores se denomina a menudo "agrupamiento de valores"; Hay un gran volumen de literatura sobre agrupación, pruebas, análisis, etc.

Afortunadamente, podemos ser capaces de escapar con un examen visual del diagrama de tiempo del histograma de datos y/o distribución.

Preguntas:

¿Cambia la varianza en relación con los niveles de observación?
¿Están los valores de los datos tapados o nivelados en el piso?
Tenga en cuenta que el nivel real puede no ser lo suficientemente preciso para permitir un posible deslizamiento
¿La distribución muestra un sesgo en cualquier dirección?

En el caso de la estabilización de la varianza, el objetivo de una transformación estabilizadora de la varianza es encontrar una función simple ƒ para aplicar a valores $\left \{ x_t \right \}$en un conjunto de datos para crear nuevos valores $y_t=f(x_t)$ tal que la variabilidad de los valores de y no está relacionado con su valor medio.

Tenemos un problema de concentración de valores en nuestros datos ... ¿Y ahora qué?

De nuevo, la respuesta es simple: transformar los datos en una distribución homoscedásica simétrica.

La pregunta es difícil,

Q1: ¿Cómo puedo transformar los datos?

Para hacer las cosas más interesantes, las estimaciones finales que obtenemos se ven afectadas cuando usamos datos transformados en nuestro análisis análisis original. Por ejemplo, una transformación logarítmica es a menudo útil para datos que tienen un sesgo positivo para inducir simetría. Si tomamos la media pronosticada en la escala transformada y transformamos tomando el antilog, obtenemos la mediana que (en este caso) es menor que la media pronosticada de los datos brutos.

Q2: ¿Cómo puedo construir los límites de pronóstico (media) y los intervalos de confianza de los datos de pronóstico transformados?

Una vez que transformamos los datos a una distribución homocedástica simétrica, construimos un intervalo de confianza para el pronóstico. A continuación, el intervalo de confianza se transforma de nuevo a la escala original utilizando la inversa de la transformación que se aplicó a los datos.

Esto funciona maravillosamente para los límites de intervalo y la mediana, pero debe tenerse cuidado cuando interpretemos el promedio del intervalo de confianza.

Transformación

Hay varios algoritmos de transformación a elegir, pero debe tenerse cuidado de elegir el mejor para tratar el problema raíz. Para escoger un algoritmo óptimo, nosotros necesitamos hacer algunas preguntas: (1) estamos tratando de inducir la simetría, (2) estamos tratando de forzar una distribución similar a la normal o (3) ¿queremos estabilizar la varianza?

1. Transformación logarítmica

$$y_t=\ln(x_t-a)$$ $$x_t>a$$

La transformación logarítmica se utiliza a menudo para inducir la simetría en los datos y estabilizar la varianza. Una transformación estabilizadora de la varianza pretende eliminar una relación de media / varianza, de modo que la varianza se convierte en constante con relación a la media. A menudo es preferida porque sus resultados son fáciles de interpretar.

Los límites del intervalo de confianza pueden ser transformados de nuevo, de modo que la mediana permanece igual a lo largo de la transformación, mientras que el promedio no es el mismo. Necesitaremos calcular su valor por separado.

Nota: En el problema de pasajeros de la aerolínea, utilizamos el registro de datos de pasajeros para estabilizar la varianza. Cuando construimos el intervalo de confianza, el valor de pronóstico de los datos transformados es, por definición, una distribución gaussiana, de modo que el pronóstico del pasajero es log-normalmente distribuido.

El promedio del intervalo de confianza (o media) se calcula como sigue:

$$X_{t+1}=e^{Y_{t+1}+\frac{\sigma^2}{2}}$$

2. Transformación de raíz cuadrada

Nosotros utilizamos la transformación de raíz cuadrada para los valores no negativos de las series de tiempo.

La transformación de raíz cuadrada (y Anscombe) se aplica a menudo para estabilizar la dependencia de media/varianza en los datos de tipo Poisson.

La justificación de esto originalmente surgió del hecho de que un conjunto de datos $\left \{ x \right \}$Es una realización de diferentes distribuciones de Poisson (es decir, las distribuciones tienen diferentes valores de medias$\mu$.); debido a que la varianza es idéntica a la media en una distribución de Poisson, la varianza varía con la media. Sin embargo, para la simple transformación de la varianza-estabilización$y_t=\sqrt{x_t}$,la varianza muestral asociada con la observación será casi constante. Observe por favor que una "transformación de Anscombe" es básicamente un caso especial de la transformación de la raíz cuadrada:$$y=2\sqrt{x+\frac{3}{8}}$$

3. Transformación Logit

Si los valores son limitan naturalmente restringidos para estar en el rango de 0 a 1, sin incluir los puntos finales, a continuación, una transformación logit puede ser apropiada. Esta transformación produce valores en el intervalo $(-\infty,\infty)$.

$$Logit(p_t)=\ln\left ( \frac{p}{1-p} \right )$$ $$0<p_t<1$$

4. Transformación inversa (recíproca) multiplicativa

$$y=\frac{1}{x_t}$$

Donde $x_t\neq0$

La función inversa multiplicativa es probablemente la función de transformación más simple, ya que es auto-inversa.

5. Transformación de potencia (Box‐Cox)

La potencia y, especialmente las transformaciones de Box-Cox, a menudo se utilizan en el análisis de series de tiempo para transformar los datos para inducir la simetría y parecerse a una distribución normal.

$$y^{(\lambda )}=\left\{\begin{matrix} \frac{y^\lambda-1 }{\lambda} & \lambda\neq0\\ \ln(y) & \lambda=0 \end{matrix}\right.$$

Nota: La transformación logarítmica es un caso especial de una transformación Box-Cox.La única limitación es $y_t>0$, Por lo que para las series de datos con valores negativos, podemos añadir una constante $\alpha$ como la$y_t+\alpha>0$

$$y^{(\lambda )}=\left\{\begin{matrix} \frac{(y+\alpha)^\lambda-1 }{\lambda} & \lambda\neq0\\ \ln(y+\alpha) & \lambda=0 \end{matrix}\right.$$

Los parámetros óptimos: $\lambda$ and $\alpha$ pueden seleccionarse maximizando la función log-verosimilitud (LLF) de los datos transformados (suponiendo una distribución gaussiana)

Nota Que no siempre es necesario o deseable transformar un conjunto de datos para que se parezca a una distribución normal. Sin embargo, si se desea la simetría o la normalidad, a menudo se pueden inducir a través de una de estas transformaciones de potencia.

Antecedentes

¿Por qué nos importa?

Examina la concentración de valores

Transformación

Artículos relacionados

Comentarios