En los mercados financieros, el término "cisne negro", los eventos de cisne negro fueron introducidos por Nassim Nicholas Taleb en su libro de 2004 “Engañado por la aleatoriedad”, que se refiere a eventos financieros. Se utiliza para describir cualquier evento raro, imprevisto, pero muy influyente que tiene un impacto importante. Los eventos del Cisne Negro son generalmente difíciles o imposibles de predecir.
En este número, el quinto tutorial de nuestra serie de preparación de datos, desarrollamos otro fenómeno problemático comúnmente encontrado en los datos de muestra: ¿qué sucede cuando algunas observaciones desprecian y no encajan perfectamente con el resto de la muestra?
En este tutorial, discutiremos el problema de los valores atípicos, cómo detectarlos y qué podemos hacer con ellos.
Antecedentes
En estadística, un valor atípico es una observación que está numéricamente distante del resto de los datos. En otras palabras, un valor atípico (outlier) es uno que parece desviarse marcadamente de otros miembros de la muestra en la que este ocurre.
Los valores atípicos surgen debido a cambios en el comportamiento del sistema, comportamiento fraudulento, error humano, error de instrumento o simplemente a través de natural desviaciones en las poblaciones (que ocurren por casualidad en cualquier distribución, o cuando la población tiene una distribución de cola pesada).
En el análisis de series de tiempo, debemos examinar la presencia de valores atípicos (s) solamente para un proceso estacionario.
Tenga en cuenta que los valores atípicos, siendo las observaciones más extremas, pueden incluir el máximo de la muestra o el mínimo de la muestra, o ambos, dependiendo de si son extremadamente altos o bajos. Sin embargo, el máximo y mínimo de la muestra no siempre son valores atípicos porque pueden no estar muy lejos de otras observaciones.
¿Por qué debería ser importante para mi?
Las series observadas pueden estar contaminadas por los denominados valores atípicos. Estos valores atípicos pueden cambiar el nivel medio de las series no contaminadas. Además, la presencia de valores atípicos en la muestra sugiere que la distribución subyacente tiene colas gruesas o curtosis.
En estadística, los estimadores que son capaces de hacer frente a los valores extremos se dice que son robustos. Por ejemplo, la mediana es una estadística robusta, mientras que la media no lo es. Las interpretaciones ingenuas de estadísticas derivadas de conjuntos de datos que incluyen valores atípicos pueden ser engañosas.
Por otro lado, siempre debemos buscar las causas de los valores atípicos identificados, prestando especial atención a los cambios de nivel, la varianza y los valores atípicos que no pueden explicarse. ¿Son todos los valores atípicos iguales?
No todos los valores atípicos se crean por igual; Lo que es más importante, los valores atípicos no siempre muestran el mismo grado de influencia sobre los valores de los parámetros del modelo propuesto.
En un análisis de series de tiempo, tenemos que hacer la siguiente pregunta: ¿cuál es el impacto en los parámetros del modelo si dejamos un valor atípico en los datos de la muestra o lo quitamos?
En la regresión, usamos la distancia de Cook Para medir esta influencia, excluyendo solamente aquellos valores que exhiben una gran influencia.
En resumen, debemos evaluar los valores atípicos no por la magnitud de sus valores, sino por la influencia que ejercen sobre los valores de los parámetros del modelo.
¿Cómo puedo detectar esos valores atípicos?
En general, deseamos un método de detección de valores atípicos que pueda responder a las siguientes preguntas:
- ¿Existen valores atípicos?
- ¿Cuáles son sus ubicaciones?
- ¿Cuáles son sus tipos y magnitudes?
Los métodos de detección de valores atípicos Existen varias técnicas gráficas que pueden y deben utilizarse para detectar valores atípicos. Un simple diagrama de secuencia de ejecución, un diagrama de caja o un histograma deben mostrar cualquier punto obviamente periférico. Un gráfico de probabilidad normal también puede ser útil. Se dividen en tres categorías principales:
- Los métodos basados en modelos, que son comúnmente usados para la identificación cuando asumimos que los datos son de una distribución normal - la prueba de Grubb, el criterio de Peirce, y el criterio de Chauvenet, etc.
- Métodos basados en la distancia - Distancia de Cook
- Otras medidas - Rango intercuartil, etc.
- Filtrado adaptativo. Tiene un filtro que se adapta constantemente a la señal de entrada, haciendo coincidir efectivamente sus coeficientes de filtro con un modelo hipotético a corto plazo de la fuente de señal, con lo que se reduce la salida de error cuadrático medio. Esto le da una señal de salida de bajo nivel (el error residual), excepto cuando obtiene un valor atípico (outlier), lo que dará lugar a un pico, que será fácil de detectar (umbral).
Tenga en cuenta que los métodos anteriores detectan un posible valor atípico, pero es su responsabilidad verificar y, en cierta medida, explicar sus valores.
Tengo unos cuantos (posibles) valores atípicos en mis datos; ¿que sigue?
Regla de oro: siempre debemos buscar las causas de los valores atípicos identificados: los cambios de nivel y la varianza, y los valores atípicos que no pueden ser explicados requieren atención especial.
Caso 1: Podemos explicar los valores atípicos por alteraciones exógenas
En este caso, una estrategia más apropiada sería especificar un modelo general de alguna forma basado en las causas de las alteraciones exógenas y los parámetros de la serie de tiempo. Esta estrategia permite el uso de información previa de las alteraciones. También puede reducir la posibilidad de sobre-parametrización que surge del abuso del procedimiento de detección.
Caso 2: No podemos explicar los valores atípicos
Una vez que hemos detectado unos pocos (candidatos) valores atípicos en nuestra muestra, nos quedamos con dos opciones:
- Retención: Asumir que son un resultado real del proceso subyacente y proceder con nuestro análisis.
- Excluir: Asumir que son malos valores de mala eliminación de datos aislados es una práctica controvertida. (por ejemplo, error en la entrada de datos), los desecha y asume que faltan.
Nota:
En series de tiempo, requerimos que nuestros datos de muestra estén igualmente espaciados, por lo que dejar un outlier creará una brecha (valor faltante) en su serie de tiempo. Para conservar el espaciado igual, nos referimos a los métodos de interpolación discutidos en un tema anterior. Tenga en cuenta que estamos alterando fundamentalmente la serie de tiempo, independientemente de los valores que conectamos, por lo que una gran discreción está en orden.
Además, usted debe diferenciar entre los valores atípicos a través de su influencia en los parámetros del modelo subyacente, y comenzar con aquellos que exhiben los mayores grados de influencia.
Conclusión
El procesamiento de valores atípicos es un tema grande y complejo, y la respuesta dependerá de cuánto esfuerzo desee invertir en él y de la eficacia de sus medios de detección de valores atípicos.
Comentarios
El artículo está cerrado para comentarios.