Análisis de Regresión 102 - Datos Influyentes

Mohamad

7 de noviembre de 2016 20:04

Esta es la tercera entrada en nuestra serie de análisis de regresión y modelado. En este tutorial, continuamos la discusión de análisis que iniciamos anteriormente aprovechando una técnica más avanzada - el análisis de datos influyentes - para ayudarnos a mejorar el modelo y, como resultado, la confiabilidad del pronóstico.

Una vez más, vamos a utilizar un conjunto de datos de muestra recogidos de 20 personas de ventas diferentes. El modelo de regresión intenta explicar y predecir las ventas semanales de cada persona (variable dependiente) utilizando dos variables explicativas: inteligencia (IQ) y extroversión.

Preparación de datos

Similar a lo que hicimos en nuestro tutorial anterior, organizamos los datos de muestra colocando el valor de cada variable en una columna separada y cada observación en una fila separada.

A continuación, introducimos la "máscara". La "máscara" es un array o matriz booleana (0,1) que elige qué variable se incluye (o excluye) en el análisis.

Inicialmente, en la parte superior de la tabla, vamos a insertar la matriz de la célula de máscara; Cada uno con un valor de 1 (es decir, incluido). La matriz se muestra a continuación resaltada a continuación:

Tabla de datos de entrada para la análisis de datos influyentes en el modelado de regresión, la tabla muestra también la variable de máscara.

En este ejemplo, tenemos 20 observaciones y dos variables (explicativas) independientes. La respuesta o variable dependiente son las ventas semanales.

Proceso

Ahora estamos listos para llevar a cabo nuestro análisis de regresión. En primer lugar, seleccione una celda vacía en la hoja de cálculo donde desea que se genere la salida, a continuación, busque y haga clic en el icono de regresión en el NumXL.

Ahora el asistente de Regresión aparecerá.

La pestaña general en el asistente de regresión NumXL, tenga en cuenta que el rango de celdas para la variable de máscara está seleccionado.

Seleccione el rango de celdas para los valores de la variable de respuesta / dependiente (es decir, las ventas semanales). Seleccione el rango de celdas para los valores de las variables explicativas (independientes). Para "Variables (X) Mask", seleccione las celdas en la parte superior de la tabla de datos (matriz booleana).

Notas:

El rango de celdas incluye (opcional) la celda de encabezamiento ("Etiqueta"), que se utilizaría en las tablas de salida donde hace referencia a esas variables.
Las variables explicativas (es decir, X) ya están agrupadas por columnas (cada columna representa una variable), por lo que no es necesario cambiarlo.
Por defecto, el rango de celdas de salida se establece en la celda seleccionada actualmente en la hoja de cálculo.

Tenga en cuenta que una vez que seleccionemos el rango de celdas X y Y, las pestañas "opciones", "Pronóstico" y "Valores perdidos" estarán disponibles (habilitadas).

Luego, seleccione la pestaña o tab “Opciones”

Options tab in NumXL Regression wizard showing the common output selected.

Inicialmente, la pestaña o tab e establece en los siguientes valores:

El intercepto/constante de regresión se deja en blanco. Esto indica que la intercepto de regresión será estimada por la regresión. Para establecer la regresión a un valor fijo (por ejemplo, cero (0)), ingrese este allí.
El nivel de significancia (aka. ) es establecido de 5%
En la sección de resultados, se selecciona el análisis de regresión más común.
Para auto-modelado, revise esta opción.

Ahora, clic en “Valores Falantes” tabla.

La pestaña de valores faltantes en el asistente de regresión de NumXL o el cuadro de diálogo, la imagen muestra la opción de eliminar valores faltantes seleccionados.

En esta pestaña o tab, puede seleccionar una aproximación para manejar valores faltantes en el conjunto de datos (X y Y). Por defecto, cualquier valor faltante encontrado en X o en Y en cualquier observación, cualquier valor faltante encontrado en X o en Y en cualquier observación excluiría la observación del análisis.

Este tratamiento es un buen enfoque para nuestro análisis, entonces vamos a dejarlo sin cambios.

Ahora, de Clic en “OK” para generar las tablas de salida.

Tabla de salida para una regresión múltiple, generada por el asistente de regresión NumXL.

Para evaluar la influencia que cada observación ejerce sobre nuestro modelo, calculamos un par de medidas estadísticas: el apalancamiento y la distancia de Cooks.

Seleccione la celda junto a la variable de respuesta.
En la barra de fórmulas, escriba la función MLR_FITTED y, a continuación, haga clic en el botón "fx".
La Función Wizard aparece. Seleccione el rango de celdas de entrada, la máscara y un tipo de retorno de 4 para las estadísticas de apalancamiento. Haga Click en “OK.”
MLR_FITTED Devuelve una matriz de valores, pero usted inicialmente sólo verá el primer valor.
Para mostrar la matriz completa, seleccione todas las celdas a continuación (al final de la muestra).Presione F2, luego presione CTRL+SHIFT+ENTER para copiar la fórmula matricial.
Ahora, para calcular el distancia de cooks, Seleccione la celda junto a "Leverage" y repita los mismos pasos, pero con el tipo de retorno = 5.

Análisis

Ahora lo que tenemos es las estadísticas de apalancamiento y de distancia de Cooks, Ahora vamos a interpretar sus hallazgos.

1.Estadísticas de apalancamiento(H)

La estadísticas de apalancamiento mide la distancia de una observación del centro de los datos. En nuestro ejemplo, En nuestro ejemplo, los valores de inteligencia y extroversión para el vendedor 11 están más alejados del promedio. ¿Significa esto que el vendedor 11 es un valor atípico? ¿Significa esto que ejerce influencia en el cálculo del coeficiente de regresión?

Un gráfico de datos muestra el factor de apalancamiento para las diferentes observaciones.

Para examinar esta suposición, vamos a eliminar al vendedor 11 de nuestros datos de entrada y examinaremos la regresión resultante. Para ello, basta con insertar un valor # N/A en cualquier variable de entrada de esta observación.

Estadísticas de resumen de regresión utilizando el conjunto de datos completo. Regression summary statistics after dropping the high leverage observation.

Quitando la observación 11, hace que las cosas sean por lo menos, igual que antes . Nosotros optamos por recuperar esta observación dentro de la muestra.

En suma, las estadísticas de apalancamiento no implican necesariamente un valor atípico, sino simplemente una observación distante con pocos vecinos.

2. Distancia de Cook (D)

La distancia Cooks corrige la debilidad de las estadísticas de apalancamiento y, por lo tanto, es más indicativa de datos influyentes. Además, hay pocas heurísticas para los valores umbral de la distancia de Cooks para detectar un dato influyente. Para nuestro análisis, a menudo utilizamos \frac{4}{N} Como un umbral (Que se traduce al 20% para las 20 observaciones en nuestro conjunto de datos).

Gráfica de datos para la distancia de Cook para todas las observaciones en el conjunto de datos La observación con la distancia más alta de Cook está coloreada de rojo para distinguirla.

Utilizando el umbral o simplemente mirando el gráfico anterior, detectamos que el vendedor 16 ejerce la influencia más alta en nuestra regresión, así que anulemos esta observación (estableciendo # N / A en una de las variables de entrada).

La tabla de datos de entrada después de omitir la observación 16 estableciendo el valor de la variable dependendiente en # N/A o faltante.

Tenga en cuenta que las estadísticas de apalancamiento y la distancia Cooks devuelven # N/A para este valor faltante.

Examinemos ahora las estadísticas de regresión antes y después de que dejáramos la decimosexta observación.

Tabla de estadísticas de resumen de regresión con el conjunto completo.

Como usted ya habrá notado, la regresión mejoró significativamente en todas las dimensiones (por ejemplo, R cuadrado, error de std, etc.). El vendedor # 16 parece ser un valor atípico (outlier) influyente, así que lo dejaremos.

Para ayudar a explicar lo que hace que una observación influyente, vamos a examinar la extroversión vs la gráfica semanal de ventas semanales a continuación:

Un gráfico de datos que muestra la línea de regresión original antes y después de dejar caer la observación influyente.

Dibujamos la tendencia lineal como un indicador para nuestro modelo de regresión. El punto de datos negro (círculo) representa al Vendedor 16. Su ubicación (extroversión y valor de ventas semanales) está tirando de la línea de regresión (punteada) hacia ella, afectando el valor de la pendiente de regresión y el intercepto.

Soltando esta observación se libera la línea de regresión, ajustándola para que se ajuste mejor a los puntos restantes.

Echemos un vistazo nuevamente a la gráfica de distancia Cooks (sin el vendedor 16, y con un umbral de $\frac{4}{19}=21%$)

Trama de datos para la distancia de Cook en Excel para los puntos de datos restantes después de haber dejado caer la observación influyente.

Los valores de distancia Cooks para los diferentes gráficos son distribuidos uniformemente, y podemos detenernos allí.

Nota:

Tenga en cuenta que nuestra regla de umbral es simplemente una heurística (regla general), y no debe ser tomada rígidamente, sino más bien como una pauta.

Conclusión

En este tutorial, hemos demostrado que la exclusión de observación # 16 es beneficiosa para nuestros esfuerzos de modelado, ya que ejerce una influencia significativa en nuestro cálculo de coeficientes.

Luego, usando las 19 observaciones restantes, vamos a recalcular (SHIFT+F9) Las estadísticas de regresión, ANOVA, diagnóstico de residuos, regresión escalonada, etc.

Tablas de salida de regresión después de caer puntos de datos influyentes y utilizando el conjunto completo de variables explicativas.

El conjunto óptimo de las variables de entrada es el mismo que anteriormente. Dejemos caer la variable de "inteligencia" (estableciendo su valor en 0 en la máscara) y recalcular.

Tablas de salida de regresión después de dejar caer puntos de datos influyentes y usando el conjunto óptimo de variables explicativos.

El error de regresión es \$307 (vs. \$332 before we removed salesman #16).

El gráfico de datos para los valores de pronóstico junto con el intervalo de confianza utilizando el modelo de regresión sin datos influyentes y el conjunto óptimo de variables explicativas.

La última pregunta que podemos hacernos; ¿Es estable la regresión sobre el conjunto de datos de la muestra? Siguiente tema.

Tutorial Video