Análisis de Regresión 201 - Regresión escalonada

Esta es la segunda entrada en nuestra serie de análisis de regresión y modelado. En este tutorial, continuamos la discusión de análisis que iniciamos anteriormente y aprovechamos una técnica avanzada - la regresión por etapas en Excel - para ayudarnos a encontrar un conjunto óptimo de variables explicativas para el modelo.

Una vez más, vamos a utilizar un conjunto de datos de muestra recogidos de 20 vendedores diferentes. El modelo de regresión intenta explicar y predecir las ventas semanales de cada vendedor (variable dependiente) utilizando dos variables explicativas: inteligencia (IQ) y extroversión.

Preparación de datos

Similar a lo que hicimos en un tutorial anterior, organizamos nuestros datos de muestra colocando el valor de cada variable en una columna separada y cada observación en una fila separada.

A continuación, introducimos la "máscara". La "máscara" es una matriz booleana (0,1), que elige qué variable se incluye (o excluye) del análisis.

Inicialmente, en la parte superior de la tabla, vamos a insertar la matriz de células de máscara, cada una con un valor de 1 (es decir, incluido). La matriz se muestra resaltada a continuación.

Tabla de datos de entrada para el tutorial de regresión NumXL 102 mostrando las variables de la máscara de entrada en amarillo.

En este ejemplo, tenemos 20 observaciones y dos variables (explicativas) independientes. La respuesta o variable dependiente son las ventas semanales.

Proceso

Ahora, estamos listos para llevar a cabo nuestro análisis de regresión. En primer lugar, seleccione una celda vacía en la hoja de cálculo donde desea que se genere la salida, a continuación, busque y haga clic en el icono de regresión en la pestaña NumXL (o barra de herramientas).

El icono de regresión en la pestaña NumXL o barra de herramientas en Excel.

Aparece el asistente de Regresión.

La pestaña general en el asistente de regresión NumXL mostrando la selección de datos de entrada y la máscara de variables de entrada.

Seleccione el rango de celdas para los valores de la variable de respuesta / dependiente (es decir, las ventas semanales). Seleccione el rango de celdas para los valores de las variables explicativas (independientes). Para "Variables (X) Mask", seleccione las celdas en la parte superior de la tabla de datos (matriz booleana).

Notas:

  1. El rango de celdas incluye (opcional) la celda de encabezado ("Etiqueta"), que se utilizaría en las tablas de salida donde hace referencia a esas variables.
  2. Las variables explicativas (es decir, X) ya están agrupadas por columnas (cada columna representa una variable), por lo que no es necesario cambiar eso.
  3. De forma predeterminada, el rango de celdas de salida se establece en la celda actualmente seleccionada en su hoja de cálculo.

Tenga en cuenta que una vez que seleccionemos el rango de celdas X y Y, las pestañas "Opciones", "Pronóstico" y "Valores perdidos" comienzan a estar disponibles (habilitadas).

A continuación, seleccione la pestaña "Opciones".

La pestaña de opciones en NumXL regresión Asistente o diálogo.

Inicialmente, la pestaña o tab se establece en los valores siguientes:

  • El intercepto de la regresión se deja en blanco. Esto indica que el intercepto de la regresión será estimado por la regresión. Para ajustar la regresión a un valor fijo (Por ejemplo. zero (0)), ingrese este aquí.
  • El nivel de significación (alfa. \ Alpha) se establece en 5%.
  • En la sección "Salida", se seleccionan los análisis de regresión más comunes.
  • Deje "Auto Modelado" sin marcar. Discutiremos esta funcionalidad posteriormente.

Ahora, click on the "Pestaña de “Valores Faltantes".

Pestaña de valores perdidos en el asistente o cuadro de diálogo de regresión de NumXL.

En esta pestaña, puede seleccionar una aproximación para manejar valores faltantes en el conjunto de datos (X y Y). Por defecto, cualquier valor faltante encontrado en X o en Y en cualquier observación podría excluir la observación del análisis.

Este tratamiento es un buen enfoque para nuestro análisis, así que vamos a dejarlo sin cambios.

Ahora, haga clic en "OK" para generar las tablas de salida:

Las tablas de salida generadas por el asistente o diálogo de regresión de NumXL en Excel.

Análisis

Aparte de la configuración de "Variables (X) Mask", todo es exactamente lo mismo que lo hicimos en el tutorial anterior, así que ¿Cuál es nuestro próximo paso?

La variable "Máscara" determina qué variable se incluye en el análisis de regresión, así que vamos a echar un vistazo a la tabla de "Coeficientes".

La tabla de valores de los coeficientes de regresión generada por el asistente de regresión NumXL en Excel.

Primero, vamos a excluir la variable de entrada "Inteligencia" del análisis. Esto se hace simplemente volteando el valor de máscara para esta celda a cero.

Establecer la variable de inteligencia de la máscara a cero.

Ahora, si usted tiene la opción "Cálculo" establecida de forma manual, puede forzar el recálculo. De lo contrario, la hoja de cálculo se volverá a calcular automáticamente.

Tablas de salida para la regresión después de excluir la variable de inteligencia volteando la variable de máscara a cero. Tablas generadas por el asistente de regresión NumXL en Excel.

Revisando las tablas de salida, encontramos lo siguiente:

  • R cuadrado disminuyó un 6%.
  • R cuadrado ajustado cayó un 1,5%.
  • Error estándar aumentó en 3.
  • AIC cayó por uno (1).
  • La tabla ANOVA muestra que la regresión es significativa.
  • El diagnóstico residual revisa todas las pruebas.
  • En la tabla de coeficientes de regresión, el intercepto y el coeficiente de la variable "Extroversión" ambos son estadísticamente significativos.

Este modelo tiene menos parámetros (es decir uno) y explica la variación en los valores de la variable de respuesta tan bien como cuando teníamos dos (2) variables explicativas.

Ahora, vamos a trazar los valores estimados contra el real.

Gráfico de datos para las ventas semanales y los valores ajustados de regresión.El área sombreada es el intervalo de confianza de 95% de regresión generado por el asistente de regresión de NumXL en Excel.

El área sombreada representa el intervalo de confianza del 95% para las estimaciones del modelo de regresión.

Hasta ahora, hemos demostrado que eliminar una variable del análisis es tan fácil como mover un interruptor; No más copia de datos y la saturación de su hoja de cálculo con toneladas de tablas de salida. Esto está bien, pero usted puede ser que se esté preguntando: si tenía más variables explicativas (digamos 10), ¿Cuál es el conjunto óptimo de variables? ¿Debo probar cada subconjunto?

NumXL soporta una funcionalidad interesante – Regresión escalonada en Excel – Para ayudarle a seleccionar este conjunto óptimo. Vamos a demostar cómo puede usarlo.

  1. En el rango de celdas "Máscara", active o desactive las variables que usted desee que la regresión escalonada en Excel considere. Para esta demostración, las activaremos todos.
    Restablecer la máscara de la variable de inteligencia de nuevo a uno en la preparación de la regresión escalonada en el procedimiento de Excel.
  2. Busque y haga clic en el icono de regresión en la pestaña NumXL.
  3. Aparece el Asistente de Regresión.
  4. En la pestaña "General", seleccione el rango de celdas de entrada y el rango de celdas de máscara.
  5. En la ficha Opciones, marque la casilla "Regresión escalonada". La pestaña Opciones en el asistente de regresión NumXL muestra la regresión escalonada habilitada.
  6. Deje los 3 métodos diferentes marcados.
  7. De Clic en “OK.”
  8. Las tablas de salida son generadas.

Tablas de salida de regresión con resultados de regresión paso a paso generados por el asistente de regresión de NumXL en Excel.

La regresión paso a paso en Excel genera una tabla adicional junto a la tabla de coeficientes.

Vamos a ver un vistazo más de cerca esta nueva tabla.

La regresión escalonada lleva a cabo una serie de pruebas parciales F para incluir (o eliminar) variables del modelo de regresión.

La tabla de salida de regresión escalonada generada por el asistente de regresión de NumXL en Excel.

  • Selección directa: comenzamos con una intercepción, y examinamos la adición de una variable adicional.
  • Eliminación hacia atrás: Partimos del modelo completo con todas las variables, y consideramos la posibilidad de eliminar un represor a la vez.
  • La eliminación bidireccional es un híbrido de los dos métodos.

Tutorial Video

Comentarios

El artículo está cerrado para comentarios.

¿Fue útil este artículo?
Usuarios a los que les pareció útil: 3 de 5