Error de pronóstico de regresión lineal múltiple (RLM o MLR)

Ocasionalmente nos solicitan que compartamos un ensayo técnico sobre el modelado de regresión además de nuestro regular soporte técnico en NumXL; con el fin de indagar más a fondo en la formulación matemática de MLR. Siempre estamos contentos de abordar dichas solicitudes, de manera que decidimos compartirles nuestras notas técnicas internas.

Estas notas fueron originalmente creadas durante una clase de análisis de series. Con los años, hemos mantenido estas notas agrandándoles nuevos pasajes, observaciones empíricas e intuiciones adquiridas más recientemente. Con frecuencia volvemos a estas notas para resolver problemas de desarrollo, o para abordar apropiadamente un asunto de soporte de producto.

En este documento abordaremos una pregunta simple pero fundamental y frecuentemente planteada, con respecto a nuestro pronóstico de error en un modelo de regresión.

Trasfondo

Asumamos que el  verdadero  modelo subyacente o proceso  está or definido así:    

$$ y = \alpha + \beta_1 x_1+\beta_2 x_2 + \cdots + \beta_k x_k + \epsilon $$

Donde:

  • $y$  es la variable dependiente (respuesta) 
  • $\{x_1,x_2,\cdots,x_k \}$ son las variables independientes (explicativas).
  • $\alpha$ is la interceptación real (constante).
  • $\beta_j$ es el coeficiente (loading) de la variable independiente de la j-th.
  • ${\epsilon}$ es un conjunto de errores independientes, idénticos y normalmente distribuidos (residuos).

$$ \epsilon \sim \textrm{i.i.d} \sim N(0,\sigma^2) $$

En la práctica, el verdadero modelo subyacente es incierto. Sin embargo, con datos de muestra finitos y un OSL u otro procedimiento, podemos estimar los valores de los coeficientes (alias loadings) para las diferentes variables de entrada (explicativas).

Asumamos que tenemos una grupo de datos de muestra con N observaciones, e.j. $\{x_1,x_2,\cdots,x_k \}$. Usando un método OSL, llegamos al siguiente modelo de regresión:

$$ y = \hat{\alpha} + \hat{\beta_1} x_1 + \hat{\beta_2}x_2 + \cdots + \hat{\beta_k}x_k + u $$

Donde/p>

  • $\hat{\beta_j}$ es el estimado de OLS para el coeficiente de j-th (loading).
  • $\hat{\alpha}$ es el estimado de OLS de la interceptación.
  • $\{u\}$ son los residuos de la regresión. Los residuos son homocedásticos (i.e. stable variance) y no correlacionados con ninguna de las variables de ingreso.

$$ E[u]=0$$ $$ E[u^2] = s^2 $$ $$ E[u\times \underset{1\leq i \leq k}{x_i}] = 0$$

Pronóstico

En la práctica, el modelo de regresión verdadero está oculto o es desconocido. Volveremos al modelo de regresión estimado para calcular un pronóstico.

Matemáticamente, el pronóstico condicional puede expresarse así:

$$ \hat{y} = E[ Y | x_1,x_2,\cdots, x_k ] = \hat{\alpha} + \hat{\beta_1}x_1 + \hat{\beta_2}x_2 +\cdots + \hat{\beta_k}x_k $$

Como resultado, los errores de pronóstico se originan de dos fuentes distintas:

  1. Residuales ($\{\epsilon\}$ or $\{u\}$).
  2. Errores en los valores de coeficiente estimados (i.e. using $\hat{\beta_j}$ en vez de $\beta_j$)

Usando un procedimiento OLS, los valores estimados de $\hat{\beta_j}$ se distribuyen normalmente. Sin embargo, los errores en los valores de todo el grupo de parámetros $\underset{1\leq i \leq k}{\hat{\beta_j}}$ se correlacionan. De manera que, podemos ignorar los términos de variación cuando examinamos el significado estadístico de un coeficiente, pero tendremos que factorizar en su efecto general/agregado para el pronóstico de error.

Como resultado, la varianza de pronóstico (alias: error cuadrático) puede expresarse así:

$$Var[y-\hat{y}| x_{1,m},x_{2,m},\cdots x_{k,m}]=\sigma^2 \left(1+\frac{1}{N}+\frac{\sum_{j=1}^k (x_{j,m}-\bar{x_j})^2}{\sum_{i=1}^N\sum_{j=1}^k(x_{j,i}-\hat{x_j})^2} \right) $$

Sin embargo, la varianza de residuales ($\sigma^2$) en el modelo verdadero se desconoce, así que isamos la varianza de términos de error ($\hat{\sigma}^2$) del modelo de regresión estimado: $$\hat{\sigma}^2 = E[u^2]=E[(y-\alpha - \beta_1x_1-\beta_2x_2-\cdots - \beta_kx_k)^2]=\frac{SSE}{N-K-1}=\frac{\sum_{i=1}^N u_i^2}{N-K-1}$$

En general, el error cuadrático de pronóstico MLR se expresa así:

$$Var[y-\hat{y}| x_{1,m},x_{2,m},\cdots x_{k,m}]=\frac{SSE}{N-k-1} \left(1+\frac{1}{N}+\frac{\sum_{j=1}^k (x_{j,m}-\bar{x_j})^2}{\sum_{i=1}^N\sum_{j=1}^k(x_{j,i}-\hat{x_j})^2} \right)$$

Ahora, detallemos la fórmula citada y tratemos de explicar sus diferentes términos:

  1. $\hat{\sigma}^2$ es la varianza estimada de residuos de modelo de regresión verdaderos. Este valor es constante e independiente de los valores X del target de puntos de datos.
  2. $\frac{\hat{\sigma}^2}{N}$ es el error en la intercepción estimada (alias constante). Este valor es constante e independiente de los valores de X del target de puntos de datos.
  3. El último término es proporcional a la distancia cuadrática (Euclideana) del target de puntos de datos del centro del grupo de datos. Este término es cero en la muestra de datos del centro de puntos $(\bar{x}_{1,t},\bar{x}_{2,t},\cdots,\bar{x}_{k,t})$.

En efecto, la varianza de pronóstico es mayor para puntos de datos $(x_{1,t},x_{2,t},\cdots,x_{k,t})$ que están lejos del centro de la muestra registrada (i.e. $(\bar{x}_{1,t},\bar{x}_{2,t},\cdots,\bar{x}_{k,t})$).

Como resultado, el error de pronóstico es muy pequeño en el punto medio de la muestra de datos.$(\bar{x}_{1,t},\bar{x}_{2,t},\cdots,\bar{x}_{k,t})$.

¿Tiene más preguntas? Enviar una solicitud

0 Comentarios