PCR_FITTED - Adaptación de la PCR en la muestra

Devuelve un array de celdas para los valores ajustados de la media condicional, residuales o medidas de apalancamiento .

 

Sintaxis

PCR_FITTED(X, Mask, Y, Intercept, Return_type)

X es la matriz de datos de variables independientes, de manera que cada columna representa una variable.

Mask es la matriz booleana para escoger variables explicativas en el modelo. Si falta, todas las variables en X son incluidas.

Y es la respuesta o array de datos de variables dependientes (un array unidimensional de celdas (Ej. filas o columnas)).

Intercept es la constante o el valor del intercepto para corregir (Ej.cero). Si falta, un intercepto no será corregido y sera calculado normalmente.

Return_type es un switch para seleccionar la salida de resultados (1 = valores ajustados (defecto), 2 = residuales, 3 = residuales estandarizados, 4 = apalancamiento, 5 = distancia de Cook).

Método Descripción
1 Ajustado/media condicional
2 Residuales
3 Standardized (aka. Studentized) residuals
4 Apalancamiento (H)
5 Distancia de Cook (D)
 

Observaciones

  1. El modelo subyacente se describe aquí.
  2. La regresión ajustada (aka estimada) de la media condicional es calculada de la siguiente manera:

    $$\hat y_i = E \left[ Y| x_i1\cdots x_ip \right] = \alpha + \hat \beta_1 \times x_i1 + \cdots + \beta_p \times x_ip$$

    Residuales son definidos de la siguiente manera:

    $$ e_i = y_i - \hat y_i $$

    Los residuales estandarizados (aka studentized) son calculados de la siguinete manera:

    $$\bar e_i = \frac{e_i}{\hat \sigma_i} $$

    Donde:
    • $\hat y $ es el valor estimado de regresión.
    • $e $ es el termino de error en la regresión.
    • $\hat e $ es el termino de error estandarizado.
    • $\hat \sigma_i $ es el error estándar para la i-ésima observación.
  3. Para el analisis Para el análisis de datos influyente, PCR_FITTED calcula dos valores: estadísticas de apalancamiento y la distancia de Cook para las observaciones en nuestros datos de la muestra.
  4. Las estadísticas de apalancamiento describen la influencia que cada valor observado tiene en el valor ajustado por la misma observación. Por deficnición, los elementos diagonales de matriz sombrero son los apalancamientos.

    $$H = X \left(X^\top X \right)^{-1} X^\top$$

    $$L_i = h_{ii}$$ Donde:
    • $H$ es la matriz sombrero de términos de error no correlacionados.
    • $\mathbf{X}$ es una (N x p+1) matriz de variables explicativas donde toda la primera columna tiene unos.
    • $L_i$ es la estadística de apalancamiento para la i-ésima observación.
    • $h_{ii}$ es el elemento de la diagonal i -ésima en la matriz sombrero.
  5. La distancia de Cook mide el efecto de la eliminación de una observación dada. Los puntos de datos con largos residuales ()y/o altos apalancamientos pueden distorcionar la salida exactitud de la regrresión. Puntos con gran distancia de Cook son considerados como para merecer un evaluación más detallado en el análisis.

    $$D_i = \frac{e_i^2}{p \ \mathrm{MSE}}\left[\frac{h_{ii}}{(1-h_{ii})^2}\right]$$
    Donde:
    • $D_i$ es la distancia de Cook's para la i-ésima observación.
    • $h_{ii}$ las estadísticas de apalancamiento (o el elemento i-ésimo en la matriz sombrero).
    • $\mathrm{MSE}$ is the mean square error of the regression model.
    • $p$ es el número de variables explicativas.
    • $e_i$ es el término de error (residual) para la observación i -ésima.
  6. Los datos de la muestra pueden incluir valores que faltan .
  7. Cada columna de la matriz de entrada corresponde a una variable independiente.
  8. Cada fila de la matriz de entrada corresponde a una observación.
  9. Observaciones (es decir, filas) con valores faltantes en X o Y se eliminan.
  10. El número de filas de la variable de respuesta (Y) debe ser igual al número de filas de la variable explicativa (X).
  11. La funcion MLR_FITTED está disponible comenzando con la versión 1.60 APACHE.

Ejemplos de archivos

Referencias

  • Hamilton, J .D.; Time Series Analysis , Princeton University Press (1994), ISBN 0-691-04289-6
  • Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252-285
¿Tiene más preguntas? Enviar una solicitud

0 Comentarios