PCR_ANOVA - Análisis de ANOVA para PCR

Calcula el modelo de regresión (de los componentes principales)análisis de los valores de la varianza analysis (ANOVA).

 

Sintaxis

PCR_ANOVA(X, Mask, Y, Intercept, Return_type)

X es la matriz de datos de variables independientes, de manera que cada columna representa una variable.

Mask es una matriz boolena para seleccionar las variables explicativas en el modelo. Si falta, todas las variables en X son incluidas.

Y es la respuesta o array de datos de variables dependientes (un array unidimensional de celdas (Ej. filas o columnas)).

Intercept es la constante o el valor del intercepto para corregir (Ej.cero). Si falta, un intercepto no será corregido y sera calculado normalmente.

Return_type es un switch para seleccionar la salida de resultados (1 = SSR (defecto), 2 = SSE, 3 = SST, ... (ver archivode ayuda)).

Método Descripción
1 SSR
2 SSE
3 SST
4 MSR
5 MSE
6 F-Stat
7 P-Value
 

Observaciones

  1. El modelo subyacente se describe aquí.
  2. $$\mathbf{y} = \alpha + \beta_1 \times \mathbf{PC}_1 + \dots + \beta_p \times \mathbf{PC}_p$$
  3. La regresión ANOVA examina las tablas de la siguiente hipótesis:

    $$\mathbf{H}_o: \beta_1 = \beta_2 = \dots = \beta_p = 0 $$
    $$\mathbf{H}_1: \exists \beta_i \neq 0, i \in \left[1,0 \right ] $$
  4. En otras palabras, La regresión ANOVA examina la probabilidad que la regresión No explica la variación en$\mathbf{y}$, Ej. que cualquier ajuste es hecho puramente por azar.
  5. MLR_ANOVA calcula los diferentes valores en las tablas ANOVA de la siguiente manera:

    $$\mathbf{SST}=\sum_{i=1}^N \left(Y_i - \bar Y \right )^2 $$
    $$\mathbf{SSR}=\sum_{i=1}^N \left(\hat Y_i - \bar Y \right )^2 $$
    $$\mathbf{SSR}=\sum_{i=1}^N \left(Y_i - \hat Y_i \right )^2 $$
    Donde:
    • $\mathbf{PC}$ es el componente principal.
    • $N$ es el número de observaciones no faltantes en los datos de la muestra.
    • $\bar Y$ es el promedio de muestra empírica para la variable dependiente.
    • $\hat Y_i$ es el valor estimado del modelo de regresión para la i-ésima observación.
    • $\mathbf{SST}$ es el total de la suma de los cuadrados de la variable dependiente.
    • $\mathbf{SSR}$ es el total de la suma de los cuadrados para el estimado de regresión (Ej. $\hat y$).
    • $\mathbf{SSE}$ es la suma total del error (aka residuales $\epsilon$) términos para la regresión (i.e. $\epsilon = y - \hat y$) estimación.
    • $\mathbf{SST} = \mathbf{SSR} + \mathbf{SSE}$
    AND
    $$\mathbf{MSR} = \frac{\mathbf{SSR} }{p} $$

    $$\mathbf{MSE} = \frac{ \mathbf{SSE} }{N-p-1}$$

    $$\mathbf{F-Stat} = \frac{\mathbf{MSR} }{\mathbf{MSE} }$$


    Where:
    • $p$ es el número de variables explicativas (aka predictor) en la regresión.
    • $\mathbf{MSR}$ es la media cuadrada de la regresión.
    • $\mathbf{MSE}$ es la media cuadrada de los residuales.
    • $\textrm{F-Stat}$ es el puntaje de la prueba de hipótesis.

    • $\textrm{F-Stat} \sim \mathbf{F}\left(p,N-p-1 \right)$
  6. Los datos de la muestra pueden incluir valores faltantes.
  7. Cada columna en la matriz de entrasa corresponde a una variable separada.
  8. Cada columna en la matriz de entrada corresponde a una observación.
  9. Observaciones (Ej. filas) con valores faltantes en X o Y son eliminados.
  10. El número de filas de la variable de respuesta (Y) debe ser igual al número de filas de las variables explicativas (X).
  11. La funcion MLR_ANOVA está disponible comenzando con la versión 1.60 APACHE.

Ejemplos de archivos

Referencias

  • Hamilton, J .D.; Time Series Analysis , Princeton University Press (1994), ISBN 0-691-04289-6
  • Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252-285
¿Tiene más preguntas? Enviar una solicitud

0 Comentarios