Calcula el modelo de regresión (de los componentes principales)análisis de los valores de la varianza analysis (ANOVA).
Sintaxis
PCR_ANOVA (X, Mask, Y, Intercept, Return)
- X
- es la matriz de datos de variables independientes, de manera que cada columna representa una variable.
- Mask
- es una matriz boolena para seleccionar las variables explicativas en el modelo. Si falta, todas las variables en X son incluidas.
- Y
- es la respuesta o array de datos de variables dependientes (un array unidimensional de celdas (Ej. filas o columnas)).
- Intercept
- es la constante o el valor del intercepto para corregir (Ej. cero). Si falta, un intercepto no será corregido y sera calculado normalmente.
- Return
- es un switch para seleccionar la salida de resultados (1 = SSR (por defecto), 2 = SSE, 3 = SST, 4 = MSR, 5 = MSE, 6 = F-Stat, 7 = P-Value).
Valor Return 1 SSR (por defecto). 2 SSE. 3 SST. 4 MSR. 5 MSE. 6 F-Stat. 7 P-Value.
Observaciones
- El modelo subyacente se describe aquí.
- $\mathbf{y} = \alpha + \beta_1 \times \mathbf{PC}_1 + \dots + \beta_p \times \mathbf{PC}_p$
- La regresión ANOVA examina las tablas de la siguiente hipótesis: $$\mathbf{H}_o: \beta_1 = \beta_2 = \dots = \beta_p = 0$$ $$\mathbf{H}_1: \exists \beta_i \neq 0, i \in \left[1,0 \right ]$$
- En otras palabras, La regresión ANOVA examina la probabilidad que la regresión No explica la variación en$\mathbf{y}$, Ej. que cualquier ajuste es hecho puramente por azar.
- MLR_ANOVA calcula los diferentes valores en las tablas ANOVA de la siguiente manera: $$\mathbf{SST}=\sum_{i=1}^N \left(Y_i - \bar Y \right )^2 $$ $$\mathbf{SSR}=\sum_{i=1}^N \left(\hat Y_i - \bar Y \right )^2 $$ $$\mathbf{SSE}=\sum_{i=1}^N \left(Y_i - \hat Y_i \right )^2 $$ Donde:
- $\mathbf{PC}$ es el componente principal.
- $N$ es el número de observaciones no faltantes en los datos de la muestra.
- $\bar Y$ es el promedio de muestra empírica para la variable dependiente.
- $\hat Y_i$ es el valor estimado del modelo de regresión para la i-ésima observación.
- $\mathbf{SST}$ es el total de la suma de los cuadrados de la variable dependiente.
- $\mathbf{SSR}$ es el total de la suma de los cuadrados para el estimado de regresión (Ej. $\hat y$).
- $\mathbf{SSE}$ es la suma total del error (aka residuales $\epsilon$) términos para la regresión (Ej. $\epsilon = y - \hat y$) estimación.
- $\mathbf{SST} = \mathbf{SSR} + \mathbf{SSE}$.
- $p$ es el número de variables explicativas (aka predictor) en la regresión.
- $\mathbf{MSR}$ es la media cuadrada de la regresión.
- $\mathbf{MSE}$ es la media cuadrada de los residuales.
- $\textrm{F-Stat}$ es el puntaje de la prueba de hipótesis.
- $\textrm{F-Stat} \sim \mathbf{F}\left(p,N-p-1 \right)$.
- Los datos de la muestra pueden incluir valores faltantes.
- Cada columna en la matriz de entrasa corresponde a una variable separada.
- Cada columna en la matriz de entrada corresponde a una observación.
- Observaciones (Ej. filas) con valores faltantes en X o Y son eliminados.
- El número de filas de la variable de respuesta (Y) debe ser igual al número de filas de las variables explicativas (X).
- La funcion MLR_ANOVA está disponible comenzando con la versión 1.60 APACHE.
Ejemplos de archivos
Enlaces Relacionados
- Wikipedia - Regresión lineal.
- Wikipedia - Análisis de la regresión.
- Wikipedia - Mínimos cuadrados ordinarios.
Referencias
- Hamilton, J.D.; Time Series Analysis, Princeton University Press (1994), ISBN 0-691-04289-6.
- Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252-285.
Comentarios
El artículo está cerrado para comentarios.