Calcula una medida de la bondad de ajuste (Ej. R cuadrado, R cuadrado ajustado, MSRE, LLF, AIC, etc.).
Sintaxis
PCR_GOF(X, Mask, Y, Intercept, Return_type)
- X
- es la matriz de datos de variables independientes, de manera que cada columna representa una variable.
- Mask
- es la matriz booleana para escoger variables explicativas en el modelo. Si falta, todas las variables en X son incluidas.
- Y
- es la respuesta o array de datos de variables dependientes (un array unidimensional de celdas (Ej. filas o columnas)).
- Intercept
- es la constante o el valor del intercepto para corregir (Ej.cero). Si falta, un intercepto no será corregido y sera calculado normalmente.
- Return_type
- es un switch para seleccionar una medida de ajuste (1 = R-cuadrado (defecto), 2 = R- cuadrado ajustado, 3 = RMSE, 4 = LLF, 5 = AIC, 6 = BIC/SIC ).
Método Descripción 1 R-cuadrado 2 R-cuadrado ajustado 3 Error de regresión (RMSE) 4 Log-verosimilitud (LLF) 5 Criterio de Información AkaikeAka (AIC) 6 Criterio de Información Schwartz/Bayesiano (SBIC)
Observaciones
- El modelo subyacente se describe aquí.
- El coeficiente de determinacion, denotado $R^2$, provee una medida de que tan bien la medida de las salidas observadas son replicadas por el modelo.
$$R^2 = \frac{\mathrm{SSR}} {\mathrm{SST}} = 1 - \frac{\mathrm{SSE}} {\mathrm{SST}}$$ - El ajuste R-cuadrático (denotado $\bar R^2$) es un intento para tener en cuenta del fenómeno de $R^2$ donde automaticamnte y con un incrementando engañoso las variables extra explicativas son adicionadas al modelo. La $\bar R^2$ hace ajustes para el número de terminos explicativos en un modelo relativo al número de puntos de datos.
$$\bar R^2 = {1-(1-R^{2}){N-1 \over N-p-1}} = {R^{2}-(1-R^{2}){p \over N-p-1}} = 1 - \frac{\mathrm{SSE}/(N-p-1)}{\mathrm{SST}/(N-1)}$$
Where:- $p$ es el número de las variables explicativas en el modelo.
- $N$ es el número de observaciones en la muestra.
- El error regresión es definido como la raíz cuadrada para el error cuadrático medio (RMSE):
$$\mathrm{RMSE} = \sqrt{\frac{SSE}{N-p-1}}$$ - La log verosimilitud de la regresión es dado como:
$$\mathrm{LLF}=-\frac{N}{2}\left(1+\ln(2\pi)+\ln\left(\frac{\mathrm{SSR}}{N} \right ) \right )$$
El criterio de información Akaike y Schwarz/Bayesiano son dados como:
$$\mathrm{AIC}=-\frac{2\mathrm{LLF}}{N}+\frac{2(p+1)}{N}$$
$$\mathrm{BIC} = \mathrm{SIC}=-\frac{2\mathrm{LLF}}{N}+\frac{(p+1)\times\ln(p+1)}{N}$$ - Los datos de la muestra pueden incluir valores faltantes.
- Cada columna en la matriz corresponde a una variable independiente
- Cada fila en la matriz de entrada corresponde a una observación.
- Observaciones (Ej.filas) con valores faltantes en X o Y son eliminados.
- El número de filas de la variable de respuesta (Y) debe ser igual al número de filas de la variable explicativa (X).
- La función MLR_GOF está disponible comenzando con la versión 1.60 APACHE.
Ejemplos de archivos
Enlaces Relacionados
- Wikipedia - Linear regression Wikipedia - Análisis de la regresión Wikipedia - Mínimos cuadrados ordinarios
Referencias
- Hamilton, J .D.; Time Series Analysis , Princeton University Press (1994), ISBN 0-691-04289-6
- Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252-285
Comentarios
El artículo está cerrado para comentarios.