PCR_GOF - PCR Bondad de ajuste

Calcula una medida de la bondad de ajuste (Ej. R cuadrado, R cuadrado ajustado, MSRE, LLF, AIC, etc.).

 

Sintaxis

PCR_GOF(X, Mask, Y, Intercept, Return_type)

X es la matriz de datos de variables independientes, de manera que cada columna representa una variable.

Mask es la matriz booleana para escoger variables explicativas en el modelo. Si falta, todas las variables en X son incluidas.

Y es la respuesta o array de datos de variables dependientes (un array unidimensional de celdas (Ej. filas o columnas)).

Intercept es la constante o el valor del intercepto para corregir (Ej.cero). Si falta, un intercepto no será corregido y sera calculado normalmente.

Return_type es un switch para seleccionar una medida de ajuste (1 = R-cuadrado (defecto), 2 = R- cuadrado ajustado, 3 = RMSE, 4 = LLF, 5 = AIC, 6 = BIC/SIC ).

Método Descripción
1 R-cuadrado
2 R-cuadrado ajustado
3 Error de regresión (RMSE)
4 Log-verosimilitud (LLF)
5 Criterio de Información AkaikeAka (AIC)
6 Criterio de Información Schwartz/Bayesiano (SBIC)
 

Observaciones

  1. El modelo subyacente se describe aquí.
  2. El coeficiente de determinacion, denotado $R^2$, provee una medida de que tan bien la medida de las salidas observadas son replicadas por el modelo.

    $$R^2 = \frac{\mathrm{SSR}} {\mathrm{SST}} = 1 - \frac{\mathrm{SSE}} {\mathrm{SST}}$$
  3. El ajuste R-cuadrático (denotado $\bar R^2$) es un intento para tener en cuenta del fenómeno de $R^2$ donde automaticamnte y con un incrementando engañoso las variables extra explicativas son adicionadas al modelo. La $\bar R^2$ hace ajustes para el número de terminos explicativos en un modelo relativo al número de puntos de datos.

    $$\bar R^2 = {1-(1-R^{2}){N-1 \over N-p-1}} = {R^{2}-(1-R^{2}){p \over N-p-1}} = 1 - \frac{\mathrm{SSE}/(N-p-1)}{\mathrm{SST}/(N-1)}$$

    Where:
    • $p$ es el número de las variables explicativas en el modelo.
    • $N$ es el número de observaciones en la muestra.
  4. El error regresión es definido como la raíz cuadrada para el error cuadrático medio (RMSE):

    $$\mathrm{RMSE} = \sqrt{\frac{SSE}{N-p-1}}$$
  5. La log verosimilitud de la regresión es dado como:

    $$\mathrm{LLF}=-\frac{N}{2}\left(1+\ln(2\pi)+\ln\left(\frac{\mathrm{SSR}}{N} \right ) \right )$$
    El criterio de información Akaike y Schwarz/Bayesiano son dados como:

    $$\mathrm{AIC}=-\frac{2\mathrm{LLF}}{N}+\frac{2(p+1)}{N}$$
    $$\mathrm{BIC} = \mathrm{SIC}=-\frac{2\mathrm{LLF}}{N}+\frac{(p+1)\times\ln(p+1)}{N}$$
  6. Los datos de la muestra pueden incluir valores faltantes.
  7. Cada columna en la matriz corresponde a una variable independiente
  8. Cada fila en la matriz de entrada corresponde a una observación.
  9. Observaciones (Ej.filas) con valores faltantes en X o Y son eliminados.
  10. El número de filas de la variable de respuesta (Y) debe ser igual al número de filas de la variable explicativa (X).
  11. La función MLR_GOF está disponible comenzando con la versión 1.60 APACHE.

Ejemplos de archivos

Referencias

  • Hamilton, J .D.; Time Series Analysis , Princeton University Press (1994), ISBN 0-691-04289-6
  • Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252-285
¿Tiene más preguntas? Enviar una solicitud

0 Comentarios