PCR_GOF - PCR Bondad de ajuste

Mohamad

22 de octubre de 2016 01:14

Calcula una medida de la bondad de ajuste (Ej. R cuadrado, R cuadrado ajustado, MSRE, LLF, AIC, etc.).

Sintaxis

PCR_GOF(X, Mask, Y, Intercept, Return_type)

X

es la matriz de datos de variables independientes, de manera que cada columna representa una variable.

Mask

es la matriz booleana para escoger variables explicativas en el modelo. Si falta, todas las variables en X son incluidas.

Y

es la respuesta o array de datos de variables dependientes (un array unidimensional de celdas (Ej. filas o columnas)).

Intercept

es la constante o el valor del intercepto para corregir (Ej.cero). Si falta, un intercepto no será corregido y sera calculado normalmente.

Return_type

es un switch para seleccionar una medida de ajuste (1 = R-cuadrado (defecto), 2 = R- cuadrado ajustado, 3 = RMSE, 4 = LLF, 5 = AIC, 6 = BIC/SIC ).

Método	Descripción
1	R-cuadrado
2	R-cuadrado ajustado
3	Error de regresión (RMSE)
4	Log-verosimilitud (LLF)
5	Criterio de Información AkaikeAka (AIC)
6	Criterio de Información Schwartz/Bayesiano (SBIC)

Observaciones

El modelo subyacente se describe aquí.
El coeficiente de determinacion, denotado $R^2$, provee una medida de que tan bien la medida de las salidas observadas son replicadas por el modelo.

$$R^2 = \frac{\mathrm{SSR}} {\mathrm{SST}} = 1 - \frac{\mathrm{SSE}} {\mathrm{SST}}$$
El ajuste R-cuadrático (denotado $\bar R^2$) es un intento para tener en cuenta del fenómeno de $R^2$ donde automaticamnte y con un incrementando engañoso las variables extra explicativas son adicionadas al modelo. La $\bar R^2$ hace ajustes para el número de terminos explicativos en un modelo relativo al número de puntos de datos.

$$\bar R^2 = {1-(1-R^{2}){N-1 \over N-p-1}} = {R^{2}-(1-R^{2}){p \over N-p-1}} = 1 - \frac{\mathrm{SSE}/(N-p-1)}{\mathrm{SST}/(N-1)}$$

Where:
- $p$ es el número de las variables explicativas en el modelo.
- $N$ es el número de observaciones en la muestra.
El error regresión es definido como la raíz cuadrada para el error cuadrático medio (RMSE):

$$\mathrm{RMSE} = \sqrt{\frac{SSE}{N-p-1}}$$
La log verosimilitud de la regresión es dado como:

$$\mathrm{LLF}=-\frac{N}{2}\left(1+\ln(2\pi)+\ln\left(\frac{\mathrm{SSR}}{N} \right ) \right )$$
El criterio de información Akaike y Schwarz/Bayesiano son dados como:

$$\mathrm{AIC}=-\frac{2\mathrm{LLF}}{N}+\frac{2(p+1)}{N}$$
$$\mathrm{BIC} = \mathrm{SIC}=-\frac{2\mathrm{LLF}}{N}+\frac{(p+1)\times\ln(p+1)}{N}$$
Los datos de la muestra pueden incluir valores faltantes.
Cada columna en la matriz corresponde a una variable independiente
Cada fila en la matriz de entrada corresponde a una observación.
Observaciones (Ej.filas) con valores faltantes en X o Y son eliminados.
El número de filas de la variable de respuesta (Y) debe ser igual al número de filas de la variable explicativa (X).
La función MLR_GOF está disponible comenzando con la versión 1.60 APACHE.

Ejemplos de archivos

Enlaces Relacionados

Wikipedia - Linear regression Wikipedia - Análisis de la regresión Wikipedia - Mínimos cuadrados ordinarios

Referencias

Hamilton, J .D.; Time Series Analysis , Princeton University Press (1994), ISBN 0-691-04289-6
Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252-285

Sintaxis

Observaciones

Ejemplos de archivos

Enlaces Relacionados

Referencias

Artículos relacionados

Comentarios