Entendiendo distintas bondades de ajuste

Mohamad

28 de diciembre de 2016 18:27

No, Esto no es un resumen del juicio de O.J. Simpson pero es una pregunta a la que nos enfrentamos siempre que proponemos un modelo para nuestros datos: ¿se ajusta el modelo y explica adecuadamente la variación de los datos?

En un proceso de modelación de series de tiempo, buscamos una medida cuantitativa de la discrepancia (o la bondad de ajuste) entre los valores observados y los valores esperados bajo el modelo en cuestión. La medida de la discrepancia es crucial para dos aplicaciones importantes: (1) encontrar los valores óptimos de los parámetros del modelo, y (2) comparar modelos competidores en un intento de clavar el mejor. Nosotros creemos que el modelo con el mejor ajuste debería darnos predicciones superiores para los valores futuros.

Pueden surgir algunas preguntas: ¿Qué son las funciones de bondad de ajuste? ¿Cómo son diferentes entre sí? ¿Cuál debo usar? ¿Cómo se relacionan con la prueba de normalidad?

En este tutorial, vamos a discutir las diferentes funciones de bondad de ajuste a través de un ejemplo del promedio mensual de los niveles de ozono en Los Ángeles entre 1955 y 1972. Este conjunto de datos fue utilizado por Box, Jenkins y Riesel en su libro de series de tiempo - Pronóstico y control de series de tiempo, publicado en 1976.

Antecedentes

En este tutorial, comenzaremos con la función de verosimilitud y luego cubriremos las medidas derivadas (por ejemplo, AIC, BIC, HQC, etc.)

La función de verosimilitud se define como una función de los parámetros del modelo $ (\ theta) $ del modelo estadístico. La probabilidad de un conjunto de valores de parámetros dados algunos resultados observados ($\mathcal{L} (\theta | x) $) es igual a la probabilidad de los resultados observados dados los valores de los parámetros $(f_\theta (x))$.

$$\mathrm{L}(\theta |x)=f_\theta (x)$$

Donde

$f_\theta=$probability mass (density) function

Suponiendo {${x_t}$} consiste en distribuciones independientes e idénticamente distribuidas - (i.i.d) observaciones, La función de verosimilitud de un conjunto de muestras se expresa de la siguiente manera $$\mathcal{L}(\theta |x_1,x_2,...,x_T)=f_\theta(x_1,x_2,...,x_T)=f_\theta(x_1)f_\theta.(x_2).f_\theta(x_3)...f_\theta(x_T)=\prod_{t=1}^{T}f_\theta(x_t)$$

Para superar el valor decreciente de $\mathcal{L}(\theta |x_1,x_2,...,x_T)$ A medida que aumenta el tamaño de la muestra y para simplificar su cálculo, tomamos el logaritmo natural de la función de verosimilitud.

$$LLF(\theta | x_1,x_2,...,x_T)=\ln(\mathcal{L}(\theta | x_1, x_2,...x_T))=\sum_{t=1}^{T}\ln(f_\theta(x_t))$$

Ejemplo 1: distribución Gaussiana

$$LLF(\mu,\sigma |x_1,x_2,...,x_T )=\sum_{t=1}^{T}\ln(\frac{e^\frac{(x_t-\mu )^2}{2\sigma^2 }}{\sqrt{2\pi\sigma }})=\frac{-T\ln(2\pi\sigma^2 )}{2}-\sum_{t=1}^{T}\frac{(x_t-\mu )^2}{2\sigma ^2}$$

$$LLF(\mu,\sigma |x_1,x_2,...,x_T )=\frac{-T\ln(2\pi\sigma ^2)-(T-1)\left ( \frac{ \hat{\sigma}}{\sigma} \right )^2}{2}$$

$$LLF(\mu =0,\sigma^2=1 |x_1,x_2,...,x_T )=- \frac{1}{2} (T\ln (2\pi)+(T-1){\sigma^*}^2)$$

Donde:

$\sigma^* =$ La estimación no sesgada de la desviación estándar
$\sigma=$ la desviación estándar de distribución
$\mu=$ la media de los datos de la muestra o promedio

Nota:

La función log-verosimilitud está linealmente relacionada con la varianza de los datos de la muestra; A medida que aumenta la varianza de los datos de la muestra (el ajuste es peor), la probabilidad de log-verosimilitud disminuye y viceversa.

Comparación de modelos

Normalmente, usamos el LLF en la búsqueda de los valores óptimos de los coeficientes de un modelo utilizando un conjunto de datos de muestra.

Para comparar la bondad de ajuste entre modelos, nos encontramos con dos desafíos principales:

El número de parámetros libres$(k)$ dn cada modelo es diferente. Utilizando LLF Tal y como está ahora, es posible que el LLF dé mayor peso a los modelos complejos, ya que pueden (en teoría) sobre-ajustarse a los datos de la muestra.
Debido a las diferentes órdenes de retraso en cada modelo, el número de observaciones no faltantes restantes $ (N) $ puede diferir entre modelos, suponiendo que usamos los mismos datos de muestra con todos los modelos.

Utilizamos dos medidas distintas para abordar estas cuestiones:

Criterio de Información Akaike (AIC)

$$AIC=-2\times LLF+\frac{2\times N\times k}{N-k-1}$$ $$AICc=AIC+\frac{2k(k+1)}{N-k-1}=-2\times LLF+\frac{2\times N\times k}{N-k-1}$$

La definición original (AIC) añade un término de penalización lineal para el número de parámetros libres, pero el AICc añade un segundo término para factorizar el tamaño de la muestra, haciéndolo más adecuado para tamaños de muestra más pequeños.

Criterio de Información Bayesiano (Schwarz) (BIC/SIC o BSC)

$$BIC=-2\times LLF+k\ln(N) $$

Al igual que en el criterio de información Akaike (AIC), el criterio de información Bayesiano (BIC) penaliza la complejidad del modelo $(k)$. Dado cualquiera de los dos modelos estimados, el modelo con el valor más bajo de BIC es preferido.

El BIC generalmente penaliza los parámetros libres más fuertemente que el AIC, aunque depende del tamaño de n y de la magnitud relativa de n y K

Niveles de ozono en el centro de Los Ángeles

En este tutorial, usaremos el promedio mensual de los niveles de ozono por hora en LA entre enero de 1955 y diciembre de 1972.

El proceso subyacente exhibe estacionalidad alrededor de un período de 12 meses, pero parece que se deteriora con el tiempo. Hay dos hechos importantes a considerar en este ejemplo:

En 1960 ocurrieron dos eventos importantes que podrían haber reducido los niveles de ozono: (1) se abrió la autopista Free Golden State y (2) se aprobó una nueva regla (regla 63) para reducir la proporción permisible de hidrocarburos en la gasolina vendida localmente .
En 1966, se adoptó una reglamentación que exigía cambios en el diseño del motor que se esperaba que disminuyera la producción de ozono en automóviles nuevos.

El proceso subyacente había sufrido cambios importantes a lo largo del período de datos de la muestra. Para propósitos de pronóstico, excluimos las observaciones entre 1955 y 1966. Para este tutorial, asumimos que no conocíamos esos eventos y simplemente los ignoramos.

Las estadísticas de resumen sugieren lo siguiente: (1) correlación en serie, (2) efecto arco y (3) sesgo significativo.

A continuación, vamos a examinar la gráfica de ACF (Función de autocorrelación) y PACF (Función de autocorrelación parcial) (correlograma)

El correlograma (ACF y PACF) es similar a un modelo de tipo aerolínea con un período de estacionalidad de 12 meses. Fuimos adelante y construimos el modelo, luego calibramos sus valores de parámetros usando los datos de la muestra.

$$(1-L)(1-L^{12})x_t=\mu +(1-\theta L)(1-\Theta L^{12})a_t$$ $$a_t=\sigma \times\varepsilon _t$$ $$\varepsilon_t\sim i.i.d\sim N(0,1)$$

Nota:

El proceso de calibración es un simple problema de maximización Con el LLF como la función de utilidad, y la función de validez del modelo como la única restricción.También podemos utilizar AIC o BIC como la función de utilidad en lugar de la LLF, pero tenemos que buscar los valores de los parámetros que minimizan la utilidad.

Ahora calculemos los residuos estandarizados y determinamos las diferentes medidas de bondad de ajuste: LLF, AIC y BIC.

1. Calcular los residuos

De manera difícil: Utilizando la función AIRLINE_MEAN, obtenga los valores del modelo estimado y sustraiga los de los valores observados para obtener los residuos brutos. Resta la media de los residuales de los residuos brutos y divide por la desviación estándar para obtener los residuales estandarizados.
De forma fácil: Utilizando la función Utilizando la función AIRLINE_RESID se obtendrá una matriz de los residuos estandarizados del modelo.

Vamos a trazar la distribución (y QQ-Plot) de los residuales estandarizados.

2. Calcula la log-verosimilitud para los residuales estandarizados

Ahora, calculemos la función log-verosimilitud. Podemos hacerlo calculando el registro de la función de masa en cada punto y luego añadiéndolos juntos, o simplemente usando esta fórmula:

$$LLF=-\frac{1}{2}(N\ln(2\pi)+(N-1)\hat{\sigma }^2)$$

Note:

El número de puntos no faltantes es 203 (i.e. 216 – 13). Hemos perdido 13 puntos.
LLF no es idéntica a la que teníamos antes (LLF = -265) en la tabla del modelo Airline. El AIRLINE_LLF utiliza la aproximación de Whittle para calcular la función LLF, que es relativamente cercana y eficiente para datos de muestra grande.
Los valores AIC y BIC son relativamente cercanos, pero el BIC penaliza más que AIC.

Conclusión

La función de log verosimilitud ofrece una forma intuitiva de pensar en el ajuste de un modelo con un conjunto de datos de muestra, pero carece de consideración para la complejidad del modelo o el tamaño de la muestra. Por lo tanto, no es apropiado para comparar modelos de diferentes órdenes.

El criterio de información Akaike y Bayesiano llenan la brecha que deja LLF cuando se trata de comparar modelos. Ambos ofrecen condiciones de penalización para el número de parámetros libres y el número de observaciones no faltantes. Además, en la práctica, el BIC es más utilizado que el AIC, especialmente en los procesos de identificación y selección de modelos.

Para comparar modelos, por favor dese cuenta que necesitamos utilizar los mismos datos de muestra con todos los modelos. No podemos usar AIC o BIC para comparar dos modelos, cada uno calculado usando un conjunto de datos diferente.

Tutorial Video