Libro de recetas de NumXL - GLM con datos binarios

Mohamad

3 de marzo de 2017 00:15

En este tutorial usaremos los datos de muestra recogidos durante un ensayo clínico del uso de un nuevo fármaco/pesticida en los ácaros del tabaco. Los sujetos (i.e. ácaros) están agrupados en tandas de 20, y expuestos a diferentes dosis del químico. Los resultados están resumidos a continuación.

Tabla de datos de resultados para el modelo lineal generalizado con ejemplo de datos binarios

Preparación de Datos

Nuestro objetivo aquí es modelar (y sacar un pronóstico) la efectividad del nuevo químico usando diferentes dosis, y explicar, hasta cierto punto, cualquier variación basada en el género del ácaro. Además, queremos expresar los resultados en términos de las tasas de mortalidad de dicho gusano (i.e. probabilidad).

modelo generalizado lineal en excel - Cubriendo datos binarios con tasas de mortalidad

Graficamos los datos en dos curvas separadas: machos y hembras. Aparentemente la tasa de mortalidad se ve afectada por estos dos factores: género y número de dosis.

modelo lineal generalizado en excel En Excel - Grafiquemos las tasas de mortalidad para los ácaros machos y hembras.

Haremos dos conjeturas: (1) los resultados de cada ensayo (i.e. lote) son recogidos de una población distribuida en forma binomial: querríamos estimar p- el éxito de probabilidad (i.e. muerte de los gusanos). Está permitido que la probabilidad (p) varíe a través de diferentes ensayos (lotes). (2) El éxito de probabilidad se ve afectado por dos factores: género del sujeto y la dosis de droga administrada.

Basándonos en estas conjeturas , modelaremos esta relación:

$$P=f(X,Y)=E[p|X,Y]$$

Modelado

Estamos listos para proponer un modelo estadístico: modelo lineal generalizado en Excel con residuos siguiendo la distribución binomial.

Herramienta de modelo lineal generalizado (Modelo lineal generalizado en Excel)

Por ahora, escogeremos “Logit” como nuestra función conectora (de transformción), especifiquemos el tamaño del ensayo o del lote (20), y démosle la instrucción de calibrar a la herramienta (i.e. calcular valores óptimos para los coeficientes). Dejemos revisadas las opciones de ajuste de calidad y de diagnóstico residual.

Modelo generalizado lineal (Modelo generalizado lineal en Excel ) - Tabla de resultado del Modelo de especificación

Calibrado

En este caso, la herramienta del Modelo lineal generalizado en Excel (GLM) ha calibrado los coeficientes de los modelos así que podemos saltarnos este paso.

Pero, en el caso de que deseemos experimentar con diferentes vínculos de la función: LOGIT, PROBIT or LOG-LOG, entonces debemos re-calibrar el modelo. Para hacerlo podemos:

Crear un nuevo modelo con la herramienta, o
Cambiar el “Lvk” parámetro en una tabla de modelo existente y ejecutar el calibrado usando la barra de herramientas de NumXL

Herramienta de calibrado del modelo lineal generalizado (GLM en Excel) o formulario de usuario

Paso 1: Seleccionemos la celda que actúa como encabezado de la tabla modelo

Paso 2: Hagamos click en el ícono/menú de calibrado (Excel 2003)

Paso 3: Hagamos click en el botón ¨Resolver¨/“Solve” en la ventana de ¨Solver¨

Pronóstico

Una vez el modelo sea calibrado y estemos satisfechos con los residuos, podemos usarlo para construir nuestro pronóstico medio (y un intervalo de confianza en torno a él).

Usando la función NumXL (GLM_FORE), podemos calcular la media. Usando GLM_FORECI, podemos calcular el límite superior e inferior del intervalo de confianza.

Tabla de resultado de pronóstico del modelo lineal generalizado (Modelo lineal generalizado en Excel)

Graficando los datos de nuevo (actuales) versus los valores de modelado.

Pronóstico de modelo lineal generalizado (Modelo lineal generalizado en Excel) con región confiable para los gusanos machos

Los puntos representan los datos de muestra, mientras que la línea central es el pronóstico medio. Las regiones sombreadas en las gráficas son el 95% de intervalos de confiabilidad.

Notas:

El error de pronóstico decae a medida que incrementamos la dosificación (C.I. se hace más estrecho). Esto es evidente en lotes de hembras y machos
La relación logarítmica detectada cuando graficamos los datos brutos puede ser apenas una anomalía en términos de datos; El Modelo generalizado lineal en Excel muestra más como una relación de tipo cuadrática.
La media no es exactamente el centro de los intervalos de confiabilidad debido a la discreta naturaleza de la distribución binomial subyacente y el pequeño tamaño del lote/muestra.

Tutorial Video

Archivos adjuntos

GLM-Binomial-BudWorms.xlsx (20 kB)
GLM-Tutorial.pdf (400 kB)