En este tutorial usaremos los datos de muestra recogidos durante un ensayo clínico del uso de un nuevo fármaco/pesticida en los ácaros del tabaco. Los sujetos (i.e. ácaros) están agrupados en tandas de 20, y expuestos a diferentes dosis del químico. Los resultados están resumidos a continuación.
Preparación de Datos
Nuestro objetivo aquí es modelar (y sacar un pronóstico) la efectividad del nuevo químico usando diferentes dosis, y explicar, hasta cierto punto, cualquier variación basada en el género del ácaro. Además, queremos expresar los resultados en términos de las tasas de mortalidad de dicho gusano (i.e. probabilidad).
Graficamos los datos en dos curvas separadas: machos y hembras. Aparentemente la tasa de mortalidad se ve afectada por estos dos factores: género y número de dosis.
Haremos dos conjeturas: (1) los resultados de cada ensayo (i.e. lote) son recogidos de una población distribuida en forma binomial: querríamos estimar p- el éxito de probabilidad (i.e. muerte de los gusanos). Está permitido que la probabilidad (p) varíe a través de diferentes ensayos (lotes). (2) El éxito de probabilidad se ve afectado por dos factores: género del sujeto y la dosis de droga administrada.
Basándonos en estas conjeturas , modelaremos esta relación:
$$P=f(X,Y)=E[p|X,Y]$$
Modelado
Estamos listos para proponer un modelo estadístico: modelo lineal generalizado en Excel con residuos siguiendo la distribución binomial.
Por ahora, escogeremos “Logit” como nuestra función conectora (de transformción), especifiquemos el tamaño del ensayo o del lote (20), y démosle la instrucción de calibrar a la herramienta (i.e. calcular valores óptimos para los coeficientes). Dejemos revisadas las opciones de ajuste de calidad y de diagnóstico residual.
Calibrado
En este caso, la herramienta del Modelo lineal generalizado en Excel (GLM) ha calibrado los coeficientes de los modelos así que podemos saltarnos este paso.
Pero, en el caso de que deseemos experimentar con diferentes vínculos de la función: LOGIT, PROBIT or LOG-LOG, entonces debemos re-calibrar el modelo. Para hacerlo podemos:
- Crear un nuevo modelo con la herramienta, o
- Cambiar el “Lvk” parámetro en una tabla de modelo existente y ejecutar el calibrado usando la barra de herramientas de NumXL
Paso 1: Seleccionemos la celda que actúa como encabezado de la tabla modelo
Paso 2: Hagamos click en el ícono/menú de calibrado (Excel 2003)
Paso 3: Hagamos click en el botón ¨Resolver¨/“Solve” en la ventana de ¨Solver¨
Pronóstico
Una vez el modelo sea calibrado y estemos satisfechos con los residuos, podemos usarlo para construir nuestro pronóstico medio (y un intervalo de confianza en torno a él).
Usando la función NumXL (GLM_FORE), podemos calcular la media. Usando GLM_FORECI, podemos calcular el límite superior e inferior del intervalo de confianza.
Graficando los datos de nuevo (actuales) versus los valores de modelado.
Los puntos representan los datos de muestra, mientras que la línea central es el pronóstico medio. Las regiones sombreadas en las gráficas son el 95% de intervalos de confiabilidad.
Notas:
- El error de pronóstico decae a medida que incrementamos la dosificación (C.I. se hace más estrecho). Esto es evidente en lotes de hembras y machos
- La relación logarítmica detectada cuando graficamos los datos brutos puede ser apenas una anomalía en términos de datos; El Modelo generalizado lineal en Excel muestra más como una relación de tipo cuadrática.
- La media no es exactamente el centro de los intervalos de confiabilidad debido a la discreta naturaleza de la distribución binomial subyacente y el pequeño tamaño del lote/muestra.
Comentarios
Inicie sesión para dejar un comentario.