Livre de recettes NumXL - GLM avec données binaires

Mohamad

3 mars 2017 00:15

Dans ce tutoriel, nous utiliserons des échantillons de données recueillies au cours d'un essai clinique d'un nouveau produit chimique/pesticide sur les tordeuses de tabac. Les sujets (c'est-à-dire les tordeuses) sont regroupés en lots de 20 et exposés à différentes doses du produit chimique. Les résultats sont résumés ci-dessous :

Cette figure montre le tableau des données d'entrée pour le modèle linéaire généralisé dans Excel avec un exemple de données binaires.

Préparation des données

Notre objectif ici est de modéliser (et de prévoir) l'efficacité du nouveau produit chimique en utilisant différents dosages et d'expliquer, dans une certaine mesure, toute variation en fonction du sexe de la tordeuse. En outre, nous voulons exprimer les résultats en termes de taux de mortalité des vers (c'est-à-dire de probabilité).

Cette figure montre le modèle linéaire généralisé dans Excel - Convertir des données binaires en taux de mortalité

Les données sont réparties en deux courbes distinctes : les hommes et les femmes. Il apparaît que le taux de mortalité est influencé par deux facteurs : le sexe et le dosage.

Cette figure montre la courbe des taux de mortalité pour les hommes et les femmes.

Nous ferons deux hypothèses : (1) les résultats de chaque essai (c'est-à-dire de chaque lot) sont tirés d'une population distribuée de manière binomiale ; nous aimerions estimer p - la probabilité de succès (c'est-à-dire la mort du ver). La probabilité (p) peut varier d'un essai à l'autre (lot). (2) La probabilité de réussite est affectée par deux facteurs : le sexe du sujet et la dose de médicament administrée.

Sur la base de ces deux hypothèses, nous modéliserons cette relation :

$$P=f(X,Y)=E[p|X,Y]$$

Modélisation

Nous sommes maintenant prêts à proposer un modèle statistique : le modèle linéaire généralisé dans Excel avec des résidus suivant la distribution binomiale.

Cette figure montre l'assistant du modèle linéaire généralisé.

Pour l'instant, nous choisissons "Logit" comme fonction de liaison (transformation), nous spécifions la taille de l'essai ou du lot (20) et nous demandons à l'assistant de calibrer (c'est-à-dire de calculer les valeurs optimales des coefficients). Les options de qualité de l'ajustement et de diagnostic résiduel ne sont pas cochées.

Cette figure montre le tableau de sortie de la spécification du modèle

Calibrage

Dans ce cas, l'assistant du modèle linéaire généralisé dans Excel (GLM) a calibré les coefficients du modèle, nous pouvons donc sauter cette étape.

Toutefois, si nous souhaitons expérimenter différentes fonctions de liaison : LOGIT, PROBIT ou LOG-LOG, nous devons recalibrer le modèle. Pour ce faire, nous pouvons soit

Créer un nouveau modèle à l'aide de l'assistant, ou,
Modifier le paramètre "Lvk" dans une table de modèle existante et effectuer le calibrage à l'aide de la barre d'outils NumXL.

Cette figure montre l'assistant d'étalonnage ou le formulaire utilisateur.

Étape 1 : Sélectionner la cellule qui sert d'en-tête au tableau modèle

Étape 2 : Cliquez sur l'icône/menu d'étalonnage (Excel 2003)

Étape 3 : Cliquez sur le bouton "Solve" dans la fenêtre Solver.

Prévisions

Une fois que le modèle est calibré et que nous sommes satisfaits des résidus, nous pouvons l'utiliser pour construire notre moyenne de prévision (et l'intervalle de confiance qui l'entoure).

En utilisant la fonction NumXL (GLM_FORE), nous pouvons calculer la moyenne. En utilisant GLM_FORECI, nous pouvons calculer les limites supérieure et inférieure de l'intervalle de confiance.

Cette figure montre le tableau de sortie des prévisions

Représentation graphique des données (réelles) par rapport aux valeurs du modèle.

Cette figure montre le graphique de prévision avec la région de confiance pour la tordeuse de bourgeons mâles dans Excel. Cette figure montre la prévision avec la région de confiance pour le ver de boudin féminin dans Excel.

Les points représentent les données de l'échantillon, tandis que la ligne centrale correspond à la moyenne des prévisions. Les régions ombrées dans les graphiques sont les intervalles de confiance à 95 %.

Notes

L'erreur de prévision diminue au fur et à mesure que l'on augmente le dosage (le C.I. se resserre). Ceci est évident pour les lots mâles et femelles
La relation logarithmique détectée lorsque nous traçons les données brutes peut n'être qu'une anomalie ; le modèle linéaire généralisé dans Excel montre plutôt une relation de type quadratique.
La moyenne n'est pas exactement le centre de l'intervalle de confiance en raison de la nature discrète de la distribution binomiale sous-jacente et de la taille réduite des lots/essais.

Tutoriel vidéo

Pièces jointes

GLM-Binomial-BudWorms.xlsx (20 ko)
GLM-Tutorial.pdf (400 ko)