NumXL Kochbuch - GLM mit binären Daten

Mohamad

3. März 2017 00:15

In diesem Tutorium werden wir Beispieldaten verwenden, die während eines klinischen Versuchs mit einer neuen Chemikalie/einem neuen Pestizid an Tabakbudworms gesammelt wurden. Die Probanden (d. h. die Knospenwürmer) werden in Gruppen von 20 Personen eingeteilt und verschiedenen Dosen der Chemikalie ausgesetzt. Die Ergebnisse werden im Folgenden zusammengefasst:

Diese Abbildung zeigt die Eingabedatentabelle für ein verallgemeinertes lineares Modell in Excel mit einem binären Datenbeispiel

Vorbereitung der Daten

Unser Ziel ist es, die Wirksamkeit der neuen Chemikalie unter Verwendung verschiedener Dosierungen zu modellieren (und vorherzusagen) und bis zu einem gewissen Grad etwaige Unterschiede in Abhängigkeit vom Geschlecht des Knospenwurms zu erklären. Außerdem wollen wir die Ergebnisse in Form von Sterblichkeitsraten (d. h. Wahrscheinlichkeiten) ausdrücken.

Diese Abbildung zeigt das verallgemeinerte lineare Modell in Excel - Umwandlung binärer Daten in Sterblichkeitsraten

Wir stellen die Daten in zwei getrennten Kurven dar: für Männer und Frauen. Es wird deutlich, dass die Sterblichkeitsrate von zwei Faktoren beeinflusst wird: Geschlecht und Dosierung.

Diese Abbildung zeigt die Sterblichkeitsraten für männliche und weibliche Bud-Würmer

Wir werden zwei Annahmen treffen: (1) die Ergebnisse für jeden Versuch (d.h. Charge) werden aus einer binomialverteilten Grundgesamtheit gezogen; wir möchten p - die Erfolgswahrscheinlichkeit (d.h. Tod des Wurms) - schätzen. Die Wahrscheinlichkeit (p) darf zwischen den verschiedenen Versuchen (Chargen) variieren. (2) Die Erfolgswahrscheinlichkeit wird von zwei Faktoren beeinflusst: dem Geschlecht des Probanden und der verabreichten Dosis des Medikaments.

Auf der Grundlage dieser beiden Annahmen würden wir diese Beziehung modellieren:

$$P=f(X,Y)=E[p|X,Y]$$

Modellierung

Wir sind nun bereit, ein statistisches Modell vorzuschlagen: das verallgemeinerte lineare Modell in Excel mit Residuen, die der Binomialverteilung folgen.

Diese Abbildung zeigt den generalisierten linearen Modellassistenten

Zunächst wählen wir "Logit" als unsere Verknüpfungs- (Transformations-) Funktion, geben die Versuchs- oder Losgröße (20) an und weisen den Assistenten an, zu kalibrieren (d. h. optimale Werte für die Koeffizienten zu berechnen). Lassen Sie die Optionen Anpassungsgüte und Residualdiagnose aktiviert.

Diese Abbildung zeigt die Ausgabetabelle der Modellspezifikation

Kalibrierung

In diesem Fall hat der Assistent für verallgemeinerte lineare Modelle in Excel (GLM) die Koeffizienten des Modells kalibriert, so dass wir diesen Schritt überspringen können.

Falls wir jedoch mit verschiedenen Verknüpfungsfunktionen experimentieren wollen: LOGIT, PROBIT oder LOG-LOG, dann müssen wir das Modell neu kalibrieren. Um dies zu tun, können wir entweder:

Erstellen Sie ein neues Modell mit dem Assistenten, oder,
Ändern Sie den Parameter "Lvk" in einer bestehenden Modelltabelle und führen Sie die Kalibrierung mit Hilfe der NumXL-Symbolleiste durch

Diese Abbildung zeigt den Kalibrierungsassistenten oder das Benutzerformular

Schritt 1: Wählen Sie die Zelle aus, die als Kopfzeile für die Modelltabelle dient

Schritt 2: Klicken Sie auf das Kalibrierungssymbol/Menü (Excel 2003)

Schritt 3: Klicken Sie auf die Schaltfläche "Solve" im Solver-Fenster

Vorhersage

Sobald das Modell kalibriert ist und wir mit den Residuen zufrieden sind, können wir es verwenden, um unseren Prognosemittelwert (und das Konfidenzintervall um ihn herum) zu konstruieren.

Mit Hilfe der Funktion NumXL (GLM_FORE) können wir den Mittelwert berechnen. Mit GLM_FORECI können wir die obere und untere Grenze des Konfidenzintervalls berechnen.

Diese Abbildung zeigt die Prognosetabelle

Erneute Darstellung der (tatsächlichen) Daten im Vergleich zu den Modellwerten.

Diese Abbildung zeigt die Vorhersagekurve mit Vertrauensbereich für den männlichen Knospenwurm in Excel

Die Punkte stellen die Beispieldaten dar, während die Mittellinie den prognostizierten Mittelwert angibt. Die schattierten Bereiche in den Diagrammen sind die 95%-Konfidenzintervalle.

Anmerkungen

Der Vorhersagefehler nimmt ab, wenn wir die Dosierung erhöhen (C.I. wird enger). Dies ist bei männlichen und weiblichen Chargen offensichtlich
Die logarithmische Beziehung, die bei der Darstellung der Rohdaten festgestellt wird, kann lediglich eine Datenanomalie sein; das verallgemeinerte lineare Modell in Excel zeigt eher eine quadratische Beziehung.
Der Mittelwert liegt nicht genau in der Mitte des Konfidenzintervalls, was auf die diskrete Natur der zugrundeliegenden Binomialverteilung und die geringe Chargen-/Versuchsgröße zurückzuführen ist.

Video-Anleitung

Anhänge

GLM-Binomial-BudWorms.xlsx (20 kB)
GLM-Tutorial.pdf (400 kB)