NumXL Cookbook - GLM с бинарными данными

Mohamad

03/03/2017 00:15

В этом учебном пособии мы будем использовать примеры данных, собранных в ходе клинических испытаний нового химиката/пестицида на табачных червях. Испытуемые (т.е. табачные черви) разбиваются на партии по 20 особей и подвергаются воздействию различных доз химиката. Результаты обобщены ниже:

На этом рисунке показана таблица исходных данных для обобщенной линейной модели в excel на примере бинарных данных

Подготовка данныхПодготовка данных

Наша цель - смоделировать (и спрогнозировать) эффективность нового химиката при использовании различных дозировок и объяснить, в некоторой степени, любые изменения в зависимости от пола почкового червя. Кроме того, мы хотим выразить результаты в терминах смертности червей (т. е. вероятности).

На этом рисунке показана обобщенная линейная модель в excel - Преобразование бинарных данных в показатели смертности

Мы построили две отдельные кривые: мужские и женские. Очевидно, что на уровень смертности влияют два фактора: пол и дозировка.

На этом рисунке показан график смертности мужчин и женщин от бад.

Мы сделаем два предположения: (1) результаты каждого испытания (т.е. партии) берутся из биномиальной популяции; мы хотим оценить p - вероятность успеха (т.е. гибели червя). Вероятность (p) может варьироваться в разных испытаниях (партиях). (2) На вероятность успеха влияют два фактора: пол испытуемого и введенная доза препарата.

Исходя из этих двух предположений, мы смоделируем эту взаимосвязь:

$$P=f(X,Y)=E[p|X,Y]$$

Моделирование

Теперь мы готовы предложить статистическую модель: обобщенную линейную модель в Excel с остатками по биномиальному распределению.

На этом рисунке показана обобщенная линейная модель мастера

Пока что мы выбираем "Logit" в качестве функции связи (преобразования), указываем размер испытания или партии (20) и поручаем мастеру провести калибровку (т.е. рассчитать оптимальные значения коэффициентов). Оставьте отмеченными опции Goodness-of-fit и residual diagnosis.

На этом рисунке показана выходная таблица спецификации модели

Калибровка

В данном случае мастер обобщенной линейной модели в Excel (GLM) откалибровал коэффициенты модели, поэтому мы можем пропустить этот шаг.

Но если мы захотим поэкспериментировать с различными функциями связи: LOGIT, PROBIT или LOG-LOG, то нам необходимо заново откалибровать модель. Для этого мы можем либо:

Создайте новую модель с помощью мастера или,
Change the “Lvk” parameter in an existing model table, and run the calibration using the NumXL toolbar

На этом рисунке показан мастер калибровки или форма пользователя

Шаг 1: Выберите ячейку, которая будет служить заголовком для таблицы моделейШаг 1: Выберите ячейку, которая будет служить заголовком для таблицы моделей

Шаг 2: Нажмите на значок/меню калибровки (Excel 2003)

Шаг 3: Нажмите на кнопку "Решить" в окне Solver

Прогноз

После того как модель откалибрована, и мы довольны остатками, мы можем использовать ее для построения среднего прогноза (и доверительного интервала вокруг него).

Используя функцию NumXL (GLM_FORE), мы можем вычислить среднее значение. Используя GLM_FORECI, мы можем вычислить верхнюю и нижнюю границы доверительного интервала.

На этом рисунке показана таблица вывода прогноза

Постройте график сравнения данных (фактических) с модельными значениями.

На этом рисунке показан график прогноза с доверительной областью для мужского почкового червя в Excel На этом рисунке показан прогноз с доверительной областью для женщины-червяка Бада в Excel

Точки представляют собой выборочные данные, а центральная линия - среднее прогнозное значение. Заштрихованные области на графиках - это 95%-ные доверительные интервалы.

Примечания

Ошибка прогноза уменьшается по мере увеличения дозировки (C.I. становится более жестким). Это видно на примере мужских и женских партий
Логарифмическая зависимость, обнаруженная при построении графика исходных данных, может быть всего лишь аномалией; обобщенная линейная модель в Excel показывает скорее квадратичную зависимость.
Среднее значение не является точным центром доверительного интервала из-за дискретного характера основного биномиального распределения и небольшого размера партии/испытания.

Видеоурок

Вложения

GLM-Binomial-BudWorms.xlsx (20 КБ)
GLM-Tutorial.pdf (400 КБ)