NumXL Cookbook - GLM с бинарными данными

В этом учебном пособии мы будем использовать примеры данных, собранных в ходе клинических испытаний нового химиката/пестицида на табачных червях. Испытуемые (т.е. табачные черви) разбиваются на партии по 20 особей и подвергаются воздействию различных доз химиката. Результаты обобщены ниже:

На этом рисунке показана таблица исходных данных для обобщенной линейной модели в excel на примере бинарных данных

Подготовка данныхПодготовка данных

Наша цель - смоделировать (и спрогнозировать) эффективность нового химиката при использовании различных дозировок и объяснить, в некоторой степени, любые изменения в зависимости от пола почкового червя. Кроме того, мы хотим выразить результаты в терминах смертности червей (т. е. вероятности).

На этом рисунке показана обобщенная линейная модель в excel - Преобразование бинарных данных в показатели смертности

Мы построили две отдельные кривые: мужские и женские. Очевидно, что на уровень смертности влияют два фактора: пол и дозировка.

На этом рисунке показан график смертности мужчин и женщин от бад.

Мы сделаем два предположения: (1) результаты каждого испытания (т.е. партии) берутся из биномиальной популяции; мы хотим оценить p - вероятность успеха (т.е. гибели червя). Вероятность (p) может варьироваться в разных испытаниях (партиях). (2) На вероятность успеха влияют два фактора: пол испытуемого и введенная доза препарата.

Исходя из этих двух предположений, мы смоделируем эту взаимосвязь:

$$P=f(X,Y)=E[p|X,Y]$$

Моделирование

Теперь мы готовы предложить статистическую модель: обобщенную линейную модель в Excel с остатками по биномиальному распределению.

На этом рисунке показана обобщенная линейная модель мастера

Пока что мы выбираем "Logit" в качестве функции связи (преобразования), указываем размер испытания или партии (20) и поручаем мастеру провести калибровку (т.е. рассчитать оптимальные значения коэффициентов). Оставьте отмеченными опции Goodness-of-fit и residual diagnosis.

На этом рисунке показана выходная таблица спецификации модели

Калибровка

В данном случае мастер обобщенной линейной модели в Excel (GLM) откалибровал коэффициенты модели, поэтому мы можем пропустить этот шаг.

Но если мы захотим поэкспериментировать с различными функциями связи: LOGIT, PROBIT или LOG-LOG, то нам необходимо заново откалибровать модель. Для этого мы можем либо:

  1. Создайте новую модель с помощью мастера или,
  2. Change the “Lvk” parameter in an existing model table, and run the calibration using the NumXL toolbar

На этом рисунке показан мастер калибровки или форма пользователя

Шаг 1: Выберите ячейку, которая будет служить заголовком для таблицы моделейШаг 1: Выберите ячейку, которая будет служить заголовком для таблицы моделей

Шаг 2: Нажмите на значок/меню калибровки (Excel 2003)

Шаг 3: Нажмите на кнопку "Решить" в окне Solver

Прогноз

После того как модель откалибрована, и мы довольны остатками, мы можем использовать ее для построения среднего прогноза (и доверительного интервала вокруг него).

Используя функцию NumXL (GLM_FORE), мы можем вычислить среднее значение. Используя GLM_FORECI, мы можем вычислить верхнюю и нижнюю границы доверительного интервала.

На этом рисунке показана таблица вывода прогноза

Постройте график сравнения данных (фактических) с модельными значениями.

На этом рисунке показан график прогноза с доверительной областью для мужского почкового червя в Excel На этом рисунке показан прогноз с доверительной областью для женщины-червяка Бада в Excel

Точки представляют собой выборочные данные, а центральная линия - среднее прогнозное значение. Заштрихованные области на графиках - это 95%-ные доверительные интервалы.

Примечания

  1. Ошибка прогноза уменьшается по мере увеличения дозировки (C.I. становится более жестким). Это видно на примере мужских и женских партий
  2. Логарифмическая зависимость, обнаруженная при построении графика исходных данных, может быть всего лишь аномалией; обобщенная линейная модель в Excel показывает скорее квадратичную зависимость.
  3. Среднее значение не является точным центром доверительного интервала из-за дискретного характера основного биномиального распределения и небольшого размера партии/испытания.

Видеоурок

  Вложения

Комментарии

Войдите в службу, чтобы оставить комментарий.

Была ли эта статья полезной?
Пользователи, считающие этот материал полезным: 1 из 1