NumXL Cookbook - 二进制数据的 GLM

在本教程中,我们将使用一种新化学/杀虫剂对烟草芽虫进行临床试验期间收集的样本数据。 受试者(即烟草芽虫)被分成 20 个批次,暴露于不同剂量的化学品中。 结果概述如下:

本图以二进制数据为例,显示 Excel 中广义线性模型的输入数据表

数据准备

我们的目标是模拟(和预测)使用不同剂量的新化学品的效果,并在一定程度上解释基于芽虫性别的任何变化。 此外,我们还希望用虫死亡率(即概率)来表示结果。

本图显示了 excel 中的广义线性模型 - 将二进制数据转换为死亡率

我们将数据绘制成两条不同的曲线:男性曲线和女性曲线。 很明显,死亡率受两个因素的影响:性别和剂量。

该图显示了男性和女性芽虫的死亡率。

我们将做两个假设:(1) 每个试验(即批次)的结果都来自一个二项分布的群体;我们希望估算 p - 成功的概率(即蠕虫死亡的概率)。 允许概率(p)在不同试验(批次)之间变化。 (2) 成功概率受两个因素影响:受试者的性别和给药剂量。

基于这两项假设,我们将对这种关系进行建模:

$$P=f(X,Y)=E[p|X,Y]$$

建模

现在我们可以提出一个统计模型:Excel 中的广义线性模型,残差服从二项分布。

该图显示了广义线性模型向导

现在,我们选择 "Logit "作为链接(转换)函数,指定试验或批量大小(20),并指示向导进行校准(即计算系数的最佳值)。 选中拟合优度和残差诊断选项。

该图显示了模型规格输出表

校准

在这种情况下,Excel 中的广义线性模型 (GLM) 向导已经校准了模型的系数,因此我们可以跳过这一步。

但是,如果我们想尝试使用不同的链接函数: LOGIT、PROBIT 或 LOG-LOG,那么我们就需要重新校准模型。 为此,我们可以

  1. 使用向导创建新模型,或
  2. 更改现有模型表中的 "Lvk "参数,并使用 NumXL 工具栏进行校准

该图显示了校准向导或用户表单

步骤 1:选择作为模型表标题的单元格

第 2 步:点击校准图标/菜单(Excel 2003)

步骤 3:点击求解器窗口中的 "求解 "按钮

预测

校准模型后,如果我们对残差感到满意,就可以用它来构建我们的预测均值(及其置信区间)。

使用 NumXL 函数(GLM_FORE),我们可以计算平均值。 使用 GLM_FORECI,我们可以计算置信区间的上限和下限。

下图为预测输出表

再次绘制数据(实际值)与模型值的对比图。

该图显示了 Excel 中雄性芽虫的预测图和置信区间 该图显示了 Excel 中女性芽虫的预测值和置信区间

点代表样本数据,中线代表预测平均值。 图表中的阴影区域是 95% 的置信区间。

说明

  1. 随着剂量的增加(C.I. 越来越紧),预测误差也会减小。 这在雄性和雌性批次中都很明显
  2. 我们在绘制原始数据时发现的对数关系可能只是数据异常;Excel 中的广义线性模型显示的更像是二次型关系。
  3. 由于基本二项分布的离散性和小批量/试验规模,平均值并不完全是置信区间的中心。

视频教程

  附件

评论

登录写评论。

这篇文章有帮助吗?
1 人中有 1 人觉得有帮助