NumXL Cookbook - 二进制数据的 GLM

Mohamad

2017年03月03日 00:15

在本教程中，我们将使用一种新化学/杀虫剂对烟草芽虫进行临床试验期间收集的样本数据。受试者（即烟草芽虫）被分成 20 个批次，暴露于不同剂量的化学品中。结果概述如下：

本图以二进制数据为例，显示 Excel 中广义线性模型的输入数据表

数据准备

我们的目标是模拟（和预测）使用不同剂量的新化学品的效果，并在一定程度上解释基于芽虫性别的任何变化。此外，我们还希望用虫死亡率（即概率）来表示结果。

本图显示了 excel 中的广义线性模型 - 将二进制数据转换为死亡率

我们将数据绘制成两条不同的曲线：男性曲线和女性曲线。很明显，死亡率受两个因素的影响：性别和剂量。

该图显示了男性和女性芽虫的死亡率。

我们将做两个假设：(1) 每个试验（即批次）的结果都来自一个二项分布的群体；我们希望估算 p - 成功的概率（即蠕虫死亡的概率）。允许概率（p）在不同试验（批次）之间变化。 (2) 成功概率受两个因素影响：受试者的性别和给药剂量。

基于这两项假设，我们将对这种关系进行建模：

$$P=f(X,Y)=E[p|X,Y]$$

现在我们可以提出一个统计模型：Excel 中的广义线性模型，残差服从二项分布。

该图显示了广义线性模型向导

现在，我们选择 "Logit "作为链接（转换）函数，指定试验或批量大小（20），并指示向导进行校准（即计算系数的最佳值）。选中拟合优度和残差诊断选项。

该图显示了模型规格输出表

在这种情况下，Excel 中的广义线性模型 (GLM) 向导已经校准了模型的系数，因此我们可以跳过这一步。

但是，如果我们想尝试使用不同的链接函数： LOGIT、PROBIT 或 LOG-LOG，那么我们就需要重新校准模型。为此，我们可以

该图显示了校准向导或用户表单

步骤 1：选择作为模型表标题的单元格

第 2 步：点击校准图标/菜单（Excel 2003）

步骤 3：点击求解器窗口中的 "求解 "按钮

校准模型后，如果我们对残差感到满意，就可以用它来构建我们的预测均值（及其置信区间）。

使用 NumXL 函数（GLM_FORE），我们可以计算平均值。使用 GLM_FORECI，我们可以计算置信区间的上限和下限。

下图为预测输出表

再次绘制数据（实际值）与模型值的对比图。

该图显示了 Excel 中雄性芽虫的预测图和置信区间该图显示了 Excel 中女性芽虫的预测值和置信区间

点代表样本数据，中线代表预测平均值。图表中的阴影区域是 95% 的置信区间。

说明