在本教程中,我们将使用一种新化学/杀虫剂对烟草芽虫进行临床试验期间收集的样本数据。 受试者(即烟草芽虫)被分成 20 个批次,暴露于不同剂量的化学品中。 结果概述如下:
数据准备
我们的目标是模拟(和预测)使用不同剂量的新化学品的效果,并在一定程度上解释基于芽虫性别的任何变化。 此外,我们还希望用虫死亡率(即概率)来表示结果。
我们将数据绘制成两条不同的曲线:男性曲线和女性曲线。 很明显,死亡率受两个因素的影响:性别和剂量。
我们将做两个假设:(1) 每个试验(即批次)的结果都来自一个二项分布的群体;我们希望估算 p - 成功的概率(即蠕虫死亡的概率)。 允许概率(p)在不同试验(批次)之间变化。 (2) 成功概率受两个因素影响:受试者的性别和给药剂量。
基于这两项假设,我们将对这种关系进行建模:
$$P=f(X,Y)=E[p|X,Y]$$
建模
现在我们可以提出一个统计模型:Excel 中的广义线性模型,残差服从二项分布。
现在,我们选择 "Logit "作为链接(转换)函数,指定试验或批量大小(20),并指示向导进行校准(即计算系数的最佳值)。 选中拟合优度和残差诊断选项。
校准
在这种情况下,Excel 中的广义线性模型 (GLM) 向导已经校准了模型的系数,因此我们可以跳过这一步。
但是,如果我们想尝试使用不同的链接函数: LOGIT、PROBIT 或 LOG-LOG,那么我们就需要重新校准模型。 为此,我们可以
- 使用向导创建新模型,或
- 更改现有模型表中的 "Lvk "参数,并使用 NumXL 工具栏进行校准
步骤 1:选择作为模型表标题的单元格
第 2 步:点击校准图标/菜单(Excel 2003)
步骤 3:点击求解器窗口中的 "求解 "按钮
预测
校准模型后,如果我们对残差感到满意,就可以用它来构建我们的预测均值(及其置信区间)。
使用 NumXL 函数(GLM_FORE),我们可以计算平均值。 使用 GLM_FORECI,我们可以计算置信区间的上限和下限。
再次绘制数据(实际值)与模型值的对比图。
点代表样本数据,中线代表预测平均值。 图表中的阴影区域是 95% 的置信区间。
说明
- 随着剂量的增加(C.I. 越来越紧),预测误差也会减小。 这在雄性和雌性批次中都很明显
- 我们在绘制原始数据时发现的对数关系可能只是数据异常;Excel 中的广义线性模型显示的更像是二次型关系。
- 由于基本二项分布的离散性和小批量/试验规模,平均值并不完全是置信区间的中心。
评论
请登录写评论。