NumXLクックブック - バイナリデータのGLM

このチュートリアルでは、タバコの蕾虫に対する新しい化学物質/殺虫剤の臨床試験で収集されたサンプルデータを使用します。 被験者(すなわち蕾虫)は20のバッチにグループ分けされ、さまざまな用量の化学薬品に暴露されます。 その結果を以下に要約する:

この図は、バイナリ・データを例とする一般化線形モデルの入力データ・テーブルをExcelで示したものである。

データ準備

ここでの目的は、異なる投与量を用いて新しい薬剤の効果をモデル化し(予測し)、セイタカイガラムシの性別による変動をある程度説明することである。 さらに、その結果を虫の死亡率(つまり確率)で表したい。

この図は、エクセルによる一般化線形モデルを示している - バイナリ・データを死亡率に変換する

データを男性と女性の2つの曲線にプロットした。 死亡率は性別と投与量という2つの要因に影響されることが明らかである。

この図は、男性と女性のバドワームの死亡率をプロットしたものである。

(1)各試験(すなわちバッチ)の結果は、二項分布母集団から抽出される。 確率(p)は、異なる試行(バッチ)間で変化することが許される。 (2) 成功確率は2つの要因に影響される:被験者の性別と投与された薬の量。

この2つの仮定に基づいて、この関係をモデル化する:

$$P=f(X,Y)=E[p|X,Y]$$

モデリング

残差が二項分布に従う一般化線形モデルです。

この図は一般化線形モデルのウィザードを示している。

とりあえず、リンク(変換)関数として "Logit "を選択し、トライアルまたはバッチサイズ(20)を指定し、ウィザードにキャリブレーション(係数の最適値の計算)を指示します。 適合度と残差診断オプションは、チェックしたままにしておきます。

この図は、モデル仕様の出力表を示す。

キャリブレーション

この場合、Excelの一般化線形モデル(GLM)ウィザードがモデルの係数をキャリブレーションしているので、このステップは省略できます。

しかし、異なるリンク関数を試してみたい場合は、モデルを再較正する必要がある: LOGIT、PROBIT、LOG-LOGといった異なるリンク関数を試したい場合は、モデルを再較正する必要がある。 そのためには、以下の方法があります:

  1. ウィザードで新しいモデルを作成する、
  2. 既存のモデルテーブルの "Lvk "パラメータを変更し、NumXLツールバーを使ってキャリブレーションを実行します。

この図は、キャリブレーションウィザードまたはユーザーフォームを示しています。

ステップ 1: モデルテーブルのヘッダーとなるセルを選択する。

ステップ 2: キャリブレーションアイコン/メニューをクリックします。

ステップ3:ソルバーウィンドウの「ソルブ」ボタンをクリックする。

予想

モデルがキャリブレーションされ、残差に満足したら、それを使って予測平均(とその周りの信頼区間)を構築することができる。

NumXL関数(GLM_FORE)を使って平均を計算することができる。 GLM_FORECI を用いて,信頼区間の上限と下限を計算できる.

この図は予測出力表を示す。

再びデータ(実際)とモデル値をプロットする。

この図は、雄芽虫の信頼区間付き予測プロットをExcelで示したものである。 この図は、女性のバドワームの信頼区間付き予測をエクセルで示したものである。

点はサンプルデータを表し、中心線は予測平均を表す。 グラフの網掛け部分は95%信頼区間である。

備考

  1. 投与量を増やすと予測誤差は減少する(C.I.がきつくなる)。 これはオスとメスのバッチで明らかである。
  2. 生データをプロットしたときに検出された対数関係は、単なるデータの異常である可能性がある。エクセルの一般化線形モデルは、より2次関数的な関係を示している。
  3. 基礎となる二項分布の離散的な性質と、小バッチ/トライアルサイズのため、平均は信頼区間の正確な中心ではない。

ビデオ・チュートリアル

  添付ファイル

コメント

サインインしてコメントを残してください。

この記事は役に立ちましたか?
1人中1人がこの記事が役に立ったと言っています