Livro de receitas do NumXL - GLM com dados binários

Mohamad

3 de Março de 2017 00:15

Neste tutorial, usaremos dados de amostra coletados durante um teste clínico de um novo produto químico/pesticida em Budworms de tabaco. Os indivíduos (ou seja, os Budworms) são agrupados em lotes de 20 e expostos a diferentes doses do produto químico. Os resultados estão resumidos abaixo:

Esta figura mostra a tabela de dados de entrada para o modelo linear generalizado no Excel com um exemplo de dados binários

Data preparation

Nosso objetivo aqui é modelar (e prever) a eficácia do novo produto químico usando diferentes dosagens e explicar, até certo ponto, qualquer variação com base no gênero da lagarta. Além disso, queremos expressar os resultados em termos de taxas de mortalidade do verme (ou seja, probabilidade).

Esta figura mostra o modelo linear generalizado no Excel - Converta dados binários em taxas de mortalidade

Traçamos os dados em duas curvas separadas: homens e mulheres. É evidente que a taxa de mortalidade é afetada por dois fatores: gênero e dosagem.

Esta figura mostra o gráfico das taxas de mortalidade para o verme Bud masculino e feminino

Faremos duas suposições: (1) os resultados de cada teste (ou seja, lote) são extraídos de uma população distribuída binomialmente; gostaríamos de estimar p - a probabilidade de sucesso (ou seja, a morte do verme). É permitido que a probabilidade (p) varie entre diferentes tentativas (lotes). (2) A probabilidade de sucesso é afetada por dois fatores: o gênero do indivíduo e a dosagem administrada do medicamento.

Com base nessas duas suposições, modelaríamos essa relação:

$$P=f(X,Y)=E[p|X,Y]$$

Modelagem

Agora estamos prontos para propor um modelo estatístico: o modelo linear generalizado no Excel com resíduos seguindo a distribuição binomial.

Esta figura mostra o assistente do modelo linear generalizado

Por enquanto, escolhemos "Logit" como nossa função de ligação (transformação), especificamos o tamanho da tentativa ou do lote (20) e instruímos o Assistente a calibrar (ou seja, calcular valores ideais para os coeficientes). Deixe marcadas as opções Goodness-of-fit e residual diagnosis.

Esta figura mostra a tabela de saída da especificação do modelo

Calibração

Nesse caso, o Assistente de Modelo Linear Generalizado no Excel (GLM) calibrou os coeficientes do modelo, portanto, podemos pular essa etapa.

Mas, caso desejemos fazer experimentos com diferentes funções de vínculo: LOGIT, PROBIT ou LOG-LOG, então precisaremos recalibrar o modelo. Para isso, podemos:

Crie um novo modelo com o assistente ou,
Altere o parâmetro "Lvk" em uma tabela de modelo existente e execute a calibração usando a barra de ferramentas NumXL

Esta figura mostra o assistente de calibração ou o formulário do usuário

Etapa 1: Selecione a célula que atua como um cabeçalho para a tabela modelo

Etapa 2: Clique no ícone/menu de calibração (Excel 2003)

Etapa 3: Clique no botão "Solve" (Resolver) na janela do Solver

Previsão

Depois que o modelo for calibrado e estivermos satisfeitos com os resíduos, poderemos usá-lo para construir nossa média de previsão (e o intervalo de confiança em torno dela).

Usando a função NumXL (GLM_FORE), podemos calcular a média. Usando GLM_FORECI, podemos calcular o limite superior e inferior do intervalo de confiança.

Esta figura mostra a tabela de saída da previsão

Plotagem dos dados novamente (reais) versus os valores do modelo.

Esta figura mostra o gráfico de previsão com a região de confiança para o verme macho do broto no Excel Esta figura mostra a previsão com região de confiança para a minhoca Bud feminina no Excel

Os pontos representam os dados de amostra, enquanto a linha central é a média da previsão. As regiões sombreadas nos gráficos são os intervalos de confiança de 95%.

Notas

O erro de previsão diminui à medida que aumentamos a dosagem (o C.I. fica mais apertado). Isso é evidente nos lotes de machos e fêmeas
A relação logarítmica detectada quando plotamos os dados brutos pode ser apenas uma anomalia nos dados; o Modelo Linear Generalizado no Excel mostra mais como um tipo de relação quadrática.
A média não é exatamente o centro do intervalo de confiança devido à natureza discreta da distribuição binomial subjacente e ao tamanho pequeno do lote/ensaio.

Tutorial em vídeo

Anexos

GLM-Binomial-BudWorms.xlsx (20 KB)
GLM-Tutorial.pdf (400 KB)