Neste tutorial, usaremos dados de amostra coletados durante um teste clínico de um novo produto químico/pesticida em Budworms de tabaco. Os indivíduos (ou seja, os Budworms) são agrupados em lotes de 20 e expostos a diferentes doses do produto químico. Os resultados estão resumidos abaixo:
Data preparation
Nosso objetivo aqui é modelar (e prever) a eficácia do novo produto químico usando diferentes dosagens e explicar, até certo ponto, qualquer variação com base no gênero da lagarta. Além disso, queremos expressar os resultados em termos de taxas de mortalidade do verme (ou seja, probabilidade).
Traçamos os dados em duas curvas separadas: homens e mulheres. É evidente que a taxa de mortalidade é afetada por dois fatores: gênero e dosagem.
Faremos duas suposições: (1) os resultados de cada teste (ou seja, lote) são extraídos de uma população distribuída binomialmente; gostaríamos de estimar p - a probabilidade de sucesso (ou seja, a morte do verme). É permitido que a probabilidade (p) varie entre diferentes tentativas (lotes). (2) A probabilidade de sucesso é afetada por dois fatores: o gênero do indivíduo e a dosagem administrada do medicamento.
Com base nessas duas suposições, modelaríamos essa relação:
$$P=f(X,Y)=E[p|X,Y]$$
Modelagem
Agora estamos prontos para propor um modelo estatístico: o modelo linear generalizado no Excel com resíduos seguindo a distribuição binomial.
Por enquanto, escolhemos "Logit" como nossa função de ligação (transformação), especificamos o tamanho da tentativa ou do lote (20) e instruímos o Assistente a calibrar (ou seja, calcular valores ideais para os coeficientes). Deixe marcadas as opções Goodness-of-fit e residual diagnosis.
Calibração
Nesse caso, o Assistente de Modelo Linear Generalizado no Excel (GLM) calibrou os coeficientes do modelo, portanto, podemos pular essa etapa.
Mas, caso desejemos fazer experimentos com diferentes funções de vínculo: LOGIT, PROBIT ou LOG-LOG, então precisaremos recalibrar o modelo. Para isso, podemos:
- Crie um novo modelo com o assistente ou,
- Altere o parâmetro "Lvk" em uma tabela de modelo existente e execute a calibração usando a barra de ferramentas NumXL
Etapa 1: Selecione a célula que atua como um cabeçalho para a tabela modelo
Etapa 2: Clique no ícone/menu de calibração (Excel 2003)
Etapa 3: Clique no botão "Solve" (Resolver) na janela do Solver
Previsão
Depois que o modelo for calibrado e estivermos satisfeitos com os resíduos, poderemos usá-lo para construir nossa média de previsão (e o intervalo de confiança em torno dela).
Usando a função NumXL (GLM_FORE), podemos calcular a média. Usando GLM_FORECI, podemos calcular o limite superior e inferior do intervalo de confiança.
Plotagem dos dados novamente (reais) versus os valores do modelo.
Os pontos representam os dados de amostra, enquanto a linha central é a média da previsão. As regiões sombreadas nos gráficos são os intervalos de confiança de 95%.
Notas
- O erro de previsão diminui à medida que aumentamos a dosagem (o C.I. fica mais apertado). Isso é evidente nos lotes de machos e fêmeas
- A relação logarítmica detectada quando plotamos os dados brutos pode ser apenas uma anomalia nos dados; o Modelo Linear Generalizado no Excel mostra mais como um tipo de relação quadrática.
- A média não é exatamente o centro do intervalo de confiança devido à natureza discreta da distribuição binomial subjacente e ao tamanho pequeno do lote/ensaio.
Comentários
iniciar sessão para comentar.