Removendo valores ausentes

Zaid Marridi

7 de Agosto de 2022 15:09

Na prática, nos deparamos com conjuntos de dados com valores ausentes para os quais uma ou mais datas de observação geram valores inválidos ou ausentes. As situações de valores ausentes podem surgir devido a problemas de coleta de dados, como um subproduto do processamento de conjuntos de dados ou por projeto. O último pode ocorrer nos casos em que configuramos nossos modelos com células vazias anexadas ao final do conjunto de dados, em antecipação a valores futuros.

Os valores ausentes são designados como "Not a Number" ou "NaN". No Excel, o NaN é identificado como uma célula vazia ou pela representação especial "#N/A". Há algumas funções internas que podem ser usadas para detectar #N/A, por exemplo, NA (), ISNA (.) e IFERROR(.).

Dimensão do conjunto de dados

Uma observação em um conjunto de dados pode ser definida por um par de valores de duas variáveis (x, y) ou por um valor múltiplo de três ou mais variáveis (por exemplo, (x, y, z, w)). Um ponto de dados em uma série temporal univariada pode ser expresso como (t, x_t).

Neste artigo, consideraremos o tratamento de pontos de dados com valores ausentes, removendo-os. Consideraremos o processo de remoção para conjuntos de dados unidimensionais e bidimensionais (multivariados).

Em um conjunto de dados bidimensional, cada linha representa um ponto de dados e cada coluna representa uma variável de entrada. Se uma ou mais células em uma linha tiver um valor vazio ou #N/A, o ponto de dados (ou seja, a linha) é considerado um ponto de dados com um valor ausente e, portanto, é excluído.

Mas espere um pouco! E quanto às séries temporais? A eliminação de pontos de dados iniciais ou finais com valores ausentes apresenta um pequeno problema. Podemos simplesmente avançar a hora de início e a hora de término, mas não podemos eliminar pontos de dados intermediários, pois isso afeta o espaçamento de tempo entre as observações.

Por que devo me importar?

O manuseio de um conjunto de dados com valores ausentes no Excel representa um desafio. Embora o Excel tenha algumas funções incorporadas (por exemplo, MIN(), MAX(.) COUNT(.)) que aceitam esses conjuntos de dados e ignoram silenciosamente as observações com valores ausentes, a maioria das funções (por exemplo, STDEV(.), CORREL(.)) não os suporta e retornará erros (ou seja, #VALUE) se esses conjuntos de dados forem passados como entradas.

Função RMNA(.)

Em muitos assistentes do NumXL, há uma guia separada para lidar com pontos de dados com valores ausentes. Nessa guia, o usuário é apresentado a diferentes políticas: não aceitar, remover obs., substituir, interpolar, ajuste de dados etc. Se o usuário selecionar a política de tratamento de valores ausentes "remover obs.", os conjuntos de dados de entrada serão primeiro pré-processados pelo RMNA(.) nas fórmulas geradas.

O que é RMNA(.)? RMNA é uma função utilitária simples, porém poderosa, do NumXL, com a única tarefa de detectar e remover observações com um ou mais valores ausentes.

A função RMNA aceita dois argumentos: X e (opcionalmente) Y. X e Y consistem em uma ou mais colunas, mas se Y for fornecido, o número de linhas em X deve ser igual a Y.

Na notação RMNA(.), o ponto de dados é (X, Y), mas o RMNA(X, Y) retorna o X processado. Se quisermos retornar o Y processado, inverteremos a ordem do par X e Y (ou seja, (Y, X)).

Exemplo 1: Vamos considerar o seguinte cenário: um conjunto de dados de uma coluna tem dois pontos de dados com valores ausentes. Os valores ausentes são representados como #N/A e uma célula em branco/vazia.
Conjunto de dados de entrada com valores ausentes representados como #N/A e células em branco/vazias.

O uso das funções internas do Excel: AVERAGE(.), STDEV(.), SKEW(.) e KURT(.) retorna o erro #N/A, mas COUNT(.) elimina silenciosamente os pontos de dados com valores ausentes e retorna uma contagem dos pontos de dados restantes (ou seja, 18).

Agora, vamos pré-processar o conjunto de dados com RMNA(.), armazená-lo em uma coluna separada e passar a nova coluna para as mesmas funções:
Conjunto de dados original com valores ausentes convertido em um conjunto de dados sem valores ausentes usando a função RMNA do NumXL.

Observação:

Como alternativa, poderíamos ter colocado a fórmula RMNA(.) diretamente (como um argumento) na função.

Usar a função RMNA como um argumento dentro da função AVERAGE.

Example 2: Vamos considerar um conjunto de dados de duas variáveis (X, Y) para o qual desejamos calcular a correlação cruzada (XCF ou CORREL embutido no Excel).

O conjunto de dados tem 3 pontos de dados com valores ausentes, portanto, precisaríamos excluir essas observações antes de calcular o valor da correlação.

Podemos usar o RMNA(.) de duas maneiras diferentes:

Método 1: Passe todo o conjunto de dados (colunas B e C) como um argumento.
O uso da função RMNA para conjuntos de dados com mais de uma variável elimina as linhas com um ou mais valores ausentes.

A função RMNA(.) retorna o conjunto de dados original depois de eliminar qualquer linha que tenha um ou mais valores ausentes.

Método 2: Pré-processe cada coluna separadamente, mas use a outra coluna como referência opcional.

Ao usar a outra coluna como argumento de referência opcional (ou seja, Y), a RMNA(.) também examina seus pontos de dados em busca de valores ausentes, mas a função retorna apenas o conjunto de dados especificado no primeiro argumento (ou seja, X).
Usar a função RMNA em um conjunto de dados enquanto usa outro conjunto de dados como argumento de referência opcional.

Observe que, ao inverter X e Y na RMNA(.), podemos obter o conjunto de dados X2 depois de eliminar os valores ausentes encontrados em X2 ou na matriz X1.

Uma vantagem notável do uso do Método 2 em relação ao Método 1 é que a função não exige que as colunas X1 e X2 sejam adjacentes.

Exemplo 3: Vamos configurar um modelo de planilha para atualizações automáticas, à medida que novos dados forem disponibilizados.
Usar a função RMNA para valores futuros para atualizar automaticamente os dados quando novos inputs forem introduzidos.

Observe que, ao adicionar um valor em B21, o RMNA(.) incluirá esse novo valor, forçando o AVG e a outra função a atualizar seus cálculos.

Resumo

Em suma, a função RMNA(.) oferece um mecanismo simples, mas poderoso, para preparar seus dados de entrada, eliminando qualquer ponto de dados com valor ausente. A função aceita um segundo argumento (opção) que é usado para determinar se um ponto de dados tem um valor ausente, mas é excluído do conjunto de resultados de retorno.

Para saber mais detalhes técnicos sobre a função RMNA do NumXL, consulte este página do manual de referência. Você pode baixar uma versão totalmente funcional do Teste de 14 dias do NumXL e experimente você mesmo a função RMNA.

Exemplos de arquivos