Suppression des valeurs manquantes

Zaid Marridi

7 août 2022 15:09

Dans la pratique, nous rencontrons des ensembles de données avec des valeurs manquantes pour lesquelles une ou plusieurs dates d'observation produisent des valeurs invalides ou manquantes. dates d'observation donnent des valeurs invalides ou manquantes. Les situations de valeurs manquantes peuvent survenir en raison de problèmes de collecte de données, en tant que sous-produit du traitement d'ensembles de données ou de manière délibérée. de données, ou par conception. Ce dernier cas peut se produire lorsque nous configurons nos modèles en ajoutant des cellules vides à la fin de l'ensemble de données, en prévision d'une utilisation future. avec des cellules vides ajoutées à la fin de l'ensemble de données, en prévision de valeurs futures. futures.

Les valeurs manquantes sont appelées "Not a Number" ou "NaN". Dans Excel, NaN est identifié comme une cellule vide ou par la représentation spéciale "#N/A". Il existe Quelques fonctions intégrées peuvent être utilisées pour détecter les #N/A, par exemple NA (), ISNA (.), et IFERROR(.).

Dimension de l'ensemble de données

Une observation dans un ensemble de données peut être définie soit par une paire de valeurs de deux variables (x, y), soit par une valeur multiple de trois variables ou plus (par exemple (x, y, y)). variables (x, y), soit par une valeur multiple de trois variables ou plus (par exemple, (x, y, z, w)). Un point de données dans une série temporelle univariée peut être exprimé sous la forme (t, x_t).

Dans cet article, nous examinerons le traitement des points de données avec des valeurs manquantes en les supprimant. en les supprimant. Nous examinerons le processus de suppression pour les ensembles de données unidimensionnels et bidimensionnels (multi-variables). (multi-variables).

Pour un ensemble de données bidimensionnel, chaque ligne représente un point de données et chaque colonne représente une variable d'entrée. Si une ou plusieurs cellules d'une ligne ont une valeur vide ou #N/A le point de données (c'est-à-dire la ligne) est considéré comme un point de données avec une valeur manquante et est donc exclu.

Mais attendez un peu ! Qu'en est-il des séries chronologiques ? L'élimination des points de données avec des valeurs manquantes pose un petit problème. Nous pouvons simplement avancer l'heure de début et l'heure de fin. l'heure de début et l'heure de fin, mais nous ne pouvons pas supprimer les points de données intermédiaires, car cela affecte l'intervalle de temps entre les observations. l'espacement entre les observations.

Pourquoi devrais-je m'en préoccuper ?

Le traitement d'un ensemble de données avec des valeurs manquantes dans Excel représente un défi. Bien qu'Excel dispose de quelques fonctions intégrées (par exemple, MIN(), MAX(.) COUNT(.)) qui acceptent ces ensembles de données et ignorent silencieusement les observations avec des valeurs manquantes. et ignorent silencieusement les observations avec des valeurs manquantes, la majorité des fonctions (par ex. fonctions (par exemple, STDEV(.), CORREL(.)) ne les prennent pas en charge et renverront des erreurs (c'est-à-dire #VALUE) si ces ensembles de données sont transmis en tant qu'entrées. (c.-à-d. #VALUE) si ces ensembles de données sont transmis en tant qu'entrées.

RMNA(.) Fonction

Dans de nombreux assistants NumXL, il existe un onglet séparé pour traiter les points de données avec des valeurs manquantes. valeurs manquantes. Dans cet onglet, l'utilisateur se voit proposer différentes politiques : ne pas accepter, supprimer les observations, remplacer, interpoler, ajuster les données, etc. accepter, supprimer des obs., substituer, interpoler, ajustement des données, etc. Si l'utilisateur sélectionne la politique de traitement des valeurs manquantes "remove obs. sont d'abord prétraités par le RMNA(.) dans les formules générées.

Qu'est-ce que l'ARNm(.) ? RMNA est une fonction utilitaire simple mais puissante dans NumXL, dont la seule tâche est de détecter et de supprimer les observations comportant une ou plusieurs valeurs manquantes. ou plusieurs valeurs manquantes.

La fonction RMNA accepte deux arguments : X et( optionnellement) Y. X et Y sont constitués d'une ou plusieurs colonnes, mais si Y est donné, le nombre de lignes de X doit être égal à Y. de lignes dans X doit être égal à Y.

Dans la notation RMNA(.), le point de données est (X, Y), mais le RMNA(X, Y) renvoie le X traité. X traité. Si nous souhaitons renvoyer le Y traité, nous inversons l'ordre de la paire X et Y (c'est-à-dire (Y, X)). de la paire X et Y (c'est-à-dire (Y, X)).

Exemple 1: Considérons le scénario suivant : un ensemble de données à une colonne comporte deux points de données avec des valeurs manquantes. comporte deux points de données avec des valeurs manquantes. Les valeurs manquantes sont représentées Les valeurs manquantes sont représentées par #N/A et une cellule vide.
Ensemble de données d'entrée avec des valeurs manquantes représentées par #N/A et des cellules vides.

Utiliser les fonctions intégrées d'Excel : AVERAGE(.), STDEV(.), SKEW(.), et KURT(.) renvoie l'erreur #N/A, mais COUNT(.) supprime silencieusement les points de données avec des valeurs manquantes et renvoie un nombre de points de données restants (c'est-à-dire 18). et renvoie un décompte des points de données restants (c'est-à-dire 18).

Maintenant, nous allons prétraiter l'ensemble de données avec RMNA(.), le stocker dans une colonne séparée, et passons la nouvelle colonne aux mêmes fonctions :
Ensemble de données original avec valeurs manquantes converti en un ensemble de données sans valeurs manquantes à l'aide de la fonction RMNA de NumXL.

Remarque :

Nous aurions également pu placer la formule RMNA(.) directement (en tant qu'argument) dans la fonction. comme argument) dans la fonction.

Utilisation de la fonction RMNA comme argument à l'intérieur de la fonction MOYENNE.

Exemple 2: Considérons un ensemble de données composé de deux variables (X, Y) pour lesquelles nous souhaitons calculer la corrélation croisée (XCF ou la fonction intégrée de D'EXCEL).

L'ensemble de données comporte 3 points de données avec des valeurs manquantes, nous devons donc exclure ces observations avant de pouvoir calculer la valeur de la corrélation. exclure ces observations avant de pouvoir calculer la valeur de la corrélation.

Nous pouvons utiliser le RMNA(.) de deux manières différentes :

Méthode 1: Transmettre l'ensemble des données (colonnes B et C) en tant qu'argument.
L'utilisation de la fonction RMNA pour les ensembles de données comportant plus d'une variable supprime les lignes comportant une ou plusieurs valeurs manquantes.

La fonction RMNA(.) renvoie l'ensemble de données original après avoir supprimé toute ligne ayant une ou plusieurs valeurs manquantes. a une ou plusieurs valeurs manquantes.

Méthode 2: Prétraiter chaque colonne séparément, mais utiliser l'autre colonne comme référence facultative. comme référence facultative.

En utilisant l'autre colonne comme argument de référence facultatif (c'est-à-dire Y), la fonction RMNA(.) examine également ses points de données pour les valeurs manquantes, mais la fonction ne renvoie que l'ensemble de données spécifié dans le premier argument (c'est-à-dire X). l'ensemble de données spécifié dans le premier argument (c'est-à-dire X).
Utilisation de la fonction RMNA sur un ensemble de données en utilisant un autre ensemble de données comme argument de référence facultatif.

Notez qu'en inversant X et Y dans le RMNA(.), nous pouvons obtenir l'ensemble de données X2 après avoir éliminé les valeurs manquantes trouvées dans X2 ou dans la matrice X1. l'élimination des valeurs manquantes trouvées dans X2 ou dans la matrice X1.

Un avantage notable de la méthode 2 par rapport à la méthode 1 est que la fonction n'exige pas que les colonnes X1 et X2 soient adjacentes. n'exige pas que les colonnes X1 et X2 soient adjacentes.

Exemple 3: Mettons en place un modèle de feuille de calcul pour les mises à jour automatiques, au fur et à mesure que de nouvelles données sont disponibles.
L'utilisation de la fonction RMNA pour les valeurs futures permet d'actualiser automatiquement les données lorsque de nouvelles entrées sont introduites.

Notez qu'en ajoutant une valeur en B21, le RMNA(.) inclura cette nouvelle valeur, obligeant la fonction AVG et les autres fonctions à mettre à jour leurs calculs.

Résumé

En résumé, la fonction RMNA(.) offre un mécanisme simple mais puissant pour préparer vos données d'entrée en les débarrassant de tout point de données ayant une valeur manquante. vos données d'entrée en les débarrassant de tout point de données comportant une valeur manquante. La fonction accepte un deuxième argument (option) qui est utilisé pour déterminer si un point de données a une valeur manquante mais est exclu de l'ensemble des résultats renvoyés. a une valeur manquante mais est exclu de l'ensemble des résultats renvoyés.

Pour plus de détails techniques sur la fonction RMNA de NumXL, veuillez consulter le site suivant page du manuel de référence. Vous pouvez télécharger une version entièrement fonctionnelle du Essai de 14 jours de NumXL et essayez vous-même la fonction RMNA.

Exemples de fichiers