Fehlende Werte entfernen

Zaid Marridi

7. August 2022 15:09

In der Praxis stößt man immer wieder auf Datensätze mit fehlenden Werten, bei denen ein oder mehrere Beobachtungsdaten ungültige oder fehlende Werte ergeben. Fehlende Werte können aufgrund von Problemen bei der Datenerfassung, als Nebenprodukt bei der Verarbeitung von Datensätzen oder absichtlich auftreten. Letzteres kann der Fall sein, wenn wir unsere Modelle in Erwartung zukünftiger Werte mit leeren Zellen am Ende des Datensatzes einrichten.

Fehlende Werte werden als "Not a Number" oder kurz "NaN" bezeichnet. In Excel wird NaN durch eine leere Zelle oder durch die spezielle Darstellung "#N/A" gekennzeichnet. Es gibt einige integrierte Funktionen, die zur Erkennung von #N/A verwendet werden können, z. B. NA (), ISNA (.) und IFERROR(.).

Datensatzgröße

Eine Beobachtung in einem Datensatz kann entweder durch ein Wertepaar von zwei Variablen (x, y) oder durch einen Mehrfachwert von drei oder mehr Variablen (z. B. (x, y, z, w)) definiert werden. Ein Datenpunkt in einer univariaten Zeitreihe kann als (t, x_t) ausgedrückt werden.

In diesem Artikel befassen wir uns mit der Behandlung von Datenpunkten mit fehlenden Werten, indem wir sie entfernen. Wir werden den Entfernungsprozess für eindimensionale und zweidimensionale (multivariate) Datensätze betrachten.

Bei einem zweidimensionalen Datensatz steht jede Zeile für einen Datenpunkt und jede Spalte für eine Eingabevariable. Wenn eine oder mehrere Zellen in einer Zeile einen leeren oder #N/A-Wert aufweisen, wird der Datenpunkt (d. h. die Zeile) als Datenpunkt mit einem fehlenden Wert betrachtet und somit ausgeschlossen.

Aber Moment mal! Was ist mit Zeitreihen? Das Weglassen führender oder nachfolgender Datenpunkte mit fehlenden Werten wirft ein kleines Problem auf. Wir können einfach die Start- und Endzeit vorverlegen, aber wir können keine dazwischen liegenden Datenpunkte weglassen, da dies den zeitlichen Abstand zwischen den Beobachtungen beeinflusst.

Warum sollte mich das interessieren?

Der Umgang mit einem Datensatz mit fehlenden Werten in Excel stellt eine Herausforderung dar. Excel verfügt zwar über einige integrierte Funktionen (z. B. MIN(), MAX(.) COUNT(.)), die diese Datensätze akzeptieren und Beobachtungen mit fehlenden Werten stillschweigend ignorieren, aber die meisten Funktionen (z. B. STDEV(.), CORREL(.)) unterstützen sie nicht und geben Fehler zurück (d. h. #VALUE), wenn diese Datensätze als Eingaben übergeben werden.

RMNA(.) Funktion

In vielen NumXL-Assistenten gibt es eine separate Registerkarte für die Behandlung von Datenpunkten mit fehlenden Werten. In dieser Registerkarte werden dem Benutzer verschiedene Richtlinien angeboten: nicht akzeptieren, Beobachtungen entfernen, ersetzen, interpolieren, Datenanpassung, usw. Wählt der Benutzer die Richtlinie für den Umgang mit fehlenden Werten "Beobachtungen entfernen", werden die Eingabedatensätze zunächst durch die RMNA(.) in den generierten Formeln vorverarbeitet.

Was ist RMNA(.)? RMNA ist eine einfache, aber leistungsfähige Hilfsfunktion in NumXL, deren einzige Aufgabe es ist, Beobachtungen mit einem oder mehreren fehlenden Werten zu erkennen und zu entfernen.

Die Funktion RMNA nimmt zwei Argumente entgegen: X und (optional) Y. X und Y bestehen aus einer oder mehreren Spalten, aber wenn Y angegeben wird, dann muss die Anzahl der Zeilen in X gleich Y sein.

In der RMNA(.)-Notation ist der Datenpunkt (X, Y), aber RMNA(X, Y) gibt das verarbeitete X zurück. Wenn wir das verarbeitete Y zurückgeben möchten, kehren wir die Reihenfolge des X- und Y-Paares um (d. h. (Y, X)).

Beispiel 1: Betrachten wir das folgende Szenario: Ein einspaltiger Datensatz enthält zwei Datenpunkte mit fehlenden Werten. Fehlende Werte werden als #N/A und eine leere Zelle dargestellt.
Eingabedatensatz mit fehlenden Werten, die als #N/A und leere/leere Zellen dargestellt werden.

Die Verwendung der in Excel integrierten Funktionen: AVERAGE(.), STDEV(.), SKEW(.) und KURT(.) gibt den Fehler #N/A zurück, aber die Funktion COUNT(.) lässt Datenpunkte mit fehlenden Werten stillschweigend fallen und gibt eine Anzahl der verbleibenden Datenpunkte zurück (d. h. 18).

Nun verarbeiten wir den Datensatz mit RMNA(.) vor, speichern ihn in einer separaten Spalte und übergeben die neue Spalte an die gleichen Funktionen:
Ursprünglicher Datensatz mit fehlenden Werten, der mit Hilfe der RMNA-Funktion von NumXL in einen Datensatz ohne fehlende Werte umgewandelt wurde.

Hinweis:

Alternativ hätten wir die Formel RMNA(.) auch direkt (als Argument) in die Funktion einfügen können.

Verwendung der Funktion RMNA als Argument innerhalb der Funktion AVERAGE.

Beispiel 2: Nehmen wir einen Datensatz mit zwei Variablen (X, Y), für den wir die Kreuzkorrelation (XCF oder das in Excel integrierte CORREL) berechnen wollen.
Datensatz mit zwei Variablen, die beide fehlende Werte enthalten. Die Funktionen geben #NUM oder #N/A aus, wenn sie auf Datensätze mit fehlenden Werten verweisen.

Der Datensatz enthält 3 Datenpunkte mit fehlenden Werten, so dass wir diese Beobachtungen ausschließen müssen, bevor wir den Korrelationswert berechnen können.

Wir können die RMNA(.) auf zwei verschiedene Arten verwenden:

Methode 1: Übergeben Sie den gesamten Datensatz (Spalten B und C) als ein Argument.
Bei der Verwendung der Funktion RMNA für Datensätze mit mehr als einer Variablen werden die Zeilen mit einem oder mehreren fehlenden Werten gelöscht.

Die Funktion RMNA(.) gibt den Originaldatensatz zurück, nachdem alle Zeilen mit einem oder mehreren fehlenden Werten entfernt wurden.

Methode 2: Verarbeiten Sie jede Spalte separat, aber verwenden Sie die andere Spalte als optionale Referenz.

Durch die Verwendung der anderen Spalte als optionales Referenzargument (d. h. Y) untersucht RMNA(.) seine Datenpunkte ebenfalls auf fehlende Werte, aber die Funktion gibt nur den im ersten Argument angegebenen Datensatz (d. h. X) zurück.
Anwendung der Funktion RMNA auf einen Datensatz unter Verwendung eines anderen Datensatzes als optionales Referenzargument.

Beachten Sie, dass wir durch Umkehrung von X und Y in der RMNA(.) den X2-Datensatz erhalten können, nachdem wir fehlende Werte in X2 oder in der X1-Matrix entfernt haben.

Ein bemerkenswerter Vorteil von Methode 2 gegenüber Methode 1 ist, dass die Funktion nicht verlangt, dass die Spalten X1 und X2 nebeneinander liegen.

Beispiel 3: Richten wir ein Tabellenkalkulationsmodell ein, das automatisch aktualisiert wird, sobald neue Daten verfügbar sind.
Verwendung der RMNA-Funktion für zukünftige Werte, um Daten automatisch zu aktualisieren, sobald neue Eingaben eingeführt werden.

Beachten Sie, dass durch das Hinzufügen eines Wertes in B21, die RMNA(.) diesen neuen Wert einbezieht und die AVG und die anderen Funktionen zwingt, ihre Berechnungen zu aktualisieren.

Zusammenfassung

Zusammenfassend lässt sich sagen, dass die Funktion RMNA(.) einen einfachen, aber leistungsfähigen Mechanismus bietet, um Ihre Eingabedaten vorzubereiten, indem sie sie von allen Datenpunkten mit fehlenden Werten befreit. Die Funktion akzeptiert ein zweites Argument (Option), mit dem bestimmt wird, ob ein Datenpunkt mit einem fehlenden Wert aus der Ergebnismenge ausgeschlossen wird.

Um weitere technische Details über die RMNA-Funktion von NumXL zu erfahren, lesen Sie bitte hier reference manual page. Sie können eine voll funktionsfähige 14-day trial von NumXL und probieren Sie die RMNA-Funktion selbst aus.

Dateien Beispiele