刪除缺失值

Zaid Marridi

2022年08月07日 15:09

在實務中，我們會遇到有缺失值的資料集，其中一個或多個觀察日期產生無效或遺失的值。缺失值的情況缺失值的情況可能是由於資料收集問題、資料集處理過程中的副產品或設計造成。集，或由於設計。後者可能發生在我們設定模型時的情況下，可能會發生後者。值。

缺失值被稱為 "不是數字「或簡稱」NaN"。在 Excel 中、 NaN 被識別為空單元格或特殊的「#N/A」表示法。有有一些內建函數可用來偵測 #N/A，例如 NA ()、ISNA (.) 和 IFERROR(.)。

資料集尺寸

資料集中的觀察可以由兩個變數的一對值 (x) 或三個或更多變數的多個值 (如 (x、y、)) 來定義。變數 (x, y) 或三個或更多變數的多重值 (例如 (x, y、 z, w））。單元時間序列中的資料點可以表示為 (t，x_t)。

在本文中，我們將考慮透過移除缺失值來處理資料點。來處理有缺失值的資料點。我們將考慮一維和二維（多變數）資料集的移除過程。 (多變量）資料集的移除過程。

對於二維資料集，每一行代表一個資料點，而每一列代表輸入變數。如果一行中有一個或多個單元格為空或 #N/A 值，則該資料點（即該行）會被視為有遺失值的資料點，因此會被剔除。因此被排除在外。

但等一下！時間序列怎麼辦？刪除前導或後導資料遺失值的點會造成一個小問題。我們可以簡單地提前開始時間和結束時間，但我們不能刪除中間的資料點，因為這會影響觀測之間的時間間隔。會影響觀測之間的時間間隔。

我為什麼要關心？

在 Excel 中處理缺失值的資料集是一項挑戰。雖然 Excel 有一些內建函數 (例如 MIN()、MAX(.)、COUNT(.)) 可以接受這些數據集並默默地忽略缺失值的觀測，但大多數的函數 (例如，STDEV(.)、CORREL(.)) 不支援這些資料集，如果這些資料集被傳輸作為輸入，則會回傳錯誤 (即 #VALUE) (i.e., #VALUE)。

RMNA(.) 函式

在許多 NumXL 精靈中，有一個單獨的選項卡，用於處理有缺失值的資料點。缺失值。在此標籤中，使用者會看到不同的政策：不接受、移除觀察點、替代、內插、資料擬合等。接受、移除觀察點、替代、內插、資料擬合等。如果使用者選擇「移除 obs.」的缺失值處理原則，則輸入資料集會先在產生的公式中以 RMNA(.) 首先在產生的公式中使用 RMNA(.) 進行預處理。

什麼是 RMNA(.)？ RMNA是 NumXL 中一個簡單但功能強大的工具函數。在 NumXL 中，唯一的任務是偵測並移除有一個或多個缺失值的觀測值。或更多缺失值。

RMNA 函式接受兩個參數： X 和(選項地) Y. X 和 Y 由一列或多列組成，但如果 Y 已給出，則 X 中的行數必須等於 Y。 X 中的行數必須等於 Y。

在 RMNA(.) 符號中，資料點是 (X，Y)，但 RMNA(X, Y) 會返回已處理的 X。如果我們希望傳回處理過的 Y，那麼我們要將 X 和 Y 的順序倒轉 (即 (Y, X))。的順序 (即 (Y、X))。

範例 1: 讓我們考慮以下情況：單欄資料集有兩個缺失值的資料點。缺失值表示為表示為 #N/A 和空白/空格。
輸入資料集，缺失值以 #N/A 和空白/空格表示。

使用 Excel 內建函數： AVERAGE(.)、STDEV(.)、SKEW(.)和 KURT(.) 會返回錯誤 #N/A，但 COUNT(.) 會默默地刪除缺失值的資料點，並返回剩餘資料點的計數（例如，18 值的資料點，並傳回餘下資料點的計數 (即 18)。

N現在，讓我們使用 RMNA(.) 來預先處理資料集，並將其儲存在獨立的欄位中、並將新列傳給相同的函式：
使用 NumXL 的 RMNA 功能將原始資料集的缺失值轉換成沒有缺失值的資料集。

請注意：

或者，我們可以直接將 RMNA(.) 公式（作為一個參數）放入函數中。作為參數）放入函數中。

在 AVERAGE 函數中使用 RMNA 函數作為參數。

範例 2: 讓我們考慮一個包含兩個變數 (X, Y) 的資料集。我們希望計算其交互關係 (XCF 或 Excel 內建的 CORREL）。
兩個變數的資料集都包含缺失值。當引用有缺失值的資料集時，函式會輸出 #NUM 或 #N/A。

該資料集有 3 個資料點的值缺失，因此我們需要排除這些觀察，才能計算出相關值。

我們可以用兩種不同的方式來使用 RMNA(.)：

方法 1: 將整個資料集（B 列和 C 列）作為一個參數傳送。
對於多個變數的資料集使用 RMNA 函式，會刪除有一個或多個缺失值的資料列。

RMNA(.) 函式會在刪除任何有一個或多個遺失值的資料行後回傳原始資料集。有一個或多個遺失值的行後，返回原始資料集。

方法 2: 分別預先處理每一列，但將另一列列作為可選的參考。

使用另一列作為可選的參考參數（即 Y），RMNA(.）也會檢查其資料點是否有缺失值，但函式只會回傳第一個參數指定的資料集（即 X）。
在資料集上使用 RMNA 函式，同時使用另一個資料集作為可選的參考參數。

請注意，透過在 RMNA(.) 中顛倒 X 和 Y，我們可以在剔除 X2 或 X1 矩陣中的缺失值後得到 X2 資料集。剔除 X2 或 X1 矩陣中的缺失值。

與方法 1 相比，使用方法 2 的一個顯著優點是，該函數不要求 X1 和 X2 列相鄰。不需要 X1 和 X2 列相鄰。

範例 3: 讓我們設定電子表格模型，以便自動更新、自動更新。
對未來值使用 RMNA 功能，以便在引入新輸入時自動更新資料。

請注意，在 B21 中加入一個值後，RMNA(.) 將包含這個新值、迫使 AVG 及其他函數更新其計算。

摘要

總而言之，RMNA(.) 函式提供了一個簡單但功能強大的機制，藉由剔除任何有缺失值的資料點，來準備您的輸入資料。的機制。函數接受第二個 (選項) 參數，用來判斷資料點是否有遺漏值，但不包括在回傳結果集中。是否有遺漏值，但會從回傳結果集中剔除。

要瞭解更多關於 NumXL RMNA 功能的技術細節，請參閱以下內容參考手冊頁面. 您可以下載功能完整的 14 天試用的 NumXL，並親自嘗試 RMNA 功能。

檔案範例

資料集尺寸

我為什麼要關心？

RMNA(.) 函式

摘要

檔案範例

相关文章

评论