刪除缺失值

在實務中,我們會遇到有缺失值的資料集,其中一個或多個 觀察日期產生無效或遺失的值。 缺失值的情況 缺失值的情況可能是由於資料收集問題、資料集處理過程中的副產品或設計造成。 集,或由於設計。 後者可能發生在我們設定模型時 的情況下,可能會發生後者。 值。

缺失值被稱為 "不是數字 「或簡稱 」NaN"。 在 Excel 中、 NaN 被識別為空單元格或特殊的「#N/A」表示法。 有 有一些內建函數可用來偵測 #N/A,例如 NA ()、ISNA (.) 和 IFERROR(.)。

資料集尺寸

資料集中的觀察可以由兩個變數的一對值 (x) 或三個或更多變數的多個值 (如 (x、y、)) 來定義。 變數 (x, y) 或三個或更多變數的多重值 (例如 (x, y、 z, w))。 單元時間序列中的資料點可以表示為 (t,x_t)。

在本文中,我們將考慮透過移除缺失值來處理資料點。 來處理有缺失值的資料點。 我們將考慮一維和二維(多變數)資料集的移除過程。 (多變量)資料集的移除過程。

對於二維資料集,每一行代表一個資料點,而每一列 代表輸入變數。 如果一行中有一個或多個單元格為空或 #N/A 值,則該資料點(即該行)會被視為有遺失值的資料點,因此會被剔除。 因此被排除在外。

但等一下! 時間序列怎麼辦? 刪除前導或後導資料 遺失值的點會造成一個小問題。 我們可以簡單地提前 開始時間和結束時間,但我們不能刪除中間的資料點,因為這會影響觀測之間的時間間隔。 會影響觀測之間的時間間隔。

我為什麼要關心?

在 Excel 中處理缺失值的資料集是一項挑戰。 雖然 Excel 有一些內建函數 (例如 MIN()、MAX(.)、COUNT(.)) 可以接受這些 數據集並默默地忽略缺失值的觀測,但大多數的 函數 (例如,STDEV(.)、CORREL(.)) 不支援這些資料集,如果這些資料集被傳輸作為輸入,則會回傳錯誤 (即 #VALUE) (i.e., #VALUE)。

RMNA(.) 函式

在許多 NumXL 精靈中,有一個單獨的選項卡,用於處理有缺失值的資料點。 缺失值。 在此標籤中,使用者會看到不同的政策:不接受、移除觀察點、替代、內插、資料擬合等。 接受、移除觀察點、替代、內插、資料擬合等。 如果使用者 選擇「移除 obs.」的缺失值處理原則,則輸入資料集會先在產生的公式中以 RMNA(.) 首先在產生的公式中使用 RMNA(.) 進行預處理。

什麼是 RMNA(.)? RMNA是 NumXL 中一個簡單但功能強大的工具函數。 在 NumXL 中,唯一的任務是偵測並移除有一個或多個缺失值的觀測值。 或更多缺失值。

RMNA 函式接受兩個參數: X 和(選項地) Y. X 和 Y 由一列或多列組成,但如果 Y 已給出,則 X 中的行數必須等於 Y。 X 中的行數必須等於 Y。

在 RMNA(.) 符號中,資料點是 (X,Y),但 RMNA(X, Y) 會返回已處理的 X。 如果我們希望傳回處理過的 Y,那麼我們要將 X 和 Y 的順序倒轉 (即 (Y, X))。 的順序 (即 (Y、X))。

範例 1: 讓我們考慮以下情況:單欄 資料集有兩個缺失值的資料點。 缺失值表示為 表示為 #N/A 和空白/空格。
輸入資料集,缺失值以 #N/A 和空白/空格表示。

使用 Excel 內建函數: AVERAGE(.)、STDEV(.)、SKEW(.)和 KURT(.) 會返回錯誤 #N/A,但 COUNT(.) 會默默地刪除缺失值的資料點,並返回剩餘資料點的計數(例如,18 值的資料點,並傳回餘下資料點的計數 (即 18)。

N現在,讓我們使用 RMNA(.) 來預先處理資料集,並將其儲存在獨立的欄位中、 並將新列傳給相同的函式:
使用 NumXL 的 RMNA 功能將原始資料集的缺失值轉換成沒有缺失值的資料集。

請注意:

或者,我們可以直接將 RMNA(.) 公式(作為一個參數)放入函數中。 作為參數)放入函數中。

在 AVERAGE 函數中使用 RMNA 函數作為參數。

範例 2: 讓我們考慮一個包含兩個變數 (X, Y) 的資料集。 我們希望計算其交互關係 (XCF 或 Excel 內建的 CORREL)。
兩個變數的資料集都包含缺失值。 當引用有缺失值的資料集時,函式會輸出 #NUM 或 #N/A。

該資料集有 3 個資料點的值缺失,因此我們需要排除這些 觀察,才能計算出相關值。

我們可以用兩種不同的方式來使用 RMNA(.):

方法 1: 將整個資料集(B 列和 C 列)作為一個參數傳送。
對於多個變數的資料集使用 RMNA 函式,會刪除有一個或多個缺失值的資料列。

RMNA(.) 函式會在刪除任何有一個或多個遺失值的資料行後回傳原始資料集。 有一個或多個遺失值的行後,返回原始資料集。

方法 2: 分別預先處理每一列,但將另一列 列作為可選的參考。

使用另一列作為可選的參考參數(即 Y),RMNA(.) 也會檢查其資料點是否有缺失值,但函式只會回傳 第一個參數指定的資料集(即 X)。
在資料集上使用 RMNA 函式,同時使用另一個資料集作為可選的參考參數。

請注意,透過在 RMNA(.) 中顛倒 X 和 Y,我們可以在剔除 X2 或 X1 矩陣中的缺失值後得到 X2 資料集。 剔除 X2 或 X1 矩陣中的缺失值。

與方法 1 相比,使用方法 2 的一個顯著優點是,該函數不要求 X1 和 X2 列相鄰。 不需要 X1 和 X2 列相鄰。

範例 3: 讓我們設定電子表格模型,以便自動更新、 自動更新。
對未來值使用 RMNA 功能,以便在引入新輸入時自動更新資料。

請注意,在 B21 中加入一個值後,RMNA(.) 將包含這個新值、 迫使 AVG 及其他函數更新其計算。

摘要

總而言之,RMNA(.) 函式提供了一個簡單但功能強大的機制,藉由剔除任何有缺失值的資料點,來準備您的輸入資料。 的機制。 函數 接受第二個 (選項) 參數,用來判斷資料點是否有遺漏值,但不包括在回傳結果集中。 是否有遺漏值,但會從回傳結果集中剔除。

要瞭解更多關於 NumXL RMNA 功能的技術細節,請參閱以下內容 參考手冊頁面. 您可以下載功能完整的 14 天試用 的 NumXL,並親自嘗試 RMNA 功能。

檔案範例

评论

登录写评论。

这篇文章有帮助吗?
0 人中有 0 人觉得有帮助