누락된 값 제거

Zaid Marridi

2022년 08월 07일 15:09

실제로 하나 이상의 관찰 날짜가 유효하지 않거나 누락된 값을 산출하는 결측값이 있는 데이터 집합을 접하게 됩니다. 결측값 상황은 데이터 수집 문제, 데이터 집합 처리의 부산물 또는 설계로 인해 발생할 수 있습니다. 후자는 미래 값을 예상하여 데이터 집합의 끝에 빈 셀을 추가하여 모델을 설정한 경우에 발생할 수 있습니다.

누락된 값은 "숫자가 아님" 또는 줄여서 "NaN"으로 지정됩니다. Excel에서 NaN은 빈 셀 또는 특수한 "#N/A" 표현으로 식별됩니다. NA(), ISNA(.), IFERROR(.)와 같이 #N/A를 감지하는 데 사용할 수 있는 몇 가지 기본 제공 함수가 있습니다.

데이터셋 차원

데이터 집합의 관측값은 두 변수의 값 쌍(x, y) 또는 세 개 이상의 변수로 구성된 다중 값(예: (x, y, z, w))으로 정의할 수 있습니다. 단변량 시계열의 데이터 요소는 (t, x_t)로 표현할 수 있습니다.

이 문서에서는 결측값이 있는 데이터 요소를 제거하여 처리하는 방법을 살펴보겠습니다. 1차원 및 2차원(다변량) 데이터 집합에 대한 제거 프로세스를 살펴보겠습니다.

2차원 데이터 집합의 경우, 각 행은 데이터 포인트를 나타내고 각 열은 입력 변수를 나타냅니다. 행에 있는 하나 이상의 셀에 비어 있거나 #N/A 값이 있는 경우 해당 데이터 포인트(즉, 행)는 누락된 값이 있는 데이터 포인트로 간주되어 제외됩니다.

하지만 잠깐만요! 시계열은 어떨까요? 결측값이 있는 선행 또는 후행 데이터 요소를 삭제하는 데는 약간의 문제가 있습니다. 시작 시간과 종료 시간은 앞당길 수 있지만, 중간 데이터 요소는 관측 사이의 시간 간격에 영향을 미치기 때문에 삭제할 수 없습니다.

내가 왜 신경 써야 하나요?

Excel에서 결측값이 있는 데이터 집합을 처리하는 것은 어려운 일입니다. Excel에는 이러한 데이터 집합을 허용하고 결측값이 있는 관측값을 자동으로 무시하는 몇 가지 기본 제공 함수(예: MIN(.), MAX(.) COUNT(.))가 있지만, 대부분의 함수(예: STDEV(.), CORREL(.)는 이를 지원하지 않으며 이러한 데이터 집합이 입력으로 전달되는 경우 오류(예: #VALUE)를 반환합니다.

RMNA(.) 함수

많은 NumXL 마법사에는 결측값이 있는 데이터 요소를 처리하기 위한 별도의 탭이 있습니다. 이 탭에는 허용 안 함, 관측값 제거, 대체, 보간, 데이터 맞춤 등 다양한 정책이 사용자에게 표시됩니다. 사용자가 '관측값 제거' 결측값 처리 정책을 선택하면, 입력 데이터 집합은 먼저 생성된 수식에서 RMNA(.)에 의해 사전 처리됩니다.

RMNA(.)란 무엇인가요? RMNA는 하나 이상의 결측값이 있는 관측값을 감지하고 제거하는 유일한 작업을 수행하는 NumXL의 간단하지만 강력한 유틸리티 함수입니다.

RMNA 함수는 두 개의 인수를 받습니다: X와 (선택 사항) Y. X와 Y는 하나 이상의 열로 구성되지만, Y가 주어진 경우 X의 행 수는 Y와 같아야 합니다.

RMNA(.) 표기법에서 데이터 포인트는 (X, Y)이지만 RMNA(X, Y)는 처리된 X를 반환합니다. 처리된 Y를 반환하려면 X와 Y 쌍의 순서를 반대로(즉, (Y, X)) 바꾸면 됩니다.

예 1: 한 열의 데이터 집합에 결측값이 있는 두 개의 데이터 요소가 있는 다음 시나리오를 고려해 보겠습니다. 누락된 값은 #N/A와 빈/비어 있는 셀로 표시됩니다.
누락된 값이 #N/A로 표시된 입력 데이터 세트와 빈/비어 있는 셀을 입력합니다.

Excel 내장 함수 사용: 평균(.), 표준편차(.), 기울기(.) 및 커트(.)는 오류 #N/A를 반환하지만, 카운트(.)는 누락된 값이 있는 데이터 요소를 자동으로 삭제하고 나머지 데이터 요소의 수(예: 18개)를 반환합니다.

이제 데이터 집합을 RMNA(.)로 전처리하고 별도의 열에 저장한 다음 새 열을 동일한 함수에 전달해 보겠습니다:
결측값이 있는 원본 데이터셋을 NumXL의 RMNA 함수를 사용하여 결측값이 없는 데이터셋으로 변환합니다.

참고:

또는 RMNA(.) 공식을 함수에 직접 (인수로) 넣을 수도 있습니다.

평균 함수 내부의 인수로 RMNA 함수를 사용합니다.

예 2: 교차 상관관계(XCF 또는 Excel의 기본 제공 CORREL)를 계산하려는 두 변수(X, Y)의 데이터 집합을 고려해 보겠습니다.
두 변수에 모두 결측값이 포함된 데이터 집합입니다. 함수는 누락된 값이 있는 데이터 집합을 참조할 때 #NUM 또는 #N/A를 출력합니다.

데이터 집합에 결측값이 있는 데이터 요소가 3개 있으므로 상관 관계 값을 계산하려면 먼저 해당 관측값을 제외해야 합니다.

RMNA(.)는 두 가지 방법으로 사용할 수 있습니다:

방법 1: 전체 데이터 집합(열 B와 C)을 하나의 인수로 전달합니다.
둘 이상의 변수로 구성된 데이터 집합에 RMNA 함수를 사용하면 하나 이상의 누락된 값이 있는 행이 삭제됩니다.

RMNA(.) 함수는 하나 이상의 누락된 값이 있는 행을 삭제한 후 원래 데이터 집합을 반환합니다.

방법 2: 각 열을 개별적으로 사전 처리하되 다른 열을 선택적 참조로 사용합니다.

다른 열을 선택적 참조 인수(예: Y)로 사용하면 RMNA(.)는 데이터 포인트에 누락된 값도 검사하지만 함수는 첫 번째 인수(예: X)에 지정된 데이터 집합만 반환합니다.
다른 데이터 집합을 선택적 참조 인수로 사용하면서 데이터 집합에서 RMNA 함수를 사용합니다.

RMNA(.)에서 X와 Y를 반대로 하면 X2 또는 X1 행렬에서 발견된 누락된 값을 제거한 후 X2 데이터 집합을 얻을 수 있다는 점에 유의하세요.

방법 1보다 방법 2를 사용할 때 주목할 만한 장점은 X1과 X2 열이 인접할 필요가 없다는 점입니다.

예 3: 새로운 데이터를 사용할 수 있게 되면 자동으로 업데이트할 수 있는 스프레드시트 모델을 설정해 보겠습니다.
미래 값에 RMNA 기능을 사용하면 새로운 입력이 도입되면 데이터를 자동으로 업데이트할 수 있습니다.

B21에 값을 추가하면 RMNA(.)에 이 새 값이 포함되어 AVG 및 다른 함수가 계산을 업데이트하게 됩니다.

요약

요약하자면, RMNA(.) 함수는 누락된 값이 있는 데이터 요소를 제거하여 입력 데이터를 준비할 수 있는 간단하면서도 강력한 메커니즘을 제공합니다. 이 함수는 데이터 요소에 누락된 값이 있지만 반환 결과 집합에서 제외되는지 여부를 결정하는 데 사용되는 두 번째(옵션) 인수를 받습니다.

NumXL의 RMNA 기능에 대한 자세한 기술 정보는 다음을 참조하세요. reference manual page. 모든 기능을 갖춘 14-day trial 를 클릭하고 RMNA 기능을 직접 사용해 보세요.

파일 예제

데이터셋 차원

내가 왜 신경 써야 하나요?

RMNA(.) 함수

요약

파일 예제

관련 문서

댓글