Función de Distribución Empírica

Mohamad

2 de noviembre de 2016 21:44

En una entrada anterior, discutimos el histograma como un método no paramétrico para la inferencia de distribución de probabilidad de una variable aleatoria. En este tutorial, repasamos la función de distribución empírica y estimamos sus valores para los diferentes puntos de la muestra.

Para los datos de muestra, se generó un conjunto de datos de 29 valores generados aleatoriamente de la distribución Gaussiana.

Fondo

La función de distribución empírica (FED) o cdf empírica es una función de paso que salta por 1/N a la ocurrencia de cada observación:

$$FDE(x)=\frac{1}{N}\sum_{i=1}^N I\{x\leq x_i\}$$

Donde

$\{A\}$ es el indicador de la función de un evento
$I\{x\leq x_i\}=\begin{cases} 1 & \text{ if } x \leq x_i \\ 0 & \text{ if } x \gt x_i \end{cases}$

Por definición, la función FDE calcula la distribución acumulativa del número aleatorio subyacente.

Por qué nos preocupamos?

El FED estima la verdadera función de densidad acumulativa subyacente de los puntos en la muestra; Se garantiza virtualmente que converge con la distribución verdadera a medida que el tamaño de la muestra se hace lo suficientemente grande.

Proceso

Primero, vamos a organizar nuestros datos de entrada. Nosotros podemos comenzar ubicando los valore de loss datos de la muestra en una columna separada. La muestra puede contener uno o más valores faltantes.

Sample data for NumXL EDF tutorial.

Ahora estamos listos para construir nuestro FDE Plot First, seleccione la celda vacía en la hoja de trabajo donde desea que se genere la tabla de salida, luego busque y haga clic en el icono "Estadísticas Descriptivas" en la pestaña NumXL (o barra de herramientas). A continuación, seleccione el elemento "Función de distribución empírica" del menú desplegable.

El Wizard o asistente FDE Wizard aparece.

General tab of NumXL EDF Wizard or dialog.

Seleccione el rango de celdas para los valores de la variable de entrada.

Notas:

El rango de celdas incluye (opcional) la celda de encabezado ("Etiqueta"), que podria ser utilizada en las tablas de salida donde esta hace referencia a esas variables.
Por defecto, el rango de celdas de la tabla de salida se establece en la actual celda seleccionada en su hoja de cálculo.
Por defecto, El rango de las celdas del gráfico de salida se establece en las 7 celdas a la derecha de la celda seleccionada actualmente en la hoja de cálculo.

Finalmente, una vez que seleccionamos el rango de las celdas de datos de entrada (X), las pestañas "Opciones" y "Valores faltantes" están disponibles (activadas).

Luego, seleccione l pestaña opciones

Options tab of NumXL EDF Wizard or dialog.

Inicialmente, la tab o pestaña se establece para los siguientes valores:

"Superposición de distribución Normal" está activada. En efecto, esta opción instruye al wizard o asistente a generar una segunda curva de la distribución Gaussiana para propósitos de comparación. Deje esta opción marcada.

Ahora, de clic en la pestaña Now, “Valores Faltantes”.

Missing values treatment tab of NumXL EDF Wizard or dialog.

En esta pestaña, usted puede seleccionar un enfoque para manejar los valores que faltan en el conjunto de datos (de X). Por defecto, cualquier observación con valor faltante sería excluida del análisis.

Este tratamiento es un buen enfoque para nuestro análisis, así que vamos a dejarlo sin cambios.

Salida

Ahora de clic en “OK” para generar las tablas de salida.

Output table generated by EDF wizard or dialog box in tutorial 101.

Notas:

Los valores de todas las observaciones son ordenados en orden ascendente y ubicados en la columna E.
Las columnas X-Bar y Y-Bar no tienen significado estadístico especial; Se calculan simplemente para ayudarnos a generar un tipo de gráfico paso a paso en Excel.
Finalmente, la función de densidad acumulativa equivalente (CDF) de la distribución normal se calcula en la columna I.

El gráfico generado del FDE se muestra a continuación:

EDF plot generated by NumXL EDF Wizard.

Conclusión

En este tutorial, hemos demostrado el proceso para generar una función de distribución empírica en Excel utilizando las funciones complementarias de NumXL.

¿A dónde vamos desde aquí?

Para obtener la función de densidad de probabilidad (PDF), se necesita tomar la derivada de la CDF, pero el FDE es una función escalonada y la diferenciación es una operación de amplificación de ruido. Como resultado, el PDF resultante es muy recortado y necesita un suavizado considerable para muchas áreas de aplicación.

En nuestra próxima entrada, examinaremos el método de estimación de la densidad del núcleo para obtener la función de densidad de probabilidad del proceso aleatorio subyacente.

Archivos adjuntos

EDF-Tutorial-101.pdf (200 kB)
EX1-EDF.xlsx (20 kB)

Fondo

Por qué nos preocupamos?

Proceso

Salida

Conclusión

Archivos adjuntos

Artículos relacionados

Comentarios