Gráfico de estimación de la densidad Kernel

Mohamad

2 de noviembre de 2016 22:23

Anteriormente, vimos cómo utilizar el método del histograma para inferir la función de densidad de probabilidad (PDF) de una variable aleatoria (población) con una muestra finita de datos. En este tutorial, te llevamos en el problema de la inferencia de la función de densidad de probabilidad, pero utilizando otro método: estimación de densidad de Kernel.

Las estimaciones de la densidad de Kernel están estrechamente relacionadas con los histogramas, pero pueden dotarse de propiedades como la suavidad o la continuidad mediante el uso de un núcleo adecuado.

Proceso

Usando the NumXL add-in for Excel, usted puede calcular los valores KDE para las diferentes funciones de núcleo (Por ejemplo. Gaussiana, uniforme, triangular, etc.) and (opcionalmente) con un valor de ancho de banda.

Para nuestros datos de muestra, estamos usando 100 valores generados aleatoriamente de la distribución normal (usando el generador aleatorio en el paquete de análisis de Excel). Trazamos el histograma para nuestra referencia:

Esta figura muestra datos de entrada generados aleatoriamente. Esta figura muestra el gráfico de histograma para los datos de entrada generados aleatoriamente.

Ahora nosotros estamos listos para construir nuestra gráfica KDE. Primero, seleccione la celda vacía en su hoja de cálculo donde usted desee que la tabla sea generada, entonces busque y de clic en el icono “Estadística Descriptiva” en la pestaña de NumXL (o barra de herramientas). Luego, seleccione el item “Estimación de densidad de Kernel” del menu desplegable.
Esta figura muestra el botón “Estimación de densidad de kernel KDE” dentro de “Estadísticas descriptivas” en la barra de herramientas de NumXL.

Aparece el asistente de KDE.
Esta figura muestra la pestaña “General” del asistente KDE de NumXL en Excel.

Selecciona el rango de celdas para los valores de la variable de entrada.

Notas:

El rango de celdas incluye (opcional) el encabezado de la celda (“Etiqueta”), la cual debe ser usada en las tablas de salidas donde este se refiere a aquellas variables.
Por defecto, las celdas del rango de la tabla se fijan a la celda actual seleccionada en su hoja de cálculo.
Por defecto, la gráfica resultante con el rango de celdas se fija para las 7 celdas a la derecha de de la actual celda seleccionada en su hoja de cálculo.

Una vez que seleccionamos el rango de celdas de datos de entrada (X), las pestañas Transformar, Opciones y Valores faltantes estarán disponibles (habilitadas).

¿Los valores de los datos de entrada están sujetos a un límite superior o inferior? Si es así, ingrese esos límites y, opcionalmente, una función de transformación para aplicarlos.

Esta figura muestra la pestaña “Transformar” del asistente KDE de NumXL en Excel.

Para nuestro conjunto de datos, no hay un límite inferior o superior, por lo que dejaremos los campos en la pestaña Transformar vacíos o en blanco.

A continuación, seleccione la pestaña “Opciones”:
This figure shows the

Notas:

Por defecto, la función núcleo Gaussiana es seleccionada. Vamos a dejar esta opción sin cambiar.
De forma predeterminada, el menú desplegable Método de optimización está configurado en Ninguno/Manual. Cámbielo a Direct Plug-in (Sheather & Jones).
Por defecto, el tamaño de la tabla de salida se ajusta a 5. Cámbielo a 15.
“La distribución normal de superposición” está marcada. Esta opción en efecto le indica el asistente para generar una segunda curva de la distribución de Gauss para propósitos de comparación. Deje esta opción activada.

Ahora, de clic sobre la pestaña “Valores Faltantes”.
Esta figura muestra la pestaña “Valores perdidos” del asistente KDE de NumXL en Excel.

En esta tabla, usted puede seleccionar puede seleccionar un enfoque para manejar los valores que faltan en el conjunto de datos (de X). Por defecto, cualquier observación con el valor que falta se excluyó del análisis.

Este tratamiento es un buen enfoque para nuestro análisis, así que vamos a dejarlo sin cambios.

Ahora, haga clic en "OK" para generar las tablas de salida.

Salida

Caso 1

Esta figura muestra las tablas de salida de KDE generadas después de presionar “Aceptar” en el asistente de NumXL KDE. Esta figura muestra el gráfico de salida de KDE generado por el asistente NumXL KDE.

Notas:

La parte superior de la salida enumera los valores de los parámetros de la función NxKDE(.). Puede cambiar esos ajustes.
La trama mín. y parcela máx. Las celdas definen los límites del eje x en el gráfico, por lo que puede cambiar sus valores para examinar diferentes partes del KDE. En este tutorial, veremos el KDE en un intervalo (-4.0, 4.0).
Hay dos entradas para el ancho de banda: BW (entrada) y BW (Opt.). Puede ingresar cualquier valor en el BW (entrada), pero el BW (Opt.) se calcula utilizando la función NxKDE(.). Para el método de ancho de banda manual, BW (Opt.) es igual a BW (Entrada), y para todos los demás, BW (Entrada) sirve como valor inicial.
Los valores de todas las X se ordenan en orden ascendente.
El NxKDE(.) admite 7 funciones de núcleo diferentes: funciones gaussianas, uniformes, triangulares, cuárticas, de tres pesos, Epanechnikov y coseno.
El método de optimización Direct Plug-in (DPI) requiere una función de kernel diferenciable hasta el sexto orden, por lo que solo se pueden usar kernels gaussianos y coseno con DPI.

Tenga en cuenta que la curva KDE (azul) sigue muy de cerca la curva de densidad gaussiana (naranja).

De la tabla de salida, cambiemos el método de optimización a 3, que corresponde al método de validación cruzada imparcial, y observemos el recálculo del ancho de banda óptimo y los valores de KDE.
En esta figura, cambiamos el método de optimización “Opt. Method” a 3 para el método de validación cruzada imparcial. Esta figura muestra el gráfico de salida de KDE después de cambiar el método de optimización al método de validación cruzada imparcial.

Caso 2

Ahora vamos a tratar un conjunto de datos de muestra no normal. Hemos generado 100 valores aleatorios de una distribución uniforme entre -3 y 3. A raíz de medidas similares, siguiendo pasos similares, nosotros trazamos el histograma y el KDE:

Esta figura muestra las tablas de salida de KDE para un conjunto de datos no normal. Esta figura muestra el gráfico de salida de KDE para un conjunto de datos no normal.

Tenga en cuenta que ingresamos los límites inferior y superior de KDE, pero no especificamos una función de transformación. En este caso, el NxKDE(.) vuelve al método de reflexión de Silverman para aquellos valores cercanos a los límites del dominio.

Esta figura muestra el histograma, la curva normal y la curva KDE para el conjunto de datos no uniforme.

Tenga en cuenta que la curva KDE (negra) sigue más de cerca la distribución subyacente (es decir, uniforme) que el histograma o la curva normal.

Conclusión

En este tutorial, demostramos el proceso para generar un KDE en Excel utilizando las funciones complementarias de NumXL.

El método KDE es una gran mejora para inferir la función de densidad de probabilidad de la población, en términos de precisión y continuidad de la función.

Hemos utilizado la función NxKDE para calcular el ancho de banda óptimo y los valores de densidad de probabilidad. La función NxKDE(.) admite valores de salida adicionales: función de densidad acumulada (CDF) y su inversa (CDF inversa).

Archivos adjuntos

EX1-KDE.xlsx (50 kB)

Proceso

Salida

Conclusión

Archivos adjuntos

Artículos relacionados

Comentarios