Anteriormente, vimos cómo utilizar el método del histograma para inferir la función de densidad de probabilidad (PDF) de una variable aleatoria (población) con una muestra finita de datos. En este tutorial, te llevamos en el problema de la inferencia de la función de densidad de probabilidad, pero utilizando otro método: estimación de densidad de Kernel.
Las estimaciones de la densidad de Kernel están estrechamente relacionadas con los histogramas, pero pueden dotarse de propiedades como la suavidad o la continuidad mediante el uso de un núcleo adecuado.
Proceso
Usando the NumXL add-in for Excel, usted puede calcular los valores KDE para las diferentes funciones de núcleo (Por ejemplo. Gaussiana, uniforme, triangular, etc.) and (opcionalmente) con un valor de ancho de banda.
Para nuestros datos de muestra, estamos usando 100 valores generados aleatoriamente de la distribución normal (usando el generador aleatorio en el paquete de análisis de Excel). Trazamos el histograma para nuestra referencia:
Ahora nosotros estamos listos para construir nuestra gráfica KDE. Primero, seleccione la celda vacía en su hoja de cálculo donde usted desee que la tabla sea generada, entonces busque y de clic en el icono “Estadística Descriptiva” en la pestaña de NumXL (o barra de herramientas). Luego, seleccione el item “Estimación de densidad de Kernel” del menu desplegable.
Aparece el asistente de KDE.
Selecciona el rango de celdas para los valores de la variable de entrada.
Notas:
- El rango de celdas incluye (opcional) el encabezado de la celda (“Etiqueta”), la cual debe ser usada en las tablas de salidas donde este se refiere a aquellas variables.
- Por defecto, las celdas del rango de la tabla se fijan a la celda actual seleccionada en su hoja de cálculo.
- Por defecto, la gráfica resultante con el rango de celdas se fija para las 7 celdas a la derecha de de la actual celda seleccionada en su hoja de cálculo.
Una vez que seleccionamos el rango de celdas de datos de entrada (X), las pestañas Transformar, Opciones y Valores faltantes estarán disponibles (habilitadas).
¿Los valores de los datos de entrada están sujetos a un límite superior o inferior? Si es así, ingrese esos límites y, opcionalmente, una función de transformación para aplicarlos.
Para nuestro conjunto de datos, no hay un límite inferior o superior, por lo que dejaremos los campos en la pestaña Transformar vacíos o en blanco.
A continuación, seleccione la pestaña “Opciones”:
Notas:
- Por defecto, la función núcleo Gaussiana es seleccionada. Vamos a dejar esta opción sin cambiar.
- De forma predeterminada, el menú desplegable Método de optimización está configurado en Ninguno/Manual. Cámbielo a Direct Plug-in (Sheather & Jones).
- Por defecto, el tamaño de la tabla de salida se ajusta a 5. Cámbielo a 15.
- “La distribución normal de superposición” está marcada. Esta opción en efecto le indica el asistente para generar una segunda curva de la distribución de Gauss para propósitos de comparación. Deje esta opción activada.
Ahora, de clic sobre la pestaña “Valores Faltantes”.
En esta tabla, usted puede seleccionar puede seleccionar un enfoque para manejar los valores que faltan en el conjunto de datos (de X). Por defecto, cualquier observación con el valor que falta se excluyó del análisis.
Este tratamiento es un buen enfoque para nuestro análisis, así que vamos a dejarlo sin cambios.
Ahora, haga clic en "OK" para generar las tablas de salida.
Salida
Caso 1
Notas:
- La parte superior de la salida enumera los valores de los parámetros de la función NxKDE(.). Puede cambiar esos ajustes.
- La trama mín. y parcela máx. Las celdas definen los límites del eje x en el gráfico, por lo que puede cambiar sus valores para examinar diferentes partes del KDE. En este tutorial, veremos el KDE en un intervalo (-4.0, 4.0).
- Hay dos entradas para el ancho de banda: BW (entrada) y BW (Opt.). Puede ingresar cualquier valor en el BW (entrada), pero el BW (Opt.) se calcula utilizando la función NxKDE(.). Para el método de ancho de banda manual, BW (Opt.) es igual a BW (Entrada), y para todos los demás, BW (Entrada) sirve como valor inicial.
- Los valores de todas las X se ordenan en orden ascendente.
- El NxKDE(.) admite 7 funciones de núcleo diferentes: funciones gaussianas, uniformes, triangulares, cuárticas, de tres pesos, Epanechnikov y coseno.
- El método de optimización Direct Plug-in (DPI) requiere una función de kernel diferenciable hasta el sexto orden, por lo que solo se pueden usar kernels gaussianos y coseno con DPI.
Tenga en cuenta que la curva KDE (azul) sigue muy de cerca la curva de densidad gaussiana (naranja).
De la tabla de salida, cambiemos el método de optimización a 3, que corresponde al método de validación cruzada imparcial, y observemos el recálculo del ancho de banda óptimo y los valores de KDE.
Caso 2
Ahora vamos a tratar un conjunto de datos de muestra no normal. Hemos generado 100 valores aleatorios de una distribución uniforme entre -3 y 3. A raíz de medidas similares, siguiendo pasos similares, nosotros trazamos el histograma y el KDE:
Tenga en cuenta que ingresamos los límites inferior y superior de KDE, pero no especificamos una función de transformación. En este caso, el NxKDE(.) vuelve al método de reflexión de Silverman para aquellos valores cercanos a los límites del dominio.
Tenga en cuenta que la curva KDE (negra) sigue más de cerca la distribución subyacente (es decir, uniforme) que el histograma o la curva normal.
Conclusión
En este tutorial, demostramos el proceso para generar un KDE en Excel utilizando las funciones complementarias de NumXL.
El método KDE es una gran mejora para inferir la función de densidad de probabilidad de la población, en términos de precisión y continuidad de la función.
Hemos utilizado la función NxKDE para calcular el ancho de banda óptimo y los valores de densidad de probabilidad. La función NxKDE(.) admite valores de salida adicionales: función de densidad acumulada (CDF) y su inversa (CDF inversa).
Comentarios
El artículo está cerrado para comentarios.