KDE - Estimación de Densidad de Kernel

Mohamad

27 de octubre de 2016 14:58

Calcula la estimación de la densidad del kernel (KDE) de los datos de la muestra.

Sintaxis

KDE(X, target, h, kernel)

X

son las series de datos de entrada (array de una o dos dimensiones de celdads (Por ejemplo: filas o columnas)).

target

es el valor objetivo para calcular la función básica acumulativa de distribución (CDF).

h

es el parámetro de suavizado (ancho de banda) del estimador de densidad de kernel. Si falta, la función KDE calcula un valor óptimo.

kernel

es un switch para seleccionar la función kernel (1 = Gaussianna (defecto), 2 = Uniforme, 3 = Triangular, 4 = Biweight(Cuadrático), 5 = Triweight, 6 = Epanechnikov).

Valor	Kernel
1	Función Kernel Gaussianna (defecto).
2	Kernel Uniforme.
3	Kernel Triangular.
4	Kernel Biweight o Cuadrático.
5	Kernel Triweight.
6	Kernel Epanechnikov.

Atención

La función KDE() de la version 1.68 es obsoleta: use en su lugar la función NxKDE.

Observaciones

En Estadística, la estimación de densidad de Kernel (KDE) es una forma no paramétrica para estimar la función de densidad de probabilidad de una variable aleatoria.
Permite $\{x_i\}$ ser un muestra idd extraída de alguna distribución con densidad desconocida $f()$. La estimación de densidad de Kernel se define de la siguiente manera:
$$\hat f(x)=\frac{1}{nh}\sum_{i=1}^N K(\frac{x-x_i}{h})$$
Donde:
- $K()$ es la función de Kernel - una función simétrica (pero no necesariamente positiva) que integra a uno.
- $h$ es un parámetro de suavizado llamado el ancho de banda.
El ancho de banda de Kernel es un parámetro libre que exhibe una fuerte influencia en la estimación resultante.
Si Kernel es usada con base Gaussianna y la densidad subyacente se estima Gaussinanna, a continuación, se puede demostrar que la elección óptima de ancho de banda ($h$) es:
$$h_{opt}=\hat\sigma\times \sqrt [5]{\frac{4}{3N}}\approx \frac{1.06\sigma}{\sqrt [5] N} $$ $$\hat\sigma=min(s,\frac{IQR}{1.34}) $$
Donde:
- $s$ es la desviación estándar de la muestra.
Esta aproximación se denomina aproximación de la distribución normal, aproximación gaussiana o regla de pulgar de Silverman.
Función KDE utiliza regla de pulgar de Silverman para estimar el ancho de banda óptimo.
KDE no asume que la función de densidad de probabilidad subyacente (PDF) sea normal; en lugar KDE está seleccionando $h$ lo que sería óptimo si el PDF fueran normales.
KDE actualmente apoya un ancho de banda fijo a lo largo de la muestra.
Las series de datos pueden incluir valores faltantes (Por ejemplo: #N/A, #VALUE!, #NUM!, empty cell), pero esos no son incluidos en los cálculos.

Ejemplos de archivos

Enlaces Relacionados

Referencias

Balakrishnan, N., Exponential Distribution: Theory, Methods and Applications, CRC, P 18 1996.