NxKDE - Calcula la Estimación de la Densidad del Kernel

Mohamad

19 de enero de 2013 05:56

Calcula la estimación de la densidad del Kernel (KDE) de los datos de muestra.

Sintaxis

NxKDE(X, Lo, Hi, Transformación, $\lambda$, Kernel, H, Optimización, Retorno, Objetivo)

La sintaxis de la función KDE tiene los siguientes argumentos:

X

es la serie de datos de entrada (matriz de celdas de una o dos dimensiones (por ejemplo, filas o columnas)).

Lo

es el límite inferior del dominio x; si falta no se asume ningún límite inferior ($-\infty$).

Hi

es el límite superior del dominio x; si falta no se asume ningún límite ($\infty$).

Transform

es un interruptor para seleccionar el método de transformación previa de datos (0 = Ninguno (predeterminado), 1 = Logit, 2 = Probit, 3 = Log-Log Complementaria, 4 = Log, 5 = Potencia).

Valor	Método
0	Ninguno/Reflección (Silverman).
1	Transformación Logit.
2	Transformación Probit (también conocida como Normit).
3	Transformación log-log complementaria.
4	Transformación Log.
5	Transformación de potencia (es decir, Box-Cox).

$\lambda$

es el parámetro de suavizado de transformación de potencia.

Kernel

es un interruptor para seleccionar la función kernel (0 = gaussiana (predeterminada), 1 = uniforme, 2 = triangular, 3 = biponderada (cuártica), 4 = triponderada, 5 = Epanechnikov, 6 = coseno).

Valor	Kernel
0	Función Kernel gaussiana (predeterminada).
1	Kernel uniforme.
2	Kernel triangular.
3	Kernel biponderada o cuártica.
4	Kernel triponderada.
5	Kernel Epanechnikov.
6	Coseno de Kernel.

H

es el parámetro de suavizado (ancho de banda) del estimador de densidad kernel. Si falta, y la optimización no es "Ninguna", la función de KDE calcula un valor óptimo.

Optimización

es un interruptor para seleccionar el método de optimización del ancho de banda del kernel (0 = Ninguno (predeterminado), 1 = Silverman, 2 = Complemento directo, 3 = Validación cruzada imparcial).

Valor	Método
0	Ninguno (predeterminado).
1	La regla general de Silverman.
2	Complemento directo (Sheather & Jones).
3	Validación cruzada imparcial.

Retorno

es un número que determina el tipo de valor devuelto: 0 (o faltante) = PDF, 1 = CDF, 2 = CDF inverso, 3 = Ancho de banda.

Valor	Descripción
0 o omitida	Función de densidad de probabildiad (PDF).
1	Función de densidad acumulativa (CDF).
2	Función de densidad acumulada inversa (inv. CDF).
3	Banda Ancha.

Objetivo

es el(los) valor(es) x deseado(s) para calcular (un valor único o una matriz unidimensional de celdas (por ejemplo, filas o columnas)).

Observaciones

En estadística, la estimación de densidad Kernel (KDE) es una forma no paramétrica de estimar la función de densidad de probabilidad de una variable aleatoria.
Dejar que $\{x_i\}$ sea una muestra distribuida idéntica independiente (i.i.d.) extraída de alguna distribución con una densidad desconocida $f()$. El estimador de Kernel se define así:
$$\hat f(x)=\frac{1}{nh}\sum_{i=1}^N {K(\frac{x-x_i}{h}})$$ Donde:
- $K()$ es la función Kernel: una función simétrica (pero no necesariamente positiva) que se integra a una.
- $h$ es el parámetro de suavizado llamado ancho de banda.
El ancho de banda del kernel es un parámetro libre que exhibe una fuerte influencia en la estimación resultante.
Los argumentos de los límites inferior y superior del dominio son opcionales, pero si se proporcionan, los datos de entrada se comparan con los límites. Un error #NUM! Se devuelve si algún punto de datos infringe los límites.
La transformación de potencia y registro puede funcionar en un límite, mientras que el resto puede funcionar en dos límites.
En caso de que se especifiquen los límites inferior y superior, pero la función de transformación es Log o Power, NxKDE(.) devuelve #¡VALOR!
El método Ninguno/Reflexión no transforma los datos de entrada, sino que trata los valores de x cerca de los puntos finales del dominio.
El NxKDE(.) devuelve cero PDF para cualquier valor x fuera del dominio x especificado.
El NxKDE(.) devuelve cero (0) CDF para el valor x menor que el límite inferior del dominio x, y uno (1) para aquellos valores mayores que el límite superior del dominio x.
Para el tipo de retorno CDF inverso, el NxKDE devuelve #¡VALOR! Si el valor objetivo no está en el intervalo $(0, 1)$.
NxKDE admite un ancho de banda fijo en toda la muestra.
La serie de datos de entrada puede incluir valores faltantes (por ejemplo, #N/A, #VALOR!, #NUM!, celda vacía). El KDE(.) excluirá todos esos valores en los cálculos.
NxKDE(.) admite tres métodos de optimización del ancho de banda. Excepto por el método Direct Plug-in (DPI), el usuario puede usar cualquier función de kernel compatible.
El método Direct Plug-in (DPI) requiere una función kernel con al menos seis (6) derivadas distintas de cero, continuas y de integración cuadrada. Por esto, excluimos los núcleos uniforme, triangular, bipeso y Epanechnikov.
El NxKDE(.) devuelve #VALOR! Si la optimización DPI está activada y uno de los siguientes núcleos está seleccionado: uniforme, triangular, cuártico o Epanechnikov.
Por razones de rendimiento, recomendamos calcular el ancho de banda óptimo (optimización activada) en un paso separado. Después de eso, use el ancho de banda óptimo calculado en todas las llamadas NxKDE(.) subsiguientes, pero con la optimización desactivada.

Estado

La función NxKDE(.) está disponible a partir de la versión 1.68 CAMEL.

Ejemplos de Archivos

Vínculos Relacionados

Referencias

Park, B.U.; Marron, J.S. (1990). "Comparison of data-driven bandwidth selectors". Journal of the American Statistical Association. 85 (409): 66–72.
Silverman, B.W. (1986). Density Estimation for Statistics and Data Analysis. London: Chapman ∓ Hall/CRC. p. 45. ISBN 978-0-412-24620-3.
Jones, M.C.; Marron, J.S.; Sheather, S. J. (1996). "A brief survey of bandwidth selection for density estimation." Journal of the American Statistical Association. 91 (433): 401–407.
Sheather, S. J., and Jones, M.C. 1991. A reliable data-based bandwidth selection method for kernel density estimation. Journal of Royal Statistical Society, Series B 53: 683–690.
W. Zucchini, Applied smoothing techniques, Part 1 Kernel Density Estimation., 2003.