Optimización KDE – Validación Cruzada Imparcial

Zaid Marridi

2 de noviembre de 2022 20:05

Un resumen rápido: en el Manual de optimización de KDE, definimos el error cuadrático integrado medio (MISE) para expresar la precisión de KDE.

$$\text{MISE}[\hat{f}(.;h)=\mathbb{E}\left[ \int{(\hat{f}(}x;h)-f(x){{)}^{2}}dx \right]$$

Ahora, expandamos el término cuadrático:

$$\text{MISE}[\hat{f}(.;h)=\mathbb{E}\left[ \int{{\hat{f}}}{{(x;h)}^{2}}dx \right]-2\mathbb{E}\left[ \int{{\hat{f}}}(x;h)f(x)dx \right]+\mathbb{E}\left[ \int{f}{{(x)}^{2}}dx \right]$$

A continuación, reorganizar los términos:

$$\text{MISE}[\hat{f}(.;h)=\mathbb{E}\left[ \int{{\hat{f}}}{{(x;h)}^{2}}dx \right]-2\mathbb{E}\left[ \int{{\hat{f}}}(x;h)f(x)dx \right]+\int{f}{{(x)}^{2}}dx$$

Donde:

$\hat{f}(x;h)$ es el estimador KDE de la función de densidad de probabilidad en $x$.
$f(x)$ es la función de densidad de probabilidad de la distribución de población subyacente.

En este artículo, vamos un paso más allá y abordamos el método de optimización de validación cruzada imparcial para KDE.

Para nuestros propósitos de optimización del ancho de banda, el término $\int f {(x)^2}dx$, aunque se desconoce, es constante (es decir, independiente del ancho de banda $h$ del kernel). Minimizar MISE es equivalente a minimizar la validación cruzada de mínimos cuadrados (LSCV):

$$\text{LSCV}(h)=\mathbb{E}\left[ \int{{\hat{f}}}{{(x;h)}^{2}}dx \right]-2\mathbb{E}\left[ \int{{\hat{f}}}(x;h)f(x)dx \right]$$

Esta cantidad es desconocida, pero se puede estimar sin sesgo de la siguiente manera:

(1) Primero, estimemos el segundo término (ej., $\mathbb{E}\left[ \int{{\hat{f}}}(x;h)f(x)dx \right]$):
$$\mathbb{E}\left[ \int{{\hat{f}}}(x;h)f(x)dx \right]=\frac{1}{n}\sum\limits_{i=1}^{n}{{{{\hat{f}}}_{-i}}({{X}_{i}};h)}$$

Donde:
- ${{\hat{f}}_{-i}}({{X}_{i}};h)$ es el dejar uno fuera de (ej., punto de dato i^th) KDE.
  $${{\hat{f}}_{-i}}(X;h)=\frac{1}{n-1}\sum\limits_{j=1,j\ne i}^{n}{{{K}_{h}}}(X-{{X}_{j}})=\frac{1}{(n-1)h}\sum\limits_{j=1,j\ne i}^{n}{K}\left( \frac{X-{{X}_{j}}}{h} \right)$$
Entonces,

$$\mathbb{E}\left[ \int{{\hat{f}}}(x;h)f(x)dx \right]=\frac{1}{n(n-1)h}\sum\limits_{i=1}^{n}{\sum\limits_{j=1,i\ne j}^{n}{K\left( \frac{{{X}_{i}}-{{X}_{j}}}{h} \right)}}$$

Como la función de kernel function es simétrica (ej., $K(-x)=K(x)$), podemos simplificar aún más el término:

$$\mathbb{E}\left[ \int{{\hat{f}}}(x;h)f(x)dx \right]=\frac{2}{n(n-1)h}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{K\left( \frac{{{X}_{i}}-{{X}_{j}}}{h} \right)}}$$
(2) Luego estimemos el primer término (ej., $\mathbb{E}\left[ \int{{\hat{f}}}{{(x;h)}^{2}}dx \right]$):
$$\hat{f}(x;h)=\frac{1}{nh}\sum\limits_{i=1}^{n}{K((x-{{X}_{i}})/h)}$$

$$\hat{f}{{(x;h)}^{2}}=\frac{1}{{{(nh)}^{2}}}\left( \sum\limits_{i=1}^{n}{{{K}^{2}}((x-{{X}_{i}})/h)+2\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{K((x-{{X}_{i}})/h)\times K((x-{{X}_{j}})/h)}}} \right)$$

Ahora trae la integral en:

$$\int{\hat{f}{{(x;h)}^{2}}dx}=\frac{1}{{{(nh)}^{2}}}\left( \sum\limits_{i=1}^{n}{\int{{{K}^{2}}((x-{{X}_{i}})/h)dx}+2\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{\int{K((x-{{X}_{i}})/h)\times K((x-{{X}_{j}})/h)dx}}}} \right)$$

Pero dejemos $z=(x-{{X}_{i}})/h$:

$$\int{{{K}^{2}}((x-{{X}_{i}})/h)dx}=h\int{{{K}^{2}}(z)dz}=h\times R(K)$$

$$\int{K((x-{{X}_{i}})/h)\times K((x-{{X}_{j}})/h)dx}=h\int{K(z)\times K(z+({{X}_{i}}-{{X}_{j}})/h)dz}$$

Y $K(.)$ es la función simétrica:

$$\int{K((x-{{X}_{i}})/h)\times K((x-{{X}_{j}})/h)dx}=h\int{K(z)\times K(({{X}_{j}}-{{X}_{i}})/h-z)dz=h\times {{K}^{\otimes }}(}({{X}_{j}}-{{X}_{i}})/h)$$

Donde ${{K}^{\otimes }}(.)$ es la función de autoconvolución del núcleo:

$$\int{\hat{f}{{(x;h)}^{2}}dx}=\frac{R(K)}{nh}+\frac{2}{{{n}^{2}}h}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{{{K}^{\otimes }}(({{X}_{j}}-{{X}_{i}})/h)}}$$

Poniendo términos juntos en la fórmula MISE, obtenemos:

$$\text{LSCV}(h)=\mathbb{E}\left[ \int{{\hat{f}}}{{(x;h)}^{2}}dx \right]-2\mathbb{E}\left[ \int{{\hat{f}}}(x;h)f(x)dx \right]$$

$$\text{LSCV}(h)=\frac{1}{nh}\left[ R(K)+\frac{2}{n}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{{{K}^{\otimes }}(({{X}_{j}}-{{X}_{i}})/h)}}-\frac{4}{(n-1)}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{K(({{X}_{i}}-{{X}_{j}})/h)}} \right]$$
Finalmente, buscamos (numéricamente) un ancho de banda óptimo que minimice la función LSCV anterior.
Para acelerar la convergencia de la solución de optimización, los métodos numéricos a menudo requieren la primera y la segunda derivada de la función de utilidad:

$$\begin{align} & \frac{\partial }{\partial h}\text{LSCV}(h)=-\frac{\text{LSCV}(h)}{h}- \\ & \frac{1}{n{{h}^{3}}}\left[ \frac{2}{n}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{({{X}_{j}}-{{X}_{i}}){{K}^{\otimes (1)}}(({{X}_{j}}-{{X}_{i}})/h)}}-\frac{4}{(n-1)}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{({{X}_{j}}-{{X}_{i}}){{K}^{(1)}}(({{X}_{i}}-{{X}_{j}})/h)}} \right] \\ \end{align}$$

Y la segunda función derivada, de la siguiente manera:

$$\begin{align} & \frac{{{\partial }^{2}}}{\partial {{h}^{2}}}\text{LSCV}(h)=-\frac{1}{h}\times \frac{\partial }{\partial h}\text{LSCV(h)+}\frac{\text{LSCV(h)}}{{{h}^{2}}}+ \\ & \frac{3}{n{{h}^{4}}}\left[ \frac{2}{n}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{({{X}_{j}}-{{X}_{i}}){{K}^{\otimes (1)}}(({{X}_{j}}-{{X}_{i}})/h)}}-\frac{4}{(n-1)}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{({{X}_{j}}-{{X}_{i}}){{K}^{(1)}}(({{X}_{i}}-{{X}_{j}})/h)}} \right]+ \\ & \frac{1}{n{{h}^{5}}}\left[ \frac{2}{n}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{{{({{X}_{j}}-{{X}_{i}})}^{2}}{{K}^{\otimes (2)}}(({{X}_{j}}-{{X}_{i}})/h)}}-\frac{4}{(n-1)}\sum\limits_{i=1}^{n-1}{\sum\limits_{j=i+1}^{n}{{{({{X}_{j}}-{{X}_{i}})}^{2}}{{K}^{(2)}}(({{X}_{i}}-{{X}_{j}})/h)}} \right] \\ \end{align}$$

La optimización numérica de la función LSCV puede ser un desafío. En la práctica, son posibles varios mínimos locales, y la rugosidad de la función objetivo puede variar notablemente dependiendo de $n$ y $f$. En consecuencia, las rutinas de optimización pueden quedar atrapadas en soluciones espurias.

La presencia de múltiples mínimos presenta un desafío para los optimizadores numéricos, pero puede solucionarse seleccionando el mayor valor de $h$ para el cual se presenta el mínimo local.

Discusión

A diferencia de la regla empírica de Silverman y los métodos de complemento directo de Sheather & Jones, la UCV no hace ninguna suposición sobre la verdadera función de distribución (por ejemplo, que es intuitiva y asintóticamente óptima en condiciones muy débiles).

No obstante, la tasa relativa de convergencia de LSCV(h) a $h$ o $\hat{h}$ está en el orden de la décima raíz del tamaño de la muestra $(O\left(n^{-1/10}\right))$, que es extremadamente lento, pero la mejor tarifa para $\hat{h}$.

Además, LSCV sufre mucho con las variaciones de muestra (es decir, diferentes muestras de la misma distribución de valores de ancho de banda estimados tienen una gran variación).

Finalmente, el LSCV a menudo tiene varios mínimos (espurios), pero se puede remediar fácilmente seleccionando el valor más grande. En algunas ocasiones, los mínimos locales pueden no estar presentes en absoluto.

Referencias

Silverman, B.W. (1986). Density Estimation for Statistics and Data Analysis. Chapman & Hall/CRC London.
W. Zucchini, Applied smoothing techniques, Part 1 Kernel Density Estimation., 2003.
Byeong U. Park and J. S. Marron. Comparison of Data-Driven Bandwidth Selectors. Journal of the American Statistical Association Vol. 85, No. 409 (Mar., 1990), pp. 66-72 (7 pages).
S.J. Sheather and M.C. Jones. A reliable data-based bandwidth selection method for kernel density estimation. J. Royal Statist. Soc. B, 53:683-690, 1991.
Bowman, A., An alternative method of cross-validation for the smoothing of density estimates, Biometrika, 71 (1984) 353-360.
Rudemo, M., Empirical choice of histograms and kernel density estimators, Scandinavian Journal of Statistics, 9 (1982) P 65-78.

Discusión

Referencias

Artículos relacionados

Comentarios