NxKNN - K Barrios más cercanos (K-NN ) Regresión

Mohamad

25 de julio de 2019 17:30

Calcula el valor de los barrios k más cercanos, regresión (K-nn).

Sintaxis

NxKNN(X, Y, target, Método, extrapolar)

X

es el componente x de la tabla de datos ingresados (un despliegue de celdas unidimensional (ej. filas o columnas).

Y

es el componente y (ej. función) de la tabla de datos ingresados (un despliegue de celdas unidimensional (ej. filas o columnas).

K

es el número de puntos de datos del barrio más cercano usado en el algoritmo k-nn. Si falta o se omite, se asume que K es igual a Uno(1).

Método

es la variante del algoritmo K-nn : 0= Original (por defecto), 1= Ponderado (inverso a la distancia), 2 = ponderado variable de ancho de banda Kernel. Si falta o se omite, se asume el método básico K-nn.

Valor	Método
0	Original (peso igual a todos los puntos K-nn)
1	Medido por el inverso de su distancia del valor del target (aka. pregunta)
2	Medido por el ancho de banda de la variable kernel (ej. Gaussiano).

Kernel

es la función Kernel de ponderación usada con el método de regresión KNN: 0(o faltante)=Uniforme, 1=Triangular, 2=Epanechnikov, 3=Quartic, 4=Triweight, 5=Tricube, 6=Gaussian, 7=Cosine, 8=Logistic, 9= Sigmoid, 10= Silverman.

Valor	Método
0	Kernel Uniforme (aleatorio)
1	Kernel Triangular
2	Kernel Epanechnikov
3	Kernel Quartic
4	Kernel Triweight
5	Kernel Tricube
6	Kernel Gaussian
7	Kernel Cosine
8	Kernel Logistic
9	Kernel Sigmoid
10	Kernel Silverman

Optimiza

es una bandera (verdadero/falso) para buscar y usar un valor óptimo integral K (ej. número de puntos de datos). Si falta o se omite, la optimización se asume como Falsa.

Target

es el valor deseado de x para interpolar por (un valor sencillo o un despliegue de celdas uni dimensional (ej. filas o columnas).

Retorno

es un número que determina el tipo de valor de retorno: 0=Pronóstico (por defecto), 1=errores, 2=K parámetros, 3=RMSE. Si faltan o se omiten, NxKNN devuelve valores de pronóstico/regresión.

Retorno	Descripción
0	Valor(es) de Pronóstico/Regresión (por defecto)
1	Error(es) de Pronóstico/Regresión
1	Parámetro K
2	RMSE (contra-validación)

Observaciones

El número de filas de la variable de respuesta (Y) deben ser igual al número de columnas de la variable explicativa (X).
Las observaciones (ej. filas) con valores faltantes en X o Y serán eliminadas.
K es un entero positivo menos que el tamaño las series de tiempo, o de lo contrario se devolverá un valor (#VALUE!).
El algoritmo de (k) los barrios más cercanos (k-NN) es un método no paramétrico usado para clasificación y regresión.[1] En ambos casos, el ingreso consiste en los ejemplos de entrenamiento más cercanos (k) en el espacio presentado.
En la regresión k-NN, el resultado es el valor de propiedad para el objeto. Este valor es el promedio de valores de los barrios más cercanos (k).
La mejor opción de k depende de los datos; generalmente, valore mayores de k reducen el efecto del ruido en la clasificación.
Un buen k puede ser seleccionado por varias técnicas heurísticas (ej. hyperparámetro de optimización).
La exactitud del algoritmo k-NN puede ser seriamente degradada por la presencia de rasgos irrelevantes o ruidosos, o si las escalas del rasgo no son consistentes con su importancia.
Las predicciones de KNN se basan en la suposición positiva de que los objetos cercanos en distancia son, potencialmente, similares; es lógico que discriminar entre los barrios K más cercanos al hacer predicciones, ej., dejar los puntos más cercanos entre los barrios K más cercanos tengan más influencia en afectar el resultado del punto consultado.
Al introducir un conjunto de pesos W, uno para cada barrio cercano, definido por la cercanía relativa de cada barrio con respecto a la consulta.
Por ejemplo usando la función $e^{-D}$ podemos definir el peso como aparece a continuación: $$W(x,p_i)=\frac{e^{-D(x,p_i}}{\sum_{j=1}^K -D(x,p_j)}$$ Donde:
- $x$ es el valor del punto consultado.
- $\{p_i\}$ es un conjunto de puntos de datos de barrios más cercanos k.
- $D(x,p_i)$ es la medida de distancia (ej. Euclideana) entre el punto de dato consultado y el punto de dato de barrio i-th.
De manera similar podemos usar las funciones de Peso de Kernel para discriminar entre puntos de dato de barrios. El ancho de banda de Kernel es variable, que se calcula para cada punto de dato consultado en los puntos de datos de los barrios k más cercanos.
Para valores iniciales, el optimizador de NumXL usará el valor de ingreso (K) (si está disponible) en la minimización del problema.
La función NxKNN() está disponible empezando la versión 1.66 PARSON.

Archivos de ejemplo

Vínculos relacionados

Referencias

Altman, N. S. (1992). "An introduction to kernel and nearest-neighbor nonparametric regression". The American Statistician. 46 (3): 175–185.
Stone C. J. (1977). "Consistent nonparametric regression". Annals of Statistics. 5 (4): 595–620.
Samworth R. J. (2012). "Optimal weighted nearest neighbour classifiers". Annals of Statistics. 40 (5): 2733–2763.

Sintaxis

Observaciones

Archivos de ejemplo

Vínculos relacionados

Referencias

Artículos relacionados

Comentarios