Las entradas y salidas del histograma

Mohamad

27 de diciembre de 2016 22:17

En este número, vamos a abordar la inferencia de distribución de probabilidad para una variable aleatoria.

Por que nos importa? Como principio, no importa cuán bueno sea un modelo estocástico que usted tenga, siempre terminará con un término de error (también conocido como choque o innovación) y la incertidumbre (por ejemplo, riesgo, error de pronóstico) del modelo es determinada únicamente por esta variable aleatoria. En segundo lugar, la incertidumbre comúnmente se expresa como una distribución de probabilidad, por lo que no hay salida!

Uno de los principales problemas en aplicaciones prácticas es que la distribución de probabilidad necesaria no suele ser fácilmente disponible. Esta distribución debe derivarse de otra información existente (por ejemplo, datos de la muestra).

Lo que entendemos por análisis de distribución de probabilidad es esencialmente el proceso de selección de una función de distribución (paramétrica o no paramétrica)

En este artículo, comenzaremos con las funciones de distribución no paramétricas: (1) función de densidad empírica (acumulativa) y (2) el histograma de Excel. En un número posterior, también revisaremos la función de densidad del kernel (KDE).

Antecedentes

1. Función Empírica de Densidad (EDF)

La función de distribución empírica (EDF), o empírica cdf es una función escalonada que salta por 1/N at the occurrence of each observation.

$$\mathrm{EDF}(x)=F_N (x)=\frac{1}{N}\sum_{i=1}^N I\{x_i \leqslant x\}$$

Donde

$I\{A\}$ Es el indicador de una función de evento
$I\{x_i \leqslant x\}=\begin{cases} 1 & \text{ if } x_i \leqslant x \\ 0 & \text{ if } x_i > x \end{cases}$

El EDF estima la verdadera función de densidad acumulada subyacente de los puntos de la muestra; Se garantiza prácticamente que converge a la verdadera distribución a medida que el tamaño de la muestra se hace lo suficientemente grande

Para obtener la función de densidad de probabilidad (PDF), se necesita tomar la derivada de la CDF, pero el EDF es una función escalonada y la diferenciación es una operación de amplificación de ruido. Como resultado, el PDF resultante es muy recortado y necesita considerable suavizado para muchas áreas de aplicación.

2. Histograma

El histograma (frecuencia) es probablemente la función de distribución más familiar e intuitiva que se aproxima bastante al PDF.

En las estadísticas, un histograma es una representación gráfica que muestra una impresión visual de la distribución de los datos. Los histogramas se usan para trazar la densidad de datos, y a menudo para estimar la densidad, o estimar la función de densidad de probabilidad de la variable subyacente.

En términos matemáticos, un histograma es una función $ m_i $ que cuenta el número de observaciones cuyos valores caen en uno de los intervalos disjuntos (bins).

$$N=\sum_{i=1}^k m_i$$

Donde

$N$ Es el número total de observaciones en los datos de muestra
$k$ Es el número de bins
$m_i$ es el valor del histograma por el i-ésimo bin

Y un histograma acumulativo se define como sigue:

$$M_{ j \leqslant k}=\sum_{i=1}^j m_i$$

La función de frecuencia ($f_i$) (conocido como histograma relativo) es calculado simplemente dividiendo el valor del histograma por el número total de observaciones;

$$f_i=\frac{m_i}{N}$$

Uno de los principales inconvenientes del histograma es que su construcción requiere una asignación arbitraria del ancho de la barra (o número de bins) y posiciones de la barra, lo que significa que a menos que uno tenga acceso a una gran cantidad de datos, la forma de la función de distribución varía significativamente a medida que se altera el ancho de la barra (o el número del bin y las posiciones.

Además, para un tamaño de muestra grande, los valores atípicos son difíciles o tal vez imposibles de ver en el histograma, excepto cuando hacen que el eje x se expanda.

Dicho esto, hay algunos métodos para inferir el número de bins del histograma, pero debe tenerse cuidado de entender las suposiciones hechas detrás de su formulación.

Fórmula de Sturges

El método de Sturges asume los datos de muestra sigue una distribución normal aproximada (es decir. Forms de campana).

$$k=\left \lceil \log_2 N +1 \right \rceil$$

Donde

$\left \lceil X \right \rceil$ is the ceiling operator

Fórmula de raíz cuadrada

Este método es utilizado por Excel y otros paquetes estadísticos. No asume ninguna forma de la distribución:

$$k= \sqrt {N}$$

La elección de Scott (referencia normal)

La elección de Scott es óptima para la muestraaleatoria o distribución normal:

$$k=\frac{3.5\hat\sigma}{\sqrt[3]{N}}$$

Donde

$\sigma$ Es la desviación estándar estimada de la muestra

La elección de Freedman-Diaconis

$$h=2\frac{\mathrm{IQR}}{\sqrt[3]{N}}$$

Donde

$h$Es el tamaño del bin
$\mathrm{IQR}$ es el rango inter-quartil

$$k=\left \lceil \frac{x_{\mathrm{max}}-x_{\mathrm{min}}}{h} \right \rceil$$

Decisión basada en la minimización de la función de riesgo ($L^2$)

$$\mathrm{min}\{L^2\}=\mathrm{min} \left ( \frac{2\bar m-v}{h^2} \right )$$

Donde

$$\bar m = \frac{\sum_{i=1}^k m_i}{k}=\frac{N}{k}$$ $$v=\frac{\sum_{i=1}^k (m_i - {\bar m}^2)}{k}=\frac{1}{k}\sum_{i=1}^k m_i^2-\frac{N^2}{k^2}$$

3. Estimación de la densidad del Kernel (KDE)

Una alternativa al histograma de Excel es una estimación de la densidad del kernel (KDE), que utiliza un kernel para suavizar las muestras. Esto construirá una función de densidad de probabilidad suave, que en general reflejará con mayor precisión la variable subyacente. Hemos mencionado el KDE en aras de la terminación, pero vamos a posponer su debate para una edición posterior.

Aplicación de devoluciones EUR/USD

Consideremos los registros de retornos diarios de los datos de la muestra del tipo de cambio EUR / USD.En nuestro análisis anterior (ref: NumXL Tips and Hints - Price this), se demostró que los datos eran una distribución gaussiana de ruido blanco. A continuación se muestra la función EDF para esos retornos (n = 498):

Función de densidad empírica para el registro de retorno diario EUR / USD.

Para un histograma de Excel, se calculó el número de bandejas utilizando los 4 métodos

Resumen del número de bins calculados por 4 métodos diferentes.

Next, we plot the relative Excel histogram using those different bins numbers. We overlay the normal probability density function (red-curve) for comparison

El Histograma Excel grafica utilizando diferentes números de bins.

Aunque tenemos un conjunto de datos relativamente grande (n = 498) y el EDF y la prueba estadística muestran datos distribuidos gaussianos, la selección de diferentes tamaños de bin puede distorsionar la función de densidad.

La elección de Scott (n = 15) describe mejor la función de densidad, y la siguiente sería la de Sturge.

Conclusión

En este tema, se intentó obtener una aproximación de la probabilidad de densidad subyacente utilizando una muestra de datos Excel histograma y la función de densidad empírica(acumulativa).

Aunque la muestra de datos es relativamente grande (n = 498), el histograma de Excel es una aproximación bastante cruda y muy sensible al número de contenedores utilizados.

El uso de las reglas del golpe (por ejemplo, la regla de Sturge, la elección de Scott, etc.) puede mejorar el proceso de encontrar un mejor número de bins, pero hacen sus propias suposiciones sobre la forma de la distribución y un examen manual, (o de observación) si es necesario para garantizar la generación adecuada de histograma de Excel.

Archivos adjuntos

Histograms.pdf (400 kB)
EX3-NxHistogram.xlsx (100 kB)

Antecedentes

1. Función Empírica de Densidad (EDF)

2. Histograma

3. Estimación de la densidad del Kernel (KDE)

Aplicación de devoluciones EUR/USD

Conclusión

Archivos adjuntos

Artículos relacionados

Comentarios