Análisis de Componentes Principales

Análisis de componentes principales (ACP o PCA) es un procedimiento matemático que utiliza una ransformación lineal ortogonal para convertir un conjunto de observaciones de variables correlacionadas en una serie de variables lineales sin correlacion llamadas componentes principales.
En otras palabras, el procedimiento PCA resume la variación de una variables correlacionadas a un conjunto de componentes no correlacionados, cada una de ellas es una combinación lineal de las variables originales. El objetivo del PCA es lograr parsimonia y reducir la dimensionalidad mediante la extracción de los componentes de número más pequeños que representan la mayor parte de la variación en los datos multivariados originales y resumir los datos con poca pérdida de información.

vamos a definir una matriz $\mathbf{X}$, donde cada columna corresponde a una variable, y cada fila corresponde a una repetición diferente (o medida) del epxperimento:

$$\mathbf{X} = \begin{pmatrix} \mathbf{x}^{\rm T}_1 \\ \mathbf{x}^{\rm T}_2 \\ \vdots \\ \mathbf{x}^{\rm T}_n \end{pmatrix} = \begin{pmatrix} x_{11} & \cdots & x_{1p} \\ x_{21} & \cdots & x_{2p} \\ \vdots & \ddots & \vdots \\ x_{n1} & \cdots & x_{np} \end{pmatrix} $$

Además, cada columna (variable) tiene cero media empírico (la media empírica (muestra) de la distribución ha sido restada del conjunto de datos)).

La transformacion PCA que conserva dimensionalidad (que es, dar el mismo número de componentes principales como las variables originales) Y es entonces dada por:

$$ \mathbf{Y}^{\rm T} = \mathbf{X}^{\rm T}\mathbf{W} $$

Utilizando descomposición valor singulares (SVD) para el $ \mathbf{X}^{\rm T}$, podemos expresar la transformación PCA como:

$$ \mathbf{Y}^{\rm T} = (\mathbf{W}\mathbf{\Sigma}\mathbf{V}^{\rm T})^{\rm T}\mathbf{W}$$
Donde:

  • $\mathbf{W}$ es la matriz de vectores propios de la matriz de covarianza $\mathbf{X} \mathbf{X}^{\rm T}$
  • $\mathbf{V}$ es la matriz de vectores propios de la matriz the matrix $\mathbf{X}^{\rm T} \mathbf{X}$
  • $\mathbf{\Sigma}$ es una matriz rectangular con números verdaderos no negativos en la diagonal

La transformación PCA $\mathbf{Y}$ es dada por:

$$ \mathbf{Y}^{\rm T} = \mathbf{V}\mathbf{\Sigma}^{\rm T} $$

Notas
  1. El número de componentes principales es menor o igual al número de variables originales.
  2. Análisis de componentes principales (PCA), una técnica multivariante popular, es principlamente utilizada para reducir la dimensionalidad de los multi atributos p, a dos o tres dimensiones.
  3. Esta transformación se define de tal manera que el primer componente principal tiene la mayor varianza posible (es decir, es responsable tanto de la variabilidad en los datos como sea posible), y cada componente éxitoso a su vez tiene la varianza más alta posible bajo la restricción de que sea ortogonal a (es decir, sin correlación con) los componentes anteriores.
  4. PCA relaciona de cerca con análisis factorial. Análisis factorial generalmente incorpora más supuestos específicos de dominio sobre la estructura subyacente y resuelve vectores propios de una matriz distinta.
  5. PCA is the simplest of the true eigenvector-based multivariate analyses. Often, its operation can be thought of as revealing the internal structure of the data in a way that best explains the variance in the data.
  6. PCA es sensitivo al escalamiento de las variables.
  7. Regresión de componentes principales, PCR es un procedimiento de dos etapas; reduce las variables predictivas utilizando análisis de componentes principales primero utiliza las variables reducidas en una ajuste de la regresión de OLS.
  8. PCR a menudo se utiliza cuando el número de variables predictivas es grande, o cuando existen fuertes correlaciones entre las variables predictivas.
  9. La regresión de mínimos cuadrados parciales es la extensión del método PCR que no sufre de la deficiencia del mencionada.

Ejemplos de archivos

Referencias

¿Tiene más preguntas? Enviar una solicitud

0 Comentarios