Transcript
This is page i Printer: Opaque this
An´alisis en Componentes Principales Dr. Oldemar Rodr´ıguez Rojas 24 de mayo de 2009
ii
This is page iii Printer: Opaque this
Contents 1. An´ alisis en Componentes Principales (ACP) V 1. Los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi 2. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . vii 3. C´ alculo de los factores y de las componentes principales . . viii 3.1. En el espacio de los individuos . . . . . . . . . . . . viii 4. En el espacio de las variables . . . . . . . . . . . . . . . . . xi 5. Equivalencia de los dos an´alisis – Relaciones de dualidad . . xii 6. Varianza explicada por cada eje . . . . . . . . . . . . . . . . xiv 7. Gr´ aficos y su interpretaci´on . . . . . . . . . . . . . . . . . . xvi 7.1. Representaci´on de los individuos . . . . . . . . . . . xvi 7.2. Calidad de la representaci´on de un individuo . . . . xvii 7.3. Las contribuciones de los individuos a la varianza totalxvii 7.4. Representaci´on de las variables . . . . . . . . . . . . xviii 8. El Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . xx 8.1. Interpretaci´on de la dualidad en los gr´aficos . . . . . xxii
iv
This is page v Printer: Opaque this
An´ alisis en Componentes Principales (ACP) El An´ alisis de Componentes Principales (ACP) es una t´ecnica proveniente del an´ alisis exploratorio de datos cuyo objetivo es la s´ıntesis de la informaci´ on, o reducci´ on de la dimensi´on (n´ umero de variables). Es decir, ante una tabla de datos con muchas variables, el objetivo ser´a reducirlas a un menor n´ umero perdiendo la menor cantidad de informaci´on posible. El ACP es uno de los m´etodos m´ as utilizados en Miner´ıa de Datos en pa´ıses como Francia. Fue primeramente introducido por Pearson en 1901 y desarrollado independientemente en 1933 por Hotelling y la primera implementaci´on computacional se d´ıo en los a˜ nos 60. Fue aplicado para analizar encuestas de opini´ on p´ ublica por Jean Pages. Como ya se mencion´o el objetivo es construir un peque˜ no n´ umero de nuevas variables (componentes) en las cuales se concentre la mayor cantidad posible de informaci´on, como se ilustra en la Figura 1.
FIGURE 1. Transformaci´ on de las variables originales en componentes.
Estas nuevos componentes principales o factores son calculados como una combinacin lineal de las variables originales, y adem´as ser´an linealmente independientes. Un aspecto clave en ACP es la interpretaci´on, ya que ´esta no viene dada a priori, sino que ser´a deducida tras observar la relaci´on de los componentes principales con las variables originales, para esto hay que estudiar tanto el signo como la magnitud de las correlaciones, como vermos en detalle m´ as adelante. Esto no siempre es f´acil, y ser´a de vital importancia el conocimiento que el experto tenga sobre la materia de investigaci´on. Los n individuos de una tabla de datos se pueden ver como una nube de puntos en Rp , como se ilustra en la Figura 2-a, con su centro de gravedad localizado en el origen, y lo que se busca es un subespacio q−dimensional L de Rp , usualmente un plano (ver Figura 2-b), tal que la proyecci´on ortogonal de los n puntos sobre L (ver Figura 2-c) tienen varianza m´axima, lo cual permitir´ a el estudio de relaciones, clases, etc. entre los individuos (filas) de
vi
1. An´ alisis en Componentes Principales (ACP)
la tabla de datos.
FIGURE 2. Proyecci´ on de los individuos en el plano de varianza m´ axima
1. Los datos Se parte de una tabla de datos:
x11 .. . X= xi1 . .. xn1
··· .. . ··· .. .
x1j .. .
··· .. .
xij .. .
···
xnj
··· .. . ···
x1m .. . xim ←- individuo i .. . xnm
que se puede transformar en la siguiente matriz de distancias:
d11 .. . D= di1 . .. dn1
··· .. . ··· .. .
d1j .. .
··· .. .
dij .. .
···
dnj
··· .. . ···
d1n .. . xin .. . dnn
1. An´ alisis en Componentes Principales (ACP)
vii
2. El problema Se trata de sintetizar los datos contenidos en una tabla de datos X en un conjunto m´ as peque˜ no de nuevas variables C 1 , C 2 , . . . llamadas componentes principales, manteniendo la informaci´on escencial de X. As´ı, en la etapa 1 del algoritmo se encuentra una variable sint´ etica C 1 , la primera componente principal, la cual es combinaci´on lineal de las variables originales X j , es decir: C 1 = a11 X 1 + · · · + a1j X j + · · · + a1m X m , donde X j es la columna j de X. Esto significa que el valor de C 1 para el individuo i−´esimo est´a dado por: Ci1 = a11 xi1 + · · · + a1j xij + · · · + a1m xim , Generalmente esta primer componente principal, C 1 , no es suficiente para condensar la informaci´on contenida en X, por lo que se construye una segunda componente principal C 2 , luego una tercera C 3 y as´ı sucesivamente. En general en la etapa k, se construye la componente principal k−´esima dada por: C k = ak1 X 1 + · · · + akj X j + · · · + akm X m . Matricialmente se tiene que: C k = Xak , donde:
ak1 .. . k a = akj . . .. akm ak se llama el k−´ esimo factor. Los factores akj constituyen un sistema de pesos para las variables, los cuales indican cuanto aporta cada variables a la construcci´on de la componente.
viii
1. An´ alisis en Componentes Principales (ACP)
Algunos factores akj ser´an negativos y otros ser´an positivos. El valor de cada peso por si solo no es importante, sino la relaci´on con respecto a los otros pesos. Para evitar un problema de escalas se impone la siguiente restricci´ on: m X
(akj )2 = 1.
j=1
3. C´alculo de los factores y de las componentes principales Como en regresi´on, el ACP puede ser presentado tanto en el espacio de las variables como en el espacio de los individuos.
3.1. En el espacio de los individuos Se supondr´ a que las variables est´an centradas y reducidas. V = n1 X t X es la matriz de varianzas–covarianzas. Como las variables est´ an centradas y reducidas entonces V = R, la matriz de correlaciones, pues: vij = cov(X i , X j ) =
cov(X i , X j ) = R(X i , X j ). σX i σX j
Por lo tanto el espacio de las filas de X en Rm es el espacio de individuos cuyo origen ser´a el centro de la nube de puntos. El objetivo del ACP es describir de manera sint´etica la nube de individuos. Teorema 1 En la etapa 1 de un ACP se calcula el eje D1 que pasa por el origen para el cual la dispersi´on de la nube de puntos sea m´axima, este eje D1 pasa entonces lo m´ as cerca posible de la nube de puntos, es decir, el promedio de las distancias al cuadrado de los n puntos de la nube y el eje D1 es minimal (ver figura siguiente). Sea a1 es vector director normado (norma 1) del eje (recta) D1 entonces: a1 es el vector propio asociado al valor propio m´as grande de la matriz de V de varianzas–covarianzas. Antes de probar el Teorema necesitamos primero del siguiente Lema (el cual vamos a asumir como v´alido):
1. An´ alisis en Componentes Principales (ACP)
ix
Lema 1 Sean A y B dos matrices cuadradas m × m sim´etricas y sea A una matriz definida positiva. Entonces el vector y ∈ Rn que resuelve el siguiente problema de optimizaci´on: max y t By sujeto a y t Ay = 1 es el vector propio a1 de A−1 B de norma 1 asociado al valor propio m´as grande β 1 . Nota: Una matriz A es definida si para todo u ∈ Rm se tiene que ut Au > 0. Prueba. Las coordenadas del individuos i-´esimo son: i = (xi1 , . . . , xij , . . . , xim ). Adem´ as, se sabe que la proyecci´on del individuo i sobre el eje D1 es: P (i, D1 ) =
hi, a1 i 1 a , ka1 k
donde a1 = (a11 , a12 , . . . , a1m ) (es vector director de norma 1 del eje D1 ). Entonces las coordenadas de la proyecci´on del individuo i sobre el eje D1 son: Ci1
=
hi, a1 i ka1 k
= a11 xi1 + · · · + a12 xij , + · · · +, a1m xim = Xa1 . Del siguiente gr´ afico:
i >
d(i, 0) d(i, D1 ) - D1 1 0| a{z } Ci1
Usando el Teorema de Pit´ agoras, se deduce que: d2 (i, 0) = (Ci1 )2 + d2 (i, D1 ), por lo que sumando sobre i a ambos lados y multiplicando por 1/n se tiene que: n
n
n
1X 2 1X 1 2 1X 2 d (i, 0) = (C ) + d (i, D1 ). n i=1 n i=1 i n i=1
x
1. An´ alisis en Componentes Principales (ACP)
Pn Como n1 i=1 d2 (i, 0) es independiente del eje D1 que se escoja, Pn se deduce 1 1 2 que es una cantidad constante. Por lo tanto maximizar i=1 (Ci ) es n Pn 1 2 equivalente a minimizar n i=1 d (i, D1 ). Adem´ as es claro que: n
1X 1 2 1 1 (C ) = (C 1 )t C 1 = (a1 )t X t Xa1 . n i=1 i n n De esta manera el problema que queremos resolver es:
max n1 (a1 )t X t Xa1 sujeto a (a1 )t a1 = 1 (pues la norma de a1 debe ser 1).
Entonces aplicando el Lema anterior con B = n1 X t X y A = Im×m se tiene que a1 es el vector propio de norma 1 de la matriz B = n1 X t X asociado al valor propio m´ as grande. Teorema 2 En la etapa 2 de un ACP se calcula el eje D2 que pasa por el origen para el cual la dispersi´on de la nube de puntos sea m´axima, este eje D2 pasa entonces lo m´ as cerca posible de la nube de puntos, es decir, el promedio de las distancias al cuadrado de los n puntos de la nube y el eje D2 es minimal. Sea a2 es vector director normado (norma 1) del eje (recta) D2 el cual ser´ a ortogonal al vector a1 construido en la etapa 1, entonces: Se tiene el siguiente problema de optimizaci´on: m´ ax
1 n
( sujeto
a2
t
X t Xa2
t a2 a2 = 1 t a2 a2 = 0
cuya soluci´ on es el vector propio asociado al segundo valor propio m´as grande de la matriz de V de varianzas–covarianzas. Teorema 3 En la etapa k de un ACP se calcula el eje Dk que pasa por el origen para el cual la dispersi´on de la nube de puntos sea m´axima, este eje Dk pasa entonces lo m´ as cerca posible de la nube de puntos, es decir, el promedio de las distancias al cuadrado de los n puntos de la nube y el eje Dk es minimal. Sea ak es vector director normado (norma 1) del eje (recta) Dk el cual ser´ a ortogonal al vector ar ∀ r < k construidos en las etapas 1, 2, . . . , k − 1 entonces: Se tiene el siguiente problema de optimizaci´on:
1. An´ alisis en Componentes Principales (ACP)
1 n
m´ ax
ak
(
t
xi
X t Xak
t ak ak = 1 t ak ak = 0 para r = 1, 2, . . . , k − 1
sujeto
cuya soluci´ on es el vector propio asociado al k−´esimo valor propio m´as grande de la matriz de V de varianzas–covarianzas.
4. En el espacio de las variables Teorema 4 En la etapa 1 de un ACP se calcula una variable sint´etica (eje) C 1 que resuma lo mejor posible las variables originales, es decir, de tal manera que: m X
R2 (C 1 , X j ) sea m´axima.
j=1 1
Entonces C es el vector propio asociado al valor propio m´as grande λ1 de la matriz n1 XX t . Prueba. cov(C 1 , X j ) =
1 j t 1 1 (X ) C = (C 1 )t X j , n n
lo cual implica que: cov2 (C 1 , X j ) = como var(C 1 ) =
1 1 t 1 n (C ) C
R2 (C 1 , X j ) =
1 (C 1 )t X j (X j )t C 1 , n2
y var(X j ) = 1, se tiene que:
cov2 (C 1 , X j ) (C 1 )t X j (X j )t C 1 = , 1 j var(C )var(X ) n(C 1 )t C 1
entonces: m X
2
1
j
R (C , X ) =
(C 1 )t
j=1
como
Pm
j=1
Pm
j j t 1 j=1 X (X ) C , n(C 1 )t C 1
X j (X j )t = XX t , se tiene que: m X
R2 (C 1 , X j ) =
j=1
De modo que maximizar siguiente expresi´ on:
Pm
j=1
(C 1 )t XX t C 1 . n(C 1 )t C 1
R2 (C 1 , X j ) es equivalente a maximizar la
xii
1. An´ alisis en Componentes Principales (ACP)
(C 1 )t XX t C 1 , n(C 1 )t C 1 entonces, aplicando el lema anterior, C 1 es el vector propio asociado al valor propio m´ as geande λ1 de la matriz n1 XX t . Teorema 5 En la etapa k de un ACP se calcula una variable sint´etica (eje) C k que resuma lo mejor posible las variables originales y que no est´e correlacionada las primeras k − 1 componentes principales (variables sint´eticas) ya calculadas, es decir, de tal manera que: m´ ax
m X
R2 (C k , X j )
j=1
sujeto R2 (C k , C r ) = 0 para r = 1, 2, . . . , k − 1 Entonces: C k es el vector propio de n1 XX t asociado al k−´esimo valor propio m´ as grande.
5. Equivalencia de los dos an´alisis – Relaciones de dualidad Espacio de los individuos 7→ Espacio de las variables 7→
1 t nX X
1 t n XX
que es tama˜ no m × m.
que es tama˜ no n × n.
Usualemente el n´ umero de variables es menor que el n´ umero de individuos, por supondremos en adelante sin p´erdidad de generalidad que m < n. Teorema 6 [Relaciones de Dualidad] 1.
Si vk es el k−´esimo vector propio de norma 1 asociado a λk de la matriz n1 XX t entonces: X t vk uk = √ , nλk es el k−´esimo vector propio de norma 1 asociado a λk de la matriz 1 t n X X.
2.
Si uk es el k−´esimo vector propio de norma 1 asociado a λk de la matriz n1 X t X entonces: Xuk vk = √ , nλk
1. An´ alisis en Componentes Principales (ACP)
xiii
es el k−´esimo vector propio de norma 1 asociado a λk de la matriz 1 t n XX . Prueba. 1.
Sea vk el vector propio de norma 1 asociado λk de la matriz entonces por definici´ on se tiene que:
1 t n XX ,
1 XX t vk = λk vk , n multiplicando por X t a ambos lados por la izquierda se tiene que: 1 t X XX t vk = λk X t vk , n lo cual es equivalente a: 1 t (X X)(X t vk ) = λk (X t vk ), n aplicando de nuevo la definici´on de valor propio se tiene que: 1 t n X X. matriz n1 X t X
λk es un valor propio de la matriz X t vk es el vector propio de la propio λk .
asociado al valor
Este vector propio X t vk se debe normalizar, para esto: kX t vk k2 = (X t vk )t (X t vk ) = vkt XX t vk = nλk vkt vk = nλk , entonces: kX t vk k =
p
nλk ,
por lo que: X t vk uk = √ , nλk es un vector propio de norma 1 de la matriz propio λk . 2.
Tarea.
1 t nX X
asociado al valor
xiv
1. An´ alisis en Componentes Principales (ACP)
6. Varianza explicada por cada eje Teorema 7 1. n1 X t X y λ1 , λ 2 , . . . , λm . 2.
1 t n XX
tienen los mismos valores propios,
Adem´ as el rango de ambas matrices es n − m y los u ´ltimos n − m valores propios de n1 XX t son nulos.
Prueba. 1.
Sea λk el k-´esimo valor propio de la matriz definici´ on se tiene que:
1 t n X X,
entonces por
1 t X Xvk = λk vk , n multiplicando por X a ambos lados se tiene que: 1 XX t Xvk = λk Xvk , n como se sabe que Xvk = C k (la componente k-´esima), entonces: 1 XX t C k = λk C k , n lo cual implica que λk el k-´esimo valor propio de la matriz asociado al vector propio C k . 2.
1 t n XX ,
Tarea.
Teorema 8 La suma de los m valores propios de n1 X t X es igual al n´ umero de columnas m de la matriz X, es decir: m X
λk = m.
k=1
Prueba. Del ´ algebra lineal se sabe que la suma de valores propios de una matriz es igual a la suma de los elementos de la diagonal de dicha matriz, es decir, es igual a la traza de la matriz. Adem´as, como X est´a centrada y reducida n1 X t X = R, de donde: m X k=1
entonces:
λk = Tr
1 t X X n
= Tr(R),
1. An´ alisis en Componentes Principales (ACP)
1 m 0 X λk = Tr 0 k=1 0
0 ··· 1 ··· .. . 0 0 ···
xv
0 0 = m. 0 1 m×m
El ACP tiene m etapas, en cada etapa se construye un resumen de la tabla X, menos interesante que el construido en la etapa anterior. ¿C´ omo medir la calidad de la etapa k? En la etapa k, el criterio del ACP es maximizar: n
1X k 2 (C ) , n i=1 i como: n
1X k 2 1 (C ) = (ak )t X t Xak = (ak )t λk ak = λk . n i=1 i n Entonces λk es la varianza explicada por el eje k−´esimo, es decir por Ck. Como: m X
λk = m,
k=1
se tiene que:
λk = % de la varianza explicada por el eje C k = % de INERCIA. m Por ejemplo, la inercia explicada por el plano principal, ejes 1 y 2 es: λ1 + λ 2 . m
xvi
1. An´ alisis en Componentes Principales (ACP)
7. Gr´aficos y su interpretaci´on 7.1. Representaci´on de los individuos Recordemos que para calcular las coordenadas de un individuos se tiene que (La matriz X se supone centrada y reducida): C s = Xas donde as es el vector propio de R =
1 t nX X
asociado a λs .
De donde: Cis = as1 Xi1 + · · · + asj Xij + · · · + asm Xim , es decir: Cis =
m X
Xij asj
j=1
An´ alogamente: C r = Xar donde ar es el vector propio de R =
1 t nX X
asociado a λr .
De donde: Cir = ar1 Xi1 + · · · + arj Xij + · · · + arm Xim , es decir: Cir =
m X
Xij arj
j=1
Gr´ aficamente se ilustra como sigue: As´ı, dos individuos i y j cuyas proyecciones son cercanas son “semejantes”en la nube de puntos. Para proyectar un individuo en suplementario s = (s1 , . . . , sm ) simplemente se centra y reduce como si fuera la u ´ltima fila de X, como sigue: s˜ =
¯1 ¯m s1 − X sm − X ,..., , σ1 σm
¯ j es la media de la columna j−´esima de la matriz X. Endonde X tonces las coordenadas se calculan como sigue: Cis =
m X j=1
s˜j asj
1. An´ alisis en Componentes Principales (ACP)
xvii
7.2. Calidad de la representaci´ on de un individuo En el espacio de los individuos se tienen 2 bases ortonormales: 1.
La base original, en la cual las coordenadas del individuo i son: i = (Xi1 , . . . , Xij , . . . , Xim ).
2.
La base construida por los m factores, en la cual las coordenadas del individuo i son: i = (Ci1 , . . . , Cik , . . . , Cim ), entonces la distancia del punto al origen se puede medir con ambas representaciones, lo que implica que: m X
(Xij )2 =
j=1
m X
(Cik )2 .
k=1
De modo que el individuo i tiene una buena representaci´on en el eje n X r si (Cir )2 tiene un valor importante respecto a la suma (Xij )2 . j=1
Por lo que la calidad de la representaci´on del individuo i sobre el eje r est´ a dada por: (Cir )2 m X
= % del individuo i representado en el eje r.
(Xij )2
j=1
Lo anterior es u ´til para qu´e tan bien est´a representado un individuo en un eje o plano.
7.3.
Las contribuciones de los individuos a la varianza total La varianza total en la etapa r es igual a: n
1X r 2 (C ) = λr . n i=1 i La parte de esta varianza explicada por el individuo i es: 1 r 2 (C ) n i
xviii
1. An´ alisis en Componentes Principales (ACP)
Entonces, la contribuci´on del individuo i a la varianza total del eje r est´ a dada por: (Cir )2 = % de contribuci´on del individuo i a la formaci´on del eje r. nλr Lo anterior es u ´til para intepretar los ejes.
7.4.
Representaci´on de las variables La coordenada de la variable X j sobre el eje r est´a dada por: R(X j , C r ), que es el coeficiente de correlaci´on entre la variable j−´esima y la componente principal r−´esima. Entonces las coordenadas de X j sobre la base de componentes principales son: (R(X j , C 1 ), . . . , R(X j , C s ), . . . , R(X j , C m )), esto implica que: m X
R2 (X j , C k ) = 1
k=1
Por lo que si se usan solamente 2 componentes C r y C s se tiene que: R2 (X j , C s ) + R2 (X j , C r ) 6 1. Por esta raz´ on las variables pueden ser representadas en un c´ırculo de radio 1 como se ilustra a continuaci´on: Teorema 9 [C´ alculo de las correlaciones] √ λr ar1 R(X 1 , C r ) .. .. . . p √ R(X j , C r ) = λr · ar = λr arj , . .. . . √ . r m r R(X , C ) λr am donde ar es el r−´esimo vector propio de R =
1 t nX X
asociado a λr .
1. An´ alisis en Componentes Principales (ACP)
xix
Prueba. Sabemos que: R(X j , C r ) =
cov(X j , C r ) , σX j σC r
Como la tabla X est´a reducida σ X j = √ 1. Adem´as se sabe que la varianza del eje C r es λr , es decir, σ C r = λr , entonces se tiene que: R(X j , C r ) =
cov(X j , C r ) cov(X j , C r ) √ = . σX j σC r λr
Entonces: R(X 1 , C r ) .. . p R(X j , C r ) = √1 X t C r = √1 X t Xar = √1 λr ar = λr ar . n λ n λr λr r .. . R(X m , C r )
Por dualidad, en el espacio de las variables, para calcular las coordenadas (correlaciones) se podr´ıa diagonalizar la matriz H = n1 XX t (que es tama˜ no n × n) y proceder a calcular dichas coordenadas de manera completamente an´aloga al caso de los individuos. Es decir, suponiendo que la matriz X est´a centrada y reducida, y si denotamos por Z = X t entonces: Rs = Zas donde as es el vector propio de H =
1 t n XX
asociado a λs .
De donde: Ris = as1 Zi1 + · · · + asj Zij + · · · + asn Zin , es decir: Ris =
n X
Zij asj
j=1
Calidad de representaci´on de una variable La calidad de la representaci´on de una variable sobre el c´ıculo de correlaciones, ser´ a tambi´en medida con el cuadrado del coseno del angulo entre la variable y su proyecci´on. Ahora bien, recu´erdese que ´ entre variables, el coseno es igual a una correlaci´on, por lo que ser´an
xx
1. An´ alisis en Componentes Principales (ACP)
las correlaciones al cuadrado las que midan la calidad de la representaci´ on de las variables. As´ı la matriz de calidades de las variables S ∈ Mm×m se puede calcular como sigue:
R2 (X 1 , C 1 ) · · · .. .. . 2 .j 1 R (X , C ) · · · S= .. .. . . R2 (X m , C 1 ) · · ·
R2 (X 1 , C r )
··· R2 (X j , C r ) .. .
··· .. .
··· .. . R2 (X m , C r ) · · ·
R2 (X 1 , C m ) .. . 2 j m R (X , C ) .. . R2 (X m , C m )
Para proyectar una variable suplementaria: y=
y1 y2 .. .
yn primero se centra y se reduce respecto a s´ı misma como sigue: y = c
y1 −¯ y σy y2 −¯ y σy
.. . yn −¯ y σy
y luego se calculan las correlaciones de y c con las componentes principales, de manera an´aloga a proyectar una columna de X.
8. El Algoritmo Entrada: Las tabla de datos X ∈ Mn×m . Salida: La matriz de componentes principales C ∈ Mn×m , la matriz de calidades de los individuos (cosenos cuadrados) Q ∈ Mn×m , la matriz de coordenadas de las variables T ∈ Mm×m , la matriz de calidades de las variables (cosenos cuadrados) S ∈ Mm×m y el vector de inercias de los ejes I ∈ M1×m . Paso 1: Centrar y reducir la tabla de datos X.
1. An´ alisis en Componentes Principales (ACP)
xxi
Paso 2: Calcular la matriz de correlaciones R ∈ Mm×m . R se puede calcular: R = n1 X t X, o bien a pie calculando todas las correlaciones. Paso 3: Calcular los vectores y valores propios de la matriz R ∈ Mm×m . Paso 4: Ordenar de mayor a menor estos valores propios. Paso 5: Si denotamos por λ1 , λ2 , . . . , λm estos valores propios ordenados y por υ 1 , υ 2 , . . . , υ m los respectivos vectores propios, entonces se construye la matriz V ∈ Mm×m de la siguiente forma: V = [υ 1 |υ 2 | · · · |υ m ] Es decir, la matriz V tiene como columnas los vectores υ 1 , υ 2 , . . . , υ m . Paso 6: Calcule la matriz de componentes principales C ∈ Mn×m : C =X ·V Paso 7: Calcule la matriz de calidades de los individuos (cosenos cuadrados) Q ∈ Mn×m , como sigue:
Qir =
(Ci,r )2 m X
(Xij
para i = 1, 2, . . . , n; r = 1, 2, . . . , m.
)2
j=1
Paso 8: Calcule la matriz de coordenadas de las variables T ∈ Mm×m , como sigue: R(X 1 , C 1 ) · · · .. .. . . j 1 R(X , C ) · · · T = .. .. . . R(X m , C 1 ) · · ·
√ =
λ1 v1,1 .. √ . λ1 vj,1 .. √ . λ1 vm,1
··· .. . ··· .. . ···
R(X 1 , C r ) ··· R(X j , C r ) .. .
R(X 1 , C m ) .. . j m R(X , C ) .. . m m R(X , C )
··· .. .
··· .. . m r R(X , C ) · · · √
λr v1,r
√··· λr vj,r .. √ . λr vm,r
··· .. . ··· .. . ···
√
λm v1,m .. √ . λm vj,m .. √ . λm vm,m
xxii
1. An´ alisis en Componentes Principales (ACP)
Paso 9: Calcule la matriz de calidades de las variables (cosenos cuadrados) S ∈ Mm×m , como sigue: λ1 (v1,1 )2 .. . 2 λ (v S= 1 j,1 ) .. . λ1 (vm,1 )2
··· .. .
λr (v1,r )2
··· .. .
··· λr (vj,r )2 .. .
···
λr (vm,r )2
··· .. . ··· .. . ···
λm (v1,m )2 .. . 2 λm (vj,m ) .. . 2 λm (vm,m )
Paso 10: Calcule el vector de inercias de los ejes I ∈ M1×m , como sigue: I = (100 ·
λ1 λ2 λm , 100 · , . . . , 100 · ) m m m
´ INTERPRETACION • Si la proyecci´ on de X j est´a cercana al borde del c´ırculo (la suma de las correlaciones al cuadrado est´a cerca de 1), significa que est´ a bien representada en ese plano, pues tendr´ıa fuerte correlaci´ on con las 2 componentes (o con alguna de ellas) y por la tanto la correlaci´ on con las dem´as componentes es d´ebil. 0
• Si dos variables X j y X j est´an cercanas al borde del c´ırculo, entonces el ´ angulo G entre la proyecci´on de estas dos variables ser´ a muy cercano al ´angulo que ambas variables tienen en la nube de puntos (variables) y as´ı el coseno de G ser´a muy cercano a la correlaci´ on entre ambas variables (ver el siguiente gr´afico), luego la interpretaci´ on es la siguiente: 0
0
◦ Si X j y X j est´an cercanas entre si, entonces X j y X j son fuerte y positivamente correlacionadas. 0 ◦ Si el ´angulo entre X j y X j es cercano a los 90◦ entonces NO existe ninguna correlaci´on entre ambas variables. 0 ◦ Si X j y X j est´an opuestas al v´ertice (origen) entonces exis0 te una correlacin fuerte y negativa entre X j y X j .
8.1. Interpretaci´on de la dualidad en los gr´ aficos