Métodos de Análisis Multivariante - Carlos Cuadras



Comments



Description

NUEVOS MÉTODOSDE ANÁLISIS MULTIVARIANTE Carles M. Cuadras 21 de septiembre de 2014 2 Es propiedad del autor. c C. M. Cuadras CMC Editions Manacor 30 08023 Barcelona, Spain Índice general 1. DATOS MULTIVARIANTES 1.1. Introducción . . . . . . . . . . . . . . . . . . . . 1.2. Matrices de datos . . . . . . . . . . . . . . . . . 1.3. Matriz de centrado . . . . . . . . . . . . . . . . 1.4. Medias, covarianzas y correlaciones . . . . . . . 1.5. Variables compuestas . . . . . . . . . . . . . . . 1.6. Transformaciones lineales . . . . . . . . . . . . . 1.7. Teorema de la dimensión . . . . . . . . . . . . . 1.8. Medidas globales de variabilidad y dependencia 1.9. Distancias . . . . . . . . . . . . . . . . . . . . . 1.10. Algunos aspectos del cálculo matricial . . . . . . 1.10.1. Descomposición singular . . . . . . . . . 1.10.2. Inversa generalizada . . . . . . . . . . . 1.10.3. Aproximación matricial de rango inferior 1.10.4. Transformación procrustes . . . . . . . . 1.11. Ejemplos . . . . . . . . . . . . . . . . . . . . . . 1.12. Complementos . . . . . . . . . . . . . . . . . . . 2. NORMALIDAD MULTIVARIANTE 2.1. Introducción . . . . . . . . . . . . . . 2.2. Distribución normal multivariante . . 2.2.1. De…nición . . . . . . . . . . . 2.2.2. Propiedades . . . . . . . . . . 2.2.3. Caso bivariante . . . . . . . . 2.3. Distribución de Wishart . . . . . . . 2.4. Distribución de Hotelling . . . . . . . 2.5. Distribución de Wilks . . . . . . . . . 2.6. Relaciones entre Wilks, Hotelling y F 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 13 15 15 16 16 17 18 19 21 21 21 22 23 25 28 . . . . . . . . . 29 29 30 30 31 32 33 34 35 37 4 ÍNDICE GENERAL 2.7. Distribución multinomial . . . . . . . . . . . . . . . . . . . . . 38 2.8. Distribuciones con marginales dadas . . . . . . . . . . . . . . . 39 2.9. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3. INFERENCIA MULTIVARIANTE 3.1. Conceptos básicos . . . . . . . . . . . . . . . 3.2. Estimación de medias y covarianzas . . . . . 3.3. Contraste de hipótesis multivariantes . . . . 3.3.1. Test sobre la media: una población . 3.3.2. Test sobre la media: dos poblaciones 3.3.3. Comparación de varias medias . . . . 3.4. Teorema de Cochran . . . . . . . . . . . . . 3.5. Construcción de contrastes de hipótesis . . . 3.5.1. Razón de verosimilitud . . . . . . . . 3.5.2. Principio de unión-intersección . . . . 3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . 3.7. Análisis de per…les . . . . . . . . . . . . . . 3.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 44 45 45 46 46 47 51 51 53 54 59 61 4. ANÁLISIS DE CORRELACIÓN CANÓNICA 4.1. Introducción . . . . . . . . . . . . . . . . . . . . 4.2. Correlación múltiple . . . . . . . . . . . . . . . 4.3. Correlación canónica . . . . . . . . . . . . . . . 4.4. Correlación canónica y descomposición singular 4.5. Signi…cación de las correlaciones canónicas . . . 4.6. Contraste de hipótesis de independencia . . . . 4.6.1. Razón de verosimilitud . . . . . . . . . . 4.6.2. Principio de unión–intersección . . . . . 4.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . 4.8. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 63 65 68 69 69 70 70 71 74 . . . . . . 77 77 79 80 82 83 84 . . . . . . . . . . . . . 5. ANÁLISIS DE COMPONENTES PRINCIPALES 5.1. Obtención de las componentes principales . . . . . . 5.2. Variabilidad explicada por las componentes . . . . . . 5.3. Representación de una matriz de datos . . . . . . . . 5.4. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1. Estimación y distribución asintótica . . . . . . 5.4.2. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ÍNDICE GENERAL 5.5. Número de componentes principales 5.5.1. Criterio del porcentaje . . . 5.5.2. Criterio de Kaiser . . . . . . 5.5.3. Test de esfericidad . . . . . 5.5.4. Criterio del bastón roto . . . 5.6. Biplot . . . . . . . . . . . . . . . . 5.7. Ejemplos . . . . . . . . . . . . . . . 5.8. Complementos . . . . . . . . . . . . 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 86 86 87 87 88 89 92 6. ANÁLISIS FACTORIAL 6.1. Introducción . . . . . . . . . . . . . . . . . . 6.2. El modelo unifactorial . . . . . . . . . . . . 6.3. El modelo multifactorial . . . . . . . . . . . 6.3.1. El modelo . . . . . . . . . . . . . . . 6.3.2. La matriz factorial . . . . . . . . . . 6.3.3. Las comunalidades . . . . . . . . . . 6.3.4. Número máximo de factores comunes 6.3.5. El caso de Heywood . . . . . . . . . 6.3.6. Un ejemplo . . . . . . . . . . . . . . 6.4. Teoremas fundamentales . . . . . . . . . . . 6.5. Método del factor principal . . . . . . . . . 6.6. Método de la máxima verosimilitud . . . . . 6.6.1. Estimación de la matriz factorial . . 6.6.2. Hipótesis sobre el número de factores 6.7. Rotaciones de factores . . . . . . . . . . . . 6.7.1. Rotaciones ortogonales . . . . . . . . 6.7.2. Factores oblicuos . . . . . . . . . . . 6.7.3. Rotación oblicua . . . . . . . . . . . 6.7.4. Factores de segundo orden . . . . . . 6.8. Medición de factores . . . . . . . . . . . . . 6.9. Análisis factorial con…rmatorio . . . . . . . . 6.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 97 98 100 100 101 101 102 103 103 105 107 109 109 110 110 111 111 112 114 115 116 119 . . . . 123 . 123 . 124 . 126 . 127 7. ANÁLISIS CANÓNICO DE POBLACIONES 7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . 7.2. Variables canónicas . . . . . . . . . . . . . . . . . . . 7.3. Distancia de Mahalanobis y transformación canónica 7.4. Representación canónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 ÍNDICE GENERAL 7.5. Aspectos inferenciales . . . . . . . . 7.5.1. Comparación de medias . . 7.5.2. Comparación de covarianzas 7.5.3. Test de dimensionalidad . . 7.5.4. Regiones con…denciales . . . 7.6. Ejemplos . . . . . . . . . . . . . . . 7.7. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. ESCALADO MULTIDIMENSIONAL (MDS) 8.1. Introducción . . . . . . . . . . . . . . . . . . . . 8.2. ¿Cuándo una distancia es euclídea? . . . . . . . 8.3. El análisis de coordenadas principales . . . . . . 8.4. Similaridades . . . . . . . . . . . . . . . . . . . 8.5. Nociones de MDS no métrico . . . . . . . . . . 8.6. Distancias estadísticas . . . . . . . . . . . . . . 8.6.1. Variables cuantitativas . . . . . . . . . . 8.6.2. Variables binarias . . . . . . . . . . . . . 8.6.3. Variables categóricas . . . . . . . . . . . 8.6.4. Variables mixtas . . . . . . . . . . . . . 8.6.5. Otras distancias . . . . . . . . . . . . . . 8.7. Ejemplos . . . . . . . . . . . . . . . . . . . . . . 8.8. Complementos . . . . . . . . . . . . . . . . . . . 9. ANÁLISIS DE CORRESPONDENCIAS 9.1. Introducción . . . . . . . . . . . . . . . . . 9.2. Cuanti…cación de las variables categóricas 9.3. Representación de …las y columnas . . . . 9.4. Representación conjunta . . . . . . . . . . 9.5. Soluciones simétrica y asimétrica . . . . . 9.6. Variabilidad geométrica (inercia) . . . . . 9.7. Análisis de Correspondencias Múltiples . . 9.8. Ejemplos . . . . . . . . . . . . . . . . . . . 9.9. MDS ponderado . . . . . . . . . . . . . . . 9.10. Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 129 129 130 131 132 135 . . . . . . . . . . . . . 137 . 137 . 138 . 140 . 143 . 145 . 148 . 148 . 149 . 150 . 151 . 151 . 153 . 159 . . . . . . . . . . 161 . 161 . 163 . 164 . 166 . 169 . 170 . 173 . 175 . 178 . 182 10. CLASIFICACIÓN 187 10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 10.2. Jerarquía indexada . . . . . . . . . . . . . . . . . . . . . . . . 188 . . . . . . . . . . . . .1. .11. . 11. . . . . . . Clasi…cación cuando los parámetros son estimados 11. . . Método del máximo .3.3.2. . . . Ejemplo . . . . . . .5. . . . . . . . . . . . . . . . . . . . .1. .2. . . . . Introducción . . . . . . . . . . . . . . .3. . . . . . 11. . . . . . . . . .3. .8. . . . . . . 11. . . .5. . . . .ÍNDICE GENERAL 7 10. . . 11. . . . . 11.1. 12. . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . 10. Regla de Bayes . . . .7. . . . . . . . . .3. . . . . . . . . . .2. . . . 12. . . . . . . Probabilidad de clasi…cación errónea . . 11. . Ejemplos . . . .3. . . Discriminador lineal . . . . . . . . 10. Regla de la máxima verosimilitud . ANÁLISIS DISCRIMINANTE 11.1. . . . . . . . . Método del mínimo . . . . . . . . . . 10. .2. . . .Número de clusters . 10. . Discriminador cuadrático . 11. . . . .1. . . .4. . . . . . . . . . . . . . . . . . 223 223 223 224 225 226 . . . . . . . . . .4. Algoritmos de clasi…cación jerárquica . . . . . .1. . . . .6. .1. . . Un ejemplo clásico . . . . . . . . . . . .7. . . 11. . . . .6. .6. . . . . . . . . . . . . . . . . . Análisis discriminante logístico . Más propiedades del método del mínimo . . . . . . . . 11. . . . Clasi…cación en poblaciones normales . . . . . 11. . . . .3. . . . . .4. . . . . 10. . Distribución asintótica y test de Wald . 11. . 12.5. . 11. . 211 211 212 212 212 213 214 214 214 215 215 215 216 218 219 219 220 220 222 12. . . . . DISCRIMINACIÓN LOGÍSTICA Y OTRAS 12. . . . .Complementos . . . . Modelo de regresión logística . . . . . . . . 10. Regla de Bayes . . . Complementos . . . . . . . . . . . . . . . . . . Geometría ultramétrica . . . Regla de Bayes . .5. . .2. . . .3. . . . . . . . . Introducción . . . . . 11. . . . . . .6. . Discriminadores lineales . . . . . . . . .1. . . . . 11. .2. . . . . . . . . . . . . . . . .2. . . 10. . .4. . . 190 194 195 196 197 199 200 202 206 207 208 11. . . . . 12. . . . . .5. . Clasi…cación no jerárquica . . Regla de la máxima verosimilitud . . . . . . Equivalencia entre jerarquía indexada y ultramétrica 10. . . . . . . . . . . . . . .5. . . . . . . . . . . . . . . . . . . . . . . . . 10. . . . . . . . . .1. . . . . . . . . . . . . . . . . Estimación de los parámetros . . . Clasi…cación en dos poblaciones . . . . . . . . . . . Algoritmo fundamental de clasi…cación . . . . . . . . .1. Discriminador lineal . . . . Discriminación en el caso de k poblaciones . . . .1. . . .3. . . 11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .9. . . . . . .10. . . 10. . . . . .2. . . .3. . . . . 11.3. . . . . . . . . . . . . . . . . . . .3. . . . . . . . . . . . . . . . 12. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. . . . . . . 243 . . . Hipótesis lineales .1. . . . . . . . . . 251 . . . .7. EL MODELO LINEAL 13. . . . . . . . . 255 . . . . La función de proximidad . . . . . . . . . .4. . . 13. El modelo lineal .1. . . . .5. . . . .6. . . . . Regresión múltiple . Ajuste del modelo . . 242 . . . . 253 . 12. 15. . 12. . . . . . . . . . . . . . . . . . . . . . 245 . 14. . . . . . . . . Diseño de un factor . . Análisis discriminante basado en distancias . . .8 ÍNDICE GENERAL 12. . . . . . . Suposiciones básicas del modelo 13. . . . . . 14. 241 . . . . . . 264 (MANOVA) . Complementos . Diseño de dos factores con interacción . .3. . . . . . . .4. . . .2.6. . . . . . . . . . . . . . logístico . . . . . . Manova de un factor . . . . .5. . 259 . . 246 . Manova de dos factores . . . . .1. . . . 15. . Inferencia en regresión múltiple 13. . . . . . .2. La regla discriminante DB .5.1. . . . . . . . . . . . 12. 260 . . . . . . . . Estimación de parámetros . . .6. . . . . . . . . . . . . . . . . . . 15. . . . . . 14. . . . . . . . . . . . . . . .4. . . . . 12. . .3. . . Complementos .4. .1.2. . . . . . . . . . Diseño de dos factores . . 243 . . . . . . . . . . . . . 247 . . . . Parámetros de regresión 13. . . . . . . . . Modelos log-lineales . .2. . . 13.2. . . 253 . . . . . . . . .1. . . . . . . . . . . Diseño de dos factores . . . . 12. . . . . .3. . .4. . . . . . 14. . . . Estimación de parámetros . . . . . . . . . . . .3. . . Comparación entre discriminador lineal 12. . Diseño de un factor . . . . . . . . 13. .3. . . . . . .3. . .4. . . . . . . . . . . . .1. . . . . . .2. 13. ANÁLISIS DE LA VARIANZA (ANOVA) 14. . . . . . . . . . . . . . . . 12. . . Curva ROC . . . . Diseños multifactoriales . . . y . . . . . . 13. . .1. . La regla DB comparada con otras . Varianza . . . . . . . . . . . . . . . . . . . . . . . . . La regla DB en el caso de muestras . . . . . . . . . . . Algunos modelos lineales . . 241 . . . . . . . . . Complementos . . . . . . . . . . . . . . . .2. . . . . . . . 14. . . . . . 13. . .2. . . . . . 13. . Contraste de hipótesis lineales . . 244 . . Modelo . 13. .5. . . . . . . . 257 . 14.4. . 227 228 232 233 234 235 236 236 239 . .7. . . . . . . 265 265 266 269 271 272 . . . . . . 246 . . . ANÁLISIS DE LA VARIANZA 15. . . . . . . . . . . . . . . 250 . . . . 15. . 245 . . . . . . . . . . . . . .3. 13.2. . . . . . . . .2. . . . . . . . . . . . . .1. .2. . . . . . . . . . . . . . . . . . . . .4. . . . . . . . . . .6. . . . . . . 15. .3. . . . . . . . 16. . . . . . . . . . 9 con interacción . . . . . . . Análisis canónico de funciones estimables . .6. . . . . . Manova de dos factores 15. . . . . FUNCIONES ESTIMABLES MULTIVARIANTES 16. . Complementos . . .ÍNDICE GENERAL 15. . . . . .3. . Distancia de Mahalanobis . . . . . 273 274 276 278 16. . . . Ejemplos . . . . . . . . . . . . . . . . 15. .4. . 16. . . . . . . . . . . Coordenadas canónicas . . . .8. . . . . . . . . . . .5. . . . . . . . 16. . . .1. . . . . . Funciones estimables multivariantes . . . . Regiones con…denciales . . . . Teorema de Gauss-Markov . . . . . . . Ejemplos . . 16. 16. . 16. . . . . . . . . . . . . Funciones estimables . . . . . . . . . . . .1. . . . . . . . . . . . 16. . . . . . . . . . . . . . . . Complementos .2. .9. . . . . . . . . . . . . . . . 279 279 280 281 282 282 283 284 284 288 . .7. . . . . . . . . . . . . . . . . . . . . . . . . . . .2. . . 16. . . . . . . . . . . .4. . . . . .4. . . . Otros criterios . . 10 ÍNDICE GENERAL . PPU. Todos los métodos se ilustran con ejemplos. Laboratorio de Cálculo. la cuarta (2012) y quinta versión (2014). compensado con una clara orientación aplicada. 11 . 1996.Prólogo El Análisis Multivariante es un conjunto de métodos estadísticos y matemáticos. incorporan más secciones y ejemplos. EUB. Este libro es una presentación convencional de los principales modelos y métodos del Análisis Multivariante. 1974). Después de una profunda revisión. La segunda versión (2010) contiene correcciones. ampliaciones y un índice alfabético. destinados a describir e interpretar los datos que provienen de la observación de varias variables estadísticas. en especial a Jorge Ollero por su detallada revisión de las dos últimas versiones. estudiadas conjuntamente. Universidad de Barcelona. no. Mi agradecimiento a todos aquellos que me han hecho comentarios. 7. La exposición mantiene un cierto rigor matemático. Barcelona). que justi…can su aplicabilidad. y el libro “Métodos de Análisis Multivariante”(EUNIBAR. con referencias a algunas contribuciones recientes. La primera versión apareció en 2007. Para examinar algunos datos y ver más ejemplos consúltese otras publicaciones relacionadas en la página web www:ub:edu=stat=cuadras=cuad:html Esta obra tiene como precedentes la monografía “Métodos de Análisis Factorial” (Pub. 1991. La tercera versión (2011) contiene algunas correcciones y nuevas referencias bibliográ…cas. El autor se reserva el derecho de ampliar el texto e introducir mejoras. 1981. 2014 . M.12 ÍNDICE GENERAL Cómo citar este libro: C. Cuadras Nuevos Métodos de Análisis Multivariante CMC Editions Barcelona. La información multivariante es una matriz de datos. en AM la información de entrada consiste en matrices de distancias o similaridades. Las variables observables son homogéneas y correlacionadas. La información estadística en AM es de carácter multidimensional. sin que alguna predomine sobre las demás. que miden el grado de discrepancia entre los individuos. por lo tanto la geometría. : : : .1.Capítulo 1 DATOS MULTIVARIANTES 1. Matrices de datos Supongamos que sobre los individuos ! 1 . pero a menudo. el cálculo matricial y las distribuciones multivariantes juegan un papel fundamental. representa e interpreta los datos que resultan de observar más de una variable estadística sobre una muestra de individuos. Introducción El análisis multivariante (AM) es la parte de la estadística y del análisis de datos que estudia. : : : . siendo n el número de individuos y p el de variables. ! n se han observado las variables X1 .2. Xp : Sea xij = Xj (! i ) la observación de la variable Xj sobre 13 . analiza. Comenzaremos con las técnicas que se basan en matrices de datos n p. 1. sp1 sp2 1X = (xij n i=1 muestrales 1 s1p s2p C C . ... . . . .. . @ . C . B . A xn1 xnj xnp Las …las de X se identi…can con los individuos y las columnas de X con las variables. respectivamente. que operaremos como un vector columna. .. .. C . . : : : . . @ . 5. xj . . . . . 2. xi la …la i-ésima de X.. : : : ... C B C xij xip C : X = B xi1 B .. B . . Xj la columna j-ésima de X: 3. . A spp n sjj 0 xj )(xij 0 xj 0 ) la covarianza entre las variables j. @ . A 1 ... C . . La matriz simétrica p siendo p de covarianzas 0 s11 s12 B s21 s22 B S = B .. La matriz simétrica p p de correlaciones 0 1 r12 B r21 1 B R = B .. rp1 rp2 muestrales 1 r1p r2p C C .. x = (x1 . x y S son medidas multivariantes de tendencia central y dispersión. .. . .14 CAPÍTULO 1. C . . . j 0 : Naturalmente. . . . xp )0 el vector columna de las medias de las variables. Indicaremos: 1.. DATOS MULTIVARIANTES el individuo ! i : La matriz de datos multivariantes es 0 1 x11 x1j x1p . siendo n 1X xj = xij : n i=1 4. Simétrica: H0 = H: 2. : : : . ciertas características multivariantes se expresan mejor a partir de la matriz de centrado H. de…nida como H=I 1 J: n Propiedades: 1. 1. Esta matriz. tienen expresiones matriciales simples. 5. Xj 0 : Este coe…ciente viene dado por rjj 0 = sjj 0 . El rango de H es n 1. Matriz de datos centrados: X= X 1x0 = HX: . 1. covarianzas y correlaciones Sea X = (xij ) la matriz de datos. sj sj 0 donde sj . las matrices de covarianzas y correlaciones.3. rango(H) =n = 0 ó 1: 10 H = 00 : 1: Medias. 1)0 es el vector columna de unos de orden n 1. 1. Xj 0 ) el coe…ciente de correlación (muestral) entre las variables Xj .1. así como el vector de medias. es decir. Matriz de centrado Si 1 =(1. y J = 110 es la matriz n n de unos.3. 1 es vector propio de valor propio cero: H1 = 0. sj 0 son las desviaciones típicas. x0 = n1 10 X: 2. Idempotente: H2 = H: 3. La matriz de datos centrados se obtiene restando a cada variable su media: X = (xij xj ).4. Los valores propios de H son cero o uno: Hv = v implica 4. MATRIZ DE CENTRADO 15 siendo rjj 0 = cor(Xj . cov(Y. Matriz de correlaciones: R = D 1 SD 1 . Variables compuestas Algunos métodos de AM consisten en obtener e interpretar combinaciones lineales adecuadas de las variables observables. var(Z) = b0 Sb: 3. Una variable compuesta Y es una combinación lineal de las variables observables con coe…cientes a = (a1 . : : : . 1. Yq de Y son las variables transformadas. se veri…ca: 1. Uno de los objetivos del Análisis Multivariante es encontrar variables compuestas adecuadas que expliquen aspectos relevantes de los datos. Z=x0 b: 2. 1. variables canónicas. también podemos escribir Y = Xa: Si Z = b1 X1 + + bp Xp = Xb es otra variable compuesta.5. Xp ] es la matriz de datos. Z) = a0 Sb: Ciertas variables compuestas reciben diferentes nombres según la técnica multivariante: componentes principales. DATOS MULTIVARIANTES 3. etc. ap )0 Y = a1 X1 + + ap Xp : Si X =[X1 . funciones discriminantes.6. Transformaciones lineales Sea T una matriz p q: Una transformación lineal de la matriz de datos es Y = XT: Las columnas Y1 .1) siendo D la matriz diagonal con las desviaciones típicas de las variables. S = DRD.16 CAPÍTULO 1. Matriz de covarianzas: 0 S = n1 X X = n1 X0 HX: 4. var(Y ) = a0 Sa. . Y = x0 a. (1. : : : . : : : . : Podemos ordenar las p variables de manera que la matriz de covarianzas Sr de X1 . sjr entre Xj y X1 . Demost...1. j > r: La …la (sj1..7. TEOREMA DE LA DIMENSIÓN 17 Propiedades: 1. donde y es el vector (columna) de medias de Y: 2. 1. Xr veri…can: sjj = r X i=1 Entonces var(Xj Pr i=1 ai sji . sjr ) será combinación lineal de las …las de Sr : Luego las covarianzas sj1 .7. puesto que: a0 Sa = n1 a0 X0 HXa = n1 a0 X0 HHXa = b0 b 0. y0 =x0 T. . : : : . : : : .i0 =1 ai ai0 sii0 2 ri=1 ai sji P P P P = Pri=1 ai sji + Pri=1 ai ( ri0 =1 P ai0 sii0 ) 2 ri=1 ai sji = ri=1 ai sji + ri=1 ai sji 2 ri=1 ai sji = 0: . . es decir. Xr sea no singular 0 1 s11 s1r B C Sr = @ . Teorema de la dimensión La matriz de covarianzas S es (semi)de…nida positiva.. A : sr1 srr Sea Xj . : : : . . donde SY es la matriz de covarianzas de Y: Demost. siendo b =n 1=2 HXa: El rango r = rango(S) determina la dimensión del espacio vectorial generado por las variables observables. SY = T0 ST. : : : . el número de variables linealmente independientes es igual al rango de S: Teorema 1.1 Si r = rango(S) p hay r variables linealmente independientes y las otras p r son combinación lineal de estas r variables. sji = r X ai0 sii0 : i0 =1 P P ai Xi ) = sjj + ri.7. .: y0 = n1 10 Y = n1 10 XT = x0 T: SY = n1 Y0 HY = n1 T0 X0 HXT = T0 ST. Medidas globales de variabilidad y dependencia Una medida de la variabilidad global de las p variables debe ser función de la matriz de covarianzas S: Sean 1 .1) deducimos que r = rango(R) = rango(S): 1. : : : . Demost. a) Varianza generalizada: jSj = p: 1 b) Variación total: tr(S) = 1 + + p Una medida de dependencia global debe ser función de la matriz de correlaciones R: Un coe…ciente de dependencia es 2 =1 jRj. ninguna se reduce a una constante) y r = rango(R) p. 2 = 0 si y sólo si las p variables están incorrelacionadas. hay r variables linealmente independientes y las otras p r son combinación lineal de estas r variables. DATOS MULTIVARIANTES Por lo tanto Xj r X ai Xi = c =) Xj = c + i=1 r X ai Xi i=1 donde c es una constante. Corolario 1. 0 1: 2.2 Si todas las variables tienen varianza positiva (es decir.18 CAPÍTULO 1. p los valores propios de S: Las siguientes medidas tienen especial interés en AM.7. 2 = 1 si y sólo si hay relaciones lineales entre las variables. 3.8. Demost.: .: De (1. que veri…ca: 2 1. Si 0 1 x01 B C X = @ .4) .2) xjh )2 =shh . Sean 1 . Distancia de Mahalanobis: dM (i.9. (1.1. xip ).. j) = q (xi xj )0 S 1 (xi xj ): (1. Si g y a son las medias geométrica y aritmética de p números positivos.. jRj =0. R = I (matriz identidad) si y sólo si las p variables están incorrelacionadas.9. es decir. x0j = (xj1 .7. A x0n es una matriz de datos. las tres de…niciones más importantes de distancia entre las …las x0i = (xi1 . xjp ) de X son: 1. entonces rango(R) < p y por lo tanto existen relaciones lineales entre las variables (Teorema 1. 1. Si 2 = 1. con matriz de covarianzas S. Distancia de K. jRj1=p = ( y por lo tanto 0 1=p p) 1 jRj ( 1 + + p )=p = 1. j) = t (xih h=1 donde shh es la covarianza de la variable Xh : 3. Distancias Algunos métodos de AM están basados en criterios geométricos y en la noción de distancia entre individuos y entre poblaciones. 1. de tr(R) =p. j) = t (xih xjh )2 : (1.1). 2. luego 1 jIj =0: 3. : : : . : : : . Distancia euclídea: v u p uX dE (i. Pearson v u p uX dP (i. se veri…ca g a: Entonces. : : : . p los valores propios de R.3) h=1 2. DISTANCIAS 19 1. 20 CAPÍTULO 1. . donde es una constante. En efecto: dE (i. j)2 = (xi xj )0 (xi dP (i. b) dP también supone que las variables están incorrelacionadas pero es invariante por cambios de escala. Las distancias dE y dP son casos particulares de dM cuando la matriz de covarianzas es la identidad Ip y diag(S). xj ): La distancia de Mahalanobis (al cuadrado) puede tener otras versiones: 1. Distancia entre dos poblaciones representadas por dos matrices de datos Xn1 p . c) dM tiene en cuenta las correlaciones entre las variables y es invariante por transformaciones lineales no singulares de las variables. se concluye que dM es muy adecuada en AM debido a que veri…ca: a) dE supone implícitamente que las variables están incorrelacionadas y no es invariante por cambios de escala. respectivamente. en particular cambios de escala. y son los vectores de medias y S = (n1 S1 + n2 S2 )=(n1 + n2 ) es la media ponderada de las correspondientes matrices de covarianzas. donde x. Yn2 p : (x y)0 S 1 (x y). j)2 = (xi xj )0 [diag(S)] 1 (xi xj ). DATOS MULTIVARIANTES Observaciones Un cambio de escala de una variable Xj es una transformación Yj = Xj . Comparando las tres distancias. Distancia de una observación xi al vector de medias x de X : (xi x)0 S 1 (xi x): 2. o A no es matriz cuadrada. Si m = n y A es simétrica. rango(A) = n. la inversa no existe. Descomposición singular Sea A un matriz de orden m n con m n: Se llama descomposición en valores singulares de A a A = UDs V0 donde U es matriz m n cuyas columnas son vectores ortonormales. a una matriz A que veri…ca: AA A = A: La g-inversa no es única. pero si A veri…ca además: A AA = A . Inversa generalizada Si A es una matriz cuadrada de orden n n no singular. ALGUNOS ASPECTOS DEL CÁLCULO MATRICIAL 21 1. Se veri…ca: 1.1.10. pero existe la inversa generalizada o g-inversa A : Sea A un matriz de orden m n con m n: Se llama inversa generalizada de A o g-inversa.10. n ortogonal. V contiene los vectores propios (unitarios) de A0 A.10. siendo V0 V = VV0 = In : 4. 2. (AA )0 = AA (A A)0 = A A. siendo U0 U = In : 3. . existe la matriz inversa A 1 tal que AA 1 = A 1 A = In : Si el rango es rango(A) = r < n. entonces U = V y A = UDs U0 es la descomposición espectral de A: Los valores singulares son los valores propios de A: 1. El rango de A es el número r de valores singulares positivos.10.2. Algunos aspectos del cálculo matricial 1. Ds es una matriz diagonal n n con los valores singulares s1 y V es una matriz n sr sr+1 = = sn = 0.1. es decir. U contiene los vectores propios (unitarios) de AA0 . 0. 0. sk . 0. Sea rango(A) = r y A = UDs V0 la descomposición singular de A. : : : . : : : . es decir. siendo nulos los restantes valores. AA A = UDs V0 VDs U0 UDs V0 = A: 1. (1. del mismo orden m n pero de rango k < r. Por ejemplo. : : : . : : : . es decir: Ds = diag(s1 . 0): El mínimo es la suma de los cuadrados de los valores singulares eliminados. con Ds = diag(s1 . entonces la solución viene dada por A = UDs V0 . 0): y la matriz m n A = VDs U0 es una g-inversa de A: En efecto. de modo que tr[(A 0 A ) (A A )] = m X n X (aij aij )2 = mínimo.3. DATOS MULTIVARIANTES entonces la g-inversa A es única. 0): Entonces Ds = diag(s1 1 . si 0 1 1 3 2 B 2 0 1 C C A=B @ 4 5 6 A 3 2 1 . : : : . Aproximación matricial de rango inferior Sea A = (aij ) un matriz de orden m n con m n y rango r: Supongamos que deseamos aproximar A por otra matriz A = (aij ). sr 1 . i=1 j=1 Si A = UDs V0 es la descomposición en valores singulares de A.5) donde Ds es diagonal con los k primeros valores singulares de A.22 CAPÍTULO 1.10. sr . : : : . tr[(Ds Ds )2 ]: Esta es la llamada aproximación de Eckart -Young. (1. de modo que AT sea lo más próxima posible a B. Transformación procrustes Sea A un matriz de orden m n con m n: Sea B otra matriz del mismo orden y escala (misma media y varianza para las columnas). Si obtenemos la descomposición en valores singulares A0 B = UDs V0 . En particular. 0:71 (1. Supongamos que queremos transformar A en AT. el cuadrado del valor singular eliminado. si B es matriz simétrica semide…nida positiva de rango r y B = TD T0 es la descomposición espectral (con los valores propios ordenados de mayor a menor).7) . entonces la mejor aproximación de rango k < r es la matriz B = TD T0 .10.6) donde D contiene los k primeros valores propios de B: 1.siendo T matriz n n ortogonal.4.10. entonces la solución es T = UV0 : 1 0:62 0:31 A . es decir tr[(AT B)0 (AT B)] = mínimo. 5:628 A 1:652 dos decimales) 1 10 0:52 0 10:14 0 0 C 0:41 C @ 0 2:29 0 A @ 0:38 A 0 0 0 0:63 0:50 0:86 0:06 0:59 0:40 0:70 1 0:62 0:31 A : 0:71 El valor mínimo es 1:3882 = 1:926. ALGUNOS ASPECTOS DEL CÁLCULO MATRICIAL entonces 0 0:35 B 0:16 A=B @ 0:86 0:33 0:42 0:61 0:19 0:63 1 10 0:52 0 10:14 0 0 C 0:41 C @ 0 2:295 0 A@ 0:38 A 0 0 1:388 0:63 y la aproximación de rango 2 es 0 0:945 B 2:015 A =B @ 3:984 2:936 siendo (redondeando a 0 0:35 0:42 B 0:16 0:61 A =B @ 0:86 0:19 0:33 0:63 2:480 0:397 5:320 1:386 23 0:50 0:86 0:06 0:59 0:40 0:70 1 2:534 0:587 C C.1. para cada par de columnas xj . T es matriz p p ortogonal. Es decir. siendo b = sxy =s2x y PXY = sxy =(sx sy ) los coe…cientes de regresión y correlación ordinarios. de modo que Y sea lo más próximo posible a Y en el sentido de que tr[(Y Y )0 (Y Y )] =mínimo.8) Este coe…ciente se puede expresar también en términos de matrices de covarianzas. con n p. Si p = 1 el análisis procrustes equivale a la regresión lineal y = bx + y bx. yj se desea hallar el vector yj = bT0 xj + cj 1 lo más próximo posible a yj : Si X. T = UV0 . sean X. DATOS MULTIVARIANTES Se conoce AT como la transformación procrustes. y: Deseamos aproximar X a Y mediante contracción. Y dos matrices n p. T. donde b es una constante escalar.24 CAPÍTULO 1. y que toma valores entre 0 y 1. llamada coe…ciente procrustes. . 1 es el vector n 1 de unos y c es un vector (…la) 1 p de constantes. Consideremos la transformación Y = bXT + 1c. traslación y rotación. pero no es invariante por transformaciones lineales aplicadas por separado a X y a Y. Se trata de encontrar b.Y son las matrices centradas. obtenemos primero la descomposición singular 0 X Y = UDs V0 : Indicando M1=2 = F 1=2 F0 . y vectores (…las) de medias x. siendo M = F F0 la descomposición espectral 0 0 de la matriz simétrica M = X Y Y X. es 0 0 0 0 2 PXY = [tr(X Y Y X)1=2 ]2 =[tr(X X)tr(Y Y)]: (1. c. c=y bxT: Una medida del grado de relación lineal entre X e Y. En el caso general. la solución es 0 0 0 b = tr(X Y Y X)1=2 =tr(X X). 1 contiene los datos de n = 28 alcornoques y p = 4 variables. E.11. que miden los depósitos de corcho (en centigramos) en cada uno de los cuatro puntos cardinales: N.11.1: Depósitos de corcho (centigramos) de 28 alcornoques en las cuatro direcciones cardinales.1. W. S. 46:179. EJEMPLOS 25 N 72 60 56 41 32 30 39 42 37 33 32 63 54 47 E 66 53 57 29 32 35 39 43 40 29 30 45 46 51 S W 76 77 66 63 64 58 36 38 35 36 34 26 31 27 31 25 31 25 27 36 34 28 74 63 60 52 52 43 N 91 56 79 81 78 46 39 32 60 35 39 50 43 48 E S W 79 100 75 68 47 50 65 70 61 80 68 58 55 67 60 38 37 38 35 34 37 30 30 32 50 67 54 37 48 39 36 39 31 34 37 40 37 39 50 54 57 43 Tabla 1. 45:179): Matriz de covarianzas y de correlaciones: 0 1 280 216 278 218 B 212 221 165 C C. La Tabla 1. 49:679. covarianzas y correlaciones Vector de medias: x0 =(50:536. 1.11. S=B @ 337 250 A 218 1 1 0:885 0:905 0:883 B 1 0:826 0:769 C C: R=B @ 1 0:923 A 1 0 .1 Árboles. Medias. Ejemplos Ejemplo 1. 1. Variables compuestas Las siguientes variables compuestas explican diferentes aspectos de la variabilidad de los datos: Contraste eje N-S con eje E-W: Y1 = N + S Contraste N-S: Y2 = N S Contraste E-W: Y3 = E W E W Media 8.428 31.27 99.1 61. La normalización de Y1 .1: Distribución de las variables N. .857 0. W y relaciones entre cada par de variables de la Tabla 1. S.606 30. La media de Z1 sugiere que la principal dirección de variabilidad se pone de mani…esto al comparar el eje N-S con el eje E-W.5 Diremos que una variable compuesta está normalizada si la suma de cuadrados de sus coe…cientes es 1.000 Varianza 124.707 49. Y3 da: Z1 = (N + S pE W )=2 Z2 = (N S)= p2 Z3 = (E W )= 2 Media Varianza 4. Y2 . La normalización evita que la varianza tome un valor arbitrario. DATOS MULTIVARIANTES Figura 1. E.26 CAPÍTULO 1.03 0.75 La normalización de las variables consigue que éstas tengan varianzas más homogéneas.63 0.857 1. c = (57:65. y=(183:32. 151:12). examinar y revisar los datos.11. Y2 = anchura cabeza segundo hijo.2): X1 = long. entre cada par de variables.11. Y1 = long. Ejemplo 1. o regresión lineal. 149:36).1 y las relaciones lineales. EJEMPLOS 27 Visualización de datos En los capítulos siguientes veremos métodos y técnicas de visualización de datos multivariantes. se obtienen los vectores de medias x = (187:4. cabeza segundo hijo. antes de realizar el análisis. Como norma general es conveniente. 31:17) y la matriz de rotación T= 0:9971 0:0761 0:0761 0:9971 : Los primeros 4 valores de las matrices Y y la transformación procrustes Y = bXT + 1c. Se consideran n = 25 familias y se miden las variables (véase la Tabla 1. son: Y1 179 201 185 188 Y2 145 152 149 149 Y1 185:6 188:8 178:9 180:0 2 El coe…ciente procrustes es PXY = 0:5508: Y2 152:3 148:2 146:8 150:4 . cabeza primer hijo.1 contiene un grá…co que permite visualizar la distribución de las 4 variables de la Tabla 1.1. Efectuando un análisis procrustes para estudiar el grado de coincidencia de la matriz X (dos primeras columnas) con la matriz Y (tercera y cuarta columna). La Figura 1. los valores b = 0:7166.2 Familias. X2 = anchura cabeza primer hijo. DATOS MULTIVARIANTES X1 191 195 181 183 176 208 189 197 188 192 186 179 195 X2 155 149 148 153 144 157 150 159 152 150 161 147 153 Y1 179 201 185 188 171 192 190 189 197 187 179 183 174 Y2 145 152 149 149 142 152 149 152 159 151 158 147 150 X1 202 194 163 195 186 181 175 192 174 176 197 190 X2 160 154 137 155 153 145 140 154 143 139 167 153 Y1 190 188 161 183 173 182 165 185 178 176 200 187 Y2 159 151 130 158 148 146 137 152 147 143 158 150 Tabla 1. Véase Golub y Reinsch (1970). (1979) y Seber (1984). La aproximación de una matriz por otra de rango inferior se debe a Eckart y Young (1936). H. Generaliza los vectores y valores propios de una matriz. 1. Mardia et al. uno de los objetivos típicos del Análisis Multivariante.2: Longitud y anchura del primer y segundo hijo en 25 familias. y es la versión matricial de la reducción de la dimensión. Schonemann en 1966. mediante una generalización multivariante de la ecuación de regresión.12. Véase Gower (1971b). Permite transformar una matriz en otra y estudiar el grado de coincidencia entre dos matrices de datos. La transformación procrustes fue estudiada independientemente por N.28 CAPÍTULO 1. . Cli¤ y P. Complementos La descomposición en valores singulares de una matriz es una idea sencilla pero muy útil en Análisis Multivariante. permite calcular inversas generalizadas y es fundamental en Análisis de Correlación Canónica y en Análisis de Correspondencias. Xp ) un vector aleatorio con distribución absolutamente continua y función de densidad f (x1 . para todo (x1 . xp ) podemos encontrar la función de densidad de cada variable marginal Xj mediante la integral Z fj (xj ) = f (x1 . xp )dx1 dxp = 1: Conocida f (x1 . Sea X =(X1 . Xj ). : : : .1. es importante el vector de medias = (E(X1 ). xj . : : : . y la matriz de covarianzas = ( ij ). : : : . : : : . f veri…ca: 1) f (x1 . siendo ij =cov(Xi . : : : . son 29 . ii =var(Xi ): Teniendo en cuenta que los elementos de la matriz (X )(X )0 . : : : . de orden p p. donde E(Xj ) es la esperanza de la variable marginal Xj . E(Xp ))0 . xp )dx1 dxj 1 dxj+1 dxp : Como en el caso de una matriz de datos.Capítulo 2 NORMALIDAD MULTIVARIANTE 2. Introducción Los datos en AM suelen provenir de una población caracterizada por una distribución multivariante. : : : . : : : . xp ): Es decir. xp ) 2 Rp : f (x1 . : : : . xp ) 2) R Rp 0. Xp )0 Np ( . es decir. : : : . = ( 1 . : : : .. Vamos a introducir la distribución normal multivariante Np ( . (2. que como veremos. ) como una generalización de la normal univariante. Xp = p + ap1 Y1 + + app Yp .30 CAPÍTULO 2. y varianza 2 : La función de densidad de X es: f (x. . : : : . (2. 1) X1 = 1 + a11 Y1 + + a1p Yp . es la matriz de covarianzas. xp )0 . 2 1 )= p e 2 1 (x 2 )2 = 2 = ( 2 ) 1=2 p e 2 2 ). Distribución normal multivariante 2. Xp )0 Np ( . . p )0 y = ( ij ) una matriz de…nida positiva. (2. . . 2. ) = p ( 2 )p 1 (x 2 )0 1 (x ) . . NORMALIDAD MULTIVARIANTE (Xi i )(Xj j ) y que cov(Xi .2) N (0.3) siendo x = (x1 .2) sugiere de…nir la distribución X = (X1 . ) según: j j 1=2 e f (x. Por otra parte. la matriz de )0 ]: En este capítulo introducimos y estudiamos la distribución normal multivariante y tres distribuciones relacionadas con las muestras multivariantes: Wishart.1) Evidentemente se veri…ca: X= + Y siendo Y (2. Por una parte. Xj ) = E(Xi covarianzas = ( ij ) es = E[(X )(X i )(Xj j ). De…nición Sea X una variable aleatoria con distribución N ( . Yp independientes con distribución N (0.1) sugiere de…nir la densidad de X = (X1 .2. (2. 1).2.1.4) . : : : . con media 1 (x 2 ) 1 2 (x ) : (2. donde el símbolo signi…ca “distribuido como”. ) como una combinación lineal de p variables Y1 . : : : .. . Hotelling y Wilks. 4). i = 1.6) )0 ) = (x 1 =j j 1=2 1 (x (2. : : : .2.2.: Según la fórmula del cambio de variable fX (x1 .7) en (2. i = 1.2. Es consecuencia de la de…nición (2. xp ). xp ) = fY (y1 (x). Propiedades 1. Demost.1 Las dos de…niciones (2. yp (x)) @y . La distribución de cada variable marginal Xi es normal univariante: Xi N ( i. : : : . xp ) = (1= 2 )p e 2 i=1 yi jA 1 j: 1 Pero = (A 1 )0 (A 1 ) y por lo tanto y0 y = (x )0 (A 1 )0 (A 1 )(x Substituyendo (2. DISTRIBUCIÓN NORMAL MULTIVARIANTE 31 que podemos escribir como X= (2. : : : . De (2. ii ).5) es inmediato que E(X) = E[(X )(X y que la matriz de covarianzas es )0 ]=E(AYY0 A0 ) = AIp A0 = : 2.7) ): obtenemos (2.5) tenemos y = A 1 (x )) el jacobiano del @y = jA 1 j @x y como las p variables Yi son N (0. p. : : : .3) y (2. : : : .4) son equivalentes. : : : . (2. : : : .2. Yp )0 y A = (aij ) una matriz p p que veri…ca AA0 = : Proposición 2. 1) independientes: p 1 Pp 2 fX (x1 . p: .6) y de jAj 2.3). De (2.2. el cambio y J = cambio.5) + AY siendo Y =(Y1 . @x @y @x siendo yi = yi (x1 . i = 1. 21 . 2 1 )] 2 2 (1 . pp ) 5. Xp ) son estocásticamente independientes. 2 . Si =diag( 11 .4) resulta que Z es combinación lineal de N (0. ij = 0. 1) independientes. La función de densidad de X2 condicionada a X1 = x1 es f (x2 jx1 ) = 2 1 p 2 (1 2) exp [(x2 densidad de la distribución normal N ( 2+ 2 ( 2 = 1 )(x1 2 2) 2 2 (1 ( 2 = 1 )(x1 1 ). < +1 (Figura 2. La distribución de la variable marginal Xi es N ( i . de (2. En efecto. 2 )): . 1) independientes. Se veri…ca: 2. Hay independencia estocástica si y sólo si = 0: siendo 1< + (x2 2 2 2) 2 g]. NORMALIDAD MULTIVARIANTE 3. pp ) es matriz diagonal. de (2. ) = f (x1 . Caso bivariante Cuando p = 2. 2 i ). 3. p.32 CAPÍTULO 2. : : : .3. : : : . 2. : : : . . La distribución de la forma cuadrática )0 U = (x 1 (x ) es ji-cuadrado con p grados de libertad. 4. 22 y del coe…ciente de correlación =cor(X1 . : : : . entonces las variables (X1 . 1. x2 ) = 1p 2 1 2 exp [ 1 2 1 1 f (x1 21 2 2 1 1) 2 2 (x1 1) (x2 2) 1 2 1. la función de densidad de la normal bivariante se puede expresar en función de las medias y varianzas 1 . la función de densidad conjunta resulta igual al producto de las funciones de densidad marginales: f (x1 .5) U = Y0 Y = P p 2 i=1 Yi es suma de los cuadrados de p variables N (0. es decir. xp .2. 2. i 6= j. X2 ) : f (x1 . Xp Z = b0 + b1 X1 + + bp Xp es también normal univariante. 11 ) f (xp . En efecto. Toda combinación lineal de las variables X1 .1). En efecto. x1 = E(X1 jX2 = x2 ). La regresión es de tipo lineal.3. desviaciones típicas 2 y 2. 2. DISTRIBUCIÓN DE WISHART 33 Figura 2. n). la densidad de Q es f (Q) =cjQj(n p 1) exp( siendo c 1 = 2np=2 p(p 1)=4 j jn=2 p Q i=1 1 tr( 2 1 Q)). 4. generaliza la distribución ji-cuadrado y juega un papel importante en inferencia multivariante. De…nición Si las …las de la matriz Zn p son independientes Np (0. con parámetros y n grados de libertad. es decir. [ 12 (n + 1 i)]: .8. ) entonces diremos que la matriz Q = Z0 Z es Wishart Wp ( . son las rectas de regresión. las curvas de regresión de la media x2 = E(X2 jX1 = x1 ). Cuando es de…nida positiva y n p.1: Función de densidad de una distribución normal bivariante de medias 1 y 1.3. Distribución de Wishart La distribución de Wishart es la que sigue una matriz aleatoria simétrica de…nida positiva. coe…ciente de correlación 0. calculada a partir de una matriz de datos donde las …las son observaciones normales multivariantes. Un ejemplo destacado lo constituye la distribución de la matriz de covarianzas S.2. n). Q2 son independientes Wishart Wp ( . m). n) . m). entonces T 2 = m(x )0 M 1 (x ) T 2 (p. entonces T0 QT es Wq (T0 T. De…nición Si y es Np (0. n). La distribución de Hotelling es una generalización multivariante de la distribución t de Student. respectivamente. n) y T es una matriz p q de constantes. que se indica por T 2 (p.4. entonces la suma Q1 + Q2 es también Wishart Wp ( . Si x es Np ( . entonces t0 Qt t0 t (Recordemos que 2. I). NORMALIDAD MULTIVARIANTE Propiedades: 1.34 CAPÍTULO 2. Si Q es Wp ( . independiente de Q que es Wishart Wp (I. m): Propiedades: 1. m): . y consideramos las particiones correspondientes de y Q = entonces Q11 es Wp1 ( 11 12 21 22 11 . Si Q1 . Wp ( . Q11 Q12 Q21 Q22 Q= y Q22 es Wp2 ( . si t es un vector. Si Q es Wp ( . n): 3. con m y n grados de libertad en el numerador y denominador. 2 n: signi…ca “distribuido como”). y separamos las p variables en dos conjuntos de p1 y p2 variables. ) independiente de M que es Wp ( . entonces T 2 = my0 Q 1 y sigue la distribución T 2 de Hotelling. m). n): En particular. m + n): 2. Distribución de Hotelling Indiquemos por Fnm la distribución F de Fisher-Snedecor. 22 . Si x.2. respectivamente. n1 + n2 Fnp1 +n2 2) 1 p: Distribución de Wilks La distribución F con m y n grados de libertad surge considerando el cociente A=m F = . T 2 está directamente relacionada con la distribución F de Fisher-Snedecor mp T 2 (p. con …las independientes Np ( . y) T 2 (p. DISTRIBUCIÓN DE WILKS 35 2. n ) )0 S 1 (x ) 1).5. y consideramos la estimación conjunta centrada (o insesgada) de b (n1 S1 + n2 S2 )=(n1 + n2 2). A+B la relación entre y Fnm . entonces (n y por lo tanto )0 S 1 (x 1)(x n p p (x T 2 (p. S2 son el vector de medias y la matriz de covarianzas de las matrices Xn1 p . S1 . Si x. Fmn = : Fnm = m1 n La distribución de Wilks generaliza esta relación.y.5. S= entonces T2 = y por lo tanto n1 n2 b 1 (x (x y)0 S n1 + n2 n1 + n2 1 p 2 T (n1 + n2 2)p 2. ). . Yn2 p . Si consideramos la distribución A = . Fnp p : 4. S son el vector de medias y la matriz de covarianzas de la matriz Xn p con …las independientes Np ( . ). B son ji-cuadrados estocásticamente independientes con m y n grados de libertad. m) Fp : m p + 1 m p+1 3. B=n donde A. así como la inversa Fmn . es m1 n . n) (n. n): Propiedades: 1. a la distribución F. por de…nición.9) 1=s pq p con m = n (p+q+1)=2. Los parámetros se pueden permutar manteniendo la misma distribución. la distribución del cociente de determinantes jAj = jA + Bj es. Wp ( . la distribución lambda de Wilks. según las fórmulas: 1 m n Fmn 1 m p+1 p Fmp p 1p p 1p m 1 n m p+1 p equivale a la distribución (p = 1) p+1 (n = 1) 2n F2(m 1) (p = 2) 2p F2(m p+1) (n = 2) (2. n). p): 4. B de orden p p son independientes Wishart Wp ( . q) es Wilks con n relativamente grande. exacta o asintóticamente. la distribución de F. n) Ui . En general. m. Su distribución es equivalente a la del producto de n variables beta independientes: n Q (p. podemos 2. m + n p. n q. 1 p): 2 (Obsérvese que debe ser m p): 3. Para valores 1 y 2 de p y n. s = (p2 q 2 4)=(p2 + q 2 5): Entonces F sigue asintóticamente la distribución F con pq y (ms 2 ) grados de libertad (g. que indicaremos por (p. m. respectivamente. m. consideremos 1=s ms 2 1 F = (2. Si (p. (Rao. l. . m). con m p. una transformación de equivale.). 0 1 y además no depende de estudiarla suponiendo = I: : Por lo tanto. = (pq 2)=4. 1973. i=1 donde Ui es beta B( 12 (m + i p). p. Concretamente: (p.36 CAPÍTULO 2.556).8) 5. NORMALIDAD MULTIVARIANTE De…nición Si las matrices A. 4 0. n) n Fmn : (2.2: Un ejemplo de función de densidad lambda de Wilks. m. Entonces = A=(A + B) (1. n) y F = (n=m)A=B = (n=m)F Fnm : Tenemos que = (A=B)=(A=B + 1) = F =(1 + F ).20 0.2. donde = jQj=jQ + yy0 j (p. donde Q es Wp (I. p): Además y0 Q 1 y = p 1= 1 = (1 )= : De (2.10) tenemos que y0 Q 1 y(m + 1 p)=p Fm+1 p y por lo tanto mp Fp : T 2 = my0 Q 1 y m + 1 p m+1 p .2 0.1): Se cumple jQ + yy0 j = jQjj1+y0 Q 1 yj. que implica 1+y0 Q 1 y = jQ + yy0 j=jQj = 1= .00 0.10) B.0 x Figura 2.10 0.6. m+1 p. RELACIONES ENTRE WILKS. m. HOTELLING Y F 37 y 0. Probemos la relación entre y F cuando p = 1: Sean A n m. m.8 1.m).6 0. 1) (1.15 0. y yy0 es Wp (I.6. m.05 0. B independientes. 2. Relaciones entre Wilks. Recordemos que y es un vector columna y por lo tanto yy0 es una matriz p p. n) m (1. luego F = =(1 ) ) (n=m) =(1 ) Fnm : Mas si F Fnm entonces 1=F Fmn : Hemos demostrado que: 1 (1. Probemos la relación entre las distribuciones T 2 y F: Tenemos T 2 = my0 Q 1 y.0 0. Hotelling y F 2 2 A. cij = npi pj si i 6= j: Puesto que C1 = 0. La matriz de covarianzas de f es C = n[diag(p) pp0 ]: Es decir: cii = npi (1 pi ). : : : . = A1 + + Ak . El vector de medias de f es = np: 2. P (Ak ) = pk . : : : . Ak . : : : .12) . Indiquemos p = (p1 . pk 1 ): n 110 ) = C. : : : . pk )0 : 1. fk ) = n! f1 ! fk ! pf11 pfkk : En el caso k = 2 tenemos la distribución binomial. pk 1 )(I n 110 ): (2. fk ) con función de densidad discreta f (f1 . La singularidad se debe a que se veri…ca (2. con probabilidades positivas P (A1 ) = p1 . NORMALIDAD MULTIVARIANTE 2.7. es fácil ver que otra g-inversa es C = 1 diag(p1 1 . Distribución multinomial Supongamos que la población es la reunión disjunta de k sucesos excluyentes A1 .11). : : : . : : : .11) + fk = n: La distribución multinomial es la distribución de f = (f1 . : : : . : : : . : : : . Ak . Una g-inversa de C es (véase Sección 1.38 CAPÍTULO 2. siendo f1 + (2.10): C = Puesto que C(I 1 diag(p1 1 . la matriz C es singular. veri…cando p1 + + pk = 1: Consideremos n observaciones independientes y sea (f1 . fk ) el vector con las frecuencias observadas de A1 . y) F (x)G(y)]dxdy. y la correlación entre X. y la correlación entre X. y) = F (x)G(y): M. Y ): La función H es H(x. y) la función de distribución bivariante de dos variables aleatorias (X. y) = m nfF (x). entonces se cumple la relación funcional entre X. Y ) = [H(x. y) H(x. R2 . las distribuciones univariantes de X. Previamente W. 1. y) = H(1. Si suponemos X. Y : F (x) = P (X G(y) = P (Y x) = H(x. Cuando la distribución es H + . G(y)g. Hoe¤ding había probado la siguiente fórmula para la covarianza Z cov(X. Y F (X) + G(Y ) = 1. una primera distribución es H 0 (x. 0g. G y posiblemente algún parámetro.8. y) H + (x. Y (si existe) es mínima.2.8. Y (si existe) + es máxima. Fréchet introdujo las distribuciones bivariantes H (x. 1). y demostró la desigualdad H (x. y): Un procedimiento para la obtención de modelos de distribuciones bivariantes consiste en encontrar H a partir de F. y): Cuando la distribución es H . Y y): Consideremos las distribuciones marginales. Y independientes. entonces se cumple la relación funcional entre X. 39 Distribuciones con marginales dadas Sea H(x. y) = maxfF (x) + G(y) H + (x. DISTRIBUCIONES CON MARGINALES DADAS 2. y) = P (X x. Y F (X) = G(Y ). es decir. H y H + . Ali-Mikhail-Haq: H = F G=[1 (1 F )(1 G)] 1 1: 4. donde . H 0 y H + : Escribiendo F. se basan. algunas familias son: 1. 1 1. < 1: 1 3. H para indicar F (x). en la suposición de normalidad.9. y + son las correlaciones entre X. 1998). Posteriormente. Clayton-Oakes: H = [F +G 1] 1= . Rao (1973). que en algunos casos contienen a H . con diferencia. F (y)]=(1 )F (x)J(y). y). G(y). 2. Gg) (F G)1 . ) una función de distribución uni- Complementos La distribución normal multivariante es. 0 1: 5. Familia de correlación: H (x. H(x.40 CAPÍTULO 2. . NORMALIDAD MULTIVARIANTE y demostrado la desigualdad + . G. Y cuando la distribución bivariante es H . Farlie-Gumbel-Morgenstern: H = F G[1 + (1 F )(1 G)]. Rencher (1995. Cuadras-Augé: H = (m nfF. la más utilizada en análisis multivariante. casi exclusivamente. Textos como Anderson (1956). 1 1: 2. yg) + (1 siendo J(y) = [G(y) variante. diversos autores han propuesto distribuciones bivariantes paramétricas a partir de las marginales F. respectivamente. y) = F (m nfx. G. 2010.9. Joe (1997). y) F (x)G(y)]d (x)d (y): cov( (X). cuya densidad es de la forma f (x) = j j 1=2 g((x )0 1 (x )). Cuadras y Augé (1981). Hotelling y S.2. 2014): Z [H(x. (Y )) = R2 Véase también Quesada-Molina (1992). Cuando se estudiaron muestras normales multivariantes. . 2006. Así fue como J. Nelsen (2006). pronto se planteó la necesidad de encontrar la distribución de la matriz de covarianzas. Cuadras (1992a. Otras distribuciones importantes son la multinomial y la Dirichlet. 1931 y 1932. Algunas referencias son: Hutchinson y Lai (1990). Wilks propusieron las distribuciones que llevan sus nombres. en los años 1928. respectivamente. S. Wishart. 2002. H. 2009). donde g es una función positiva creciente. como las distribuciones elípticas. COMPLEMENTOS 41 Más recientemente se han estudiado generalizaciones. El estudio de las distribuciones con marginales dadas proporciona un método de construcción de distribuciones bivariantes y multivariantes. y de algunos estadísticos apropiados para realizar contrastes de hipótesis multivariantes. La fórmula de Hoe¤ding admite la siguiente generalización (Cuadras. NORMALIDAD MULTIVARIANTE .42 CAPÍTULO 2. 43 . ) un modelo estadístico. ): z(X. )0 ]: Un estimador t(X) de es insesgado si E[t(X)] = : La desigualdad de Cramér-Rao dice que si cov(t(X)) es la matriz de covarianzas de t(X). : : : .1. ) = log f (x. )) = 0. x0n independientes de una matriz de datos Xn p : La función de verosimilitud es n Y L(X. ): i=1 La función “score”de la muestra es n X @ log f (xi . ) = f (xi . ) = @ i=1 La matriz de información de Fisher F ( ) es la matriz de covarianzas de z(X. )z(X.Capítulo 3 INFERENCIA MULTIVARIANTE 3. ): Cuando un modelo estadístico es regular se veri…ca: a) E(z(X. b) F ( ) =E[z(X. entonces cov(t(X)) F ( ) 1 . La función “score”se de…ne como @ z(x. Conceptos básicos Sea f (x. ): @ Una muestra multivariante está formada por las n …las x01 . 44 CAPÍTULO 3. ) = 0: @ i=1 Entonces el estimador máximo verosímil bn obtenido a partir de una muestra de tamaño n satisface: a) Es asintóticamente normal con vector de medias y matriz de covarianzas (nF1 ( )) 1 . . x0n de Xn de verosimilitud es L(X. podemos obtener b resolviendo la ecuación n X @ log f (xi . (x )(x )0 ] = 0: 1 (x ): . ) la función p exp ( 1 2 n X (xi )0 1 ) (xi ) i=1 Sea di = xi x: Se veri…ca Pn P )0 1 (xi ) = ni=1 di 0 1 di + n(x )0 i=1 (xi P = tr [ 1 ni=1 di di 0 ] + n(x 1 (x )0 ) 1 (x ): Por lo tanto el logaritmo de L se puede expresar como log L(X. . ) = n 2 log det(2 ) Derivando matricialmente respecto de @ @ log L @ @ 1 1 =n log L = n 2 [ (x S n tr( 2 1 y de S) 1 n (x 2 )0 tenemos ) = 0. Estimación de medias y covarianzas Si las n …las x01 . ): En condiciones de regularidad. b) Si t(X) es estimador insesgado de tal que cov(t(X)) = (nF1 ( )) 1 . ) = det(2 ) n=2 son independientes Np ( .2. entonces bn = t(X): c) bn converge en probabilidad a : 3. donde F1 ( ) es la matriz de información de Fisher para una sola observación. Un estimador b del parámetro desconocido es máximo verosímil si maximiza la función L(X. INFERENCIA MULTIVARIANTE en el sentido de que la diferencia cov(t(X)) F ( ) 1 es una matriz semide…nida positiva. : : : . =n): 2. 45 son pues b = S: Sin embargo S no es estimador insesgado de : La estimación centrada es b = X0 HX=(n 1): S Si sólo es desconocido.3. Contraste de hipótesis multivariantes Un primer método para construir contrastes sobre los parámetros de una población normal. =n).1. 3. CONTRASTE DE HIPÓTESIS MULTIVARIANTES Las estimaciones máximo-verosímiles de b = x. ): Sea 0 un vector de medias conocido. x es Np ( . se basa en las propiedades anteriores. el (3. . tenemos que x alcanza la cota de Cramér-Rao. 3. Si es desconocida. x y S son estocásticamente independientes. como (n 1)(x )0 S 1 (x ) estadístico de contraste es n p (x 0 )0 S 1 (x 0 ) Fnp p : p T 2 (p. F). n 1).3.3. nS sigue la distribución de Wishart.3. el estadístico de contraste es n(x 0 0) 1 (x 0) 2 p: 2. 3. como x es Np ( . Si = 0 es conocida. Test sobre la media: una población Supongamos que las …las de Xn p son independientes Np ( . que dan lugar a estadísticos con distribución conocida (ji-cuadrado.1) En ambos casos se rechaza H0 para valores grandes signi…cativos del estadístico. . la matriz de información de Fisher es F ( ) = E(n 1 1 )n (x )0 ) = n (x 1 y como cov(x) = =n. Probaremos más adelante que: 1. Queremos realizar un test sobre la hipótesis H0 : 1. 46 CAPÍTULO 3. y que provienen de la observación de g poblaciones normales multivariantes: matriz orden media covarianza distribucion x1 S1 Np ( 1 . . Np ( 2 . + 1=n2 ) ) el es- y) Fnp1 +n2 1 p: 2) la estimación centrada (es decir. Si es conocida.. . ) . . ) X1 n1 p X2 n2 p x2 S2 Np ( 2 . ) (3... n i=1 siendo Si = ni 1 X0i HXi y n = Pg i=1 b = S ni : 1 n g g X i=1 n i Si . . Xg ng p xg Sg Np ( g . .3. ). Si 1 2 . .2) El vector de medias generales y la estimación centrada (o insesgada) de la matriz de covarianzas común son g 1X x= ni xi .3.3. Comparación de varias medias Supongamos que las …las de g matrices de datos son independientes. Test sobre la media: dos poblaciones Supongamos ahora que tenemos dos matrices de datos independientes Xn1 p . el estadístico de contraste es n1 + n2 1 p n1 n2 b 1 (x (x y)0 S (n1 + n2 2)p n1 + n2 b = (n1 S1 +n2 S2 )=(n1 +n2 siendo S insesgada) de : 3. INFERENCIA MULTIVARIANTE 3...2. como (x y) es Np ( tadístico de contraste es n1 n2 (x y)0 n1 + n2 2. ): Queremos construir un test sobre la hipótesis H0 : 1 = 2: 1. (1=n1 1 (x 2 p: y) es desconocida. Yn2 p que provienen de distribuciones Np ( 1 . . . . . W son estocasticamente independientes: Por lo tanto.4.3. u0 v =0: 1. n 1). g 1): Rechazaremos H0 si es un valor pequeño y signi…cativo.1 Sea X(n p) una matriz de datos Np ( . n g.4. TEOREMA DE COCHRAN 47 Deseamos construir un test para decidir si podemos aceptar la hipótesis de igualdad de medias H0 : 1 = 2 = = g: Introducimos las siguientes matrices: P B = Pgi=1 P ni (xi x)(xi x)0 (dispersion entre grupos) g W = Pi=1 Pni=1 (xi xi )(xi xi )0 (dispersion dentro grupos) T = gi=1 ni=1 (xi x)(xi x)0 (dispersion total) Se veri…ca que W = (n b y la relación: g)S T = B + W: Si la hipótesis nula es cierta. T Wp ( .4.2. v dos vectores n 1 tales que u0 u = v0 v =1. ) y u.4. y0 = u0 X es independiente de z0 = v0 X: . si H0 es cierta = jWj jW + Bj (p. B. 3. se veri…ca además B Wp ( . Si = 0 entonces y0 = u0 X es Np (0. ): 2. n g). g 1). Teorema de Cochran Algunos resultados de la sección anterior son una consecuencia del Teorema 3. Lema 3. o si la transformación a una F es grande y signi…cativa. conocido como teorema de Cochran. W Wp ( . i=1 lo que prueba la independencia estocástica entre y y z: Teorema 3. z0 = vP X es también normal. p) una matriz de datos Np (0. X0 CX es Wishart Wp ( .4. es decir. X0 CX tiene la misma distribución que una suma ponderada de matrices Wp ( . Cui = X 0 X0 CX = i yi yi i ui : Entonces . z son: E(y) = ( ni=1 ui ) . x0n las …las (independientes) de X: Si u = (u1 .: Sea C= n X 0 i ui ui i=1 la descomposición espectral de C. si v = (v1 .: Sean x01 . r) si y sólo si C es idempotente y rango(C) = r: Demost. INFERENCIA MULTIVARIANTE Demost.j=1 ui uj E(xi x0j ) = i. vn )0 . 1). P Las esperanzas de y.j=1 n X u2i n X u2i E(xi x0i ) i=1 = : i=1 0 Análogamente. : : :P . : : : . ) y sea C(n n) 1. donde los pesos son valores propios de C: 2. : : : .2 Sea X(n una matriz simétrica.48 CAPÍTULO 3. E(z) = ( ni=1 vi ) : Las covarianzas entre y y z son: 0 E[(y E(y))(z E(z)) ] = = n X i=1 n X ui vj E[(xi )(xj )0 ] ui vi E[(xi )(xj )0 ] = u0 v = 0. un )0 entonces y0 = u0 X = ni=1 ui xi es normal multivariante con = 0 y matriz de covarianzas n n n X X X E(yy0 ) = E( ui xi )( ui xi )0 = E( ui uj xi x0j ) = = i=1 n X i=1 i. entonces por el Lema 3.4. C2 (n n) matrices simétricas. =n): . yi0 (1 p) = u0i X es independiente de z0j (1 p) = vj0 X: Así X0 C1 X es independiente de X0 C2 X: Una primera consecuencia del teorema anterior es la independencia entre vectores de medias y matrices de covarianzas muestrales. 0 j (2)zj zj . las …las yi0 de la matriz 0 1 0 1 y10 u01 X B C B C Y = @ .. En el caso univariante p = 1 es el llamado teorema de Fisher. r): i=1 El siguiente resultado se conoce como teorema de Craig. 8i.3. Entonces X0 C1 X es independiente de X0 C2 X si C1 C2 = 0: Demost. ): Entonces: 1.4. X0 C2 X = i=1 C2 = n X j=1 siendo yi0 C1 C2 = = u0i X.4. TEOREMA DE COCHRAN 49 Por el Lema 3. A . La media x es Np ( .4 Sea X(n p) una matriz de datos Np ( . permite construir contrastes sobre vectores de medias. Teorema 3.4.. z0j n X n X = vj0 X: Por otra parte 0 0 i (1) j (2)ui ui vj vj i=1 i=1 =0 ) P P 0 i (1)yi yi . j: Si i (1) j (2) 6= 0. 0 i (1) j (2)ui vj = 0. yn0 u0n X son también independientes Np (0.: C1 = n X 0 i (1)ui ui . ) y sean C1 (n n). 1): Si C2 = C entonces Cui = i ui siendo i = 0 ó 1: Por lo tanto r =tr(C) y r X 0 X CX = yi yi0 Wp ( .. Teorema 3.1. y junto con el teorema de Cochran. X0 C1 X = 0 j (2)vj vj .3 Sea X(n p) una matriz de datos Np ( .1 anterior.4. ) y cada yi yi0 es Wp ( .. A = @ . W son independientes con distribuciones Wishart: B Wp ( . donde 11 tiene n1 unos y el resto ceros.5 Sean Xi . : : : . B = X0 C2 X: El resultado es consecuencia de los Teoremas 3. C22 = C2 . 0 W = X C1 X. yj son independientes (Lema 3. x y S son estocásticamente independientes. vector propio de valor a 1. X0 C1 X = xx0 : Consideremos también C2 = H: Como C1 C2 = 0 deducimos que x es independiente de S: Por otra parte. : : : . W Wp ( . 1) independientes. 1.3. 1 = gi=1 1i = (1.50 CAPÍTULO 3. Sean también P Ii = diag(1i ). C2 = gi=1 ni 1 1i 10i n 1 110 : Entonces C21 = C1 .1). rango(C1 ) = n g. Tenemos que nS = ni=11 yi yi0 . rango(C2 ) = g 1. g 1). : : : .. Teorema 3. n = gi=1 ni : Si la hipótesis nula H0 : 1 = 2 = = g es cierta. 1). H1 = 0 y H tiene el valor propio 1 con multiplicidad n 1: Así ui . p . n g): Demost. I = gi=1 Ii . 1. entonces B. yi .2 y 3.4.. 1. : : : g.4. : : : 1). donde los yi yi0 son Wp ( .: Escribimos las matrices de datos como una única matriz 2 3 X1 6 7 X = 4 . : : : . es ortogonal 0 0 0 0 = (ui 1) =0 = 0: Si uj que yi = ui X veri…ca E(yi ) = ( =1 ui ) es otroPvector propio. Demost. 0. : : : . n 1): 3.: Consideremos C1 = n 1 110 : Tenemos rango(C1 ) = 1.4. resultando Pnpropio 1. INFERENCIA MULTIVARIANTE 2. La matriz de covarianzas S = X0 HX=n veri…ca nS Wp ( . C1 C2 = 0. etc. 5 : Xg Sean 11 = P (1. matrices de datosP independientes de orden ni con distribución Np ( i . : : : . 1g = (0. Hi = P Ii ni 1 1i 10i P C1 = gi=1 Hi . i = 1. 1. : : : 0.4. 0). ). b) que satisface 0 1: Aceptamos la hipótesis H0 si R es próxima a 1 y R aceptamos la alternativa H1 si R es signi…cativamente próximo a 0. ) i=1 y sea b el estimador máximo verosímil de 2 : Consideremos análogamente b0 . Xp ) es f (x. donde x 2Rp y 2 .l. Existe un importante resultado (atribuido a Wilks). consideremos la función de verosimilitud L(x1 . 3.5. ). : : : .5. el estimador de máxima verosimilitud de 2 0 : Tenemos que b maximiza L sin restricciones y b0 maximiza L cuando se impone la condición de que pertenezca a 0 : La razón de verosimilitud es el estadístico R = L(x1 . Entonces rechazamos la hipótesis H0 cuando ni…cativo. CONSTRUCCIÓN DE CONTRASTES DE HIPÓTESIS 3. pero en la mayoría de los casos su distribución es desconocida. que dice que la distribución de -2 veces el logaritmo de s g. < r = dim( ). se veri…ca: 2 log donde s = dim( 0) R es asintóticamente 2 r s.3.5. xn una muestra de valores independientes de X. xn . R es ji-cuadrado con r Teorema 3. L(x1 .1. xn . : : : . Veamos dos ejemplos. cuando el tamaño de la muestra n es grande. : : : . b0 ) . : : : .1 Bajo ciertas condiciones de regularidad. siendo una región paramétrica de dimensión geométrica r: Sea 0 una subregión paramétrica de dimensión s. y planteamos el test de hipótesis H0 : 2 0 vs H1 : 2 0: Sea x1 . : : : . 2 log R sea grande y sig- . 51 Construcción de contrastes de hipótesis Razón de verosimilitud Supongamos que la función de densidad de (X1 . xn . El test basado en R tiene muchas aplicaciones en AM. ) = n Y f (xi .5. INFERENCIA MULTIVARIANTE Test de independencia Si (X1 . : : : . I. r = p + p(p + 1)=2. Si las variables son independientes. = f( 1 . Por lo tanto 1)p g. ).2) que 2 log R = n log jRj. g donde es matriz de…nida positiva y (vector) es la media común cuando H0 es cierta. y Test de comparación de medias Consideremos el test de comparación de medias planteado en la Sección 3. r = gp + p(p + 1)=2. Ahora 0 = f( . : : : . Se demuestra (Sección 5. l.l. ). = f( . y p + p(p + 1)=2 bajo H0 : Se demuestra la relación R = n=2 . donde 0 es diagonal. Xp ) es Np ( . s = 2p.3. cuando la . + ng . donde = jWj=jTj es la lambda de Wilks y n = n1 + n log es asintóticamente ji-cuadrado con r s = (g hipótesis H0 es cierta. tendremos que R es probable que 2q = n log jRj no sea signi…cativo. Hay gp + p(p + 1)=2 parámetros bajo H1 .4. entonces 0 = f( . donde R es la matriz de correlaciones. n log jRj 0. y queremos hacer un test sobre la independencia estocástica de las variables. )g. 0 )g. )g. )g. es cualquier matriz de…nida positiva. s = p + p(p + 1)=2.52 CAPÍTULO 3. El estadístico camente ji-cuadrado con q = p + p(p + 1)=2 2p = p(p n log jRj es asintóti- 1)=2 g. 0 contiene las p medias de las variables y las p varianzas.3. De (x 0 )(x 0 ) v1 = 0 1 1 Sv1 resulta que S (x 0 )(x 0 ) v1 = 1 v1 y de la identidad S 1 (x vemos que 0 )(x 1 0 1 0 ) (S (x 0 = (x 0) S 1 (x T 2 = max t2 (a) = (n a 0 )) 0 1 0 ) S (x = (x 0 ).5. es decir. y nos decidiremos por la alternativa H1 : 6= 0 si aceptamos una sola de las alternativas H1 (a). H1 = [H1 (a): a a Así rechazaremos H0 si la máxima t(a) resulta signi…cativa. v1 1)(x = S 1 (x 0 0) S 1 (x 0 )(S 0 ): 1 (x Por lo tanto 0 ): 0 )) . la T 2 de Hotelling (Sección 3. Como ejemplo. Aceptaremos H0 : = 0 si aceptamos todas las hipótesis univariantes H0 (a). CONSTRUCCIÓN DE CONTRASTES DE HIPÓTESIS 3. que al ser tomada sobre todas las combinaciones lineales. t(a) = n 1 s(a) donde x(a) = x0 a es la media muestral de Xa y s2 (a) = a0 Sa es la varianza. Sea Xa = Xa una variable compuesta con media (a) = 0 a: El test univariante H0 (a) : (a) = 0 (a) contra la alternativa H1 (a) : (a) 6= 0 (a) se resuelve mediante la t de Student p x(a) 0 (a) tn 1 . planteemos la hipótesis nula multivariante H0 : = 0 como un test univariante.2.3.5. Teorema 3.3.1) es precisamente el cuadrado de esta máxima t de Student.2 En el test sobre el vector de medias. formalmente (principio de uniónintersección): H0 = \H0 (a). Pues bien. 53 Principio de unión-intersección Es un principio general que permite construir contrastes multivariantes a partir de contrastes univariantes y se aplica a diversas situaciones. ya no sigue la distribución t de Student si p > 1.: (x 0) es un vector columna y podemos escribir t2 (a) como 2 t (a) = (n 1) a0 (x 0 )(x a0 Sa 0 0) a 0 Sea A = (x p y rango 1: Si v1 satisface 0 )(x 0 ) matriz de orden p 0 0 0 Av1 = 1 Sv1 entonces 1 = max(v Av=v Sv). la T 2 de Hotelling y la t de Student están relacionadas por T 2 = max t2 (a): a Demost.5. se han obtenido las matrices de datos de la Tabla 3. X2 = long. 3.6. En relación a las variables X1 = long. Vectores de medias (valores multiplicados por 100): x = (141:33. Ejemplos Ejemplo 3. para dos muestras de tamaño n1 = 9 y n2 = 6. ala (en mm).1. 180:44)0 . INFERENCIA MULTIVARIANTE Amerohelea fascinata n1 = 9 X1 X2 1:38 1:64 1:40 1:70 1:24 1:72 1:36 1:74 1:38 1:82 1:48 1:82 1:54 1:82 1:38 1:90 1:56 2:08 A. Se desean comparar dos especies de moscas de agua: Amerohelea fascinata.6. ala (en mm). pseudofascinata n2 = 6 X1 X2 1:14 1:78 1:20 1:86 1:18 1:96 1:30 1:96 1:26 2:00 1:28 2:00 Tabla 3. y = (122:67. Amerohelea pseudofascinata.1: X1 = long. antena.1 Moscas. 192:67)0 : Matrices (no centradas) de covarianzas: S1 = 87:11 71:85 71:85 150:03 S2 = 32:88 36:22 36:22 64:89 Estimación centrada de la matriz de covarianzas común: b = 1 (9S1 + 6S2 ) = S 13 75:49 66:46 66:46 133:81 Distancia de Mahalanobis entre las dos muestras: D2 = (x b 1 (x y)0 S y) = 15:52: : : .54 CAPÍTULO 3. antena. para dos muestras de tamaños n1 = 9 y n2 = 6. X2 = long. 6.2 Flores. 2:026) n3 = 50 Matriz dispersión entre grupos: 0 63:212 19:953 165:17 71:278 B 11:345 57:23 22:932 B =B @ 436:73 186:69 80:413 Matriz dispersión dentro grupos: 0 1 38:956 13:630 24:703 5:645 B 16:962 8:148 4:808 C C W =B @ 27:322 6:284 A 6:156 1 C C A . A. Fisher.6. 1:326) n2 = 50 (6:588. Comparación de las especies virginica. EJEMPLOS 55 Estadístico T 2 : T2 = Estadístico F : 6 9 2 D = 55:87 6+9 9+6 1 2 2 T = 25:78 2(9 + 6 2) 2 F12 Decisión: rechazamos la hipótesis de que las dos especies son iguales (nivel de signi…cación = 0:001): Ejemplo 3. 1:462. X4 = anchura de pétalo. Tabla 3. versicolor I. 3:428. 0:246) n1 = 50 (5:936. versicolor. 2:974. Vectores de medias y tamaños muestrales: I.3. 5:550. virginica (5:006. setosa de ‡ores del género Iris (datos de R. respecto a las variables que miden longitud y anchura de sépalos y pétalos: X1 = longitud de sépalo. X3 = longitud de pétalo. 2:770. setosa I. 4:260.2). X2 = anchura de sépalo. 1 3.1 3.5 1.7 6.1 6.6 2.0 3.3 5.1 4.1 5.5 1.5 6.5 5.5 4.0 3.3 1.7 4.5 1.2 0.9 2.8 5.2 X1 7.8 2.9 4.5 6.4 5.2 0.1 5.6 3.8 2.8 6.4 1.4 0.4 1.6 7.2 0.3 1.9 X2 3.6 2.9 3.0 3.5 1.7 2.0 2.2 6.0 5.0 4.7 6.0 6.3 5.9 2.1 2.1 2.4 1.0 2.4 3.1 3.3 1.0 3.0 1.3 1.1 5.6 5.7 3.8 1.6 6.8 5.2 2.6 4.9 4.8 2.4 1.7 2.3 3.7 6.6 5.5 4.9 2.7 6.9 2.0 2.4 5.2 2.2 3.3 1.4 2.3 0.6 4.4 1.1 5.4 1.3 1.2 1.0 5.0 4.9 3.3 2.0 6.5 4.5 2.5 3.2 1.2 2.2 3.1 6.1 5.3 0.2 0.3 1.3 1.2 0.3 5.0 3.8 2.7 3.5 2.0 2.7 5.2 0.4 1.5 4.2 4.8 3.0 2.1 3.6 5.3 3.4 3.3 4.3 2.7 3.8 2.5 3.8 1.3 1.5 0.2 5.8 2.6 2.1 3.7 4.0 5.7 6.0 2.4 3.0 3.2 0.0 5.5 1.8 5.7 3.4 0.9 4.1 6.1 X4 1.2 0.0 2.9 2.3 1.0 4.8 5.7 5.5 1.1 5.2 7.4 1.3 4.4 4.5 3.9 2.4 5. INFERENCIA MULTIVARIANTE X1 5.5 1.2 1.3 4.1 0.5 4.5 6.1 1.5 2.4 1.0 3.4 6.6 5.3 3.1 2.5 4.4 4.1 5.8 2.2 0.4 3.5 1. Versicolor.6 4.6 5.4 0.1 4.2 0. .9 5.1 4.9 5.3 4.3 5.3 2.8 7.0 4.5 2.0 2.6 1.4 3.8 2.0 2.7 6.0 3.7 4.2 0.5 1.0 2.7 X2 3.7 5.4 5.4 5.1 4.1 1.6 3.6 3.3 1.5 6.8 1.0 2.2 0.0 5.5 5.0 1.8 6.1 4.2 3.6 3.4 5.1 6.7 5.4 6.5 1.0 5.5 3.4 0.3 0.0 1.8 3.5 3.4 6.2 0.3 1.2 0.1 0.9 6.3 1.0 5.4 3.3 3.8 1.1 3.5 5.6 5.5 3.3 6.5 3.4 2.5 1.5 3.6 4.7 6.5 1.5 1.0 3.4 3.0 2.5 2.3 1.6 1.5 2.3 1.7 6.4 1.6 1.8 5.9 5.7 3.5 7.1 2.8 1.3 1.2 0.6 3.4 7.9 5.2 6.2 3.2 4.5 1.9 2.8 4.3 2.3 0.5 1.8 3.5 3.2 2.2 0.6 1.4 1.7 1.7 6.0 3.0 1.0 1.6 1.5 3.0 5.4 1.0 3.0 3.7 3.2 3.1 0.7 3.0 6.8 4.7 6.7 1.1 4.7 3.7 3.6 5.6 6.4 0.4 1.3 0.2 4.2 1.1 3.5 1.3 1.2 5.3 5.8 2.9 6.0 1.2 1.7 5.8 5.4 4.5 1.2 0.8 6.9 1.2 0.2 2.5 1.2 0.6 5.9 6.4 6.8 2.4 1.9 6.0 6.0 X3 6.7 6.4 4.0 2.1 1.2 3.3 6.4 2.2: Longitud y anchura de sépalos y pétalos de 3 especies del género Iris: Setosa.3 1.1 1.9 2.0 1.0 X2 3.2 5.2 2.1 7.4 1.5 1.7 4.3 1.5 3.4 4.4 X4 0.5 4.3 1.9 4.1 3.9 5.4 3.7 7.9 3.1 0.9 5.9 5.7 1.3 2.8 2.2 1.7 7.0 5.1 1.4 6.0 6.8 6.2 4.0 4.3 2.9 1.8 6.2 0.5 1.7 4.2 5.9 6.0 1.2 4.1 5.2 0.8 4.5 1.6 3.5 5.3 6.9 3.4 1.0 1.1 1.5 5.0 4.4 1.7 5.6 5.9 5.2 5.4 5.3 1.1 5.0 4.9 3.3 1.2 5.1 5.6 1.1 5.7 6.7 4.2 0.1 5.8 6.9 5.3 5.6 1.2 3.1 1.4 0.1 5.4 4.2 3.3 6.0 4.2 0.6 5.5 4.8 Tabla 3.9 2.7 3.0 2.4 1.4 2.4 6.3 2.2 1.8 3.0 5.0 5.6 6. Virginica.5 7.0 3.4 1.8 3.4 5.4 3.7 3.7 4.4 7.8 2.3 1.8 X3 4.8 3.2 0.7 2.2 0.3 5.6 0.6 1.8 3.1 5.7 7.7 1.5 6.3 0.9 3.5 1.5 1.9 4.8 6.8 5.6 5.8 2.8 4.4 3.2 3.5 2.6 5.4 6.9 7.6 1.9 3.8 3.0 5.5 1.0 4.2 3.7 1.4 2.3 X1 6.1 4.2 0.0 2.7 1.4 1.6 1.5 4.2 1.6 4.4 3.9 5.8 6.1 4.0 1.5 4.1 X4 2.6 1.4 2.9 5.6 3.56 CAPÍTULO 3.3 3.5 1.8 3.4 4.8 5.0 2.0 2.3 X3 1.8 6.7 3.1 4.3 6.7 5.8 3.2 0.2 2.9 2.3 6.2 2.4 0.1 6.3 6.5 2.3 1.6 5.9 6.4 2.0 4.5 2.2 5.8 2.1 0.3 0.4 4.6 5.5 6.0 4.2 3.3 3.0 5.2 0.2 5.1 1.9 2.2 6.8 3.1 2.8 2. 3. EJEMPLOS 57 Lambda de Wilks: = jWj = 0:02344 jW + Bj (4.6.l.l.3 16.4 444.) (p = 0:079): (27 + 20 2)2 . siendo d =(16:1 . los contrastes t de comparación de medias para cada variable por separado son: Variable X Variable Y t = 2:302 (45 g. desviaciones típicas.l.9): ! F = 198:95 8 F288 Decisión: las diferencias entre las tres especies son muy signi…cativas. típicas X 460. 2) Transformación a una F aplicando (2. Medias n1 = 27 n2 = 20 Diferencia Desv. Consideremos los siguientes datos (tamaños muestrales. Indios) . Y (longitud del húmero).3 Paradoja de Rao. medias.2 Matriz covarianzas b = 561:7 374:2 S 374:2 331:24 Correlación: r = 0:867 Suponiendo normalidad. Ejemplo 3. obtenidas sobre dos poblaciones (Angloindios.1 23.9 18. matrices de covarianzas) de p = 2 variables X (longitud del fémur). 147. Utilicemos ahora las dos variables conjuntamente.2 11. La distancia de Mahab 1 d =0:4777.7 Y 335. t = 2:215 (45 g.1 323.) (p = 0:0318): A un nivel de signi…cación del 0:05 se concluye que hay diferencias signi…cativas para cada variable por separado.6.11:9): lanobis entre las dos poblaciones es d0 S La T 2 de Hotelling es T2 = 27 20 0:4777 = 5:488 27 + 20 que convertida en una F da: F = 27 + 20 1 2 5:488 = 2:685 (2 y 44 g.) (p = 0:0259). 24 1 3:2. . contradiciendo la creencia de que un test multivariante debería proporcionar mayor signi…cación que un test univariante. l. y): Así x e y son signi…cativas si el punto se encuentra en el cuadrante A. y veri…can la inecuación 0. la diferència d = x1 x2 debe veri…car r n1 n2 d ( ) 2. Interpretemos geométricamente esta paradoja (conocida como paradoja de Rao). d donde 3. Variable y : 0. en el test univariante y para la primera variable x. pero conjuntamente sí. Hay casos en que x. existe una pequeña región por encima de ry y a la derecha de rx que cae dentro de la elipse. Los valores de la diferencia que están a la derecha de la recta vertical rx son signi…cativos para la variable x: Análogamente los que están por encima de la recta horizontal ry lo son para la y: Por otra parte. Procederíamos de forma similar para la segunda variable y. pero el test bivariante no. INFERENCIA MULTIVARIANTE Esta F no es signi…cativa al nivel 0:05. 2 331. 1862y = 2: En la Figura 3. 2 374. Así pues no hay signi…cación si x. l.1 podemos visualizar la paradoja. 7 374. (Una simetría con respecto al origen nos permitiría considerar otras dos rectas y la región B). todos los valores que están fuera de la elipse (región F) son signi…cativos para las dos variables. n 1 + n 2 s1 siendo 2 el valor crítico para una t con 45 g. aceptaremos la hipótesis nula bivariante si el vector diferencia d = (x y)0 pertenece a la elipse n1 n2 0 d n1 + n2 561. se obtiene el punto señalado con el signo +. Por lo tanto ambos contrastes univariantes resultan signi…cativos. y aplicando el test T 2 de Hotelling. Con nivel de signi…cación 0:05. y por separado no son signi…cativos. Para los datos del ejemplo. 04 036 9x2 0. 143x = 2.2 es el punto crítico para una F con 2 y 44 g. No obstante. 0912 1xy + 0. Obtenemos así las cuatro rectas Variable x : 0. 06845 6y 2 3:2: Análogamente. para el cual x e y son signi…cativas pero no (x.58 CAPÍTULO 3. el test con x y el test con y por separado. ): Estamos interesados en establecer una hipótesis lineal sobre = ( 1 . son contrastes t distintos del test T 2 empleado con (x. Análisis de per…les Supongamos que las …las de una matriz de datos X(n p) provienen de una distribución Np ( . : : : .7. Tales contrastes no tienen por qué dar resultados compatibles. que las medias univariantes son iguales: H0 : 1 = = p Esta hipótesis sólo tiene sentido si las variables observables son comparables. 3. y) es superior. ANÁLISIS DE PERFILES 59 Figura 3. equivalente a una F. Además. Para más ejemplos de comparación de medias.1: Un test de comparación de poblaciones bivariante puede resultar menos signi…cativo que dos test univariantes con las variables marginales. Pues bien.7.3. puesto que la probabilidad de la región F es mayor que las probabilidades sumadas de las regiones A y B. . consúltese Baillo y Grané (2008). y). la potencia del test con (x. p )0 : Por ejemplo. Las probabilidades de las regiones de rechazo son distintas. Aplicando (3. sigue una T 2 (3..1 Árboles. 0 0 0 1 La hipótesis es equivalente a H0 : C = 0: Aceptar H0 es lo mismo que decir que las medias de las p 1 variables X1 X2 . Ejemplo 3.3) Rechazaremos la hipótesis nula si el valor F resulta signi…cativo.60 CAPÍTULO 3. . . 23): Convertida en una F se obtiene F (3. . .7. X2 X3 .. Queremos estudiar si las medias poblacionales de N.1.. . . . E. 25) = [25=(27 3)]T 2 = 6:40: El valor crítico al nivel 0:05 es 2:99: Hay diferencias signi…cativas a lo largo de las cuatro direcciones cardinales. S. A . C : @ .1) siendo S con p 1 variables n p+1 b 0 ) 1 (Cx) (Cx)0 (CSC p 1 Fnp 1 p+1 (3. INFERENCIA MULTIVARIANTE Consideremos la matriz de orden (p 1) p 0 1 1 1 0 0 B 0 1 1 0 C B C C = B .. Xp 1 Xp son iguales a cero. . En este caso 0 1 1 1 0 0 1 1 0 A C=@ 0 0 0 1 1 y la T 2 de Hotelling es: b 0 ) 1 Cx = 20:74 T 2 = n(Cx)0 (CSC Bajo la hipótesis nula. n 1). .11. : : : . Consideremos los datos del ejemplo 1. W son iguales. b la matriz de covarianzas con corrección de sesgo. Por lo tanto aplicaremos el test de la T 2 de Hotelling a la matriz de datos Y = XC: Bajo la hipótesis nula b 0 ) 1 (Cx) T 2 = (n 1)(Cx)0 (CSC0 ) 1 (Cx) = n(Cx)0 (CSC T 2 (p 1. i=1 y propuso una mejora de aquel estimador. en el sentido de que no minimiza p X (bi 2 i) . pero no siempre es aplicable. El test de máxima-verosimilitud es atribuido a S. 61 Complementos C. COMPLEMENTOS 3. justi…cando por qué p 3 (consultar Cuadras. El principio de unión-intersección es debido a S. En general.8. ) puede ser inadmisible si p 3. se puede plantear la comparación de dos poblaciones utilizando distancias entre las observaciones. calculando coordenadas principales mediante MDS. Roy. R. 1991). y a continuación aplicando el modelo de regresión multivariante. Wald.3. P. Rao y A. Véase Cuadras y Fortiana (1993b). Para datos de tipo mixto o no normales. Véase Cuadras y Fortiana (2004).8. Por ejemplo. Wilks y es más general. es necesario corregir los estadísticos de contraste multiplicando por una constante a …n de conseguir contrastes insesgados (la potencia del test será siempre más grande que el nivel de signi…cación). Cuadras (2008). Box sobre el test de Bartlett para comparar matrices de covarianzas (Sección 7. Rao (1973).2). . Otros contrastes semejantes fueron propuestos por C. Efron y C. Morris explicaron esta peculiaridad desde una perspectiva bayesiana. E. M. Es interesante notar que 2 log se puede interpretar como una distancia de Mahalanobis. B. es necesario hacer la modi…cación de G.5. Stigler dió una interesante explicación en términos de regresión. Stein probó que la estimación b = x de de la distribución Np ( . S. N. 62 CAPÍTULO 3. INFERENCIA MULTIVARIANTE . Y son dos v. Correlación múltiple Queremos relacionar una variable respuesta Y con p variables cuantitativas explicativas X1 . : : : . Xp ) e Y = (Y1 .2. Introducimos y estudiamos las correlaciones canónicas. : : : . : : : . Xp ) es un vector aleatorio.Capítulo 4 ANÁLISIS DE CORRELACIÓN CANÓNICA 4. La correlación múltiple si Y es una v. La correlación canónica si X = (X1 .1. que son generalizaciones de las correlaciones simple y múltiple.a. 4. : : : .a. Xp . Introducción En este capítulo estudiamos la relación multivariante entre vectores aleatorios. Yq ) son dos vectores aleatorios. Tenemos tres posibilidades para relacionar dos variables: La correlación simple si X. que suponemos centradas. El modelo de regresión múltiple consiste en encontrar la combinación lineal Yb = 1 X1 + 63 + p Xp . y X = (X1 . la correlación simple entre Y y la mejor predicción Yb = X b : Se indica por R =cor(Y. R = 1 si Y es combinación lineal de X1 . La correlación múltiple entre Y y X1 .2 La variable predicción Yb . Xp es. 0 R 1: 2. : : : . 2. Teorema 4. + bp Xp : Si ponemos entonces Ye es la variable residual. Yb ): Se veri…ca: 1. : : : .: 1 ( ) = E(Y Yb )2 = E(Y )2 + E(Yb )2 = var(Y ) + 0 Derivando vectorialmente respecto de @ @ ( )=2 (4. bp ) que minimizan la cantidad E(Y Yb )2 veri…can la ecuación b= Demost. ANÁLISIS DE CORRELACIÓN CANÓNICA que mejor se ajuste a la variable Y: Sea la matriz de covarianzas de X 0 y = ( 1 . var(Y ) =var(Yb )+var(Ye ): . por de…nición.2. p ) el vector columna con las covarianzas j =cov(Y. : : : . R = 0 si Y está incorrelacionada con cada una de las variables Xi : Teorema 4.1) : 2E(Y Yb ) 2 0 e igualando a 0 2 = 0: La variable predicción es Yb = X b = b1 X1 + Y = Yb + Ye . : : : .64 CAPÍTULO 4. Xp : 3. Xj ). : : : .1 Los coe…cientes b = (b1 . j = 1.2. Yb e Ye son variables incorrelacionadas. residual Ye y la correlación múltiple R cumplen: 1. p: El criterio de ajuste es el de los mínimos cuadrados. Ye ) = E(Yb Ye ) = E( b X0 (Y 2. Y = (Y1 . Yb ) = : var(Y ) var(Y )var(Yb ) (4. CORRELACIÓN CANÓNICA 65 3. Yq ) dos vectores aleatorios de dimensiones p y q: Planteemos el problema de encontrar dos variables compuestas U = Xa = a1 X1 + + ap Xp . ACC tiene aplicaciones en Ecología (relacionar especies con condiciones ambientales). siendo a = (a1 . : : : . p X i=1 b Xi i ! = p X i=1 b 0 X)) = b 0 b i i b 0 b = 0: 0 0 = b = b b = var(Yb ). Indiquemos por S11 . es decir. : : : . b = (b1 . : : : . respectivamente.: 1. var(Yb ) cov2 (Y.3. 0 cov(Yb . Yb ) = cov Y. R2 =var(Yb )=var(Y ): Demost. obtenemos R2 = 4. ap )0 . V ) entre ambas sea máxima. Es consecuencia inmediata de 1). Xp ). de las variables X.3.2) Correlación canónica Mediante el Análisis de Correlación Canónica (ACC) se relacionan dos conjuntos de variables. V = Yb = b1 Y1 + + b q Yq . Sean X = (X1 . en Psicometría (tests mentales con características físicas) y en Economía (importaciones con exportaciones). : : : . S22 las matrices de covarianzas (muestrales) del primer y segundo conjunto. bq )0 tales que la correlación cor(U. y sea S12 la matriz p q con las covarianzas de las variables X con las variables Y: Es decir: X Y X S11 S12 Y S21 S22 .4. De cov(Y. Es consecuencia de b = : En efecto. Y. 3. b0 S22 b =1: Los vectores de coe…cientes a.2 Los vectores canónicos normalizados por a0 S11 a = 1 y por b0 S22 b = 1.3. var(V ) = b0 S22 b =1: Así el problema se reduce a: maximizar a0 S12 b restringido a a0 S11 a = 1. tenemos a0 S12 b = a0 S11 a. están relacionados por a = b = 1=2 S111 S12 b. b = 1 S221 S21 a.66 CAPÍTULO 4. Teorema 4. y operando análogamente con la otra ecuación.4). 1=2 S221 S21 a: Además la primera correlación canónica es r1 = valor propio de S111 S12 S221 S21 : p 1. obtenemos (4. La máxima correlación entre U.4) S22 b = 0: Multiplicando la primera por a0 y la segunda por b0 . pues es un factor multiplicativo arbitrario. que implican = : Así pues. ANÁLISIS DE CORRELACIÓN CANÓNICA donde S21 = S012 : Podemos suponer var(U ) = a0 S11 a =1. b que cumplen esta condición son los primeros vectores canónicos. S21 S111 S12 b = S22 b: (4.1 Los primeros vectores canónicos satisfacen las ecuaciones S12 S221 S21 a = S11 a. S21 a (4. b) = a0 S12 b 2 (a0 S11 a 1) 2 (b0 S22 b 1). donde . son multiplicadores de Lagrange.3). b0 S21 a = b0 S22 b. donde 1 es el primer . V es la primera correlación canónica r1 . Teorema 4. Entonces de @ =@a =@ =@b = 0 obtenemos las dos ecuaciones S12 b S11 a = 0. de la segunda ecuación en (4. y substituyendo en la primera ecuación obtenemos 1 S12 S221 S21 a S11 a = 0: Prescindiendo de 1 .3.: Consideremos la función (a.3) Demost. : Tenemos de (4. es decir. V2 ). . las ecuaciones en valores y vectores propios tienen otras soluciones. y multiplicando 0 i aj S11 ai . rm = cor(Um . r2 = cor(U2 . : : : . por a0j y por a0i tenemos que a0j S12 S221 S21 ai = a0i S12 S221 S21 aj = k. bm . donde es una constante a determinar. Um como las variables canónicas V1 . La primera correlación canónica r1 = cor(U1 . r1 = cor(U1 .4) que a = S111 S12 b. V2 ) es la máxima correlación entre las combinaciones lineales de X incorrelacionadas con U1 y las combinaciones lineales de Y incorrelacionadas con V1 : 4. k = i. am . b1 . . Tanto las variables canónicas U1 .4. V1 ) es la máxima correlación entre una combinación lineal de X y una combinación lineal de Y: 3. qg parejas de vectores canónicos a1 . 0 j ai S11 aj : .3. que proporcionan las variables y correlaciones canónicas U1 = Xa1 . : : : . La segunda correlación canónica r2 = cor(U2 . V2 = Yb2 . Vj ) = 0 si i 6= j: Demost. Partimos de que a0 S11 a =1 y para = 1=2 resulta que: a0 S11 a = = = = = 1: 1=2 0 a S11 S111 S12 b 1=2 0 a S12 b 1=2 1=2 0 a S12 S221 S21 a 1 a0 S11 a La correlaciónp es r1 = a0 S12 b y como 1 = 1=2 a0 S12 b deducimos que r12 = 1 . r1 = 1: De hecho.3. V1 = Yb1 .3) para ak . Concretamente hay m = m nfp.. j... : : : . V1 ). . Vm están incorrelacionadas. CORRELACIÓN CANÓNICA 67 Demost. Um = Xam . 2. Vm = Ybm . Vm ): Teorema 4. cor(Ui . .3 Supongamos r1 > r2 > > rm : Entonces: 1. .: Sea i 6= j: Expresando (4. . U2 = Xa2 . En consecuencia pueden calcularse a partir de las matrices de correlaciones. la descomposición singular de Q. 1=2 bi = S22 vi . : : : . ANÁLISIS DE CORRELACIÓN CANÓNICA 0 0 Restando: ( i j )ai S11 aj = 0 ) ai S11 aj = 0 )cor(Ui . i 0 j )ai S12 bj 0 i bj S21 ai . q ): Teorema 4. Uj ) = 0: Por otra parte. Es decir. Vj ) = 0: Correlación canónica y descomposición singular Podemos formular una expresión conjunta para los vectores canónicos utilizando la descomposición singular de una matriz.3) como S111 S12 S221 S21 ai = S221 S21 S111 S12 bj = i ai . U0 U = Iq . consideremos la matriz p q 1=2 1=2 Q = S11 S12 S22 y hallemos Q = U V0 . =diag( 1 . Supongamos p q. donde U es una matriz p q con columnas ortonormales.1 Los vectores canónicos y correlaciones canónicas son 1=2 ai = S11 ui . queda probado el teorema.4.68 CAPÍTULO 4. expresando (4. 0 j ai S12 bj : = 0 ) a0i S12 bj = 0 )cor(Ui .: 1=2 1=2 1=2 1=2 QQ0 = S11 S12 S22 S22 S21 S11 =U 2 U0 y por lo tanto 1=2 1=2 S11 S12 S221 S21 S11 ui = 2 i ui 1=2 Multiplicando por S11 1=2 S111 S12 S221 S21 (S11 ui ) = 1=2 2 i (S11 ui ) y comparando con resultados anteriores. . Se puede probar que las correlaciones canónicas son invariantes por transformaciones lineales.4. ri = i: Demost. V es una matriz q q ortogonal. j bj . y es una matriz diagonal con los valores singulares de Q. V0 V = V0 V = Iq . y multiplicando por b0j S21 y por a0i S12 llegamos a b0j S21 S111 S12 S221 S21 ai = a0i S12 S221 S21 S111 S12 bj = Restando: ( 4. Si queremos decidir cuáles son signi…cativas. todo lo que hemos dicho vale si sustituimos S11 . S12 . .6. supongamos normalidad multivariante. : : : .5. H1 : 12 = 6 0: Podemos resolver este test de hipótesis de dos maneras. 1. qg correlaciones canónicas obtenidas a partir de soluciones de: 1 2 12 22 21 11 = 0: 11 . entonces se acepta H0k : 4.l. Contraste de hipótesis de independencia Suponiendo normalidad. a…rmar que X es independiente de Y consiste en plantear H0 : 12 = 0. SIGNIFICACIÓN DE LAS CORRELACIONES CANÓNICAS 4. 1. entonces Lk = " n 1 k = 21 ) = m = 0. (k = 0. a partir de muestras de tamaño n: Naturalmente. 69 Signi…cación de las correlaciones canónicas Hemos encontrado las variables y correlaciones canónicas a partir de las matrices de covarianzas y correlaciones muestrales. : : : . 12 . 12 . = k: El test de Bartlett-Lawley demuestra que 1 (p 2 + q + 1) + k X i=1 ri 2 # log " m Y i=k+1 (1 # ri2 ) es asintóticamente ji-cuadrado con (m k)(p k) g. es decir. Este test se aplica secuencialmente: si Li es signi…cativo para i = 0. S22 por las versiones poblacionales 11 . k 1.5. 22 : Sean 1 m 2 las m = m nfp. pero Lk no es signi…cativo. m).4. indiquemos 0 = 1 y planteemos el test H0k : k > k+1 que equivale a rango( 221 si H0k es cierta. 22 . V ) es signi…cativa para algún par U. Por tanto. V ) = p a0 S12 b p : a0 S11 a b0 S22 b Aplicando el principio de unión intersección (Sección 3. q). de la primera correlación canónica. entonces el test de razón de verosimilitud (Sección 3. el test es: H0 : 1 = 0. V es (U. H1 : 1 > 0: Existen tablas especiales para decidir si r1 es signi…cativa (Morrison. jS11 jjS22 j jR11 jjR22 j que sigue la distribución lambda de Wilks (p. pero también se puede aplicar el estadístico L0 de Bartlett-Lawley. q): Rechazaremos H0 si es pequeña y signi…cativa (Mardia et al. y aceptaremos H1 si r(U.2.1. aceptaremos H0 si r(U.V = b1 Y1 + a0 12 b p a 11 a b0 22 b + b p Yq : : H0 equivale a (U. S221 S21 S111 S12 j m Y = (1 ri2 ): i=1 Principio de unión–intersección Consideremos las variables U = a1 X1 + La correlación entre U. 1976). V ) no es signi…cativa para todo U.6. ANÁLISIS DE CORRELACIÓN CANÓNICA Razón de verosimilitud Si la hipótesis es cierta. . V ) = p + ap Xp . equivalente a (q.70 4.V esto es. n 1 p. Es fácil probar que es función de las correlaciones canónicas = jI 4.6. U. V ). V: La correlación muestral es r(U. n 1 q. V ) = 0 para todo U. V. Rencher. 1998). 1979.1) se reduce al estadístico = jSj jRj = . V: Este criterio nos lleva a estudiar la signi…cación de r1 = max r(U. CAPÍTULO 4.5.2).5. cabeza primer hijo. U2 = 0:1666X1 0:2220X2 . EJEMPLOS 4. 2 S11 j = 0 = 0:1060. S21 = 67:512 42:481 50:576 38:596 .7.1 Familias. (r1 = 0:8386). V1 = 0:0108Y1 + 0:1347Y2 . V2 = 0:1575Y1 0:1861Y2 . S22 = 94:057 49:644 49:644 44:390 : Las raíces de la ecuación cuadrática: jS12 S221 S21 son: 1 = 0:7032. 0:1347)0 . Y2 = anchura cabeza segundo hijo. cabeza segundo hijo. b1 = (0:0108. Y1 = long. a2 = (0:1666. Se consideran los datos de n = 25 familias para las variables (véase la Tabla 1. y por tanto las correlaciones canónicas son: r1 = 0:838 6. (r2 = 0:3256): . son: a1 = (0:0376. r2 = 0:3256: Los vectores canónicos normalizados según a0 S11 a =1 y b0 S22 b =1.7.4. 0:2220)0 .7. b2 = (0:1575.2): X1 = long. La matriz de covarianzas es: 0 98:720 B 57:232 S =B @ 67:512 50:576 57:232 49:785 42:481 38:596 67:512 42:481 94:057 49:644 Entonces: 1 50:576 38:596 C C: 49:644 A 44:390 S11 = 98:720 57:232 57:232 49:785 . 71 Ejemplos Ejemplo 4. 0:1861)0 : Las variables canónicas con varianza 1 son: U1 = 0:0376X1 + 0:0923X2 . X2 = anchura cabeza primer hijo. 0:0923)0 . S12 = 67:512 50:576 42:481 38:596 . Y2 ) viene dada principalmente por la relación entre (U1 . . 2 = 0. X2 ) y (Y1 . V1 ) con correlación 0:838 6.). PSC (Partido Socialista de Cataluña). y para cada comarca se tabulan los valores de las siguientes variables: X1 = log(porcentaje de votos a CU). Ejemplo 4. Rechazamos la hipótesis de independencia. Y2 en una comarca indican predominio de los nombres en castellano sobre los nombres en catalán.7. El “cociente Juan/Joan” signi…ca el resultado de dividir el número de hombres que se llaman Juan por el número de hombres que se llaman Joan. 2) Mediante (2. X3 = log(porcentaje de votos a PP). X2 = log(porcentaje de votos a PSC). ERC (Esquerra Republicana). ANÁLISIS DE CORRELACIÓN CANÓNICA La dependencia entre (X1 . La Tabla 4.). L1 = 2:41 (2 g. Y2 ) da = jSj = 0:2653 jS11 jjS22 j (2.8).l. Valores positivos de las variables Y1 . X4 = log(porcentaje de votos a ERC). L0 = 28:52 (4 g. 22. X2 ) y (Y1 . Podemos rechazar H00 y aceptar H01 : Solamente la primera correlación canónica es signi…cativa. Habría entonces una notable relación en el tamaño y una escasa relación en la forma de la cabeza.72 CAPÍTULO 4. La prueba de signi…cación de las correlaciones canónicas da: H00 : H01 : 0 1 =1> 1= > 2 = 0. Y1 = log(cociente Juan/Joan). transformamos a una F.2 Elecciones.1 contiene los datos de un estudio sobre comportamiento electoral en Catalunya.l.l. El test de independencia entre (X1 . siendo CU (Convergència i Unió). Se consideran los resultados de unas elecciones celebradas en las 41 comarcas catalanas. PP (Partido Popular). más alta que cualquier correlación entre una variable Xi y una variable Yj : Podemos interpretar las primeras variables canónicas como un factor de “tamaño”de la cabeza y las segundas como un factor de “forma”. Y2 = log(cociente Juana/Joana). obteniendo 9:88 con 4 y 42 g. 2 9 .P la E st.1 5 2 .P.S e g rià 3 4 . 4 4 .5 2 4 .5 3 0 .3 1 4 .1 4 9 . 3 3 .7 2 7 .9 8 . 3 6 . registrados en 41 comarcas catalanas.3 3 2 .1 6 3 5 .4 9 3 3 .9 4 .B a rc .4 5 .2 12 9 .R ip o ll.8 2 5 . CU PSC PP ERC Juan Joan Juana Joanna 1 .2 4 8 .3 6 .3 4 7 .9 4 0 .9 7 . 2 4 . A . 1 3 . L lo b . E m p . 1 7 .S o lso .6 3 684 1628 1502 370 29 1759 2766 2025 1634 1562 10 398 957 27 841 830 190 247 1474 191 950 1978 5234 907 557 1794 154 61 393 159 173 407 603 222 2049 1750 95 2546 164 144 97 11 801 4956 605 1264 1370 346 30 975 1970 1081 484 1423 2687 577 10 198 590 228 492 477 269 1168 1861 3053 314 487 2548 115 121 299 869 149 185 457 320 951 1680 401 940 125 656 19 4482 2636 143 358 281 56 9 433 559 600 329 334 3103 236 9287 108 50 49 618 21 100 430 1507 229 92 222 27 9 58 32 37 98 75 27 625 340 20 852 55 45 37 3110 1227 38 101 90 39 4 115 145 138 138 153 325 33 1598 33 12 45 154 33 91 191 280 82 37 100 14 15 20 52 16 29 17 15 202 152 12 117 20 56 2 416 233 Tabla 4.6 7 7 .N o g u e .7.7 1 7 .8 2 4 .8 3 4 .8 43 4 9 .9 10 1 2 .8 9 1 4 .9 1 2 .G a rra f 1 8 .4 5 .2 5 7 . 2 2 .8 3 .7 7 4 9 . 2 .1 4 4 .U rg e ll 3 9 . 2 8 . 1 4 .3 6 . 4 .1 1 4 .8 2 5 .8 1 5 .1 1 0 .5 3 8 .Ta rra .1 7 3 .8 7 9 .8 2 1 . E m p o . A .1 3 3 .M o nts. . P e n e . 3 . 1 1 .B .6 6 .9 8 . 4 0 . 3 7 .B a g e s 8 .5 11 5 .A .G iro n .8 6 2 .9 4 8 . E b re 3 1 . Pene. R ib a g . EJEMPLOS 73 Comarca. B .6 7 .2 6 .6 7 4 2 .9 3 7 .R .3 3 29 1 7 .5 1 1 6 .5 6 . U rg e ll 5 .3 1 8 .9 8 .6 2 3 7 .S e g a r.M a re s.5 4 .6 4 0 .5 4 1 .8 1 7 .1 8 4 4 .3 4 2 . C a m p . 3 2 .2 5 .5 8 8 .O so n a 2 5 .9 1 0 .7 3 1 .9 5 5 .6 20 1 6 .A .5 4 2 .4 3 1 .9 30 3 3 . 12.P rio r. S o b irà 2 7 .9 1 7 .1 9 .7 32 5 1 .8 1 9 .8 1 0 .6 4 .5 3 0 .9 39 2 4 .1 4 5 .2 5 1 .8 4 7 .7 1 3 .2 8 1 2 .4 5 7 .S e lva 3 5 .6 4 7 .5 5 .Va ll.9 50 5 6 .1 3 9 .7 5 6 .1 5 .G a rrig .4 2 7 .2 4 8 .9 1 2 .7 4 1 .5 3 8 .7 50 5 1 .9 2 0 .9 6 .6 8 4 0 . E b re 1 0 .Te r. 1 9 .9 1 1 1 .4 1 0 .3 8 .2 4 .A n o ia 7 .9 4 .5 1 3 .7 9 .6 8 .8 1 3 . 1 5 .8 6 .7 6 2 5 .1 2 2 .1 7 .C o n c a B .9 5 .Va ll O r.4 5 3 .P.9 7 .B .5 3 49 .4 5 3 .1: Porcentaje de votos a 4 partidos políticos y frecuencia de dos nombres en catalán y castellano. 6 .A .Va l. 2 3 .5 6 .B e rg u . J u ssà 2 6 .G a rro t.6 6 6 .4 1 2 .6 3 0 .A . 3 8 . 1 6 . 2 0 .P.3 1 3 .A .7 1 2 .4.7 3 1 .9 6 6 .2 6 .2 7 . 3 0 .1 1 2 .4 1 5 . 4 1 .8 1 5 .1 4 2 . U rg .7 2 2 9 .C e rd a .5 9 8 .B .B .9 3 1 .2 16 1 2 . O c .8 4 4 . 2 1 .3 3 1 .4 2 7 .7 3 2 .4 4 9 .1 2 3 .4 4 .2 2 5 .4 9 .6 4 .3 2 5 . C a m p 9 .9 8 . 74 CAPÍTULO 4. que son partidos nacionalistas. Las primeras variables canónicas U1 . (r1 = 0:8377). que buscaba la relación entre test mentales y medidas biométricas. Las segundas variables canónicas tienen una interpretación más difícil. 4. (r2 = 0:4125): 1:521Y1 1:642Y2 . nos indican que las regiones más catalanas. que podemos escribir convencionalmente como U1 = 0:083CU 0:372PSC 0:1130PP + 0:555ERC. V1 = 0:706(Juan/Joan) + 0:339(Juana/Joana). en el sentido de que los nombres castellanos Juan y Juana no predominan tanto sobre los catalanes Joan y Joana. ANÁLISIS DE CORRELACIÓN CANÓNICA La matriz de correlaciones es: X1 X2 X3 X4 Y1 Y2 X1 1 X2 0:8520 1 X3 0:6536 0:5127 1 X4 0:5478 0:7101 :6265 1 Y1 0:6404 0:7555 0:5912 0:7528 1 Y2 0:5907 0:6393 0:5146 0:7448 0:8027 1 Sólo hay 2 correlaciones canónicas: r1 = 0:8377. 0:706Y1 + 0:339Y2 .8. a …n de estudiar el número y la naturaleza de las relaciones entre mente y . más castellanizadas. 1:928X1 + 2:4031X2 + 1:127X3 + 1:546X4 . V1 . Complementos El análisis de correlación canónica (ACC) fue introducido por H. tienden a votar más a CU y ERC. están en general. Las regiones con predominio de voto al PSC o al PP. Hotelling en 1935. que son partidos centralistas. r2 = 0:4125: Las variables canónicas son: U1 = V1 = U2 = V2 = 0:083X1 0:372X2 0:1130X3 + 0:555X4 . (2012) se propone una generalización a la comparación (mediante distancias) de dos conjuntos de datos en general. Si f (x. propuesta por Escou…er (1973). (Y )). Es un método de aplicación limitada. La distribución de las correlaciones canónicas es bastante complicada. de órdenes n p y n q respectivamente.5) que coincide con el coe…ciente procrustes (1. 1985). Una medida interesante resulta de considerar la razón de verosimilitud de Wilks y viene dada por s Q AW = 1 (1 ri2 ). observadas sobre el mismo conjunto de n individuos. con una aplicación a la comparación de imágenes hiperespectrales. y) es la densidad de dos v. (4. En ecología se ha aplicado como un modelo para estudiar la relación entre presencia de especies y variables ambientales (Gittings. Gabelein) que se de…ne como 1 = sup cor( (X). pero de gran interés teórico puesto que diversos métodos de AM se derivan del ACC. X. En Cuadras et al.a. En ciertas aplicaciones tiene interés considerar medidas globales de asociación entre dos matrices de datos X. . es la correlación vectorial q q s Q 2 ri2 : RV = tr(S12 S21 )= tr(S11 ) tr(S222 ) = i=1 También es una medida de asociación global 2 PXY = s X i=1 ri !2 =s2 . i=1 siendo s = m n(p.8) cuando las variables X están incorrelacionadas y tienen varianza 1 (y análogamente las Y ). q) el número de correlaciones canónicas. Otra medida. 1982). Y.4. Véase Cramer y Nicewander (1979) y Cuadras (2011).8. tiene interés en estadística el concepto de máxima correlación (propuesto por H. COMPLEMENTOS 75 cuerpo. que con un análisis de todas las correlaciones sería difícil de interpretar. Cuadras y Sánchez (1975). . Y . Aplicaciones a la psicología se pueden encontrar en Cooley y Lohnes (1971). Solamente se conocen resultados asintóticos (Muirhead. . y) se puede desarrollar en serie a partir de las correlaciones y funciones canónicas. Y son variables independientes. (Y ) son funciones con varianza …nita.76 CAPÍTULO 4. Finalmente cabe destacar que las correlaciones canónicas podrían constituir un conjunto continuo no numerable (Cuadras. Diversos autores han estudiado la estimación de las primeras funciones canónicas. 1 (Y ) como las primeras variables canónicas y de…nir las sucesivas correlaciones canónicas. Podemos ver a 1 como la primera correlación canónica. Entonces 1 = 0 si X. ANÁLISIS DE CORRELACIÓN CANÓNICA donde (X). 1 (X). 2014). como una forma de predecir una variable en función de la otra (Hastie y Tibshirani. 2002a). Sin embargo el cálculo de 1 puede ser complicado (Cuadras. 1990). 2005a. Lancaster (1969) estudia estas correlaciones y demuestra que f (x. Entre todas las variables compuestas Y tales que cov(Y1 . la componente Y3 es una variable incorrelacionada con Y1 . var(Y1 ) es máxima condicionado a t01 t1 = 1: 2. Xp ] una matriz de datos multivariantes. Y ) = 0.1. Si p 3. Y2 con varianza máxima. Las componentes principales son unas variables compuestas incorrelacionadas tales que unas pocas explican la mayor parte de la variabilidad de X: De…nición 5. Yp = Xtp tales que: 1. Análogamente se de…nen las demás componentes principales si p > 3. Lo que sigue también vale si X es un vector formado por p variables observables. Obtención de las componentes principales Sea X =[X1 . la variable Y2 es tal que var(Y2 ) es máxima condicionado a t02 t2 = 1: 3. : : : . : : : . Y2 = Xt2 . 77 . 4.1 Las componentes principales son las variables compuestas Y1 = Xt1 .1.Capítulo 5 ANÁLISIS DE COMPONENTES PRINCIPALES 5. 1. Yj ) = 0. p: Entonces: 1. tp ] es la matriz p p cuyas columnas son los vectores que de…nen las componentes principales. si i 6= j.1 Sean t1 . Las varianzas son los valores propios de S var(Yi ) = i. t2 . p. entonces la transformación lineal X!Y Y = XT (5. Las componentes principales son variables incorrelacionadas: cov(Yi . : : : . : : : .1) se llama transformación por componentes principales. tp los p vectores propios normalizados de la matriz de covarianzas S. . Yj ) = 0 j ti tj . p. están incorrelacionadas: cov(Yi . 0 j ti tj = 0. : : : . Teorema 5. Sti = i ti . t0i ti = 1. 0 i tj ti . i = 1. t2 . 2. Las variables compuestas Yi = Xti . ANÁLISIS DE COMPONENTES PRINCIPALES Si T = [t1 . : : : .78 CAPÍTULO 5. ) t0i tj = 0. son las componentes principales. : : : . i = 1. p: Demost. i 6= j = 1. : : : .: Supongamos 1 > > p > 0: Probemos que las variables Yi = Xti . Yi ) = t0j Sti = t0j j ti = )( j Además: 0 i )ti tj = 0. Yj ) = t0i Stj = t0i j tj = cov(Yj . : : : . i = 1. p: 3. i = 1. ) cov(Yi . var(Yi ) = i t0i tj = i : Pp Pp Sea ahora Y = i=1 ai Xi = i=1 i Yi una variable compuesta tal que P p 2 i=1 i = 1: Entonces p X var(Y ) = var( i=1 i Yi ) = p X i=1 2 i var(Yi ) = p X i=1 2 i i p X ( i=1 2 i) 1 = var(Y1 ). : : : . i=2 y por lo tanto Y2 está incorrelacionada con Y1 y tiene varianza máxima. tales componentes tienen interpretación experimental. y P2 = 90 %. Y1 . Yp son también componentes principales es análoga. : : : . Yi contribuye con la cantidad i y la variación a la variación total tr(S): P 2.2) + p 1+ En las aplicaciones cabe esperar que las primeras componentes expliquen un elevado porcentaje de la variabilidad total. Si p 3.2. Xp por las componentes principales Y1 . Ym contribuyen con la cantidad m i=1 i a la variación total tr(S): i 3. las dos primeras componentes explican una gran parte de la variabilidad de las variables. El porcentaje de variabilidad explicada por las m primeras componentes principales es + m 1+ Pm = 100 : (5. Entonces podremos sustituir X1 . .2. Variabilidad explicada por las componentes La varianza de Ppla componente principal Yi es var(Yi ) = total es tr(S) = i=1 i : Por lo tanto: 1. Por ejemplo. si m = 2 < p. la demostración de que Y3 . 5. VARIABILIDAD EXPLICADA POR LAS COMPONENTES 79 que prueba que Y1 tiene varianza máxima. Si m < p. Y2 : En muchas aplicaciones. X2 . Consideremos ahora las variables Y incorrelacionadas con Y1 : Las podemos expresar como: Y = p X bi Xi = i=1 p X i Yi condicionado a p X 2 i = 1: i=2 i=2 Entonces: p X var(Y ) = var( i=2 i Yi ) = p X 2 i var(Yi ) = p X i=2 i=2 2 i i p X ( 2 i) 2 = var(Y2 ).5. : : : . en un espacio de dimensión reducida m (por ejemplo. donde T es una matriz p m de constantes. : : : .3. Necesitamos reducir la dimensión. x02 . x0n de X: Necesitamos introducir una distancia (ver Sección 1. las …las x01 . xip ).3. Xp ] una matriz n p de datos multivariantes.j=1 ij .1 La distancia euclídea (al cuadrado) entre dos …las de X x0j = (xj1 .j=1 2 ij : Si Y = XT es una transformación lineal de X. ANÁLISIS DE COMPONENTES PRINCIPALES 5. Representación de una matriz de datos Sea X =[X1 .80 CAPÍTULO 5.2 La variabilidad geométrica de la matriz de distancias es el promedio de sus elementos al cuadrado V (X) = n 1 X 2n2 i. : : : . es 2 ij = (xi 0 xj ) (xi xj ) = p X (xih xjh )2 : h=1 La matriz =( ij ) es la matriz n n de distancias entre las …las. De…nición 5. Queremos representar. De…nición 5. Podemos representar las n …las de X como n puntos en el espacio Rp distanciados de acuerdo con la métrica ij : Pero si p es grande. 2 ij (m) = (yi 0 yj ) (yi yj ) = m X (yih yjh )2 h=1 es la distancia euclídea entre dos …las de Y: La variabilidad geométrica en dimensión m p es n 1 X 2 (m): V (Y)m = 2 2n i. : : : .9). : : : . xjp ). x0i = (xi1 . m = 2). esta representación no se puede visualizar.3. 3.3) a cada columna de X y sumando obtenemos V (X) = p X sjj = tr(S): j=1 Una buena representación en dimensión reducida m (por ejemplo. Teorema 5. tm ] contiene los m primeros vectores propios normalizados de S: . T = [t1 .3.2 La transformación lineal T que maximiza la variabilidad geométrica en dimensión m es la transformación por componentes principales Y = XT. REPRESENTACIÓN DE UNA MATRIZ DE DATOS 81 Teorema 5. : : : .j=1 n X (xi x = 1 n2 = i. entonces n 1 X (xi 2n2 i.5.j=1 n X i. si x es la media 1 n2 n X (xi 2 xj ) = 1 n2 i. m = 2) será aquella que tenga máxima variabilidad geométrica.j=1 xj )2 = s2 : (5. es decir.1 La variabilidad geométrica de la distancia euclídea es la traza de la matriz de covarianzas V (X) = tr(S) = p X h: h=1 Demost. xn es una muestra univariante con varianza s2 . a …n de que los puntos estén lo más separados posible.3) En efecto.j=1 x)(xj x))2 + 0 = 2s2 : Aplicando (5.j=1 n X 2 + n2 (xi i.j=1 1 ns2 + n1 ns2 n (xi (xj 2 x) + 1 n2 x))2 n X (xj x)2 i.3. : : : .: Si x1 . vm ] es p m cualquiera.4. . C B .: Utilizando (5.. en realidad. =n): . C B . Inferencia Hemos planteado el ACP sobre la matriz S. i = 1. la variabilidad geométrica de Z = XV. n. pero lo podemos también plantear sobre la matriz de covarianzas poblacionales : Las componentes principales obtenidas sobre S son. : : : . estimaciones de las componentes principales sobre : Sea X matriz de datos n p donde las …las son independientes con distribución Np ( .1). donde V = [v1 . B C Y = B yi1 yi2 C : B . la matriz de datos X se reduce a 0 1 y11 y12 .3). ANÁLISIS DE COMPONENTES PRINCIPALES Demost. . yi2 ). C @ ..82 CAPÍTULO 5. ): Recordemos que: 1. j=1 siendo s2 (Zj ) = vj0 Svj la varianza de la variable compuesta Zj : Alcanzamos la máxima varianza cuando Zj es una componente principal: s2 (Zj ) j: Así: m X max V (Y)m = j: j=1 El porcentaje de variabilidad geométrica explicada por Y es Pm = 100 V (Y)m = 100 V (X)p + 1+ 1 + + m : p Supongamos ahora m = 2: Si aplicamos la transformación (5. representando los puntos de coordenadas (yi1 . obtenemos una representación óptima en dimensión 2 de las …las de X: 5.. .. : : : . es V (Z)m = m X 2 s (Zj ) = j=1 m X vj0 Svj . x es Np ( . A yn1 yn2 Entonces. b i = gi . sea S = GLG0 los vectores propios y valores propios de la diagonalización de S: Indiquemos: G = [g1 .: Los valores y vectores propios están biunívocamente relacionados con y por lo tanto 1) es consecuencia de la propiedad de invariancia de la estimación máximo verosímil. es la media de los correspondientes + + lp )=k: Demost. : : : .1 Se veri…ca: 1.4.4. La demostración de 2) se encuentra en Anderson (1958). Estimación y distribución asintótica Teorema 5. : : : . : Indiquemos = [ 1. lp ].4. : : : . : : : .1. los valores y vectores propios obtenidos a partir de S son estimadores máximo-verosímiles de los obtenidos a partir de bi = li .5. x y S son estocásticamente independientes. Sea = =[ 0 la diagonalización de 1. : : : . p: 2. = diag( 1 . p ]. p ]. INFERENCIA 83 2. n 1): 3. L = diag(l1 . . gp ]. : Por otra parte. i = 1. Si los valores propios son diferentes. los vectores propios y valores propios de S: A partir de ahora supondremos p: 1 5. : : : . Cuando k > 1 valores propios son iguales a 1 > > p k = el estimador máximo verosímil de valores propios de S b = (lp k+1 p k+1 = = p = . lp ) ` = [l1 . p ). : : : . U =nS es Wishart Wp ( . 2 li 2 =n): En particular: es N ( i .2 Los vectores propios G =[g1 .4.2. i 6= j. Contraste de hipótesis Determinados contrastes de hipótesis relativos a las componentes principales son casos particulares de un test sobre la estructura de la matriz : A. Supongamos que queremos decidir si la matriz es igual a una matriz determinada 0 : Sea X un matriz n p con …las independientes Np ( . Mardia. ` es independiente de G: Demost. ANÁLISIS DE COMPONENTES PRINCIPALES Teorema 5. : : : . 2=(n 1)) li e az =2 < i < li e+az =2 : 5. li .4. gi es Np ( i . cov(li .84 CAPÍTULO 5. ` es Np ( . es decir. el máximo de log L bajo H0 es log L0 = n 2 log j2 0j n tr( 2 1 0 S): . : : : . Vi =n) donde Vi = i X j6=i i ( i j )2 0 i i 3. 2 2i =n). 1): Se obtiene otro intervalo de con…anza como consecuencia de que log li es N (log i . ): El test es: H0 : = 0 ( desconocida) Si L es la verosimilitud de la muestra. donde Z es N (0. lj son normales e independientes. 2. Como consecuencia de que li es N ( i . Kent y Bibby (1979). gp ] y valores propios ` = [l1 . lp ] veri…can asintóticamente: 1. obtenemos el intervalo de con…anza asintótico con coe…ciente de con…anza 1 li (1 + az =2 )1=2 < i < (1 li az 1=2 =2 ) siendo a2 = 2=(n 1) y P (jZj > z =2 ) = =2. 2 2i =n). lj ) = 0.: Anderson (1958). siendo q = p(p+1)=2 p = p(p 1)=2: Si el estadístico n log jRj no es signi…cativo. S0 si H0 es cierta) (l1 . tr(R) =p. C. pp ) ( desconocida).4) np: Sj S y a.4) y de log j2 Sd j log j2 Sj = log jRj. De (5. lk .4. el test se formula como H0 : = d = diag( 11 . . Véase la Sección 3.5) entonces. 1) (5. spp ) y Sd 1 S = R es la matriz de correlaciones. : : : . : : : .5. g son las medias aritmética Lp )1=p . obtenemos 2 2 log R = n log jRj q. Es éste un test importante en ACP. g = (L1 (5. 0 R 1 0 es (5. : : : . Test de igualdad de valores propios. independientes. lk . Entonces las propias variables serían componentes principales. Si la hipótesis nula a…rma que las p variables son estocásticamente independientes. asintóticamente 2 log R = np(a log g 2 q.5. : : : . : : : . lk+1 . : : : . a0 . Bajo H0 la estimación de d es Sd =diag(s11 . INFERENCIA 85 El máximo no restringido es log L = n 2 n p: 2 log j2 Sj El estadístico basado en la razón de verosimilitud 2 log R = 2(log L log L0 ) = ntr( 0 1 S) n log j 1 Si L1 .1.6) siendo q = p(p + 1)=2 par( 0 ) el número de parámetros libres de menos el número de parámetros libres de 0 : B. Lp son los valores propios de y geométrica a = (L1 + + Lp )=p. entonces podemos aceptar que las variables están incorrelacionadas y por lo tanto. a0 ). La hipótesis nula es H0 : 1 > > p k = p k+1 = = p = : Indicamos los valores propios de S y de S0 (estimación de S (l1 . Test de independencia completa. : : : . lp ). como hay normalidad multivariante. Pk . lk+1 =a0 . ANÁLISIS DE COMPONENTES PRINCIPALES donde a0 = (lk+1 + + lp )=(p S0 1 S k) (Teorema 5. es entonces: Retenemos las m primeras componentes tales que m 1.1). : : : . 1. Por lo tanto una componente principal con varianza inferior a 1 explica menos variabilidad que una variable observable.5. m podría ser tal que m v. que es más pequeño que 1.5.6) log li ) 2 q.4. (1979). Entonces (1. 5.7) i=k+1 donde q = (p k)(p k + 1)=2 test. 5. Estudios de Montecarlo prueban que es más correcto el punto de corte = 0:7. : : : .5) son a = 1 y g = (lk+1 2 log R = n(p k) log(lk+1 + + lp )=(p (k p)=p lp )1=p a0 k) n( p X y aplicando (5. 1: Para una versión más general de este Número de componentes principales En esta sección presentamos algunos criterios para determinar el número m < p de componentes principales. las medias (5. Criterio de Kaiser Obtener las componentes principales a partir de la matriz de correlaciones R equivale a suponer que las variables observables tengan varianza 1. : : : . 5. donde 1 p son los valores propios de R. Este criterio se puede extender a la matriz de covarianzas. : : : con respecto de k prácticamente se estabiliza a partir de un cierto m. Criterio del porcentaje El número m de componentes principales se toma de modo que Pm sea próximo a un valor especi…cado por el usuario. Por otra parte.86 CAPÍTULO 5. donde v =tr(S)=p es la media de las varianzas. También es aconsejable considerar el punto de corte 0:7 v: . por ejemplo el 80 %.5. lp =a0 ). (5. El criterio.1. que también son las varianzas de las componentes. Por ejemplo. llamado de Kaiser. entonces aumentar la dimensión apenas aporta más variabilidad explicada. P2 .2. si la representación de P1 . véase Mardia et al. ): Si la hipótesis (m) H0 : 1 > > m > m+1 = = p es cierta. todos los valores propios son iguales y no hay (0) direcciones principales. tendríamos que (0) (1) (2) m = 2 si rechazamos H0 .1: Ejemplo de representación de los valores propios. Criterio del bastón roto La suma de los valores propios es Vt =tr(S). es decir. y así sucesivamente. que indicaría tomar las 3 primeras componentes principales.7) y se aplica secuencialmente: Si (0) aceptamos H0 es decir. En efecto. que rompemos en p trozos al azar (asignando p 1 puntos uniformemente sobre el intervalo (0. Imaginemos un bastón de longitud Vt . (m) la distribución de los datos es esférica. Si rechazamos H0 .5. 5. NÚMERO DE COMPONENTES PRINCIPALES lam 87 60 50 40 30 20 10 0 0 1 2 3 4 5 6 k Figura 5. entonces repetimos el test con (1) (1) (1) H0 : Si aceptamos H0 entonces m = 1.5. que es la variabilidad total. Vt )) y que los .5. Test de esfericidad Supongamos que la matriz de datos proviene de una población normal multivariante Np ( . m = 0. pero si rechazamos H0 repetimos (2) el test con H0 .3.4.5. si p = 4. Por ejemplo. H0 y aceptamos H0 : 1 > 2 > 3 = 4 : 5. El test para decidir sobre H0 está basado en el estadístico ji-cuadrado (5. no hay direcciones de máxima variabilidad a partir de m. no tiene sentido considerar más de m componentes principales. 88 CAPÍTULO 5. ANÁLISIS DE COMPONENTES PRINCIPALES trozos ordenados son los valores propios l1 > l2 > a Vt = 100; entonces el valor esperado de lj es > lp : Si normalizamos p j E(Lj ) = 100 1X 1 : p i=1 j + i Las m primeras componentes son signi…cativas si el porcentaje de varianza explicada supera claramente el valor de E(L1 ) + + E(Lm ): Por ejemplo, si p = 4; los valores son: Porcentaje E(L1 ) E(L2 ) E(L3 ) E(L4 ) Esperado 52:08 27:08 14:58 6:25 Acumulado 52:08 79:16 93:74 100 Si V2 = 93:92 pero V3 = 97:15; entonces tomaremos sólo dos componentes. 5.6. Biplot Un biplot es una representación, en un mismo grá…co, de las …las (individuos) y las columnas (variables) de una matriz de datos X(n p): Suponiendo X matriz centrada, el biplot clásico (debido a K. R. Gabriel), se lleva a cabo mediante la descomposición singular X = U V0 ; donde U es una matriz n p con columnas ortonormales, V es una matriz p p ortogonal, y es una matriz diagonal con los valores singulares de X ordenados de mayor a menor. Es decir, U0 U = In ; V0 V = VV0 = Ip ; =diag( 1 ; : : : ; p ): Como X0 X = U0 2 U vemos que XV = U es la transformación en componentes principales (5.1), luego las coordenadas para representar las n …las están contenidas en U : Las coordenadas de las p columnas son las …las de la matriz V: Filas y columnas se pueden representar (tomando las dos primeras coordenadas) sobre el mismo grá…co, como en la Figura 5.2. En general. la solución biplot consiste en representar simultáneamente las matrices A = U y B = V 1 ; para un tal que 0 1: Entonces 0 AB = X y el grá…co reproduce las …las y columnas de X: La calidad en la representación depende del valor asignado al parámetro : Si = 1 se 5.7. EJEMPLOS 89 representan las …las con máxima resolución, si = 0 la mejor resolución corresponde a las columnas. Se puede tomar el valor intermedio = 1=2: Podemos plantear el biplot de una manera alternativa (propuesta por J. C. Gower). La transformación por componentes principales Y = XT permite representar las …las. Para representar también las columnas, podemos entender una variable Xj como el conjunto de puntos de coordenadas xj ( j ) = (0; : : : ; j ; : : : ; 0) mj j Mj ; donde j es un parámetro que varía entre el mínimo valor mj y el máximo valor Mj de Xj: Entonces la representación de Xj es simplemente el eje xj ( )T: Siguiendo este procedimiento, es fácil ver que mediante la transformación Y = XT; la representación de las variables se identi…ca con el haz de segmentos ( 1 t1 ; : : : ; p tp ); donde t1 ; : : : ; tp son las …las de T: Véase Greenacre (2010) para una moderna versión práctica de esta interesante técnica. 5.7. Ejemplos Ejemplo 5.7.1 Estudiantes. Sobre una muestra de n = 100 mujeres estudiantes de Bioestadística, se midieron las variables X1 = peso, X2 =talla, X3 =ancho hombros, X4 = ancho caderas, (peso en kg. y medidas en cm.), con los siguientes resultados: 1. Medias: x1 = 54:25; x2 = 161:73; x3 = 36:53; x4 = 30:1: 2. Matriz de covarianzas: 0 44:7 B 17:79 S =B @ 5:99 9:19 17:79 26:15 4:52 4:44 5:99 4:52 3:33 1:34 1 9:19 4:44 C C 1:34 A 4:56 90 CAPÍTULO 5. ANÁLISIS DE COMPONENTES PRINCIPALES 3. Vectores y valores propios (columnas): Val. prop. Porc. acum. t1 0; 8328 0; 5029 0; 1362 0; 1867 58:49 74:27 t2 0; 5095 0; 8552 0; 05 88 0; 0738 15:47 93:92 t3 0; 1882 0; 0202 0; 1114 0; 9755 2:54 97:15 t4 0; 1063 0; 1232 0; 9826 0; 0892 2:24 100 4. Número de componentes: a. Criterio de Kaiser: la media de las varianzas es v =tr(S)=p = 19:68: Los dos primeros valores propios son 58.49 y 15.47, que son mayores que 0:7 v: Aceptamos m = 2: b. Test de esfericidad. m 0 1 2 2 g.l. 333.9 9 123.8 5 0.39 2 Rechazamos m = 0; m = 1 y aceptamos m = 2: c. Test del bastón roto: Puesto que P2 = 93:92 supera claramente el valor esperado 79:16 y que no ocurre lo mismo con P3 , aceptamos m = 2: 5. Componentes principales: Y1 = 0; 8328X1 + 0; 5029X2 + 0; 1362X3 + 0; 1867X4 ; Y2 = 0; 5095X1 0; 8552X2 0; 05 88X3 + 0; 0738X4 : 6. Interpretación: la primera componente es la variable con máxima varianza y tiene todos sus coe…cientes positivos. La interpretamos como una componente de tamaño. La segunda componente tiene coe…cientes positivos en la primera y cuarta variable y negativos en las otras dos. La interpretamos como una componente de forma. La primera componente ordena las estudiantes según su tamaño, de la más pequeña a la más grande, y la segunda según la forma, el tipo pícnico en contraste con el tipo atlético. Las dimensiones de tamaño y forma están incorrelacionadas. 5.7. EJEMPLOS 91 corredor 1 2 3 4 5 6 7 8 9 10 11 12 km 4 10 12 11 9 8 8 10 11 14 12 13 14 km 8 10 12 10 9 8 9 10 12 13 12 13 15 km 12 13 14 14 11 9 10 8 10 11 12 11 14 km16 12 15 13 11 8 9 9 9 11 10 11 13 Tabla 5.1: Tiempos parciales (en minutos) de 12 corredores. Ejemplo 5.7.2 Corredores. Mediante ACP podemos representar una matriz de datos en dimensión reducida (Teorema 5.3.2). La Tabla 5.1 contiene los tiempos parciales en minutos que 12 corredores tardan en recorrer 16 kilómetros. El corredor más rápido es el 5, el más lento es el 12. 1. Matrices de covarianzas y correlaciones: 0 1 0 4:364 4:091 2:091 2:273 1 0; 9483 0; 4953 0; 5268 B C B 4:265 1:871 1:917 C 1 0; 4484 0; 4494 S=B R=B @ A @ 4:083 3:765 1 0; 9022 4:265 1 2. Vectores y valores propios de S : Val. prop. % Porc. acum. t1 0:5275 0:5000 0:4769 0:4943 12:26 72:22 72:22 t2 0:4538 0:5176 0:5147 0:5112 4:098 24:13 96:35 t3 0:2018 0:2093 0:6905 0:6624 0:4273 2:52 98:85 t4 0:6893 0:6621 0:1760 0:2357 0:1910 1:15 100 1 C C A 92 CAPÍTULO 5. ANÁLISIS DE COMPONENTES PRINCIPALES 3. Componentes principales primera y segunda: Y1 = 0:527X1 + 0:500X2 + 0:477X3 + 0:494X4 Y2 = 0:453X1 + 0:517X2 0:514X3 0:511X4 var(Y1 ) = 12:26 var(Y2 ) = 4:098 4. La transformación por componentes principales es Y = XT; siendo X la matriz de datos, T la matriz con los vectores propios de S: La matriz Y contiene los valores de las componentes principales sobre los 12 individuos (coordenadas principales), Figura 5.2. 5. Interpretación: a. La primera componente principal es casi proporcional a la suma de los tiempos parciales. Por tanto, podemos interpretar Y1 como el tiempo que tardan en hacer el recorrido. O incluso mejor, Y1 como la rapidez en efectuar la carrera. b. La segunda componente principal tiene coe…cientes positivos en X1 ; X2 y coe…cientes negativos en X3 ; X4 : Un corredor con valores altos en Y2 signi…ca que ha sido lento al principio y más rápido al …nal de la carrera. Un corredor con valores bajos en Y2 signi…ca que ha sido rápido al principio y más lento al …nal. Podemos interpretar esta componente como la forma de correr. c. La rapidez y la forma de correr, son independientes, en el sentido de que la correlación es cero. Para más ejemplos con datos reales, consúltese Aluja y Morineau (1999), Baillo y Grané (2008), Greenacre (2010). 5.8. Complementos El Análisis de Componentes Principales (ACP) fué iniciado por K. Pearson en 1901 y desarrollado por H. Hotelling en 1933. Es un método referente a una población, pero W. Krzanowski y B. Flury han investigado las componentes principales comunes a varias poblaciones. El ACP tiene muchas aplicaciones. Una aplicación clásica es el estudio de P. Jolicoeur y J. E. Mosimann sobre tamaño y forma de animales (como los caparazones de tortugas machos y hembras), en términos de la primera, 5.8. COMPLEMENTOS 93 Figura 5.2: Representación por análisis de componentes principales y mediante biplot de los tiempos parciales de 12 corredores. segunda y siguientes componentes principales. La primera componente permite ordenar los animales de más pequeños a más grandes, y la segunda permite estudiar su variabilidad en cuanto a la forma. Nótese que “tamaño” y “forma”son conceptos “independientes”en sentido lineal. EL llamado ACP Común (Common Principal Component Analysis) es el estudio de las componentes principales comunes en varios conjuntos de datos. Supongamos que unas mismas variables observables tienen matrices de covarianzas 1 ; : : : ; k en k poblaciones distintas y que las descomposiciones espectrales son i = T i T0 ; i = 1; : : : ; k; es decir, los vectores propios (columnas de T) son los mismos. Entonces las componentes principales son las mismas, aunque las varianzas sean distintas. Por ejemplo, los caparazones de tortugas machos y hembras, aunque de distinta magnitud, pueden tener la misma estructura de tamaño y forma. Véase Krzanowski (1988) y Flury (1997). El AFM (Análisis Factorial Múltiple) permite visualizar varios conjuntos de datos observados con distintas variables, a …n de encontrar una estructura común. El AFM se realiza en dos pasos. Primero se aplica un ACP a cada matriz (centrada) de datos, que se normaliza dividiendo por la raíz cuadrada del primer valor propio. Las matrices transformadas se juntan en una sola, a la que se aplica un ACP global. Véase Escou…er y Pagès (1990). Xp . : : : como variables explicativas. Aplicando logaritmos. : : : . : : : . i=1 siendo i . p. : : : . y altura H: La capacidad sería C = L A H . Y2 . considerando las primeras componentes principales Y1 . ANÁLISIS DE COMPONENTES PRINCIPALES El biplot. : : : . Y2 . log A. y por tanto .2) mediante la descomposición singular X = U V0 y tomando las matrices A=U y B = V 1 . la última componente principal). log H. (2011). obtenemos log C = log(L A H ) = log L + log A + log H.8) donde R es la correlación múltiple de Y sobre X1 . evitando así efectos de colinealidad. Xp (todas con media 0). :i = 1. Supongamos que se quieren relacionar las variables X1 . Una variante propuesta por Galindo-Villardón (1986). para la representación simultánea de …las y columnas. y ri la correlación simple de Y con Xi . Véase Gower y Hand (1996). donde . Supongamos que el caparazón de una tortuga tiene longitud L. : : : . (5. son parámetros.94 CAPÍTULO 5. El ACP puede servir para estudiar la capacidad de un cráneo o de un caparazón. Cuadras (1995) y Waller (2011) analizan las condiciones bajo las cuales la desigualdad (5. : : : . .8) equivale a p X rY2i (1 i ) > 0. que toma A = U y B = V . Xp . anchura A. en el sentido . Cárdenas y GalindoVillardón (2009). Greenacre (2010) y Gower et al. R2 > r12 + + rp2 . permite la representación en un mismo grá…co de las …las y columnas de una matriz de datos X (Figura 5. que podemos interpretar como la primera componente principal Y1 de las variables log L. es el HJ-biplot. y realizar regresión de Y sobre Y1 . La regresión ortogonal es una variante interesante. técnica introducida por Gabriel (1971). serían los coe…cientes de Y1 : Por medio del ACP es posible efectuar una regresión múltiple de Y sobre X1 .8) es más acusada. .8) si Y está muy correlacionada con una componente Yi tal que i < 1 (por ejemplo. los valores propios de la matriz de correlaciones R de las variables Xi y rYi las correlaciones simples entre Y y las componentes Yi : Vemos pues que se veri…ca (5. Sin embargo las últimas componentes principales también pueden in‡uir en Y: Tal anomalía se presenta cuando se cumple la desigualdad (llamada realce en regresión múltiple). p: Cuadras (1993) prueba que (5. i = 1. que admiten expansiones en componentes principales. COMPLEMENTOS 95 de encontrar los coe…cientes 1 . han estudiado los desarrollos ortogonales del tipo 1 X X= bn X n . Por ejemplo. exponencial. Véase Cuadras y Cuadras (2002). como los de Anderson-Darling y de Cramér-von Mises. y Cuadras et al. logística y Pareto. 2014): .8. n=1 donde Xn son componentes principales. condi2 2 cionado a 1 + + p = 1: Es fácil ver que la solución es la última componente principal Yp . Se pueden también de…nir las componentes principales de un proceso estocástico y de una variable aleatoria. p tales que 1 X1 + + p Xp = 0: Se puede plantear el problema como var( 1 X1 + + p Xp ) =mínima. Cuadras (2005b. 1) se tiene X= 1 X n=1 4 2 (2n 1)2 [1 cos(2n 1) X]: Estos desarrollos guardan relación con algunos test de bondad de ajuste. en el caso de X uniforme en el intervalo (0. Cuadras y Fortiana (1995). Cuadras y Lahlou (2000). Se han encontrado las componentes y los desarrollos ortogonales para las variables con distribución uniforme.5. (2006). : : : . 96 CAPÍTULO 5. ANÁLISIS DE COMPONENTES PRINCIPALES . 2. Ejemplos en los que la variabilidad de las variables observables se puede resumir mediante unas variables latentes.Capítulo 6 ANÁLISIS FACTORIAL 6. que el AF identi…ca como “factores”. llamado factor “g” de Spearman. también medida a partir de test y escalas. La teoría clásica de la inteligencia suponía que los test de inteligencia estaban relacionados por un factor general.1. denominadas factores. mientras que el modelo factorial podría ser aceptado o no mediante un test estadístico. Las diferentes características políticas de ciertos países están in‡uidas por dos dimensiones: izquierda-derecha y centralismo-nacionalismo. pero el modelo que relaciona variables y factores es diferente en AF. las componentes principales también existen. El AF obtiene e interpreta los factores comunes a partir de la matriz de 97 . Si la matriz de correlaciones existe. Introducción El Análisis Factorial (AF) es un método multivariante que pretende expresar p variables observables como una combinación lineal de m variables hipotéticas o latentes. 3. son: 1. La estructura de la personalidad. Tiene una formulación parecida al Análisis de Componentes Principales. está dominada por dos dimensiones: el factor neuroticismoestabilidad y el factor introversión-extroversión. cor(Xi . El modelo más simple de AF sólo contempla un factor común F. que recoge la covariabilidad de todas las variables.1) De acuerdo con este modelo.. p: (6. : : : . Xj sólo depende de las saturaciones ai . cada variable Xi depende del factor común F y de un factor único Ui : El modelo factorial supone que: a) Variables y factores están estandarizados (media 0 y varianza 1). F ) = ai . Xj ) = ai aj . cor(Xi . b) Los p + 1 factores están incorrelacionados.. .98 CAPÍTULO 6. De este modo F contiene la parte de la variabilidad común a todas las variables. (6. y p factores únicos U1 . El modelo factorial es Xi = ai F + di Ui . . i 6= j: Por lo tanto la saturación ai es el coe…ciente de correlación entre Xi y el factor común. indicada por h2i .. r1p r2p . Xp variables observables sobre una misma población. aj : Una caracterización del modelo unifactorial es rij 0 ai rij = = . Por otra parte a2i .2.2) ri0 j ri0 j 0 ai0 . ANÁLISIS FACTORIAL correlaciones entre las variables: 0 1 r12 B r21 1 B R = B . pero que no debe imponerse al conjunto de datos observados. Up . : : : . @ . cantidad que recibe el nombre de comunalidad. . es la proporción de variabilidad que se explica por F y la correlación entre Xi . rp1 rp2 6. i = 1. . . y cada Xi está además in‡uida por un factor único Ui .1) deducimos inmediatamente que a2i + d2i = 1. que aporta la parte de la variabilidad que no podemos explicar a partir del factor común. 1 1 C C C: A El modelo unifactorial Consideremos X1 .. : : : . De (6. uno para cada variable. El coe…ciente ai es la saturación de la variable Xi en el factor F: La estandarización es una condición teórica que se supone al modelo para su estudio. 2. los cocientes entre elementos de la misma columna no diagonal de dos …las de la matriz de correlaciones R es constante. . es nulo: rij rij 0 ri0 j ri0 j 0 = rij ri0 j 0 rij 0 ri0 j 0 = ai aj ai0 aj 0 ai aj 0 ai0 aj 0 = 0: (6. D (discriminación de tonos) y Mu (música) obtenidas por los alumnos de una escuela. que necesariamente se deben cumplir para que sea válido el modelo unifactorial. la primera comunalidad es r12 r14 r1p 1 r1p r12 r13 = = = : (6. 0:67 0:64 0:54 0:51 De acuerdo con el modelo unifactorial. Esto es equivalente a decir que el determinante de todo menor de orden dos de R.4) h21 = r23 r24 rpp 1 En las aplicaciones reales. tanto estas relaciones como las tetrádicas. estas cali…caciones dependen esencialmente de un factor común. I (inglés). tenemos que: 0:70 0:66 0:63 0:83 = = = = 1:2 . EL MODELO UNIFACTORIAL 99 es decir.4). Esta matriz veri…ca. F (francés). Si consideramos la primera y la tercera …la. las relaciones (6. sólo se veri…can aproximadamente. la estimación de la primera comunalidad podría consistir en tomar la media de los cocientes (6. que todos los menores de orden dos se anulan y que las comunalidades se obtienen a partir de las correlaciones. aproximadamente. la siguiente matriz de correlaciones C C 1:00 F 0:83 I 0:78 M 0:70 D 0:66 M u 0:63 F 0:83 1:00 0:67 0:67 0:65 0:57 I 0:78 0:67 1:00 0:64 0:54 0:51 M 0:70 0:67 0:64 1:00 0:45 0:51 D 0:66 0:65 0:54 0:45 1:00 0:40 Mu 0:63 0:57 0:51 0:51 0:40 1:00 relaciona las cali…caciones en C (clásicas). La matriz de correlaciones reducida R es la que resulta de substituir los unos de la diagonal de R por las comunalidades h2i (véase (6.7)).2). Por ejemplo. Así. M (matemáticas).3) Estas son las llamadas relaciones tetrádicas.6. que no contenga elementos de la diagonal. Por ejemplo. Es inmediato probar que R tiene rango 1. p: 2. Up . p: 3. CAPÍTULO 6. : : : . i = 1. Tanto los factores comunes como los factores únicos son variables reducidas (media 0 y varianza 1). podemos suponer que tienen media 0 y varianza 1. En el modelo factorial (6. . i 6= j = 1. Es sólo una suposición teórica. sólo explicada por el correspondiente factor especí…co. de acuerdo con el modelo lineal: X1 = a11 F1 + X2 = a21 F1 + + a1m Fm +d1 U1 + a2m Fm +d2 U2 Xp = ap1 F1 + + apm Fm (6. : : : . salvo una parte de su variabilidad. dependen de los factores comunes. cor(Ui . en general los datos observados no están reducidos.3. : : : . Xp dependen de m variables latentes F1 . Los factores comunes representan dimensiones independientes en el sentido lineal. m. j = 1. en conjunto. Fm . Los factores comunes y los factores únicos están incorrelacionados dos a dos cor(Fi .1.3. : : : . llamadas factores comunes. Fj ) = 0. : : : . 6. i 6= j = 1. Uj ) = 0. Uj ) = 0.5) +dp Up : Las hipótesis del modelo son: 1.5) se admite que las variables. y dado que tanto los factores comunes como los únicos son variables convencionales. m. ANÁLISIS FACTORIAL El modelo multifactorial El modelo El modelo del análisis factorial de m factores comunes considera que las p variables observables X1 . : : : . y p factores únicos U1 . Los factores comunes están incorrelacionados con los factores únicos cor(Fi .100 6. : : : . Up )0 . para cada variable tenemos que: variabilidad = comunalidad + unicidad.8) 1 = h2i + d2i : . mientras que d2i es la parte de la variabilidad explicada exclusivamente por el factor único Ui : La cantidad h2i = a2i1 + + a2im (6. . EL MODELO MULTIFACTORIAL 6. : : : .2.3. y análogamente F = (F1 . El AF tiene como principal objetivo encontrar e interpretar la matriz factorial A: 6. Fm )0 . La comunalidad es la parte de la variabilidad de las variables sólo explicada por los factores comunes.3. Si suponemos que las variables observables son también reducidas.3. C : @ ... (6. Las comunalidades De las condiciones del modelo del AF se veri…ca var(Xi ) = a2i1 + + a2im + d2i . : : : . . Luego. : : : . el modelo factorial en expresión matricial es X = AF + DU. .6.7) se llama comunalidad de la variable Xi : La cantidad d2i es la unicidad. .6) donde D =diag(d1 . Xp )0 el vector columna de las variables. dp ) es la matriz diagonal con las saturaciones entre variables y factores únicos. A ap1 apm Si indicamos por X = (X1 .3. . entonces tenemos que (6. : : : . 101 La matriz factorial Los coe…cientes aij son las saturaciones entre cada variable Xi y el factor Fj : La matriz p m que contiene estos coe…cientes es la matriz factorial 0 1 a11 a1m B a21 a2m C B C A = B . y por lo tanto a2ij es la parte de la variabilidad de la variable Xi que es debida al factor común Fj . U =(U1 . donde T es matriz ortogonal. . que podemos determinar teniendo en cuenta que hay p(p 1)=2 correlaciones diferentes y p m saturaciones. el caso más interesante es m < ma . .4. . pues hay más saturaciones libres que correlaciones. introduciremos m(m 1)=2 restricciones y el número de parámetros libres de A será p m m(m 1)=2: El número de correlaciones menos el número de parámetros libres es d = p(p 1)=2 [p m m(m 1)=2] = 12 [(p m)2 p m]: (6. . (6. con factores F = T0 F.. .102 CAPÍTULO 6. El número máximo m de factores comunes en función de p es: p m 2 3 4 5 6 7 8 9 10 20 30 40 0 1 1 2 3 3 4 5 6 14 22 31 Asignamos a m el valor entero por defecto cuando ma tiene parte fraccionaria. donde d > 0 juega el papel de número de grados de libertad del modelo.. C : @ . Pero si A es una matriz factorial con factores F. ..3. ya que entonces podemos plantear la estimación estadística de A. rp1 rp2 h2p Evidentemente se veri…ca R = R + D2 : 6. A . también lo es AT.10) Si igualamos d a 0 obtenemos una ecuación de segundo grado que un vez resuelta nos prueba que p m ma = 12 (2p + 1 8p + 1): Un modelo factorial es sobredeterminado si m > ma . . Si m = ma el modelo es determinado y podemos encontrar A algebraicamente a partir de R: Desde un punto de vista estadístico. ANÁLISIS FACTORIAL La matriz de correlaciones reducida se obtiene a partir de R substituyendo los unos de la diagonal por las comunalidades 0 1 r1p h21 r12 B r21 h2 r2p C 2 B C R = B . Como TT0 = I.9) Número máximo de factores comunes El número m de factores comunes está limitado por un valor máximo ma . 103 El caso de Heywood Una limitación del modelo factorial es que alguna comunalidad puede alcanzar (algebraicamente) un valor superior a 1.6.8 (6.8).8 Mat . Un ejemplo Ejemplo 6. en asignaturas de Ciencias y de Letras. se resuelve este inconveniente (primeramente observado por H.1 .B.9 .5. las primeras con contenido más racional y empírico. como el de la máxima verosimilitud. Literatura (Lit). que de manera latente in‡uyen sobre las cinco asignaturas.1.8 . en líneas generales.2 L . Las asignaturas clásicas de la enseñanza media.1 Lat . Cuando esto ocurre. las segundas con contenido más humanístico y artístico. suponemos que C y L son dos variables no observables. Vamos a suponer que la matriz factorial es C CNa . Consideremos las siguientes 5 asignaturas: Ciencias Naturales (CNa). Las cali…caciones de n = 20 alumnos en las asignaturas y en los factores se encuentran en la Tabla 6.1 Asignaturas.11) .6. Latín (Lat). Téngase en cuenta que las variables no están estandarizadas. la solución se ha de interpretar con precaución. condición de índole teórica para desarrollar el modelo factorial. contradiciendo (6. Francés (Fra).3.3. En otras palabras. Supongamos que están in‡uidas por dos factores comunes o variables latentes: Ciencias (C) y Letras (L). En algunos métodos. se dividen.3 Lit .2 . Matemáticas (Mat). EL MODELO MULTIFACTORIAL 6.3. Heywood) imponiendo la condición h2i 1 en la estimación de las comunalidades.9 Fra . 6.3. 1: Cali…caciones en 5 asignaturas y puntuaciones en 2 factores comunes de 20 alumnos.104 CAPÍTULO 6. . CNa Mat Fra Lat Lit CNa Mat Fra Lat 1 0:656 0:497 0:420 1 0:099 0:230 1 0:813 1 Lit 0:584 0:317 0:841 0:766 1 Tabla 6.2: Matriz de correlaciones para las cali…caciones en 5 asignaturas. ANÁLISIS FACTORIAL Asignaturas Factores Alumno CNa Mat Fra Lat Lit 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 7 5 5 6 7 4 5 5 6 6 6 5 6 8 6 4 6 6 6 7 7 5 6 8 6 4 5 6 5 5 7 5 6 7 7 3 4 6 5 7 5 6 5 5 6 6 5 5 7 6 5 4 6 8 5 4 7 7 4 6 5 6 7 6 7 7 5 5 6 6 6 5 6 8 6 4 8 7 4 7 Ciencias Letras 6 5 5 6 6 6 6 5 6 6 5 4 5 8 6 4 7 7 4 6 7 5 6 7 6 4 5 6 5 5 7 6 6 7 6 3 5 6 5 7 5 6 5 5 6 6 6 5 6 6 5 4 6 8 5 4 7 7 4 6 Tabla 6. 4.1 con Letras. Este factor único representa la variabilidad propia de las CNa. 5. debida a 7 puntos en Ciencias y 5 puntos en Letras. p: En notación matricial R = AA0 + D2 : (6. Según el modelo factorial: 7 = 0:8 7 + 0:2 5 + 0:4 = 5:6 + 1 + 0:4: De los 7 puntos.9 con Ciencias y sólo 0.1 Bajo las hipótesis del modelo factorial lineal se veri…ca: P rij = m i 6= j = 1. o más exactamente. conocido como teorema de Thurstone. Matemáticas tiene una correlación de 0. TEOREMAS FUNDAMENTALES 105 Las dos primeras asignaturas están más in‡uidas por el factor C.6. con la matriz de correlaciones reducida. y las tres últimas por el factor L. permite relacionar la matriz factorial con la matriz de correlaciones. h22 = 0:82. Las comunalidades son: h21 = 0:68. k=1 aik ajk . Teorema 6. Naturales Matemáticas Francés Latín Literatura 6. : : : .4. Por ejemplo. La cali…cación del primer alumno en CNa es 7. h24 = 0:73. independente de los conceptos C y L. i = 1.4. Factor C Factor L Comunalidades 64 4 68 81 1 82 1 81 82 9 64 73 4 64 68 Teoremas fundamentales El primer teorema.6 se explican por el factor común C.4 puntos por el factor único. h25 = 0:68: Los porcentajes de la variabilidad explicada por los factores comunes y las comunalidades son: C. 1 punto por el factor común L y 0. : : : .12) . El segundo teorema permite determinar. teóricamente. p. Pm 2 1 = k=1 aik + d2i . el número de factores comunes y los valores de las comunalidades. h23 = 0:82. : Al ser las variables reducidas.9) vemos inmediatamente que R = AA0 : (6.106 CAPÍTULO 6. también lo es AT. si m > 1. Por otro lado. E(FU0 ) = 0. El modelo factorial será pues aquel que implique un número mínimo m de factores comunes. Fijado m.6) R = E((AF + DU)(AF + DU)0 ) = AE(FF0 )A0 +DE(UU0 )D0 + 2AE(FU0 )D: Por las condiciones de incorrelación entre factores tenemos que E(FF0 ) = Im . R =E(XX0 ) y de (6. pues si A es solución.2 Se veri…ca: 1.13). escogeremos la que sea más simple. Teorema 6. (6.12) o (6. existen in…nitas soluciones. algebraicamente. Así pues. Hemos visto que a partir de R podemos encontrar m. que no contenga elementos de la diagonal. El modelo factorial existe si R es la suma de una matriz semide…nida positiva y una matriz diagonal con elementos no negativos. las comunalidades se pueden encontrar. a partir de la matriz de correlaciones R: En la práctica. ya que desconocemos las comunalidades. El número m de factores comunes es el rango de la matriz R : Por lo tanto m es el orden del más grande menor de R que no contiene elementos de la diagonal. La obtención de las comunalidades está muy ligada al número de factores comunes.4. 3. ANÁLISIS FACTORIAL Demost.13) entre R y A: El mayor menor de R quiere decir la submatriz cuadrada con determinante no negativo.13) tampoco resuelven completamente el problema. Demost. lo que prueba (6. pero la solución no es única.: Es una consecuencia de la relación (6. El principio de parsimonia en AF dice que entre varias soluciones admisibles. . De (6. Les comunalidades son aquellos valores 0 h2i 1 tales que R es matriz semi-de…nida positiva (tiene m valores propios positivos). las comunalidades se hallan aplicando métodos estadísticos.12).13) Una solución factorial viene dada por cualquier matriz A que cumpla la relación (6. E(UU0 ) = Ip . siendo T una matriz m m ortogonal. 2. 6. que si el análisis factorial lo planteamos a partir de la matriz de covarianzas . ap2 )0 tales que la variabilidad explicada por el segundo factor V2 = a212 + + a2p2 . podemos probar de manera análoga.j 0 =1 m X ajk aj 0 k ). aunque sí los factores. es igual a p: La variabilidad de la variable Xi explicada por el factor Fj es a2ij : La suma de variabilidades explicadas por Fj es Vj = a21j + + a2pj : El primer factor principal F1 es tal que V1 es máximo. entonces obtenemos la estructura = AA0 + D2 : 6. Igualando las derivadas a cero se obtiene que las saturaciones a1 = (a11 . : : : . que suponemos reducidas. . es decir. MÉTODO DEL FACTOR PRINCIPAL 107 Finalmente. k=1 donde qjj 0 = qj 0 j son los multiplicadores.5. La variabilidad total de las variables.5. el modelo resultante contiene m 1 factores. Consideremos pues el problema de maximizar V1 con la restricción R = AA0 : Utilizando el método de los multiplicadores de Lagrange debemos considerar la función V1 + p X qjj 0 (rjj 0 j.14) Método del factor principal Es un método de obtención de la matriz factorial con la propiedad de que los factores expliquen máxima varianza y sean incorrelacionados. (6. ap1 )0 del primer factor principal veri…can R a1 = 1 a1 . sin suponer las variables reducidas. Aplicando de nuevo el criterio del factor principal al modelo vemos que las saturaciones a2 = (a12 . a1 es el primer vector propio de R y 1 es el primer valor propio. El valor máximo de V1 es precisamente 1 : Si ahora restamos del modelo factorial el primer factor Xi0 = Xi ai1 F1 = ai2 F2 + + aim Fm + di Ui . : : : . 11).12). es decir. corresponde al segundo vector propio de R con valor propio 2 . las correlaciones y la solución por el método del factor principal (que detecta dos factores comunes explicando el 74. si R = U U0 es la descomposición espectral de R .6 % de la varianza).5. Esta refactorización podría fallar si se presenta el caso de Heywood ó R no satisface el modelo factorial (6. son: CNa Mat Fra Lat Lit CNa Mat Fra Lat Lit 1 0:74 0:26 0:40 0:32 1 0:18 0:35 0:26 1 0:75 0:74 1 0:70 1 CNa Mat Fra Lat Lit Valor propio Porcentaje F1 0:621 0:596 0:796 0:828 0:771 2:654 53:08 F2 0:543 0:682 0:432 0:210 0:292 1:076 21:52 . que es precisamente el valor máximo de V2 : En general. Pararemos si pasando de i a i + 1 los valores de las comunalidades. Volviendo al ejemplo de las asignaturas y suponiendo la matriz factorial (6. entonces la solución del factor principal es A=U 1=2 : Fijado un valor compatible de m.108 CAPÍTULO 6. Ejemplo 6. ANÁLISIS FACTORIAL sea máxima. los valores en diag(Ai A0i ). un algoritmo iterativo de obtención de la matriz factorial y de las comunalidades es: Paso 0 8 < Paso 1 : 8 < Paso i : R = U U0 (1) A1 = Um ( m )1=2 R1 =diag(A1 A01 ) + R I R1 = U(1) (1) U(1)0 (i) (i) Ai = Um ( m )1=2 Ri =diag(Ai A0i ) + R I Ri =U(i) (i) U(i)0 (p vectores propios de R) (m primeros vectores propios) (matriz correlaciones reducida) (p vectores propios de R1 ) (repetir iterativamente) La matriz Ai converge a la matriz factorial A: Como criterio de convergencia podemos considerar la estabilidad de las comunalidades.1 Asignaturas. prácticamente no varían. 109 Método de la máxima verosimilitud Estimación de la matriz factorial Podemos plantear la obtención de la matriz factorial como un problema de estimación de la matriz de covarianzas . pero es posible encontrar una solución utilizando un método numérico iterativo. también lo es AT. con la restricción que se descompone en la forma = AA0 + V. siendo S la matriz de covarianzas muestrales. A0 V 1 A es diagonal.6. V) = log j j + tr( S) log jSj p (6.6. las ecuaciones a resolver para obtener estimaciones de A y V son 1 ( S) 1 A = 0. S) 1 ): Por tanto. 6. diag( 1 ( S) 1 ) = 0. Las derivadas respecto de A y V son @Fp =2 @A 1 ( @Fp = diag( @V S) 1 ( 1 A.16) La última condición es sólo una restricción para concretar una solución. ) = n flog j2 2 j 1 tr( S)g: Cambiando de signo y modi…cando algunas constantes.15) sea mínimo. .6. en la práctica. = AA0 + V.6. siendo T matriz ortogonal. La solución …nal será.16) no proporcionan una solución explícita. . Debe tenerse en cuenta que se trata de encontrar el espacio de los factores comunes. Si suponemos que las n observaciones de las p variables provienen de una distribución normal con = 0. una rotación de la solución que veri…que ciertos criterios de simplicidad.1. donde V = D2 es una matriz diagonal (véase (6. Las ecuaciones (6.14)). puesto que si A es solución. el logaritmo de la función de verosimilitud es log L(X. MÉTODO DE LA MÁXIMA VEROSIMILITUD 6. (6. se trata de estimar A y V de manera que 1 Fp (A. 110 CAPÍTULO 6.7. Esencialmente se trata de conseguir que unas saturaciones sean altas a costa de otras. Hipótesis sobre el número de factores Una ventaja del método de la máxima verosimilitud es que permite formular un test de hipótesis sobre la estructura factorial de y el número m de factores comunes. Se han propuesto diferentes versiones sobre cómo transformar la matriz factorial a …n de obtener una estructura simple de los factores. k = p(p 6. Normalmente la matriz obtenida no de…ne unos factores interpretables. ANÁLISIS FACTORIAL 6. . Se hace necesario “rotar”estos dos factores hacia unos factores más fáciles de interpretar.6. la solución por el método del factor principal es en principio válida. Aplicando el Teorema 3. para así destacar la in‡uencia de los factores comunes sobre las variables observables. 1)=2 (p m m(m Rotaciones de factores La obtención de la matriz factorial. En el ejemplo de las asignaturas. pero de…ne dos factores comunes F1 . donde A es de rango m. que serán bajas. no es más que el primer paso del AF.5. Podemos observar que Ck es n veces el valor mínimo de la función (6.15) y que k coincide con (6. bA b 0 + V. sigue asintóticamente la distribución ji-cuadrado con 1 1)=2) = ((p m)2 p m) 2 grados de libertad.2.10). b siendo A b yV b las estimaciones. F2 que no son fácilmente identi…cables. por aplicación de los dos métodos que hemos expuesto.4. Planteemos el test H0 : = AA0 + V vs H1 : es de…nida positiva. los máximos del logarSi b = A itmo de la razón de verosimilitud son (Sección 5.2) n (log j b j + tr( b 2 n (log jSj + p): 2 H0 : H1 : 1 S)).1 tenemos que el estadístico Ck = n(log j b j log jSj + tr( b 1 b V) b S) p) = nFp (A. queremos encontrar una matriz ortogonal T tal que la nueva matriz factorial B = AT de…na unos factores que tengan una estructura más simple.2.17) i=1 donde es un parámetro tal que 0 1: Hay dos criterios especialmente interesantes. (6.6. Si cada saturación a2ij se divide por la comunalidad. Este modelo postula que las variables observables dependen de unos factores correlacionados F10 . ROTACIONES DE FACTORES 6. : : : . es decir.18) La solución factorial oblicua consistirá en hallar las siguientes matrices: 1. 111 Rotaciones ortogonales Dada una matriz factorial A. Fm0 y de p factores únicos.7. : : : . la rotación se llama varimax normalizada. Fj0 ): . Matriz de correlaciones entre factores oblicuos = ('ij ) siendo 'ij = cor(Fi0 .7. Un criterio analítico considera la función p m X m X X G= a2ij a2ik [ k=1 k6=j=1 i=1 p p X i=1 a2ij p X a2ik ]. Así para cada variable Xi Xi = pi1 F10 + + pim Fm0 + di Ui . y entonces se habla del modelo factorial oblicuo. Factores oblicuos Los factores comunes pueden estar también correlacionados. se considera a2ij =h2i . p: (6. i = 1. Quartimax : Si = 0 minimizar G equivale a maximizar la varianza de los cuadrados de los p m coe…cientes de saturación.1. Matriz del modelo factorial oblicuo P =(pij ) siendo pij la saturación de la variable Xi en el factor Fj0 : 2.7. la rotación se llama quartimax normalizada. Varimax : Si = 1 minimizar G equivale a maximizar la suma de las varianzas de los cuadrados de los coe…cientes de saturación de cada columna de A: Análogamente si consideramos a2ij =h2i . 6. Fj0 ): Si indicamos F0 = (F10 . más adecuadamente. Quartimin: Si = 0 hay máxima oblicuidad entre los factores comunes. Fm0 )0 y escribimos el modelo (6. . = Im : Rotación oblicua Ya se ha dicho que hallar una matriz factorial A constituye el primer paso de la factorización. Covarimin: Si = 1 hay mínima oblicuidad entre los factores comunes. ANÁLISIS FACTORIAL 3. p i=1 i=1 k=1 k6=j=1 i=1 donde es un parámetro tal que 0 1: Hay tres criterios especialmente interesantes. Un criterio analítico sobre la matriz de estructura factorial Q considera la función " p # p p m X X X X X 2 2 H= qij2 qik qij2 qik . y la versión del teorema de Thurstone para factores correlacionados R = P P0 + D2 : Si los factores son ortogonales.3.7. que tienen una interpretación parecida al caso ortogonal y que también se pueden formular. Bi-quartimin: Si = 1=2 el criterio es intermedio entre quartimin y covarimin. 6.112 CAPÍTULO 6. : : : . fácilmente probamos la relación entre las tres matrices P. dividiendo por las comunalidades. Estructura factorial oblicua (estructura de referencia) Q =(qij ) siendo qij = cor(Xi . el modelo factorial coincide con la estructura factorial y tenemos que P = Q.18) en forma matricial X = PF0 + DU. yQ Q=P . Queremos encontrar una matriz L tal que la nueva matriz factorial P = AL de…na unos factores oblicuos que tengan una estructura más simple. . Un criterio directo de rotación oblicua es el promax.847 Comun.820 . Q = AT: El grado de oblicuidad de los factores comunes aumenta con k: Se suele tomar k = 4: Ejemplo 6.6.999 .659 .432 .7. que podemos interpretar como dimensiones latentes de Ciencias y Letras.327 veros.96 . Queremos destacar unas saturaciones sobre otras. .7.464 . la estimación máximo verosímil y la matriz factorial rotada son: CNa Mat Fra Lat Lit Máxim F1 . L. respectivamente. = T0 T.71 . Sea A la matriz factorial obtenida por el método varimax. Cada elemento de A queda elevado a una potencia k conservando el signo.055 .4)): L = (A0 A) 1 A0 P : Es necesario normalizar la matriz L de manera que los vectores columna de T = (L0 ) 1 tengan módulo unidad.1. por tanto de…nimos P = (pij ) tal que pij = jak+1 ij j=aij . k > 1.978 . ROTACIONES DE FACTORES 113 Conviene tener en cuenta que las rotaciones ortogonales y oblicuas intentan simpli…car la estructura factorial A y la estructura de referencia Q. Tabla 6.79 El test de hipótesis de que hay m = 2 factores comunes da 21 = 1:22.1 Asignaturas. no signi…cativo.104 .974 . siendo k un número entero.046 .99 . F2 .234 .005 .193 . Seguidamente ajustamos P a AL en el sentido de los mínimos cuadrados (véase (13.809 .999 . Obtenemos entonces P = AL.636 . Siguiendo con el ejemplo de las 5 asignaturas.831 Varimax C L .62 .280 . Podemos aceptar m = 2: La rotación varimax pone de mani…esto la existencia de dos factores C. factorial Correlaciones factores C L :706 :581 :992 :242 1 :362 :221 :970 :362 1 :330 :842 :420 :885 La Figura 6.1: Proyección de las variables sobre los factores comunes ortogonales. Factores de segundo orden Un vez hemos obtenido los factores oblicuos con matriz de correlaciones .1 representa los factores ortogonales iniciales F1 y F2 . podemos suponer que estos m factores primarios dependen de m0 factores . dibujados como vectores unitarios.114 CAPÍTULO 6. y los factores oblicuos C y L. ANÁLISIS FACTORIAL Figura 6. Las variables tienen una longitud proporcional a la raíz cuadrada de sus comunalidades. Q. 6.4. interpretados como factores de Ciencias y Letras. La rotación oblicua promax con k = 4 da las matrices P. CNa Mat Fra Lat Lit Modelo factorial C L :570 :375 1:04 :135 :150 1:024 :028 :831 :114 :844 siguientes: Estruct. y factores rotados (rotación promax).7. 6. el criterio de los mínimos cuadrados (véase (13. Se veri…ca x = Af + Du. up )0 los valores de las unicidades. Si interpretamos (6. : : : . espacial. es decir. el proceso de factorización puede continuar hasta llegar a un único factor común de orden superior.6. : : : . que sintetiza el hecho de que todas las aptitudes mentales están correlacionadas. psicomotores). Nos planteamos ahora “medir los factores”. (6. MEDICIÓN DE FACTORES 115 secundarios de acuerdo con una matriz factorial B que veri…ca = BB0 + E2 .4)) nos da f = (A0 A) 1 A0 x: Un método más elaborado (propuesto por M. que a su vez dependen de un factor general “g”(el factor “g” de Spearman).19) como un modelo lineal.8. xp )0 los valores de las p variables observables obtenidos sobre un individuo !. f es el vector de parámetros y e = Du es el término de error. encontrar los valores f = (f1 . Bartlett) considera que f es función lineal de x y que los valores de los factores únicos u = D 1 (x Af ) son términos de error. .8. siendo E la matriz m m diagonal. razonamiento. que dependen de un conjunto de 7 factores secundarios (verbal. Si queremos minimizar u0 u = u21 + + u2p . Los test de aptitud dependen de un conjunto elevado de factores primarios.19) siendo u = (u1 : : : . Medición de factores Sea x = (x1 . Un ejemplo de aplicación nos lo proporciona la teoría clásica de la estructura factorial de la inteligencia. fm )0 de los factores comunes sobre !. donde x es el vector de observaciones. A es la matriz de diseño. numérico. S. memoria. Si los factores secundarios son también oblicuos. percepción. 116 CAPÍTULO 6.1) y las puntuaciones (Anderson-Rubin) en los factores C y L. y seguidamente aceptando o rechazando esta estructura mediante un test de hipótesis.1.19) como D 1 x=D 1 Af + u. el primer alumno tiene una nota relativamente alta en Ciencias y una nota algo por debajo de la media en Letras. es fácil ver que f = (A0 D 2 A) 1 A0 D 2 x: Una modi…cación de este método (propuesta por T. siendo B2 = A0 D 2 RD 2 A: Ejemplo 6. son: Alumno CNa Mat Fra Lat Lit 1 7 7 5 5 6 2 5 5 6 6 5 3 5 6 5 7 5 4 6 8 5 6 6 C 1:06 :568 :259 1:85 L :559 :242 :505 :614 Teniendo en cuenta que los factores comunes son variables estandarizadas. La solución que resulta es f = B 1 A0 D 2 x. ANÁLISIS FACTORIAL expresando (6. estableciendo una estructura factorial de acuerdo con el problema objeto de estudio. Tabla 6. Por ejemplo. las cali…caciones en las asignaturas de los 4 primeros alumnos (Tabla 6. podemos considerar que la matriz factorial . W. El AF también se puede plantear en sentido con…rmatorio. es decir. Anderson y H. en el sentido de que exploran las dimensiones latentes de las variables.1 Asignaturas. Rubin) consiste en añadir la condición de que los factores comunes estimados estén incorrelacionados. Análisis factorial con…rmatorio Los métodos del factor principal y de la máxima verosimilitud son métodos exploratorios.8. 6. obtenidos con la rotación varimax.9. Continuando con el ejemplo de las 5 asignaturas. los test 4. Joreskog) obtiene siete soluciones con…rmatorias.9. Si T no es ortogonal y por lo tanto se admite una estructura oblicua. Si la solución inicial es A.6 inteligencia verbal y los test 7.3 miden relaciones espaciales. y los valores libres o …jos de las saturaciones. De los 9 test considerados.1 Test de capacidad.9 velocidad . entonces la solución es T = UV0 . postulamos una estructura B y deseamos encontrar T ortogonal tal que AT se aproxime a B en el sentido de los mínimos cuadrados tr[(B AT)0 (B AT)] = mínimo.7).5.6. siendo A0 B = UDs V0 la descomposición singular de A0 B: Es decir AT es la transformación procrustes de A: Véase (1. Entonces podemos realizar una transformación de la matriz factorial inicial para ajustarnos a la matriz anterior. pero normalizando a módulo 1 los vectores columna de T: Más generalmente. entonces T se obtiene siguiendo un procedimiento parecido a la rotación promax T = (A0 A) 1 A0 B.2.9. Un AF con…rmatorio sobre 9 test (estudiado por K.8. ANÁLISIS FACTORIAL CONFIRMATORIO 117 en el ejemplo de las 5 asignaturas es C L CNa 1 0 Mat 1 0 Fra 0 1 Lat 0 1 Lit 0 1 interpretando que las dos primeras sólo dependen del factor Ciencias y las otras tres del factor Letras. el tipo ortogonal u oblicuo de la solución. los test 1. en AF con…rmatorio se especi…ca el número de factores comunes. Ejemplo 6. 327 .68 .61 .468 . La primera solución es oblicua no restringida.76 .246 .722 .116 . los tres siguientes sólo con el segundo y los tres últimos sólo con el tercero.234 .345 1 . ANÁLISIS FACTORIAL de percepción.095 .335 . Se impone la condición de que los tres primeros test correlacionen sólo con el primer factor.304 .157 . La matriz de correlaciones es: 1 2 3 4 5 6 7 8 9 1 1 .325 .70 .230 .318 . puesto que la ji-cuadrado del ajuste no es signi…cativa.139 2 3 1 .181 .309 5 1 .326 .50 . . P :71 :54 :67 :00 :03 :01 :00 :42 :56 :00 :03 :04 :87 :81 :82 :00 :30 :06 :00 :08 :09 :00 :13 :01 :78 :73 :41 Comun.46 1 .335 .145 .24 . No obstante.685 .170 .714 .113 .195 . .512 9 1 Sólo comentaremos tres soluciones. y se puede aceptar.099 .68 .203 .26 .28 1 . el valor ji-cuadrado es signi…cativo y esta solución no debería aceptarse.280 6 1 .327 4 1 .489 1 .408 7 8 1 .314 .160 .118 CAPÍTULO 6.54 2 12 = 9:77 p = 0:64 La segunda solución es oblicua restringida.057 .585 .54 1 . 54 1 .00 .52 .43 .6.68 .00 .83 .10.75 .70 119 Comun.00 .52 1 .66 .52 .27 . 2 y 4. Spearman (Spearman.48 .00 . publicado en 1904.00 .00 Comun.00 . Galton y de eje principal de K. Esta teoría.00 .56 .00 .87 .49 2 24 = 51:19 p = 0:001 La tercera solución es ortogonal no restringida. El primer trabajo.69 .46 . por Ch.00 1 .63 . :58 :41 :53 :00 :01 :01 :02 :43 :59 :00 :35 :30 :03 :13 :04 :00 :13 :22 :00 :00 :03 :00 :06 :02 :95 :57 :34 1 .69 .00 .00 . Pearson. el segundo no correlaciona con las variables 1 y 7 y el tercero no correlaciona con 1. .80 . El valor ji-cuadrado indica que esta solución es aceptable.77 .00 . COMPLEMENTOS P .00 .00 .68 . 1904) desarrolla una teoría de la inteligencia alrededor de un factor común.69 .00 .00 1 .64 2 6 = 2:75 p = 0:84 Complementos Constituyen dos precedentes del Análisis Factorial el concepto de factor latente de F.00 .00 .95 .37 .00 .34 1 .00 . con un factor general y tres factores especí…cos.48 1 .72 .00 . en el sentido que el primero no correlaciona con la variable 4. . P :38 :24 :38 :87 :83 :83 :24 :15 :36 6. . el factor “g”.83 .00 .10.00 . Rao). El método varimax de rotación ortogonal de Kaiser es uno de los más recomendados. si tenemos p = 210 variables independientes bastaría conocer la distribución de k = 20 combinaciones lineales adecuadas para determinar la distribución de las 210 variables. Burt. como una herramienta para explorar la dimensionalidad latente de las variables. método Alfa (H. El Análisis Factorial moderno se inicia con la obra “Multiple Factor Analysis” de L. Thurstone y otros (Holzinger. Kaiser. La teoría psicoanalítica defendía una continuidad entre la personalidad neurótica y la psicótica. R. Los métodos actuales para obtener la matriz factorial son: factor principal. Rao demostró que si conocemos la distribución de k combinaciones lineales de p variables independientes. Por ejemplo. Carroll introdujo la rotación oblicua quartimin y A. Los modelos y métodos de Spearman. era exploratoria. con consecuencias sociológicas importantes. El estudio de las dimensiones latentes es un tema presente en la ciencia y siempre ha despertado interés. Lawley. son ya historia. Ca¤rey) y el método de la máxima verosimilitud (D. N. White la promax. K. pues proporcionó una base cientí…ca para …nanciar las escuelas privadas en detrimento de otras. A partir de Thurstone la medida de la inteligencia era más “democrática”. Torrens-Ibern (1972). Harman y Horst). Hendrickson y P. C. el análisis factorial se ha entendido en sentido con…rmatorio (Joreskog. mientras que el AF revela que neurosis y psicosis son dimensiones independientes. ANÁLISIS FACTORIAL que ordenaba la inteligencia de los individuos a lo largo de una sola dimensión. pues si en una dimensión sería posible ordenarlos. fue defendida por C. entonces la distribución de cada una de las p variables queda determinada (salvo la media o parámetro de localización). E.F. análisis factorial canónico (C. Thurstone. O. introducía la estructura simple y las rotaciones de factores. J. Más tarde. G. Véase Harman (1976). Hubo una polémica similar sobre la personalidad. en varias dimensiones es imposible.B.L. Mulaik). que postulaba más de un factor común. ya que poseía varias dimensiones latentes. Este resultado proporciona una cierta justi…cación teórica acerca del hecho que la información multivariante posee una dimensionalidad latente mucho más pequeña. Véase Joreskog (1967). quedando sin sentido una ordenación clasista de los individuos. J. Maxwell. estableciendo una estructura factorial de acuerdo con . La etapa inicial del AF (hasta 1966). Anderson y Rubin (1956) publicaron un excelente trabajo sobre AF.R.120 CAPÍTULO 6. Burt. Joreskog). tratando todo los aspectos algebraicos y estadísticos del tema. Lawley. siendo k(k 1)=2 < p k(k + 1)=2. 6. el Análisis de Estructuras Covariantes es una generalización del AF.I. de personalidad (Eysenck Personality Inventory) y sobre un test de 69 ítems (algunos ítems detectan mentiras) encuentran tres factores: Introversión-Extroversión. economía). Véase la Sección 6. Véase Satorra (1989). . Citaremos tres. y ordena las naciones según las puntuaciones en los factores comunes. Finalmente. modelos simplex y circumplexos. Se supone que la estructura general para la matriz de covarianzas es = B(P P0 + D2 )B0 + 2 : Otra generalización es el llamado modelo LISREL (Linear Structural Relationship). Sánchez-Turet y Cuadras (1972) adaptan el cuestionario E. etc. LISREL (Joreskog y Sorbom. Rummel (1963) estudia 22 medidas de los con‡ictos de 77 naciones y encuentra tres dimensiones latentes. Joreskog (1969) explica un ejemplo de AF con…rmatorio sobre 9 test. COMPLEMENTOS 121 el problema. Batista y Coenders (2000). que uni…ca este método con otras técnicas multivariantes (MANOVA. Se han llevado a cabo muchas aplicaciones del AF. Las variables latentes están relacionadas por un modelo de ecuaciones estructurales. que permite relacionar un grupo de variables dependientes Y con un grupo de variables independientes X.P. psicología. revolución y subversión. que identi…ca como: agitación. y seguidamente aceptando o rechazando esta estructura mediante un test de hipótesis (Joreskog. análisis de caminos. 1970).9.). 1969. previamente estudiado por Anderson y Rubin. análisis de componentes de la varianza. 1999) es muy ‡exible y tiene muchas aplicaciones (sociología. que dependen de unas variables latentes a través de un modelo de medida. las dos primeras sobre AF exploratorio y la tercera sobre AF con…rmatorio. Consúltese Cuadras (1981). Escala de mentiras.10. Estabilidad-Inestabilidad. ANÁLISIS FACTORIAL .122 CAPÍTULO 6. . 0 0 xg x 123 .. : : : . como resultado de observar las variables sobre varias poblaciones. : : : . Pero si tenemos varias matrices de datos. @ A . Supongamos que de la observación de p variables cuantitativas X1 . es decir. X es de orden n p. siendo ahora n = gi=1 ni : Indiquemos 0 0 1 x1 x0 B x0 x0 C B 2 C X= B C . Xg ng p donde Xi es la matriz ni p de la población i: Sean x01 . entonces la técnica adecuada es el Análisis Canónico de Poblaciones (CANP).1.. C . @ . Introducción Con el Análisis de Componentes Principales podemos representar los individuos de una población.Capítulo 7 ANÁLISIS CANÓNICO DE POBLACIONES 7. Xp sobre g poblaciones obtenemos g matrices de datos 0 1 X1 n1 p B X2 C n2 p B C X = B .x02 . representar una única matriz de datos.x0g los vectores (…la)Pde las medias de cada población. A . y lo que queremos es representar las poblaciones. es decir. : : : .2. juntamente con W (matriz de dispersión dentro de grupos) en el test de comparación de medias de g poblaciones. Aquí trabajaremos con la matriz A.2.2)): S= 1 n g g X n i Si : i=1 0 Entonces A =X X juega el papel de matriz de covarianzas “entre”las poblaciones. Avi = i Si vi . La matriz B participa. S juega el papel de matriz de covarianzas “dentro”de las poblaciones.124 CAPÍTULO 7. Tenemos dos maneras de cuanti…car matricialmente la dispersión entre las poblaciones: La matriz de dispersión no ponderada entre grupos 0 A =X X = g X (xi x)(xi x)0 : i=1 La matriz de dispersión ponderada entre grupos B= g X ni (xi x)(xi x)0 : i=1 La matriz A es proporcional a una matriz de covarianzas tomando como datos sólo las medias de las poblaciones. normalizados según vi0 Si vi = 1: Los vectores v1 . vp son los vectores canónicos y las variables canónicas son las variables compuestas Yi = Xvi : . si bien los resultados serían parecidos si utilizáramos la matriz B: También haremos uso de la matriz de covarianzas (véase (3. vp ] los vectores propios de A =X X respecto de S con valores propios 1 > > p . ANÁLISIS CANÓNICO DE POBLACIONES la matriz g p con las medias de las g poblaciones. 7. : : : . Variables canónicas 0 De…nición 7.1 Sean V = [v1 . Y2 es la variable con máxima varianza entre grupos. Yj ) = covA (Yi .3. ver Sección 7. condicionada a estar incorrelacionada con Y1 y tener varianza 1 dentro grupos. condicionada a varianza 1 dentro grupos. Yi ) = t0j Ati = t0j S j ti = 0 j ti Stj . pero de hecho el número efectivo es k = m nfp. Teorema 7. : : : . Las A-varianzas son respectivamente máximas: varA (Y1 ) = 1 > varA (Yp ) = > p. Demost. Yj ) = t0i Atj = t0i S j tj = covA (Yj . : : : . en el sentido de que Y1 es la variable con máxima varianza entre grupos. etc. VARIABLES CANÓNICAS 125 Si vi = (v1i .2. Yj ) = 0 si i 6= j: 2. están incorrelacionadas: covA (Yi . + vpi Xp es decir: varS (Yi ) = vi0 Si vi = 1: i. : : : .1 Las variables canónicas veri…can: 1.7. g 1g. Trabajaremos con p variables canónicas. Además.: Supongamos 1 > > p > 0: Probemos que las variables compuestas Yi = Xti . Xp ]. 0 0 Restando ( j i )ti Stj = 0 ) ti Stj = 0 ) covA (Yi . . vpi )0 y X = [X1 . i = 1. de t0i Stj = 1: 0 j ti Stj = varA (Yi ) = i t0i Stj = i : Pp Pp Sea ahora Y = a X = i i i=1 P P i=1 i Yi una variable compuesta tal que varS (Y ) = pi=1 2i varS (Yi ) = pi=1 2i = 1: Entonces varA (Y ) es: p X varA ( i=1 i Yi ) = p X i=1 2 i varA (Yi ) = p X i=1 2 i i p X ( i=1 2 i) 1 = varA (Y1 ).2. la variable canónica Yi es la variable compuesta Yi = Xvi = v1i X1 + que tiene S-varianza 1 y A varianza varA (Yi ) = vi0 Avi = i.5. p. si i = 6 j. Yj ) = covS (Yi . Son incorrelacionadas dos a dos respecto a A y también respecto a S covA (Yi . Yj ) = 0. 0 i tj Sti . 9 hemos introducido la distancia entre los individuos de una misma población. pero teniendo en cuenta las covarianzas. que podemos expresar como: Y = p X i Yi condicionado a i=2 2 i = 1: i=2 i=2 Entonces varA (Y ) es: ! p p X X varA = i Yi p X 2 i varA (Yi ) = p X 2 i i i=2 i=2 p X i=2 2 i ! 2 = varA (Y2 ). : : : . Yp es análoga.3. Distancia de Mahalanobis y transformación canónica La distancia de Mahalanobis entre dos poblaciones es una medida natural de la diferencia entre las medias de las poblaciones. La demostración para Y3 . 7. p contiene las coordenadas canónicas de las g . De…nición 7. y por lo tanto Y2 está incorrelacionada con Y1 y tiene varianza máxima. : : : . vp ] 0 es la matriz con los vectores canónicos (vectores propios de A =X X respecto de S). Ahora de…nimos la distancia entre dos poblaciones cuando hay más de dos poblaciones. j es M 2 (i.x2 . En la Sección 1.1 Consideremos muestras multivariantes de g poblaciones con vectores de medias x1 . la transformación canónica es Y =XV: La matriz Y de orden g poblaciones.3. : : : . Consideremos a continuación las variables Y incorrelacionadas con Y1 .126 CAPÍTULO 7. ANÁLISIS CANÓNICO DE POBLACIONES que prueba que Y1 tiene máxima varianza entre grupos.xg y matriz de covarianzas (común) S: La distancia (al cuadrado) de Mahalanobis entre las poblaciones i. j) = (xi xj )0 S 1 (xi xj ): Si X es la matriz centrada con los vectores de medias y V = [v1 . j) = (yi yj )0 (yi xj )0 S 1 (xi yj ) = (xi xj ): (7.: Basta probar que los productos escalares coinciden 0 yi yj0 = xi S 1 x0j () XS 1 X = YY0 : (7.1) Demost.4. .1 La distancia de Mahalanobis entre cada par de poblaciones i. j coincide con la distancia euclídea entre las …las i. la representación es totalmente factible y es óptima en dimensión reducida. j de la matriz de coordenadas canónicas Y. tomamos las m primeras coordenadas canónicas (usualmente m = 2). en el sentido de que maximiza la variabilidad geométrica. es decir. la representación mediante las coordenadas canónicas Y con la métrica euclídea se realiza a lo largo de ejes ortogonales. En cambio.4.2) 0 Sea =diag( 1 . : : : . Tomando Y 0 obtenemos …nalmente XS 1 X = YY0 : 7.3.7. luego cumple la descomposición espectral 0 XS 1 X = Y Y0 suponiendo Y ortogonal. Representación canónica La representación de las g poblaciones mediante las …las de X con la métrica de Mahalanobis es bastante complicada: la dimensión puede ser grande y los ejes son oblicuos. Si además. Si yi = xi V entonces d2E (i. 1=2 que indicamos también por Y. y premultiplican- 0 XS 1 X Y = Y : 0 Con lo cual Y contiene los vectores propios de XS 1 X . luego S 1 X XV = V 0 do por X tenemos XS 1 X XV = XV . y la transformación canónica es Y =XV: 0 0 AV = SV es X XV = SV . REPRESENTACIÓN CANÓNICA 127 Teorema 7. p ) la matriz diagonal con los valores propios de A =X X respecto de S: Entonces AV = SV con V0 SV = Ip . 3) i: m es la matriz de la transformación 0 yj ) = m X yjh )2 (yih h=1 es la distancia euclídea (al cuadrado) entre dos …las de Y.j=1 g i=1 Si Y =XV. y esta cantidad es máxima entre todas las transformaciones lineales posibles en dimensión m: Demost. coordenadas canónicas). de orden p canónica en dimensión m y 2 ij (m) = (yi yj )(yi (7.. j) = 2g i.1) g g p 1 X 1 XX 2 VM (X) = 2 M (i. tercera.: De (5.j=1 2g i.1 La variabilidad geométrica de las distancias de Mahalanobis entre las poblaciones es proporcional a la suma de los valores propios: g p 1 X 1X 2 VM (X) = 2 M (i. la variabilidad geométrica en dimensión m p es g 1 X V (Y)m = 2 2g i. donde V. la A-varianza de la primera columna Ye1 de Y 1 0 v10 Av1 = 1 : Es decir. primera columna de Y: Análogamente se demuestra para las demás columnas (segunda. etc. Tenemos pues: e = V (Y) m m X 1X s (Yek ) = varA (Yek ) g k=1 k=1 m 2 1X V (Y)m = g k=1 m k: .128 CAPÍTULO 7.3). Indicando e es t0 At1 T = [t1 . j) = 2 (yih yjh )2 = s21 + + s2p 2g i. la varianza ordinaria s2 (Ye1 ) = g 1 Ye10 Ye1 = g 1 t01 X Xt1 es máxima para Y1 = Xv1 .j=1 h=1 P donde s2j = ( gi=1 yij2 )=g representa la varianza ordinaria de la columna Yj de Y: Esta suma de varianzas es 0 tr( g1 Y0 Y) = g1 tr(V0 X XV) = g1 tr(V0 AV) = g1 tr( ) lo que prueba (7.4.3) y (7.j=1 1X = g i=1 m 2 ij (m) i. : : : . tp ]. e Sea ahora Y=XT otra transformación de X tal que T0 ST = I. ANÁLISIS CANÓNICO DE POBLACIONES Teorema 7. estimación máximo verosímil de i y S = (n1 S1 + + ng Sg )=n = W=n . Comparación de medias El test H0 : 1 = 2 = = (7. V (Y)m = 100 VM (X) + 1+ + + 1 m : p Aspectos inferenciales Supongamos ahora que las matrices de datos X1 . g ): Para poder aplicar correctamente un análisis canónico de poblaciones conviene que los vectores de medias sean diferentes y que las matrices de covarianzas sean iguales. Por lo tanto. técnica destinada a representar las medias de las poblaciones a lo largo de ejes canónicos.5. Si aceptamos H0 las medias de las poblaciones son teóricamente iguales y el análisis canónico. Comparación de covarianzas El test H00 : 1 = 2 = = g se resuelve mediante el test de razón de verosimilitud R = jS1 jn1 =2 jSjn=2 jSg jng =2 .5.2. 1 ). donde Si es la matriz de covarianzas de las datos de la población i.3. : : : .3 y se decide calculando el estadístico = jWj=jB + Wj con distribución lambda de Wilks. ASPECTOS INFERENCIALES 129 El porcentaje de variabilidad geométrica explicada por las m primeras coordenadas canónicas es Pm = 100 7. : : : .5. 7. Np ( g .1. Xg provienen de g poblaciones normales Np ( 1 .5.7. no tiene razón de ser.4) g ha sido estudiado en la Sección 3. conviene rechazar H0 : 7. c (n g) log jSj b i = (ni =(ni donde S " b1j + 1) log jS b g j) 1) log jS + (ng 1))Si .5. conviene aplicar la corrección de Box.130 CAPÍTULO 7. Conviene pues aceptar H00 : Este es el llamado test de Bartlett. Si rechazamos H00 . y la constante c es 2p2 + 3p 6(p + 1)(g c= 1 7. ANÁLISIS CANÓNICO DE POBLACIONES es la estimación máximo verosímil de H00 : Rechazaremos H00 si el estadístico 2 log R = n log jSj . ((n1 g X 1 1) k=1 1 1 ng 1 n g !# : Test de dimensionalidad 0 Como el rango de A = X X no puede superar ni la dimensión p ni g es obvio que el número efectivo de valores propios es k = m nfp. y el análisis canónico es teóricamente incorrecto. entonces resulta que no disponemos de unos ejes comunes para representar todas las poblaciones (la orientación de los ejes viene determinada por la matriz de covarianzas). . 0 son los valores propios de M M (la versión poblacional : Si l1 > > lk son los valores propios de B respecto de W (ver Sección 3. donde q = gp(p + 1)=2 p(p + 1)=2 = (g 1)p(p + 1)=2 son los grados de libertad de la ji-cuadrado. soluciones de jB lWj = 0.3). 1g: Si los vectores de medias poblacionales están en un espacio Rm de dimensión m < k. Debido a que el test anterior puede ser sesgado. es decir.3. entonces el espacio canónico tiene dimensión m y por lo tanto debemos aceptar la hipótesis (m) H0 donde 1 > > de A) respecto de m : 1 > > m > m+1 = = k. g 1. matriz de covarianzas común bajo (n1 log jS1 j + 2 q + ng log jSg j) es signi…cativo.3. equivale a aceptar (7. Así. Podemos entender yi como una estimación de i = i V. 2j son los grados de libertad. estudiaremos b2 .5. estudiaremos b1 . : : : . ASPECTOS INFERENCIALES (m) entonces un test para decidir H0 bm = [n 131 está basado en el estadístico k X 1 (p + g)] log(1 + li ) 2 i=m+1 1 2 q.7.4). : : : .i = 1. es decir. bm 1 son signi…cativos pero bm (0) no. : : : .5. donde ni es el tamaño muestral de la población i: . F el valor tal que P (F > F ) = . donde q = (p m)(g m 1): Este test asintótico. Rechazaremos H0 si cj es Regiones con…denciales Sean y0i = x0i V. se aplica secuencialmente: si b0 es signi…cativo. círculos en dimensión 2) de centros y radios p (yi .5. 1 1 (p 2 + g)] log(1 + lj ) 2 r. etc. el test H0 : j = 0 está basado en el estadístico cj = [n donde r = p + g signi…cativo. Otros autores utilizan este test independientemente para cada dimensión. R = ni ). g las proyecciones canónicas de los vectores de medias muestrales de las poblaciones. si b1 es también signi…cativo. donde F sigue la distribución F con p y (n g p + 1) g:l: y consideremos: (n g)p : R2 = F (n g p + 1) Entonces las proyecciones canónicas i de los vectores de medias poblacionales pertenecen a regiones con…denciales que son hiperesferas (esferas en dimensión 3. la proyección canónica del vector de medias poblacional i : Queremos encontrar regiones con…denciales para i . i = 1. g: Teorema 7. 7. propuesto por Bartlett.1 Sea 1 el coe…ciente de con…anza. aceptaremos que la dimensión es m: Obsérvese que aceptar H0 equivale a la hipótesis nula de igualdad de vectores de medias (que entonces coincidirían en un punto).4. Si b0 . : xi i es Np (0. Por ejemplo. Se tienen medidas de 5 variables biométricas sobre 6 especies de coleópteros del género Timarcha encontradas en 8 localidades distintas. tenemos que (xi 0 1 i ) S (xi i) (n ni (n g)p Fp g p + 1) n g p+1 : Así pues P (xi 0 1 i ) S (xi i) R2 ni =1 . ya que las variables canónicas están incorrelacionadas.ub. 7.edu/stat/personal/cuadras/escarab. y como la distribución de Hotelling equivale a una F . Los datos están disponibles en http://www. si elegimos 1 = 0:95 y una representación en dimensión reducida 2. n g). que de…ne una región con…dencial hiperelíptica para i con coe…ciente de con…anza 1 : Pero la transformación canónica y0i = x0i V convierte a 0 0 1 (xi i ) S (xi i ) en (yi i ) (yi i ) y por lo tanto P (yi 0 i ) (yi i) R2 ni =1 : Esta transformación convierte además hiperelipses en hiperesferas (elipses en círculos si la dimensión es 2). ANÁLISIS CANÓNICO DE POBLACIONES Demost. Ejemplos Ejemplo 7. de manera que el vector de medias proyectado pertenece al círculo con coe…ciente de con…anza 0.95. La separación entre los centros indicará diferencias. mientras que si dos círculos se solapan.6. lo que también es válido si reducimos la dimensión (tomamos las m primeras coordenadas canónicas). =ni ) independiente de W que sigue la distribución Wp ( .1 Coleópteros.6.txt . será un indicio de que las dos poblaciones son posiblemente iguales. n g): Por lo tanto (n g)ni (xi 0 1 i ) W (xi i) = ni (xi i )S 1 0 i) (xi T 2 (p. cada población vendrá representada por un círculo de centro yi p y radio R0:05 = ni .132 CAPÍTULO 7. 3. 6. T. T. X5 = diam.6. X3 = base prognoto. 8. Baleares) n7 = 15 pimeliodes (Palermo. élitros. X2 =diam. Sicilia) n8 = 40 Las medidas (en mm. Pirineos. Osca) n3 = 20: monserratensis (Collformic. Barcelona) n5 = 40: catalaunensis (La Garriga. T. T. Barcelona) n6 = 40: balearica (Mahón.) son: X1 = long. T. Barcelona) n4 = 40: monserratensis (Collfsuspina. T. Pirineos) n2 = 40: indet (vall de Llauset. EJEMPLOS 133 Figura 7.1: Proyección canónica de cuatro poblaciones. T. 2. 7. T. sinustocollis (Campellas. 4. prognoto. máximo élitros. Los resultados del análisis canónico son: Matriz de covarianzas común: 1 0 3:277 3:249 2:867 5:551 4:281 B 7:174 6:282 9:210 7:380 C B C C 6:210 8:282 6:685 S=B B C @ 20:30 13:34 A 13:27 . 1. Pirineos) n1 = 40: sinustocollis (Planollas. 5.7. Se quiere estudiar si existen diferencias entre las 8 poblaciones (localidades) y representarlas mediante la distancia de Mahalanobis. X4 = long. máximo prognoto. Matriz de dispersión entre grupos: 0 6268 11386 8039 B 21249 15370 B 11528 B=B B @ 22924 42795 31009 86629 Matriz de dispersión dentro de grupos: 0 874:8 867:5 765:4 1482 B 1915 1677 2458:99 B B 1658 2211 W=B @ 5419 17419 32502 23475 65626 49890 1142 1970 1784 3562 3541 Matriz de dispersión total: 0 7143 12253 8804 24407 18562 B 23164 17047 45254 34472 B B 13186 33220 25260 T=B @ 92049 69189 53432 Test de comparación de medias: = jWj = jB + Wj = 0:0102 1 C C C C A 1 C C C C A W4 ( . ANÁLISIS CANÓNICO DE POBLACIONES Test de Bartlett para homogeneidad de la matriz de covarianzas. con 105 g. Signi…cativo al 5 %. 267.) Existen diferencias muy signi…cativas. 7) ! F = 62:5 (35 y 1108 g. 7) W5 ( . 267) 1 C C C C A (5.l.284. Jicuadrado = 229.134 CAPÍTULO 7. valores propios y porcentaje acumulado: % v1 :0292 :5553 :6428 :1259 :1125 158:64 85:03 v2 :2896 :7040 :9326 :1326 :0059 24:53 98:18 .l. Transformación canónica. 2. g. aunque el CANP es válido si las matrices muestrales son relativamente semejantes. i = 1. Su difusión es debida a Seal (1964). R. i ) y probabilidades pi . así como la 4 y 5. las poblaciones 1 y 2 pertenecen claramente a la misma especie. En el CANP. S. COMPLEMENTOS 135 Figura 7.7. y más adelante en el Análisis Discriminante. es decir: Si los datos provienen de g poblaciones con densidades fi (x). : : : . encontrados en 8 localidades distintas. Una formulación que no supone normalidad es debida a Krzanowski y Radley (1989). mientras que las 7 y 8 se diferencian mucho de las otras especies. medias y matrices de covarianzas ( i . Rao lo relacionó con la distancia de Mahalanobis y lo estudió como una técnica para representar poblaciones. Las poblaciones 3 y 6 son especies próximas. . es decir. C. Aquí hemos seguido un criterio propuesto por Cuadras (1974). Existen diferentes criterios para obtener la región con…dencial para las medias de las poblaciones.7. interviene la descomposición T = B + W.7.2: Representación canónica de 8 poblaciones conteniendo datos biométricos de 6 especies de coleópteros. A menudo los datos no cumplen la condición de igualdad de las matrices de covarianzas. 7. Bartlett en términos de correlación canónica entre las poblaciones y las variables observables. Complementos El Análisis Canónico de Poblaciones (CANP) fue planteado por M. De acuerdo con la Figura 7. son distintos de los resultados para cada población por separado (individuos de un mismo país). y la matriz de covarianzas es = g X pi ( i )( i ) + g X pi i: i=1 i=1 Esta descomposición de versión multivariante de 0 es la versión poblacional de T = B + W.8). es decir. y la var(Y ) = E[var[Y jX]] + var[E[Y jX]]. Para una versión más general de partición de la variabilidad en presencia de mixturas. Los resultados para las poblaciones agregadas (por ejemplo. Cuadras y Fortiana (2001) prueban que se produce la falacia ecológica si la dirección principal de los datos es distinta de la dirección del segmento que une 1 y 2 : Se veri…ca entonces: ( 1 0 2) 1 ( 1 2) >( 1 0 2 ) [diag( )] 1 ( 1 2 ). ANÁLISIS CANÓNICO DE POBLACIONES con densidad f (x) =p1 f1 (x) + +pg fg (x). . Se llama falacia ecológica a las conclusiones equivocadas (sobre todo al correlacionar dos variables) que resultan de agregar indebidamente varias poblaciones. Dadas dos poblaciones Np ( 1 . ) y Np ( 2 . donde Y jX representa la distribución de una variable Y dada X: Véase Flury (1997). ).136 CAPÍTULO 7. véase Cuadras y Cuadras (2011). entonces el vector de medias correspondiente a f es =p1 1+ +pg g. varios países). La desigualdad anterior re‡eja la in‡uencia de las componentes principales de menor varianza y es parecida a la desigualdad (5. si la distancia de Mahalanobis es mayor que la distancia de Pearson. (i. 2.1. (i. consiste en encontrar unos puntos en un espacio de dimensión reducida. k (desigualdad triangular): Si sólo se cumplen las dos primeras condiciones. j: (i. i) = 0 para todo i: 2. i) 3. j. : : : . ng: Sea ij = (i. Introducción Representar un conjunto …nito cuando disponemos de una distancia entre los elementos del conjunto. j de : Se habla de distancia (métrica) cuando se cumplen las tres condiciones: 1. ! 2 . cuyas distancias euclídeas se aproximen lo mejor posible a las distancias originales. :::. j) = (j.Capítulo 8 ESCALADO MULTIDIMENSIONAL (MDS) 8. k) + (j. k) para todo i. que abreviadamente indicaremos = f1. j) es una disimilaridad. ! n g un conjunto …nito con n elementos diferentes. 137 . Sea = f! 1 . diremos que (i. j) una distancia o disimilaridad entre los elementos i. (i. j) 0 para todo i. j) ii = 0: nn De…nición 8. xn 2 Rp . C C .1. A xn1 xn2 xnp El objetivo del escalado multidimensional es encontrar la X más adecuada a partir de la matriz de distancias . . . ESCALADO MULTIDIMENSIONAL (MDS) Consideremos entonces la matriz de distancias (o disimilaridades) 0 1 11 B 21 B = B . @ .138 CAPÍTULO 8. .1 Diremos que = ( ij ) es una matriz de distancias euclídeas si existen n puntos x1 . xip ). 12 1n 22 2n . que representan los elementos 1. : : : . . Si la distancia es euclídea entonces de (8.1) 2 ij = x0i xi + x0j xj La matriz de productos internos asociada a G = XX0 : 2x0i xj : es .. i = 1. : : : . n2 ij = ji = (i. ¿Cuándo una distancia es euclídea? Sea (2) = ( 2ij ) la matriz de cuadrados de las distancias. @ . . xn . tales que 2 ij = p X (xi xj )2 = (xi xj )0 (xi xj ) (8. : : : . en forma de matriz 0 1 x11 x12 x1p B x21 x22 x2n C B C X = B . n1 . n de . : : : . C .. .1) =1 Indicaremos las coordenadas de los puntos x1 . n. A .. . C : ..2... : : : . 8.. siendo x0i = (xi1 . es decir.2) donde g =(g11 . donde ai: es la media de la columna i de A.8. Demost.: La relación entre B = (bij ) y A = (aij ) es bij = aij ai a:j + a .ésima de Y: Aplicando (8. . gnn )0 contiene los elementos de la diagonal de G: Sea H la matriz de centrado (Capítulo 1) y consideremos las matrices A = 12 (2) = 1 2 ( ) y B = HAH: 2 ij Teorema 8. : : : . Entonces G = XX0 . Supongamos ahora que B 0: Entonces B = YY0 para alguna matriz Y de orden n p. a:j es la media de la …la j y a:: es la media de los n2 elementos de A: Entonces bii = ai ai +a . dado que H1 = 0 y 10 H = 00 . los valores propios de B son no negativos. bij = yi0 yj .2.3) tenemos 2 ij = yi0 yi + yj0 yj que demuestra que 2yi0 yj = (yi yj )0 (yi es matriz de distancias euclídeas. 139 (2) =( 2 ij ) con G (8. donde yi0 es la …la i. lo que prueba que B es semide…nida positiva. bjj = aj aj +a . ¿CUÁNDO UNA DISTANCIA ES EUCLÍDEA? Los elementos de G = (gij ) son gij = x0i xj : Relacionando vemos que (2) = 1g0 + g10 2G. y por lo tanto 2 ij = bii + bjj 2bij = aii + ajj (8. es decir.1 La matriz de distancias = ( ij ) es euclídea si y sólo si B 0. tenemos que 0 B = HAH = HGH = HXX0 H = X X 0. yj ).2) resulta que Supongamos que A= (1g0 + g10 )=2 + G: Multiplicando ambos lados de A por H.3) 2aij : es euclídea.2. De (8. se toman las m < p primeras coordenadas principales a …n de representar : Por ejemplo.. . y por lo tanto p+1 = 0 es también valor propio de B de vector propio el vector 1 de unos: Entonces es evidente que la matriz n p X = U 1=2 (8. Las coordenadas del elemento i 2 son x0i = (xi1 . .5) también veri…ca B = XX0 .140 8.3. La solución por coordenadas principales goza de importantes propiedades. donde U es una matriz n p de vectores propios ortonormales de B y es matriz diagonal que contiene los valores propios ordenados (8.1 La solución por coordenadas principales es la matriz de coordenadas (8. . : : : .3.4) 1 p > p+1 = 0 Obsérvese que B1 = 0. ESCALADO MULTIDIMENSIONAL (MDS) El análisis de coordenadas principales Hemos visto que si B 0. . tal que sus columnas X1 . Xp . las dos primeras coordenadas de X proporcionan una representación a lo largo de los ejes X1 y X2 : X1 X2 1 x11 x12 2 x21 x22 . De…nición 8. donde xi es la …la i-ésima de X: Reciben el nombre de coordenadas principales y cumplen (8. xip ).1). n xn1 xn2 .4). En las aplicaciones prácticas. : : : .5). si m = 2. CAPÍTULO 8.. que interpretaremos como variables. cualquier matriz Y tal que B = YY0 proporciona unas coordenadas cartesianas compatibles con la matriz de distancias : Sea B = U U0 la descomposición espectral de B.. son vectores propios de B de valores propios (8. . : : : .: Como las medias son nulas. k 6= k 0 = 1. Tenemos que B = XX0 = ZZ0 : La matriz de covarianzas de Z es 1 S = Z0 Z = TDT0 . por lo tanto X k = n1 (10 Xk ) = 0: 2.8. Las variables Xk son componentes principales de cualquier matriz de datos Z tal que las distancias euclídeas entre sus …las concuerden con : Demost. Demost. ZZ0 Z = nZTDT.: La varianza es n1 Xk0 Xk = k = 1. n donde D es diagonal y T es la matriz ortogonal de la transformación en componentes principales. 4. Xk0 ) = 0.0 BZT = ZTnD.: 1 es vector propio de B ortogonal a cada Xk . . pues los vectores propios de B son ortogonales.3. Las variables Xk (columnas de X) tienen media 0: X1 = = Xp = 0 Demost. Las variables están incorrelacionadas cor(Xk . Xk0 ) = n1 Xk0 Xk0 = 0. Entonces: Z0 Z = nTDT0 . p 1 n k: 3. : : : . p: Demost. la covarianza es cov(Xk . EL ANÁLISIS DE COORDENADAS PRINCIPALES 141 Propiedades: 1. Las varianzas son proporcionales a los valores propios s2k = 1 n k.: Supongamos Z matriz de datos centrada. La variabilidad geométrica en dimensión m es máxima cuando tomamos las m primeras coordenadas principales.6) k: 6. véase (5.j=1 2 ij (m) n m 1 XX = 2 (xik 2n i. Si en particular tenemos las coordenadas principales.: 5.j=1 k=1 1X xjk ) = n k=1 m 2 k es máximo. :::. lo que implica X = ZT: En consecuencia la matriz de coordenadas principales X coincide con la transformación por componentes principales de la matriz Z. por lo tanto V (X) = p X s2k : k=1 Hemos demostrado que para cualquier matriz X tal que B = XX0 . sus varianzas son respectivamente máximas. Es decir. El porcentaje de variabilidad explicada por los m primeros ejes principales es la proporción de variabilidad geométrica Pm V (X)m k Pm = 100 = 100 Ppk=1 : V (X) k=1 k .1).j=1 p 2 ij 1X = n k=1 (8. ESCALADO MULTIDIMENSIONAL (MDS) y por lo tanto ZT es matriz de vectores propios de B con valores propios los elementos diagonales de nD.j=1 x2i + ni.j=1 x2j 2 ni.: Sea x1 . n 1 X V (X)m = 2 2n i.j=1 xi xj ) i. Se veri…ca P P Pn P 1 xj )2 = 2n1 2 ( ni. y puesto que las columnas son componentes principales. Demost. La variabilidad geométrica de es n 1 X V (X) = 2 2n i. la suma de las varianzas de las columnas de X es igual a la variabilidad geométrica. xn una muestra con media x = 0 y varianza s2 . esta suma de varianzas es la suma de los valores propios dividida por n.142 CAPÍTULO 8.j=1 (xi 2n2 P P P P = 2n1 2 (n ni=1 x2i + n nj=1 x2j 2 ni=1 xi nij=1 xj ) = s2 . 2 = 10. especialmente en Biología y Psicología. si tomamos las m primeras coordenadas principales Xm . entonces estamos aproximando B por B = Xm X0m . 4.4. Véase (1. 2. Ejemplo. i) s(i. SIMILARIDADES 143 La representación es óptima. en lugar de una distancia.6). pues al ser B = XX0 . en el sentido que tr(B B ) =mínimo. i) 0: . 5g y la matriz de distancias (al cuadrado): 1 2 3 4 5 1 0 226 104 34 101 2 0 26 104 29 0 26 9 3 4 0 41 0 5 Los valores propios de B son 1 = 130. X2 de: X1 X2 1 1 8 1 1 7 0 1 2 2 1 1 3 4 3 2 1 5 2 2 1 130 10 0 x 0 0 1 2 s 26 2 0 8. j) = s(j.4. Las coordenadas principales son las columnas X1 . Consideremos = f1. Similaridades En ciertas aplicaciones.8. 3 = 4 = 5 = 0: Por lo tanto es matriz de distancias euclídeas y se puede representar en un espacio de dimensión 2. lo que se mide es el grado de similaridad entre cada par de individuos. 3. Una similaridad s sobre un conjunto …nito es una aplicación de en R tal que: s(i. Un coe…ciente de similaridad debería ser función de a. b. (0.. la distancia dij es euclídea. 2. (1. . donde cada Xi toma los valores 0 ó 1. .0). d las frecuencias de (1.8) (d2ij )=2 es 1 (Sf + S0f 2S). Si S es matriz (semi)de…nida positiva. y como HSf = S0f H = 0. Las coordenadas principales se obtienen diagonalizando HSH: . X2 . c. . Para cada par de individuos (i.144 CAPÍTULO 8. . 2 donde Sf tiene todas sus …las iguales.7) a sij = (Jaccard) a+b+c que veri…can: sii = 1 sij = sji 0. A . resulta que A= B = HAH = HSH: Por lo tanto: 1.. j): Supongamos que tenemos p variables binarias X1 . j) consideremos la tabla j 1 0 i 1 a b 0 c d donde a. sn1 sn2 ::: snn donde sij = s(i.1). . b.. :::Xp . con p = a + b + c + d. ESCALADO MULTIDIMENSIONAL (MDS) La matriz de similaridades entre los elementos de es 0 1 s11 s12 ::: s1n B s21 s22 ::: s2n C B C S = B . Podemos transformar una similaridad en distancia aplicando la fórmula d2ij = sii + sjj Entonces la matriz A = 2sij : (8. c. .0). rango(HSH) = rango(S) 1: 3. d: Son conocidos los coe…cientes de similaridad: sij = a+d p (Sokal-Michener) (8. C @ . respectivamente.1) y (0. una propiedad asociada a podemos escribir (i1 . es evidente que bij tiene la misma preordenación (8. jm ). donde ' es una función positiva creciente. tendremos la .9). pero conservando las relaciones de proximidad entre los elementos del conjunto : De…nición 8.5. es . es decir. NOCIONES DE MDS NO MÉTRICO 8. y por lo tanto. Si transformamos la distancia ij en bij = '( ij ).2. individuos próximos (alejados) según ij estarán también próximos (alejados) con respecto a b ij : Si además b ij es euclídea. Por ejemplo. j 0 ) si ij i0 j 0 : Se trata de representar en un espacio que conserve la preordenación.5. 2 ó 3 dimensiones (Figura 8. j) (i0 . de hecho. si consideramos las tres matrices de distancias sobre {A.1 La preordenación asociada a la matriz de distancias la ordenación de las m = n(n 1)=2 distancias: i1 j1 (8.D}: A B C A 0 1 2 B 0 1 0 C D D A B 3 0 1 2 0 1 0 C 1 1 0 D A B 1 0 1 1 0 0 0 C 1 1 0 D 1 1 1 0 las preordenaciones se pueden representar en 1. . j2 ) (ik . donde (i.8. Entonces la matriz B (Teorema 8.C. respectivamente. j1 ) (i2 .5.9) im jm : i2 j2 La preordenación es.1) tiene valores propios negativos: p 1 >0> p0 : p+1 El fundamento del MDS no métrico es transformar las distancias ij para convertirlas en euclídeas.B. 145 Nociones de MDS no métrico Supongamos que la matriz de distancias es no euclídea.1). jk ) 2 (im . 1) veri…can A.146 CAPÍTULO 8. Probemos ahora que la primera puede dar lugar a una distancia euclídea. Es evidente que las dos transformaciones aditiva y q-aditiva conservan la preordenación de la distancia. La transformación aditiva se de…ne como bij = + c si i 6= j 0 si i = j ij donde c > 0 es una constante. y se obtiene por regresión monótona. Las matrices b B b (ver Teorema 8.5. pero conservando (aproximadamente) la preordenación.1: Representación de 4 objetos conservando las preordenaciones relacionadas a tres matrices de distancias. ESCALADO MULTIDIMENSIONAL (MDS) Figura 8. B .2.5. Hay dos casos especialmente simples.2 La transformación q-aditiva de b2 = ij 2 ij 0 ij se de…ne como 2a si i 6= j si i = j donde a < 0 es una constante.1 Sea una matriz de distancias no euclídeas y sea p0 < 0 el menor valor propio de B: Entonces la transformación q-aditiva proporciona una distancia euclídea para todo a tal que a p0 : Demost. B y A. En general. aplicando. Teorema 8. la función ' no es lineal. un análisis de coordenadas principales sobre la distancia transformada. De…nición 8. b A a(I A= b = B aH: J). posibilidad de representar . por ejemplo.: Sea b = (bij ) la matriz de distancias transformadas. donde ' es una función monótona creciente. y representar los n objetos a partir de las coordenadas de la con…guración. Las disparidades conservan la preordenación de las distancias. De acuerdo con este criterio. los programas de MDS operan con transformaciones no lineales. Asociar a las distancias dij una con…guración euclídea p-dimensional. el método de Kruskal consiste en: 1. . pero se expresa en forma de porcentaje. NOCIONES DE MDS NO MÉTRICO 147 Sea v vector propio de B de valor propio 6= 0: Entonces Hv = v y por lo tanto b = (B aH)v = ( Bv a)v: b tiene los mismos vectores propios que B.5. pero los valores propios son Así B 1 a p a>0> p+1 a p0 a. que veri…ca 0 S 1. La mejor transformación q-aditiva es la que menos distorsiona la distancia original. b que son no negativos si a p0 . Fijar una dimensión euclídea p: 2. siguiendo criterios de minimización de una función que mide la discrepancia entre la distancia original y la transformada. Ajustar una distancia euclídea dij a las disparidades bij de manera que minimice X (dij bij )2 : i<j 4.8. Para saber si la representación obtenida re‡eja bien las distancias entre los objetos. Por ejemplo. en cuyo caso B es semide…nida positiva. La representación es considerada buena si S no supera el 5 %. (8. el mejor valor para la constante es a = p0 : Las transformaciones aditiva y no lineal son más complicadas y no las incluimos en este texto. se calcula la cantidad v uP bij )2 u i<j (dij P . De hecho. 3. Transformar la distancia ij en la “disparidad” bij = '( ij ).10) S=t 2 i<j dij denominada “stress”. 8. y) = p X i=1 2. la representación es buena. y) = . Distancia euclídea: jxi v u p uX d2 (x.148 CAPÍTULO 8.4).6. x2 . porque entonces se puede decir que conserva bien la preordenación (Figura 8. Distancias estadísticas En esta sección discutiremos algunos modelos de distancias estadísticas.1. la distancia normalizada por el rango Ri de la variable i p 1 X jxi yi j dG (x. p i=1 Ri . 8. xp ). Distancia “ciudad”: d1 (x. Distancia “dominante”: d1 (x. y2 . dij ): Si los puntos dibujan una curva creciente. : : : . que consiste en representar los n(n 1)=2 puntos ( ij . : : : .6. y) = . y = (y1 . yp ) dos puntos de Rp : La distancia de Minkowsky se de…ne como !1=q p X jxi yi jq dq (x. Variables cuantitativas Siendo x = (x1 . ESCALADO MULTIDIMENSIONAL (MDS) También es conveniente obtener el diagrama de Sheppard. i=1 Casos particulares de la distancia dq son: 1. y) = max fjxi 1 i p yi jg Tienen también interés en las aplicaciones. y) = t (xi yi j yi )2 i=1 3. 2 : Cuando 1 = 2 = . Además. Supongamos ahora dos poblaciones 1 . cuando los valores de las variables son positivos.6. DISTANCIAS ESTADÍSTICAS 149 y. 2) =( 0 2) 1 1 ( 1 2) Esta distancia. respectivamente.4) y aplicar (8. se veri…ca: a) Mp Mp+q : 2 = Mp2 +Mq2 si los dos grupos de p y q variables son independientes. y) = : p i=1 xi + yi dG y dC son invariantes por cambios de escala.8) para obtener una distancia. la distancia de Mahalanobis entre poblaciones es M 2( 1. d: Por ejemplo: sij = a a + 2(b + c) (Sokal-Sneath) 2a sij = (Dice) (a + b)(a + c) (8. 1 0 1 2) [ ( 2 1 + 2 )] 1 ( 1 2 ): Variables binarias Cuando todas las variables son binarias (toman solamente los valores 0 y 1). es invariante por cambios de escala y tiene en cuenta la correlación entre las variables.8.11) Las similaridades de…nidas en (8. 2 con vectores de medias 1 . entonces conviene de…nir un coe…ciente de similaridad (Sección 8. c.11) proporcionan distancias euclídeas. .7) y (8.6.2. si Mp . p + q variables. b. q. la métrica de Canberra p 1 X jxi yi j dC (x. b) Mp+q No resulta fácil dar una de…nición de distancia cuando 1 6= 2 : Una de…nición de compromiso es ( 8. ya introducida previamente. 2 y matrices de covarianzas 1 . Existen muchas maneras de de…nir una similaridad sij en función del peso que se quiera dar a los a. Mq y Mp+q indican las distancias basada en p. pj ) y p p ( q1 . q) = arc cos( ki=1 pi qi ): da (p. : : : . Si tenemos dos poblaciones representadas por p = (p1 . una distancia (al cuadrado) entre i. qk ) sobre una hiperesfera de radio unidad y hallando la distancia geodésica. 2. pk ). j)2 es una distancia tipo Mahalanobis. j tienen las categorías Ah . Entre individuos. donde es el número de coincidencias. ESCALADO MULTIDIMENSIONAL (MDS) 8.150 CAPÍTULO 8. Las g-inversas (Sección 1. : : : . ph 1 + ph01 si h 6= h0 : Teniendo en cuenta la g-inversa Cp =diag(p1 1 . donde Pk p h=1 h = 1: Podemos de…nir distancias entre individuos y entre poblaciones. dos distancias entre poblaciones son: Pk qi )2 =(pi + qi ). P p db (p. Véase la distancia de Rao. y se justi…ca considerando p y q como los vectores de medias entre dos poblaciones multinomiales con n = 1 (Sección 2. respectivamente. qk 1 ): Aplicando la distancia de Mahalanobis tomando el promedio de ambas matrices g-inversas se obtiene da (p. j es: d(i. Cq = diag(q1 1 . : : : . .6. pk 1 ). q = (q1 . con un total de K categorías o estados. con probabilidades p = (p1 . q): p p La distancia db (p. Ah0 . pk 1 ) de la matriz de covarianzas. Si dos individuos i. q) se justi…ca situando los puntos ( p1 .10) de las matrices de covarianzas son Cp = diag(p1 1 . : : : . Ak . : : : . : : : . Variables categóricas Supongamos que las observaciones pueden ser clasi…cadas en k categorías excluyentes A1 . q) = 2 i=1 (pi La primera es la distancia de Bhattachariyya. Si hay varios conjuntos de variables categóricas. pk ). j)2 = 0 si h = h0 . : : : . Entre poblaciones.3.7). una similaridad es =K (“matching coe¢ cient”). qk ). 1. es fácil ver que d(i. : : : . : : : . en función de los datos y el problema experimental. respectivamente: P1 jxh yh j=Rh si p2 = p3 = 0.6.5. al coe…ciente de Jaccard o al “matching coe¢ cient”. sij reduce la similaridad normalizada por el rango.8) se obtiene una distancia euclídea que además admite la posibilidad de datos faltantes. Si solamente hay variables dicotómicas o variables categóricas.6. : : : . si p1 = p2 = 0: Este coe…ciente veri…ca 0 sij 1.4. p2 variables dicotómicas (dos estados: presente. DISTANCIAS ESTADÍSTICAS 8. (8. 151 Variables mixtas En las aplicaciones a menudo los datos provienen de las observaciones de p1 variables cuantitativas. Veamos dos. a y d son el número de dobles presencias y dobles ausencias de las variables dicotómicas. ausente) y p3 variables categóricas o cualitativas (más de dos estados).8.12) sij = h=1 p1 + (p2 d) + p3 donde Rh es el rango de la variable cuantitativa Xh . Sea pij la proporción de individuos de la población que pre…eren ! j sobre ! i : Un modelo es Z j i 1 2 pij = p e t =2 dt: 2 1 . donde los i son parámetros. 1971) es Pp1 (1 jxih xjh j=Rh ) + a + . ! n (por ejemplo. y es el número de coincidencias entre las variables categóricas. n productos comerciales) ! i1 ! in según una escala de preferencias i1 in . 1 p11 ph=1 a=(a + b + c) =p3 si p1 = p3 = 0.6. 8. y aplicando (8. Un coe…ciente de similaridad (propuesto por Gower. Modelo de Thurstone Supongamos que queremos ordenar n estímulos ! 1 . Otras distancias Existen muchos procedimientos para de…nir distancias. Distancia de Rao Sea S = ff (x. c) pij > 0:5 implica i < j: i < j: La estimación de los parámetros a partir de las proporciones pij es complicada. b) = 2 p x x a =x!.152 CAPÍTULO 8. teniendo en cuenta que pij + pji = 1 podemos de…nir la distancia entre estímulos d(! i . ! j )): La representación de los estímulos a lo largo de la primera dimensión nos proporciona una solución a la ordenación de los estímulos. Una distancia tipo Mahalanobis sería el valor esperado de (z( a) z( b ))0 F ( ) 1 (z( a) z( b )): Pero z depende de x y varía entre a . Distribución de Poisson: f (x. ). ) = e tancia entre dos valores a . 2. b es: ( a. entonces Así: a) pij < 0:5 implica i > j. 1. Sean a . : : : : La disp b : . ESCALADO MULTIDIMENSIONAL (MDS) Si más de la mitad de los individuos pre…eren ! j sobre ! i . ! j ) = jpij 0:5j y aplicar un MDS sobre la matriz (d(! i . b dos valores de los parámetros. 2 g un modelo estadístico y z( ) = @@ log f (x. x = 0. b) pij = 0:5 implica i = j. La matriz de información de Fisher F ( ) es la matriz de covarianzas de los z 0 s. ) un vector columna. Alternativamente. 1. generaliza la distancia de Mahalanobis y tiene aplicaciones en estadística matemática. b es la distancia geodésica entre los puntos correspondientes de S : La distancia de Rao es invariante por transformaciones de las variables y de los parámetros. Veamos tres ejemplos. b : Consideremos entonces a F ( ) como un tensor métrico sobre la variedad diferenciable S : La distancia de Rao entre a . 8. z2 ( ))0 F ( ) 1 (z1 ( ) z2 ( )): Ejemplos Ejemplo 8.E y una vez examinadas. EJEMPLOS 153 2. qk ) es: k X p pi qi ): (p.7). pk ) y q = (q1 . 2. Distribución normal. La distancia entre p = (p1 . : : : . obtenemos la matriz de similariC 1/2 1/3 1 D 0 0 1/2 1 E 0 1/2 0 0 1 . como (z1 ( ) 8. i = 1.C. q) = arc cos( i=1 3. Si vectores de medias es: 2 ( 1.B.7. x2 que dan zi ( ) = @@ log f (xi . comprobó que estaban hechas de piedra.7. bronce y hierro. ). para un valor …jo de . es …ja. conforme a la siguiente matriz de incidencias: Piedra Bronce Hierro A 0 1 0 B 1 1 0 C 0 1 1 D 0 0 1 E 1 0 0 Utilizando la similaridad de Jaccard dades: A B A 1 1/2 B 1 C D E (8. Un arqueólogo encontró 5 herramientas cortantes A.1 Herramientas prehistóricas.7. podemos de…nir la distancia entre dos observaciones x1 . Distribución multinomial.D. la distancia (al cuadrado) entre dos 2) =( 1 0 2) 1 ( 1 2 ): Finalmente. : : : . acum. qk ): Si hay r cromosomas. Por ejemplo. Se aprecia una ordenación temporal.2 Drosophila. Los resultados del análisis de coordenadas principales son: A B C D E valor propio porc. Ejemplo 8.2: Representación mediante análisis de coordenadas principales de 5 herramientas prehistóricas. si existen k ordenaciones cromosómicas que se presentan en las proporciones (p1 . una distancia adecuada es 1 X jpi 2r i=1 k qi j: . 0:0000 0:4822 0:4822 0:6691 0:6691 1:360 44:36 0:6841 0:1787 0:1787 0:5207 0:5207 1:074 79:39 0:3446 0:2968 0:2968 0:1245 0:1245 0:3258 90:01 La representación (Figura 8. : : : .2) explica el 80 % de la variabilidad geométrica. pk ). (q1 . Una distancia genética es una medida que cuanti…ca las proximidades entre dos poblaciones a partir de las proporciones génicas. ESCALADO MULTIDIMENSIONAL (MDS) Figura 8.154 CAPÍTULO 8. : : : . Las herramientas quedan ordenadas según su antigüedad: E es la más antigua (sólo contiene piedra) y D la más moderna (sólo contiene hierro).7. 470.152.489.545.792.551.761. Fruska-Gora.7.790.303.782.577.460.276 0 .648.269.574.408.846. Fontaineblau.668.490.548.414.931.445. Aplicando un MDS no métrico.680. 8. Foresta.529.404.580.782.764. Fornia.573.1 contiene la s distancias entre n = 19 poblaciones de Drosophila Suboscura que provienen de: Droback.760 0 .112.661.587.604.879.363.452 0 .195 0 .630.763.128 0 .519.696 0 .340 0 .370. Silifke.489.782. indicando una buena preordenación.500.699.873.235.485.695.681.451.259 0 .434. Thessaloniki. Huelva.610.631.396.271.760. Trabzon. Dalkeith. Viena. con un “stress” de 2.438 0 .501.428.177 0 .540.657.439.253.710.581.498.846. Suboscura.780.666.321 0 . EJEMPLOS droba dalke groni fonta viena zuric huelva barce forni fores etna fruskF thess silif trabz chalu orange agadi lasme 155 Dro Dal Gro Fon Vie Zur HueBar For For Etn Fru The Sil Tra ChaOra AgaLas 0 .544.568.465.606.941.927.792.524. que indica que la representación es buena.418.505.342.802.399.609.357.817.514.751.867. Chalus.693.947.502.84.659.818.574. Prevosti.566.412.584.485.864.635.615.649.430 0 Tabla 8.813. se obtiene la representación de las 19 poblaciones (Fig. Groningen.391. . Agadir y Las Mercedes.844.560.607.442.582.549.414.615.150 0 .709. Esta distancia genética fue propuesta por A.380.667.749.392.698.531.120.696.307 0 .260.187.643.657.803.3). Orangerie.789.342. Zurich. La Fig.623 0 .413.460.300.444.315 0 .636.373.535.329.1: Distancias genéticas respecto a las ordenaciones cromosómicas entre 19 poblaciones de D. Etna.834.801.514.592.795.8.595.646.429.587.837.675.519.309 0 .619. La Tabla 8.733.225.286 0 .469. Barcelona.4 representa las distancias versus las disparidades.590. 8.642. 3: Representación MDS de 19 poblaciones de D. ESCALADO MULTIDIMENSIONAL (MDS) Figura 8. . Figura 8.4: Representación de las distancias genéticas vs las disparidades. Subobscura respecto a las distancias genéticas entre ordenaciones cromosómicas.156 CAPÍTULO 8. Estrecho.2 1 1 .5 6 3 .3 3 3 .3 4 3 .9 2 2 .6 0 2 .4 0 8 7 8 6 8 9 8 6 8 7 8 1 8 6 6 4 8 5 8 2 8 6 8 6 8 4 6 3 8 7 8 6 7 2 0 3 .4 1 3 .7 4 3 .9 4 2 .4 1 2 . Hueco.1 0 3 .0 2 8 4 8 0 8 9 8 9 8 8 8 7 8 5 8 5 7 4 7 9 7 5 8 7 0 3 . Pesado.5 1 2 .7 2 2 .4 1 8 3 8 0 8 0 6 4 8 0 9 0 9 0 8 9 8 3 0 2 .4 0 2 . Elevado.3 8 3 .8.6 2 1 .2 6 2 .4 1 3 .4 8 8 9 8 9 8 9 8 7 8 9 6 6 6 3 0 2 .4 6 3 .3 5 3 .2 0 3 .8 3 3 .3 4 2 9 7 6 4 2 0 1 .6 8 3 .1 2 2 .1 5 2 . Alto.9 4 3 .0 3 2 .3 2 2 .3 6 3 .4 5 2 .3 2 8 2 7 4 7 7 7 8 7 9 9 0 8 9 8 8 8 5 5 3 8 6 5 8 8 2 8 4 0 0 .7 2 3 .0 2 3 .2 7 2 .4 7 8 0 8 4 8 8 8 9 8 7 8 5 8 3 8 7 0 3 .4 4 3 .3 1 8 7 8 8 8 4 8 6 8 2 3 7 4 9 6 2 7 7 8 7 7 8 8 8 8 3 8 0 8 9 8 9 0 2 .4 3 1 .3 8 3 .0 1 3 .2 5 2 .2 7 6 0 0 1 .2 8 3 .3 6 2 .7 1 3 .3 7 0 . Voluminoso.1 1 3 .2: Distancias entre 23 adjetivos del idioma castellano. Se indica en la mitad superior derecha de la tabla.4 1 2 . Ejemplo 8.6 1 2 .0 5 2 . j.4 8 3 .1 4 3 .8 7 3 .6 1 2 .3 5 3 .3 6 3 .9 1 8 1 7 4 8 2 8 1 8 4 8 9 9 0 8 9 8 5 5 4 8 5 6 3 8 1 8 3 2 3 0 1 .6 2 3 .8 2 3 .2 3 3 . Menudo.4 3 3 .4 6 3 .4 8 9 0 9 0 9 0 8 9 9 0 8 8 8 8 7 5 8 7 8 9 8 9 8 9 8 8 8 4 9 0 9 0 8 5 5 8 8 9 9 0 5 6 0 3 .0 7 3 .2 0 3 .2 proporciona las distancias entre 23 adjetivos del castellano: Bajo. Angosto.4 8 3 .2 6 3 .5 0 3 .2 5 3 .7 2 3 .2 4 3 .5 6 3 .4 3 8 2 8 3 8 8 8 9 8 8 9 0 9 0 8 8 8 7 8 5 8 4 8 7 8 5 8 6 8 4 8 4 8 8 8 7 6 6 0 3 .9 6 2 .5 7 2 .9 7 3 .2 7 3 .3 2 3 .4 3 3 .6 7 3 .7 6 3 .3 1 3 .9 7 1 .6 5 3 .5 4 3 . Inmenso. Fino.0 8 3 .8 5 2 . Diminuto.3 8 2 .3 6 3 . Largo.0 4 0 .9 8 3 .9 6 3 .3 7 2 .0 0 3 .7 1 3 .3 1 3 .8 3 3 .7 0 2 .5 5 3 .9 3 7 4 7 0 0 1 .5 2 3 .8 3 3 .5 0 3 .5 1 86 87 83 69 83 90 90 90 89 72 89 71 90 90 83 80 90 89 90 87 84 81 0 Tabla 8.9 4 2 . Pequeño.4 1 0 .2 7 3 .3 8 3 .4 6 3 .3 4 3 .5 3 2 .5 1 2 .9 3 3 .0 2 3 .2 5 9 0 9 0 8 7 8 9 8 7 0 0 .4 6 3 .3 8 3 .5 3 1 .3 4 3 .1 0 3 .9 7 1 .1 8 3 .4 7 3 .3 7 2 .2 4 2 .2 3 3 .5 4 3 .3 Adjetivos.7 1 3 .8 6 3 .4 7 3 .5 2 1 .4 3 9 0 9 0 8 8 9 0 8 8 2 2 0 1 .2 4 1 .2 6 3 . Grande.6 4 3 . EJEMPLOS B a jo C o rto D im inu to M e nu d o Pequeñccxxxxo E n o rm e In m e n so Vo lu m in o so A lto D e lg a d o E le va d o F in o L a rg o A n ch o A n g o sto E stre ch o G ra n d e G ru e so P ro fu n d o H ueco D e n so P e sa d o L ig e ro 157 B a j C o r D im M e n P e q E n o In m Vo u A lt D e g E le F in L a r A n c A n g E st G ra G ru P ro H u e D e n P e s L ig 0 2 .2 2 2 .5 3 3 .4 4 3 . b) Los 90 individuos agrupaban los adjetivos en grupos.4 8 3 .4 0 1 .4 2 1 .9 5 1 .5 7 3 .2 7 8 4 8 1 7 4 5 3 7 5 9 0 9 0 8 9 8 3 2 1 8 6 0 2 .8 4 89 89 89 87 89 87 86 77 88 87 89 88 87 82 89 88 85 7 2 7 9 8 7 0 3 .1 8 3 .3 3 3 .4 7 8 2 8 6 8 9 8 8 8 9 8 6 8 6 8 3 8 7 8 8 8 6 8 9 8 7 8 5 8 5 8 6 8 7 8 5 0 2 .4 3 2 . j estaban en el mismo grupo y la distancia es 90 sij : Se indica en la mitad inferior izquierda de la tabla.8 8 3 .7.3 3 3 .3 0 1 .4 1 3 .6 3 3 .4 6 1 .3 7 1 .6 2 3 .7 7 3 .0 4 3 .2 8 2 .2 4 3 .7 3 3 .8 0 2 . Ancho.2 3 3 . Ligero.4 2 2 .3 1 3 .4 7 1 .9 1 3 .1 4 3 .5 5 2 .4 6 3 .3 8 3 .1 8 2 . Denso.3 2 3 .9 6 3 .3 8 2 .2 3 3 .4 8 1 .4 1 8 5 8 3 8 9 8 9 8 8 8 6 8 4 7 6 8 2 8 3 8 4 8 7 7 3 0 3 .3 7 3 .8 7 3 .7 2 3 . Las distancias se obtienen de dos maneras: a) Cada distancia dij es la media sobre 90 individuos que puntuaron la disimilaridad entre cada par de adjetivos i.3 6 3 .5 8 3 .5 6 3 .1 3 3 . Los pasos del método son: . Cada similaridad sij es el número de veces que los adjetivos i.4 4 2 .8 1 3 . Delgado.7.3 4 3 . Grueso.3 0 2 .3 5 3 .2 3 3 .3 5 3 .2 0 2 .1 5 2 .6 0 2 .1 7 2 .1 3 3 .0 8 2 .4 6 3 .4 7 8 4 8 7 8 8 8 9 8 8 8 4 8 4 8 6 1 7 8 5 0 3 .8 5 7 0 6 2 1 6 3 9 0 3 .2 5 2 .3 0 3 .1 0 0 .8 0 2 .4 5 3 .7 2 3 .3 5 3 .9 8 3 . Enorme.5 0 3 .4 4 2 .1 4 2 .2 3 3 .6 0 2 . desde 0 (muy parecido) hasta 4 (totalmente diferente).9 0 2 . Aplicamos MDS no métrico sobre la matriz de distancias (mitad superior) con el …n de encontrar las dimensiones semánticas que ordenen los adjetivos.4 1 3 .4 0 2 .4 3 3 .8 2 3 .3 5 3 .6 4 3 .8 0 3 .8 5 2 . Corto. Profundo.5 6 2 . La Tabla 8.7 6 2 .3 6 3 .3 4 3 .4 4 2 .2 6 3 .6 3 3 .3 2 3 .0 6 1 .2 4 3 .0 1 3 .2 1 3 .6 0 3 .2 4 3 .3 2 1 .9 4 2 .4 8 1 .3 7 3 .8 2 3 .4 2 3 .4 3 2 .5 6 3 .4 0 2 .5 1 3 . La distancia original monótona. en el sentido de que minimiza el “stress”. Bajo-Corto !Alto-Largo. ij se ajusta a una disparidad dbij por regresión 2.10).5: Representación MDS de 23 adjetivos teniendo en cuenta sus diferencias semánticas. Hueco (constituye un adjetivo diferenciado). La con…guración en 2 dimensiones (Figura 8. para visualizar las relaciones de monotonía. se aproxima dbij a una distancia euclídea dij : 3. 3. Ligero !Pesado. 5. 1. 4.5) es la mejor aproximación en dimensión 2 a las distancias originales (con transformación monótona). Delgado !Grueso. En este caso el “stress”es del 19 %.158 CAPÍTULO 8. 2. Se aprecian diversos gradientes de valoración de los adjetivos: 1. Diminuto !Enorme. Se calcula la medida de “stress”(8. . 4. ESCALADO MULTIDIMENSIONAL (MDS) Figura 8. Se representan las n(n 1)=2 distancias dij vs las dbij . Fijada una dimensión. A nivel aplicado. consúltese Baillo y Grané (2008).8. Complementos En un plano teórico. que se representan separadamente.6: Relación entre las distancias originales y las disparidades. La transformación q-aditiva fue estudiada por J. el MDS comienza con el teorema de I. hasta que Cailliez (1983) encontró la solución de…- . COMPLEMENTOS 159 Figura 8. es de destacar a W. indicando que se conserva bien la preordenación de las distancias. que en 1957 aplica el MDS a la psicología. y Gower (1966). que en 1964 propuso algoritmos efectivos que permitían encontrar soluciones. Mardia. Kruskal. Para otros ejemplos. que en 1962 introdujo el concepto de preordenación.6. La representación en el estudio original (Manzano y Costermans. abriendo un fructífero campo de aplicación en la biología. S. J. 1976) considera 6 dimensiones. El MDS no métrico es debido a R.5. pero la interpretación no es diferente. y J.8. la preordenación de las distancias queda bastante bien preservada. 8. que prueba su relación con el Análisis de Componentes Principales y el Canónico de Poblaciones. Para esta representación se obtiene el grá…co de la Figura 8. con un stress del 5 %. N.8. Torgerson. Como indica la Figura 8. Shepard. V. B. C. Diversos autores estudiaron la transformación aditiva. Schoenberg acerca de la posibilidad de construir las coordenadas de un conjunto de puntos dadas sus distancias. Lingoes y K. permite encontrar las coordenadas principales de una variable aleatoria. Cuadras y Lahlou (2000). es el INDSCAL. Existen diferentes modelos para tratar el problema de la representación cuando actúan diferentes matrices de distancias. Posteriormente Amari. Rao propusieron sus distancias en 1936 y 1945. . Dawid.160 CAPÍTULO 8. Cuadras (1988). C. Este modelo de regresión basado en distancias permite plantear la regresión con variables mixtas. D. se puede hacer también regresión de una variable dependiente Y sobre las dimensiones principales obtenidas aplicando MDS sobre una matriz de distancias entre las observaciones.1995). Burbea. Mitchell. propuesto por Cuadras y Fortiana (1998) y Cuadras (1998). Consultar Cuadras y Fortiana (1993a. denominada “continuous scaling”. P. Consultar Cuadras y Arenas (1990). (1996). Carroll. ESCALADO MULTIDIMENSIONAL (MDS) nitiva. Una versión del MDS. propuesto por J. R. es el “related metric scaling”. Cuadras et al. Véase Cox y Cox (1994). respectivamente. Cuadras (2014). Atkinson. Un modelo reciente. Un modelo. Mahalanobis y C. De la misma manera que se hace regresión sobre componentes principales. Oller y otros estudiaron la distancia de Rao. Consultar Oller (1987). Oller y Cuadras (1985). ..1. .. fI1 f1 fI2 f2 . f1 f2 . obteniendo n = ij fij observaciones. f j = i fij es la frecuencia marginal de Bj : Debemos tener en cuenta que. ..1) P P donde fi = j fij es la frecuencia marginal de Ai .Capítulo 9 ANÁLISIS DE CORRESPONDENCIAS 9. en realidad.. BJ f1J f2J . dando lugar a la tabla de contingencia I J : A1 A2 . AI B1 f11 f21 . y que han sido observadas cruzando las I categorías P A con las J categorías B. .. la tabla 161 .. donde fij es el número de veces en que aparece la intersección Ai \Bj . . Introducción El Análisis de Correspondencias (AC) es una técnica multivariante que permite representar las categorías de las …las y columnas de una tabla de contingencia. B2 f12 f22 . fIJ fJ fI n (9. . Supongamos que tenemos dos variables categóricas A y B con I y J categorías respectivamente. Se veri…ca X0 X = nDr .. 0 . c = P0 1I : Tenemos entonces que r = n1 X0 1n . . que típicamente es de la forma: 1 . Indiquemos por r el vector I 1 con los totales marginales de las …las de P. n 0 0 . Y]: A partir de ahora utilizaremos el nombre de variables …las y variables columnas a las variables A y B.. .. B1 1 . . i . La matriz P = n1 N.162 CAPÍTULO 9. Y0 Y = nDc . . . . 0 . . . las matrices diagonales que contienen los valores marginales de …las y columnas de P. son los vectores de medias de las matrices de datos X. . 1 en la que damos el valor 1 cuando se presenta una característica y 0 cuando no se presenta. . y por c el vector J 1 con los totales marginales de las columnas de P : r = P1J . 0 .1) resume la matriz de datos inicial. BJ 0 .. . . c = n1 Y0 1n . A2 0 . 1 0 0 . . es la matriz de correspondencias.. . y el individuo \n" las características AI y BJ : La matriz de datos n (I + J) es pues Z = [X.. B2 0 .. 0 ... el individuo \i" presentaría las características AI y B2 . Así.. X0 Y = nP = N: .. AI 0 .. Indiquemos por N = (fij ) la matriz I J con las frecuencias de la tabla de contingencia y por 1k el vector de unos de dimensión k.. Y: Indiquemos además Dr = diag(r).. . A1 1 . Dc = diag(c)... 1 . . . 1 . .. ANÁLISIS DE CORRESPONDENCIAS (9. respectivamente. . el individuo \1" presentaría las características A1 y B1 . .. aI .Bj .10) de S11 es la matriz S11 = Dr 1 que veri…ca S11 S11 S11 = S11 : En efecto. y a las categorías B1 . y consideremos las variables compuestas U = Xa. bJ )0 . es que no son cuantitativas. La cuanti…cación 0 ó 1 anterior es convencional. : : : .BJ de la variable columna. aI )0 . (Dr rr0 )Dr 1 (Dr rr0 ) = (Dr = Dr = Dr = Dr rr0 )(I 1r0 ) Dr 1r0 rr0 +rr0 1r0 rr0 rr0 +rr0 rr0 : .2. : : : . las matrices de covarianzas entre …las. : : : . entre columnas y entre …las y columnas. Una g-inversa (Sección 1. : : : . estamos ante un problema de correlación canónica. Asignemos pues a las categorías A1 .9. S22 = Dc cc0 . las matrices S11 y S22 son singulares. es decir. salvo que ahora las matrices S11 y S22 son singulares. : : : . los valores numéricos a1 . Vk = bj : Deseamos encontrar a. bJ . V sobre k son Uk = ai . entonces los valores de U. CUANTIFICACIÓN DE LAS VARIABLES CATEGÓRICAS 163 Por lo tanto. Claramente. para que puedan ser manejadas en términos de AM clásico. S12 = P rc0 : Puesto que la suma de las variables es igual a 1. V = Yb: Si en un individuo k se observan las categorías Ai . son S11 = Dr rr0 . b tales que las correlaciones entre U y V sean máximas. 9. : : : .AI de la variable …la. b = (b1 . indiquemos los vectores a = (a1 . Cuanti…cación de las variables categóricas El problema de las variables categóricas. los valores numéricos b1 .2. Si u1 .3. v1 son los primeros vectores canónicos.164 CAPÍTULO 9. podemos considerar la descomposición singular Dr 1=2 (P rc0 )Dc 1=2 = UD V0 . ANÁLISIS DE CORRESPONDENCIAS Análogamente S22 = Dc 1 : Aplicando la teoría de la correlación canónica (Sección 4. r= 1. es decir. B0 = Dc 1=2 V: También obtenemos correlaciones máximas considerando las matrices A = Dr 1=2 UD . : : : . . bi = Dc 1=2 vi . son las columnas de las matrices A0 = Dr 1=2 U. P (BJ =Ai ): La matriz de per…les de las …las es Q = Dr 1 P: . r i ri . (9. Representación de …las y columnas Los per…les de las …las son pi1 pi2 . las “probabilidades condicionadas”P (B1 =Ai ). piJ ri . : : : . ri = i. 1=2 b = S22 v1 . B = Dc 1=2 VD . no altera las correlaciones. el primer valor singular es la máxima correlación entre las variables U y V: Pero pueden haber más vectores y correlaciones canónicas. es decir. m nfI. i = 1. 9. (9. Jg: En notación matricial.3).2) donde D es la matriz diagonal con los valores singulares en orden decreciente. los vectores que cuanti…can las categorías de las …las y de las columnas de N.3) pues el producto por una constante (en este caso un valor singular). tendremos entonces 1=2 a = S11 u1 . y por lo tanto la solución general es ai = Dr 1=2 ui . 2) tenemos Dr 1=2 (P rc0 )Dc 1 (P0 cr0 )Dr 1=2 = UD2 U0 . . y de Dr1=2 (Dr 1 P 1c0 )Dc 1 (P0 Dr 1 c10 )Dr1=2 = D1=2 r (Q 1r0 Q)Dc 1 (Q0 Q0 r10 )Dr1=2 . Relacionemos ahora estas coordenadas con las cuanti…caciones anteriores.3) y (9.1 La distancia ji-cuadrado entre las …las i. La solución MDS ponderada de las …las de N (Sección 9.3.4) Las distancias euclídeas entre las …las de A coinciden con las distancias jicuadrado. deducimos que D1=2 r (I 1r0 )QDc 1 Q0 (I r10 )Dr1=2 = UD2 U0 : Esta última expresión demuestra que las matrices A obtenidas en (9. De (9. y seguidamente obteniendo las coordenadas principales A = Dr 1=2 UD : (9.3. siendo g el vector columna con los I elementos diagonales de G y 1 el vector columna con I unos.9. REPRESENTACIÓN DE FILAS Y COLUMNAS 165 De…nición 9.9) se obtiene calculando la diagonalización D1=2 r (I 1r0 )G(I r10 )Dr1=2 = UD2 U0 . y la relación entre (2) =( 2 ii0 ) y G es (2) = g10 + 1g0 2G. i0 de N es 2 ii0 = J X (pij =ri j=1 pi0 j =ri0 )2 cj : La matriz de productos escalares asociada a esta distancia es G = QDc 1 Q0 .4) son la misma. Centrando los per…les tenemos Q=(I 1r0 )Q. . si centramos los 0 1 per…les de las columnas C= (I 1c0 )Dc P0 . como vectores de observaciones de dimensión J que provienen de una multinomial con vector de probabilidades c. y probar que las distancias euclídeas entre las …las de la matriz B obtenidas en (9. bJ2 ) A1 A2 . que convertimos en un espacio euclídeo mediante QDc 1 Q = AA0 . 0 siendo entonces QDc 1 Q la matriz de productos internos en el espacio de 0 Mahalanobis.2)... Columnas (b11 . AI (aI1 . Premultiplicando (9. ..véase (2.12). obtenemos una representación de las …las y columnas de la matriz de frecuencias N: Esta representación es óptima en el sentido de que aproximamos una matriz por otra de rango inferior. la matriz de covarianzas es Dc cc0 y una g-inversa es Dc 1 ..4. entonces CDr 1 C = BB0 : Así pues. aI2 ) BJ (bJ1 .3). . a22 ) .5). luego Dr 1 (P rc0 )BD 1 = A: . están relacionadas. b22 ) . coinciden con esta distancia ji-cuadrado. considerando las dos primeras coordenadas principales: Filas (a11 . b12 ) (b21 . . Análogamente podemos de…nir la distancia ji-cuadrado entre columnas 2 jj 0 = I X (pij =cj i=1 pij 0 =cj 0 )2 ri . que representan las …las y las 1=2 y postmulcolumnas. a12 ) (a21 . pues si interpretamos las I …las de Q = Dr 1 P (per…les de las …las). Es decir. Representación conjunta Las coordenadas A y las coordenadas B. véase (1.2) por Dr tiplicando por V obtenemos Dr 1 (P rc0 )Dc 1=2 V = Dr 1=2 UD . 9. ANÁLISIS DE CORRESPONDENCIAS Nótese que la distancia ji-cuadrado 2ii0 es una distancia tipo Mahalanobis.166 CAPÍTULO 9. Compárese con (7. B1 B2 . se veri…ca: 1.5) Conviene notar que Dr 1 P son los per…les de las …las. ponderadas por los per…les de las …las. de las coordenadas de las columnas. ponderadas por los per…les de las columnas. Así pues tenemos que. i = 1. Las coordenadas de las columnas son las medias. 10 r = 1. 2. premultiplicando por r0 10 (P rc0 )BD 1 = r0 A: Como además 10 P = c0 . : : : . J: . j = 1. : : : . vemos fácilmente que (c0 c0 )BD 1 = r0 A = 0: Análogamente. c0 B = 0. de las coordenadas de las …las. salvo el factor dilatador D 1 . las medias ponderadas de las coordenadas principales son cero. B = Dc 1 P0 AD 1 : (9.4. y la primera coordenada principal de las columnas veri…ca bj1 = 1 1 a11 p1j p2j + a21 + cj cj + aI1 pIj cj . Las coordenadas de las …las son las medias. REPRESENTACIÓN CONJUNTA 167 Análogamente se prueba que Dc 1 (P0 cr0 )AD 1 = B: Si ahora tenemos en cuenta que r0 Dr 1 = 10 . Por ejemplo. (pues los elementos diagonales de D son menores que 1). En consecuencia A = Dr 1 PBD 1 . I.9. la primera coordenada principal de las …las veri…ca: ai1 = 1 b11 1 pi1 pi2 + b21 + ri ri + bJ1 piJ ri . es decir. y Dc 1 P0 son los per…les de las columnas. C A 0 1 0:45 c = @ 0:40 A : 0:15 coordenadas principales son: 3 1:10 0:12 2 0:05 0:42 7 0:75 7 7 4 0:18 0:48 7 . 68 0. .1 contiene unos datos arti…ciales. 75 1 + 0 + 0) (0.1: Clasi…cación de 400 clientes según edades y productos adquiridos en un supermercado. 752 0. Los cálculos son: 0 B B P=B B @ 0:175 0:1125 0:075 0:000 0:0875 La matriz de 0 1:00 B 0:50 B Q=B B 0:33 @ 0:00 0:70 0:000 0:1125 0:075 0:200 0:0125 0:000 0:000 0:075 0:050 0:025 1 C C C. 6847 1 (0. 2) 1 (0. A = 6 6 4 0:80 0:20 A 0:10 0:20 0 B B r=B B @ 0:175 0:225 0:225 0:250 0:125 1 C C C. ANÁLISIS DE CORRESPONDENCIAS Edad Joven Mediana Mayor Total 70 0 0 70 45 45 0 90 30 30 30 90 0 80 20 100 35 5 10 50 180 160 60 400 Producto A B C D E Total Tabla 9. D.168 CAPÍTULO 9. 8 0. 6847 = 0. 68 0. que clasi…can 400 clientes según la edad (joven. 33 0. 68 0. 2) 1 Las coordenadas de las marcas A. : : : . 68 0. E son medias de las coordenadas de las tres edades. 45 0. 45 0. 1 0.A5 veri…ca: 1:10 0:05 0:18 0:92 0:54 = 0. 33) 1 (0 0. 7 0. 33 0. 5 0. La Tabla 9. B. mayor) y los productos que compran en un supermercado. 6847 = 0. 75 0. ponderadas por la incidencia del producto en la edad. C A per…les de las …las y las 2 1 0:00 0:00 6 0:50 0:00 C 6 C C 0:33 0:33 C . C. 75 0. 6847 = 0. 5 + 0) 1 (0. 2 = 0:3311: La primera coordenada principal de las …las A1 . mediana. 452 0. 6847 = 0. B = 0:68 5 0:92 0:12 0:45 0:54 0:30 3 0:04 0:24 5 : 0:76 Los valores singulares son: 1 = 0:6847. 2 relaciona los colores de los cabellos y de los ojos de 5. La representación utilizando las matrices A = Dr 1=2 UD .5.5. . B0 = Dc 1=2 V. coordenadas principales para las …las y coordenadas estándar para las columnas.1: Representación asimétrica (izquierda) y simétrica (derecha) de las …las (productos) y columnas (edades) de la Tabla 9. Esta solución veri…ca P rc0 = Dr AB00 Dc .5. La representación conjunta es posible gracias a las fórmulas (9. 9.1 Colores cabello y ojos. y por lo tanto A.5). B es la solución simétrica.1. La Tabla 9. Soluciones simétrica y asimétrica La representación de …las y columnas utilizando las coordenadas principales A. Ejemplo 9.9.383 individuos. B0 reproducen mejor la dependencia entre …las y columnas. es decir. es la llamada solución asimétrica. SOLUCIONES SIMÉTRICA Y ASIMÉTRICA 169 Figura 9. Variabilidad geométrica (inercia) Vamos a probar que 2 =n K X 2 k. la variabilidad explicada por las dos primeras dimensiones principales es P2 = 86:8 %: La Figura 9.774 98 48 403 681 81 1. . 3 = 0:0292: De acuerdo con (9.311 1. k=1 siendo K = m nfI. Las coordenadas principales son: Filas 2 6 A=6 4 2 3 0:4400 0:3996 0:0361 0:7002 0:0872 6 6 0:1647 7 7 B=6 6 0:2437 5 4 0:1345 Columnas 0:5437 0:1722 0:2324 0:0477 0:0402 0:2079 0:5891 0:1070 1:0784 0:2743 3 7 7 7 7 5 Los valores singulares son: 1 = 0:449.2 proporciona las representaciones simétrica y asimétrica. ANÁLISIS DE CORRESPONDENCIAS Color ojos claro azul castaño oscuro Total Color cabellos Rubio Rojo Castaño Oscuro Negro Total 688 116 584 188 4 1.6.391 114 5.580 326 38 241 110 3 718 343 84 909 412 26 1.2: Clasi…cación de 5383 individuos según el color de los ojos y del cabello. 9. 2 = 0:1727. la ji-cuadrado es n veces la suma de los valores propios del AC. que permite decidir si hay independencia entre …las y columnas de N: Es decir. Jg y 2 =n I X J X (fij i=1 j=1 fi f j =n)2 fi f j el estadístico ji-cuadrado con (I 1)(J 1) g.l.6).383 Tabla 9.455 286 2.137 1.170 CAPÍTULO 9. : 2 ii0 = J X (pij =ri j=1 pi0 j =ri0 )2 cj = J X pij ( ri c j j=1 pi0 j 2 ) cj ri0 cj . VARIABILIDAD GEOMÉTRICA (INERCIA) 171 Figura 9.6.1 V = 2 : Demost.6.9.2: Representación asimétrica (izquierda) y simétrica (derecha) de los datos de los colores de ojos y cabellos. El coe…ciente 2 de Pearson se de…ne como 2 = I X J X (pij i=1 j=1 2 ri cj )2 = : ri c j n Es fácil probar que también podemos expresar 2 I X J X p2ij rc i=1 j=1 i j = 1: La variabilidad geométrica ponderada de la distancia ji-cuadrado entre …las es I I 1 XX 2 V = ri 0 ri0 : 2 i=1 i0 =1 ii Proposición 9. vemos que V = ( + Proposición 9.172 CAPÍTULO 9.: Sea PI PI k=1 i=1 i0 =1 PJ PJ p2ij j=1 ri cj ri0 p2ij j=1 ri cj .3 La variabilidad geométrica utilizando sólo las primeras m coordenadas principales es V (m) = m X 2 k: k=1 Demost. siendo a el vector columna que contiene los elementos de la diagonal de AA0 : Entonces 1 V = r0 2 (2) r = r0 a10 r + r0 1a0 r 2r0 AA0 r = r0 a: . dado que PI i=1 PI i0 =1 PJ = PI i=1 pij = cj .j ri cj : rc0 )Dc 1=2 = UD V0 : Entonces 2 = tr(WW0 ) = tr(UD2 U0 ) = tr(D2 ): Proposición 9. 2 = Demost. j=1 cj P p2ij i.: Supongamos m = K: Podemos escribir la matriz de distancias entre …las como (2) = a10 +1a0 2AA0 . 2)=2.6. siendo = i=1 PI i=1 2 k: W = Dr 1=2 (P PI PI = = PK i=1 PI pij pi0 j j=1 ri ri c2j ri0 cj ri0 es decir. ANÁLISIS DE CORRESPONDENCIAS Por lo tanto 1 XXX pij V = ri ( 2 i=1 i0 =1 j=1 ri cj I I J pi0 j 2 ) cj ri0 ri0 cj Si desarrollamos por un lado PI i=1 PI i0 =1 PJ p2ij j=1 ri ri2 c2j cj ri0 y por otro lado.6.2 = PJ pij pi0 j i0 =1 j=1 cj PJ pij cj = 1. Presentemos primero el procedimiento para dos variables. donde F y C contienen las marginales de …las y columnas. Pero se puede adaptar para estudiar más de dos variables. Z2 ]. El resultado es una representación de …las y columnas de N: El análisis b) es sobre [Z1 . ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLES 173 Pero 2 0 0 1=2 2 r0 a = tr(D1=2 r AA Dr ) = tr(UD U ) = tr(D ): Lo hemos probado para m = K. Escribimos la matriz n (I + J) de datos binarios como una matriz n (J1 + J2 ) Z = [Z1 . A continuación podemos realizar tres análisis de correspondencias diferentes sobre las siguientes matrices: a) N: b) [Z1 . Z2 ]: Entonces tenemos que Bu = Z0 Z = Z01 Z1 Z01 Z2 Z02 Z1 Z02 Z2 =n Dr P P0 Dc : La matriz de frecuencias. considerada una matriz binaria con n …las y J1 + J2 columnas.9. m Pk=1 K k=1 2 k : 2 k (9. pero fácilmente vemos que la fórmula también vale para m < K: Así pues. el porcentaje de variabilidad geométrica o inercia viene dado por P Pm = 100 9.7.6) Análisis de Correspondencias Múltiples El AC combina y representa dos variables categóricas. Z2 ]: c) Bu : El análisis a) lo hemos visto en las secciones anteriores.7. en la representación por AC de las …las y columnas de N en dimensión m. AC nos daría una representación de las J1 + J2 . F N Bu = N0 C es la llamada matriz de Burt. que después generalizaremos. Zq ]. : : : . El Análisis de Correspondencias Múltiples intenta representar los J = J1 + +JQ estados de las Q variables categóricas. 5 . : : : . que es la interesante. lo podemos llevar a cabo aplicando un AC simple sobre las matrices siguientes: a) Z: b) Bu : . El análisis c) es sobre Bu que es la matriz simétrica de orden (J1 + J2 ) (J1 + J2 ): Tendremos una representación idéntica por columnas y por …las. 4 . de orden n J es la super-matriz de indicadores Z = [Z1 . de orden J J es 2 3 Z01 Z1 Z01 Z2 Z01 ZQ 6 Z0 Z1 Z0 Z2 Z02 ZQ 7 2 6 2 7 0 Bu = Z Z = 6 . pero esta segunda representación es innecesaria. . . : : : . Sea J = J1 + + JQ : La tabla de datos.. Como en el caso Q = 2.. Z0Q Z1 Z0Q Z2 Z0Q ZQ donde las matrices Z0j Zj son diagonales. JQ estados. . variando sólo los valores propios. respectivamente. Z2 ] Bu = Z0 Z J1 n J2 (J1 + J2 ) (J1 + J2 ) (J1 + J2 ) Coordenadas A (…las) B (columnas) A B A B Valor propio p 1+ 2 p ( 1+2 )2 Consideremos a continuación Q variables categòricas con J1 . Tabla Dimensión N = Z01 Z2 Z = [Z1 . . y también de los n individuos.174 CAPÍTULO 9. . donde Zj es n Jj y contiene los datos binarios de la variable j: La tabla de contingencia que tabula la combinación de las variables i. En los tres casos vemos que podemos representar las …las y columnas de N: Es posible demostrar que los tres análisis son equivalentes en el sentido de que proporcionan la misma representación. Todo esto se describe en el cuadro que sigue.. ANÁLISIS DE CORRESPONDENCIAS columnas. sobre n individuos. Zj . . 7. j es Nij = Z0i Zj : La matriz de Burt. . intención de Voto (V) y Clase social (C). . . .. EJEMPLOS 175 En el caso a) representamos las J columnas e ignoramos las n …las (individuos).. .6: Así pues podemos constatar que AC puede servir también para representar más de dos variables categóricas. . . Ejemplos Ejemplo 9.. solo mostramos 5 individuos) son de la forma: Edad Votación Clase Sexo >73 51-73 41-50 26-40 <26 Izq Der Alt Med Obr H M 0 1 0 0 0 1 0 0 1 0 1 0 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 1 0 0 0 1 1 0 1 0 0 0 0 0 1 1 0 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 . .. . J2 = 2. Tenemos Q = 4. 1. . En el caso b) tenemos una tabla de frecuencias J J simétrica y podemos representar las …las (=columnas) aplicando AC simple.. .3 contiene las frecuencias con la clasi…cación cruzada de 1257 individuos según Edad (E). J = 12. . J1 = 4. J3 = 3. .1 Votaciones. salvo que se cumple la relación B k =( Z 2 k) entre los valores propios B k obtenidos a partir de la matriz de Burt y los que surgen del análisis sobre Z: Las inercias correspondientes son: 2 2 (Bu ) = (Z) = P k P k B k = Z k = 1 X [ Q2 i6=j J Q 2 (Nij ) + (J Z k Q)]. . .8. . . .. . . 9. . Los dos procedimientos son equivalentes... Sexo (S). . La Tabla 9. siendo 2 (Nij ) la inercia para la tabla Nij .8.. . véase Sección 9...9. J4 = 2: Los datos iniciales (matriz Z.8. . . sexo. ANÁLISIS DE CORRESPONDENCIAS Edad >73 51-73 41-50 26-40 <26 >73 51-73 41-50 26-40 <26 >73 51-73 41-50 26-40 <26 2 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 4 81 0 0 0 0 56 25 14 23 44 39 42 0 347 0 0 0 194 153 70 75 202 166 181 0 0 343 0 0 169 174 65 72 206 174 169 Hombres Derecha Izquierda Clase 4 0 27 8 27 4 17 12 7 6 Clase 8 4 21 13 27 12 14 15 9 9 Clase 8 15 35 62 29 75 32 66 14 34 Mujeres Derecha Izquierda alta 10 0 26 9 25 9 28 9 7 3 media 9 2 33 8 29 4 17 13 13 7 obrera 17 4 52 53 32 70 36 67 18 33 0 0 0 326 0 144 182 66 59 201 156 170 14 70 65 66 23 178 60 238 0 0 112 126 0 0 0 0 160 68 92 23 38 99 79 81 56 194 169 144 68 631 0 178 180 273 279 352 25 153 174 182 92 0 626 60 87 479 335 291 23 75 72 59 38 180 87 0 267 0 132 135 44 202 206 201 99 273 479 0 0 752 370 382 39 166 174 156 79 279 335 112 132 370 614 0 42 181 169 170 81 352 291 126 135 382 0 643 3 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 5 Tabla 9.3: Tabla de frecuencias combinando 1257 individuos según edad.176 CAPÍTULO 9. clase social y voto (arriba) y correspondiente tabla de Burt (abajo). . 5.1 (Capítulo 14).8. edad (E) y clase (C. niños y primera clase están más cerca de SÍ.9. Ejemplo 9.1.3 también contiene la tabla de Burt. J2 = 2. J4 = 4: La Figura 9. La Tabla 9. contiene las frecuencias de supervivencia (SÍ.4 representa esta combinación de datos categóricos. J1 = 2. del hundimiento del vapor “Titanic”.2 Titanic. véase la Figura 9. la tripulación y la tercera clase están más cerca de NO.3: Representación por análisis de correspondencias múltiples de los datos de la Tabla 9. tercera 3 y tripulación T). El AC simple sobre esta tabla nos permite representar las 4 variables categóricas sobre el mismo grá…co. La Tabla 14. J = 10. . Obsérvese que es simétrica. supervivencia (S). primera 1. clasi…cadas por género (G). J3 = 2. NO).8. Véase también el Ejemplo 14. Los hombres adultos.3.3. segunda 2. EJEMPLOS 177 Figura 9. Ahora Q = 4. mientras que mujeres. wi g. . 9. w = 0. : : : . De…nición 9.4: Representación por análisis de correspondencias múltiples de los datos de supervivencia del "Titanic".178 CAPÍTULO 9.1 Sea g = ( ij ) una matriz de distancias g (w1 . wg )0 un vector de pesos tal que 0 w1= g X wi = 1.9. MDS ponderado En esta sección introducimos una variante del Análisis de Coordenadas Principales. ANÁLISIS DE CORRESPONDENCIAS Figura 9.9. i=1 y consideremos la matriz diagonal Dw =diag(w): La solución MDS ponderada de g es la matriz X = Dw 1=2 U . Las varianzas ponderadas de las variables Xk son iguales a los valores propios: s2k = 2k . Las variables Xk (columnas de X) tienen medias ponderadas iguales a cero: X k = w0 Xk = 0: Demost. : : : .j=1 Las coordenadas principales son las …las de X: Escribiendo X = [X1 . p: Demost. es decir. la varianza ponderada es P wi x2i .2 La variabilidad geométrica ponderada de V = 21 g X wi 2 ij wj = 12 w0 (9. podemos interpretar las columnas de X como variables. X2 . donde (2) lores propios y g = ( 2ij ): 2 U0 .9.8) g )(Ig w1 ) = XX : 2 Propiedades: 1. : : : . 1=2 0 0 s2k = D1=2 w Xk Xk Dw = (Uk donde 2 k k )( k Uk ) = 2 k. una descomposición espectral. es el valor propio de vector propio unitario Uk : . xg es 0.: Si la media de x1 . : : : . 2 p) contiene los va- De…nición 9. Observemos que se veri…ca 1 (2) 0 0 (Ig 1w0 )( (9. MDS PONDERADO 179 siendo 0 D1=2 w (Ig 1w )( 1 2 (2) g )(Ig 1=2 w10 )Dw =U 2 = diag( 21 . Xp ].9. : : : . k = 1.7) g es (2) g w: i.9.: w0 (Ig 1w0 ) = w0 w0 = 0 ) w0 XX0 w = 0 ) w0 X = 0: 2. ANÁLISIS DE CORRESPONDENCIAS 3. Si tomamos las q primeras coordenadas principales de X. Xk0 ) = Dw Xk Xk0 D1=2 w = = 0. Supongamos que podemos expresar el vector de pesos como 1 w = (n1 . : : : . 1 con los elementos diagonales de XX0 : Por una (2) g w = w0 1d0 w w0 XX0 w = d0 w: 1=2 1=2 XX0 Dw ) =tr(U d0 w =tr(Dw 2 U0 ) =tr( 2 ): 5.180 CAPÍTULO 9. Las variables (columnas de X) están incorrelacionadas k 6= k 0 = 1. ng ). p: cor(Xk . La variabilidad geométrica ponderada de V = p X g es 2 k: k=1 Demost.: Expresemos la matriz de distancias al cuadrado como (2) g siendo d un vector g parte 1 0 w 2 Por otra parte = 1d0 +d10 2XX0 . n n= g X i=1 ni . n2 . la variabilidad geométrica ponderada es: V (q)= q X 2 k: k=1 Estudiemos ahora la relación entre el Análisis de Coordenadas Principales ordinario (Capítulo 8) y el ponderado.: Puesto que las medias son nulas la covarianza ponderada es 2 0 k Uk Uk 0 1=2 0 cov(Xk . Demost. . ya que los vectores propios son ortogonales. : : : . Xk0 ) = 0. 4. 9. Tomando n su…cientemente grande. entonces 0 1 1 0 0 B 1 0 0 C B C B 0 1 0 C C M=B B 0 1 0 C: B C @ 0 1 0 A 0 0 1 Si ahora suponemos que en vez de g objetos tenemos n objetos. el segundo objeto n2 veces.10) p de los vectores propios. en el sentido de que obtenemos Y repitiendo n1 .8) tenemos M(Ig 1 1w0 )( 1 2 (2) g )(Ig w10 )M0 = MXX0 M0 . La solución no ponderada e : Y = UD Teorema 9.1 La solución no ponderada Y sobre n coincide con la solución ponderada X sobre g . 11 ) = UD n (2) n )(In (9. entonces la matriz de distancias es n =M gM 0 y el análisis no ponderado sobre la matriz (In 1 1 0 11 )( n 2 e la matriz n siendo U es (9. pero el primer objeto está repetido n1 veces.: De (9. ng veces las …las de X: Demost.9) podemos expresar la solución no ponderada (9.. podemos aproximarlo tanto como queramos. n3 = 1. n2 = 3. . n es 1 0 e 2U e 0 = YY0 . : : : . si g = 3 y n1 = 2.9) .10) como (In 1 110 )M( n 1 2 0 (2) g )M (In 1 110 ) n = YY0 : Se veri…ca (In 1 110 )M n = M(Ig 1g w0 ): Por lo tanto. MDS PONDERADO 181 donde ni son enteros positivos y el peso wi es igual (o muy próximo 1 ) a ni =n: Indiquemos por M la matriz n g que contiene ni …las (0. : : : . 0): Por ejemplo.9. : : : . de (9. etc.9. 1. p: Por ejemplo. Complementos El Análisis de Correspondencias (AC) tiene una larga historia que se inicia en 1935 (H. . p J )0 los vectores marginales de …las y columnas de P. Y = B B x21 x22 C : B C x31 x32 @ x21 x22 A x31 x32 9. obtenemos 0 1 x11 x12 B x11 x12 C 0 1 B C x11 x12 B x21 x22 C C X = @ x21 x22 A . ng veces las coordenadas X: La relación entre los valores singulares es ek = g k . donde cuanti…caría el término de interacción. Ha sido extensamente estudiado por Benzécri (1973) y Greenacre (1984). Fisher. : : : . k = 1: : : : . R.10. n3 = 1.182 CAPÍTULO 9. Guttman). podemos expresar la matriz de correspondencias P = (pij ) como P = rc0 + Dr A0 D B00 Dc : Indicando r = (p1 . L.O. Utilizando coordenadas estándar A0 = (a0ik ). : : : . El AC sería pues una manera de visualizar los términos de interacción (van der Heijden y de Leeuw. entonces 0 0 k aik bjk . log pij = log pi + log p j + K X es su…cientemente pequeño 0 0 k aik bjk . c = (p 1 .A. : : : . k=1 que se adapta a un modelo log-lineal (Sección 14. n2 = 3. las coordenadas principales no ponderadas Y son el resultado de repetir n1 . B0 = (b0jk ). la expresión escalar es ! K X 0 0 : pij = pi p j 1 + k aik bjk k=1 P Si el término entre paréntesis = K k=1 para que log(1 + ) . 1985). si g = 3 y n1 = 2. pI )0 . Hirschfeld. ANÁLISIS DE CORRESPONDENCIAS que demuestra que Y = MX: En otras palabras.5). : : : . así que hemos de introducir un factor multiplicativo > 1 y escribir ai = J X j=1 bj pij . ij i ij i ii j=1 entre dos …las de N. Supongamos que queremos encontrar las coordenadas (a1 . j 0 de N pueden juntarse y ser reemplazadas por su suma. (2012).11) . ri c j ri0 cj ri c j 0 ri0 cj 0 ri (cj + cj 0 ) ri0 (cj + cj 0 ) y la distancia ji-cuadrado queda inalterada si juntamos las columnas j y j 0 : Una variante del AC propuesta por Rao (1995). las coordenadas (b1 . cuando se cumple este principio pij pij 0 pij + pij 0 = = : cj cj 0 cj + cj 0 Luego pi0 j 2 pij 0 pij pi0 j 0 2 pij + pij 0 pi0 j + pi0 j 0 2 ) ( )] cj +[( [( ) ( )] cj 0 = [( ) ( )] (cj +cj 0 ). : : : . aI ) de las …las como medias ponderadas de las coordenadas de las columnas y recíprocamente. es decir. En efecto. Sin embargo los resultados pueden ser muy similares (Cuadras et al.10. COMPLEMENTOS 183 CA veri…ca el “principio de equivalencia distribucional”: si dos per…les de columnas son idénticos. I. bJ ) de las columnas como medias ponderadas de las coordenadas de las …las: J X pij ai = bj . 2004). ri bj = I X i=1 ai pij : cj (9. Véase una aplicación en Cuadras et al. i = 1. cj cj 0 entonces las columnas j. : : : . que tiene la ventaja de no depender de los per…les de las columnas. y el método basado en esta distancia resulta más apropiado cuando las …las se ajustan a poblaciones multinomiales distintas.9. se basa en la distancia de Hellinger J q q 2 X e2 0 = 0 0 p =r p =r . ri j=1 bj = I X ai i=1 pij : cj Pero estas relaciones no se pueden veri…car simultáneamente (por razones geométricas obvias). Una forma alternativa de presentar el AC es el “reciprocal averaging” (RA). pij pij 0 = . El AC ha sido también comparado con otros métodos de representación . La Figura 9.12) k=1 donde f k . y es útil (especialmente en ecología). El ACM de tablas concatenadas es una aplicación del ACM.184 CAPÍTULO 9. Tabla 14. y)g(y) 1=2 = 1 X k uk (x)vk (y). fvk . 1973). 1969). dado que permite relacionar las comunidades biológicas con las variables ambientales. 1999). que tiene en cuenta. Véase Gra¤elman (2001). Véase una comparación sistemática en Cuadras et al. 2014). Consúltese Friendly (1994.11) tal que sea mínimo. k 1g son correlaciones canónicas y fuk . por lo que podría ser un modelo inadecuado para expresar las de orden superior.5 contiene la representación en “mosaico”de los datos del “Titanic”. ANÁLISIS DE CORRESPONDENCIAS El objetivo del RA es encontrar las coordenadas veri…cando (9. Véase Greenacre (2008). g(y). similar al AFM (véase Sección 5. pues muchas propiedades se conservan. k 1g. Los cálculos del RA se efectúan iterativamente. El análisis de correspondencias múltiples (ACM) presupone sólo interacciones de segundo orden. para la representación.11) como la mejor representación baricéntrica sobre un eje (Lebart et al. Una extensión interesante del AC es el “Canonical Correspondence Analysis” (Ter Braak.8).12) y el AC. para cada una de las tablas. que los ejes sean combinación lineal de variables externas. Por otra parte se conoce a (9.1. y la descomposición singular f (x) 1=2 h(x. Se pueden también representar tablas de contingencia múltiples mediante “mosaicos”. Hay una interesante semejanza entre (9.1. Entonces es posible probar que = (1= )2 es un valor propio. Esto mismo lo podemos plantear para la segunda y siguientes coordenadas y probar la equivalencia entre RA y AC. 1986).5. Tiene aplicaciones en ecología. (9. k 1g son sistemas de funciones ortonormales (Lancaster.. Supongamos K tablas con J = J1 + + JQ estados de las Q variables categóricas. 1977). que permite visualizar la estructura común de diversas tablas de datos. Una extensión continua del AC considera una densidad bivariante h(x. que permiten visualizar interacciones de orden superior. cuando la matriz de frecuencias N tiene dimensión grande y contiene muchos ceros (Hill. Véase el análisis log-lineal del ejemplo 14. y) con densidades marginales f (x). (2000) y Cuadras (2002b. Obtenemos los totales marginales de los J estados para cada tabla y formamos la matriz de frecuencias K J: El AC simple sobre esta matriz permite visualizar los J estados conjuntamente con las K tablas. 1. 2006). . de tablas de contingencia (Cuadras et al. véase Greenacre (2008)..5: Representación en “mosaico” de los datos de supervivencia del “Titanic”. propiciando una versión paramétrica que los engloba a todos (Cuadras y Cuadras. Para una amplia visión del Análisis de Correspondencias y sus variantes. COMPLEMENTOS 185 Figura 9. 2006.9. Tabla 14. 2011).10. El “mosaico” puede revelar interacciones de orden superior. 186 CAPÍTULO 9. ANÁLISIS DE CORRESPONDENCIAS Capítulo 10 CLASIFICACIÓN 10.1. Introducción Clasi…car los elementos de un conjunto …nito consiste en realizar una partición del conjunto en subconjuntos homogéneos, siguiendo un determinado criterio de clasi…cación. Cada elemento pertenece a un único subconjunto, que a menudo tiene un nombre que lo caracteriza. Así clasi…camos: Las personas en hombres y mujeres. Los trabajadores en actividades profesionales: servicios, industria, agricultura. Los animales en especies, géneros, familias y órdenes. Los libros de una biblioteca en arte, literatura, ciencia, informática y viajes. Sea = f! 1 ; ! 2 ; : : : ; ! n g un conjunto …nito con n elementos diferentes, que abreviadamente indicaremos = f1; 2; :::; ng: Clasi…car es también de…nir una relación de equivalencia R sobre . Esta relación de…ne una partición sobre en m clases de equivalencia: = c1 + c2 + + cm ; donde + signi…ca reunión disjunta. A la partición la llamaremos clustering y a las clases de equivalencia clusters (conglomerados). 187 188 CAPÍTULO 10. CLASIFICACIÓN 10.2. Jerarquía indexada Las clasi…caciones pueden ser jerárquicas o no jerárquicas. Una clasi…cación jerárquica es una sucesión de clusterings tal que cada clustering se obtiene agrupando clusters. Por ejemplo, si n = 5, una clasi…cación jerárquica es: = f1g + f2g + f3g + f4g + f5g = f1; 2g + f3; 4g + f5g = f1; 2g + f3; 4; 5g = De…nición 10.2.1 Una jerarquía indexada (C; ) sobre está formada por una colección de clusters C }( ) y un índice tal que: Axioma de la intersección: Si c; c0 2 C entonces c \ c0 2 fc; c0 ; ;g: Axioma de la reunión: Si c 2 C entonces c = [fc0 j c0 2 C; c0 La reunión de todos los clusters es el conjunto total: cg: = [fc j c 2 Cg: El índice es una aplicación de C sobre el conjunto de números reales positivos tal que: (i) = 0; 8i 2 ; (c) (c0 ) si c c0 : Diremos que una jerarquía es total si: 8i 2 ; fig 2 C: 2 C: Comentarios: 1. El primer axioma signi…ca que si tenemos dos clusters, uno está incluido en el otro o ambos son disjuntos, es decir, c c0 ; ó c0 c; ó c \ c0 = ;: Se trata de evitar que un elemento de pertenezca a dos clusters excluyentes a la vez, ya que entonces estaría mal clasi…cado. 2. El segundo axioma signi…ca que cada cluster es reunión de los clusters que contiene. Es decir, reuniendo clusters obtenemos clusters más amplios. Por ejemplo, en el reino animal, un género es reunión de especies, una familia es reunión de géneros, etc. 10.2. JERARQUÍA INDEXADA 189 3. El índice mide el grado de heterogeneidad de cada cluster. Cuanto más grande es el cluster más heterogéneo es. Teorema 10.2.1 Para todo x 0 la relación binaria Rx sobre los elementos de iRx j si i; j 2 c; siendo (c) x; (10.1) es de equivalencia. Demost.: La relación Rx es: Re‡exiva: iRx i ya que i 2 fig, siendo (fig) = 0 x: Simétrica: Evidente. Transitiva: Sea cij el mínimo cluster que contiene i; j, y análogamente cjk : Entonces : iRx j ) i; j 2 cij; (cij ) ) cij \ cjk 6= ; ) x; a) cij b) cjk jRx k ) j; k 2 cjk; (cjk ) x; cjk ) i; k 2 cjk; ) iRx k: cij ) i; k 2 cij; La relación (10.1) de…ne, para cada x 0, una partición de de equivalencia. La partición se llama clustering al nivel x: en clases Ejemplo 10.2.1 Partidos. Consideremos n = 5 partidos políticos con representación en el Parlamento de Cataluña: CU (Convergència i Unió), PP (Partido Popular), PSC (Partido Socialista de Cataluña), IC (Iniciativa por Cataluña) y ER (Esquerra Republicana). Un ejemplo (hipotético) de jerarquía indexada sobre = fCU, PP, PSC, IC, ERg ; es: C ={CU0 , PP0 , PSC0 , IC0 , ERC0 , {CU, PP}1 , {PSC, IC}1:5 ,{PSC, IC, ERC}2 , 3 }, donde el índice está indicado como un subíndice: (CU)=0, (CU,PP)=1, etc. Tenemos entonces las siguientes particiones o clusterings: = = = = Nombre del clustering fCUg + fPPg + fPSCg + fICg + fERg 0 (partidos) fCU; PPg + fPSC; ICg + fER} 1:5 (derecha, izquierda, centro) fCU; PPg + fPSC; IC; ER} 2 (coaliciones) 3 (parlamento) 190 CAPÍTULO 10. CLASIFICACIÓN La representación de esta clasi…cación se encuentra en la Figura 10.1, que justi…camos en la sección siguiente. 10.3. Geometría ultramétrica Para presentar una clasi…cación utilizamos llaves. Por ejemplo, la clasi…cación divisiva de Nación, Comunidades Autónomas y Provincias (sólo vamos a considerar 8) es: Nación Espa~ na Autonomías Provincias 8 < Huesca Teruel : 8 Zaragoza Barcelona > > < Gerona Catalu~ na Lerida > > : Tarragona Madrid Madrid 8 > > > > Aragon > > > > > > < > > > > > > > > > > : Una generalización de las llaves es el árbol ultramétrico. Como veremos más adelante, una jerarquía indexada puede ser visualizada mediante un grá…co sencillo e intuitivo, llamado dendograma. De…nición 10.3.1 Un espacio ultramétrico ( ; u) es una estructura formada por un conjunto …nito y una función distancia u sobre veri…cando, para todo i; j; k de : No negatividad: u(i; j) u(i; i) = 0: Simetría: u(i; j) = u(j; i): Propiedad ultramétrica: u(i; j) supfu(i; k); u(j; k)g: 10.3. GEOMETRÍA ULTRAMÉTRICA La matriz U = (u(i; j)) 0 u11 u12 B u21 u22 B U = B .. .. ... @ . . un1 un2 de orden n 1 u1n u2n C C .. C . A unn 191 n uij = uji = u(i; j); uii = 0: es la matriz de distancias ultramétricas. Proposición 10.3.1 Una distancia ultramétrica veri…ca la desigualdad triangular y por lo tanto es métrica. Demost.: u(i; j) supfu(i; k); u(j; k)g u(i; k) + u(j; k): De…nición 10.3.2 Un triángulo fi; j; kg formado por tres elementos de es ultramétrico si es isósceles y su base es el lado más pequeño. Es decir, si u(i; j) es la base, entonces u(i; j) u(i; k) = u(j; k): Teorema 10.3.2 En un espacio ultramétrico todo triángulo es ultramétrico. Demost.: Sea fi; j; kg un triángulo. Sea u(i; j) es el lado más pequeño, entonces: u(i; k) u(j; k) supfu(i; j); u(j; k)g = u(j; k) =) u(i; k) = u(j; k): supfu(i; j); u(i; k)g = u(i; k) De…nición 10.3.3 Un árbol ultramétrico (también llamado dendograma) es un grafo conexo, sin ciclos con un punto llamado raíz y n puntos extremos equidistantes de la raíz. Una propiedad importante es que todo espacio ultramétrico ( ; u) se puede “dibujar”mediante un dendograma, como muestra la Figura 10.2. Teorema 10.3.3 Sea ( ; u) un espacio ultramétrico. Entonces podemos representarlo mediante un árbol ultramétrico con extremos los elementos de : Hay una versión del Teorema 10. entonces u es distancia ultramétrica. es decir. j) = u(j. la distancia vertical hasta el nudo que liga i con j: Consideremos un triángulo fi. Entonces la relación Rx es: Re‡exiva: u(i. jg es el lado más pequeño. CLASIFICACIÓN Figura 10. Recíprocamente.1 para distancias ultramétricas.2. j en un nudo 0 por encima de : Así u(k. k) = u(i. Entonces k se relaciona con i. kg un triángulo ultramétrico con base fi. . k) x. jg: entonces tenemos u(i. Demost.3. Teorema 10. Sea u(i. j) + . Demost. i) = 0 x: Simétrica: u(i. j) la distancia entre los extremos i.192 CAPÍTULO 10.4 Sea ( . (10.2) es de equivalencia para todo x 0. i) x: Transitiva: Sea fi. i) = u(k. j. Si u es distancia ultramétrica.2) es de equivalencia para todo x 0. j) = u(i. j medida como la mitad de la mínima longitud de las aristas verticales que unen i con j. j. kg es un árbol ultramétrico. kg y supongamos que fi. u) un espacio métrico.1: Representación en árbol ultramétrico (dendograma) de cinco partidos políticos. donde 0 0 es la distancia vertical entre y : Esto demuestra que fi.: Supongamos que u es ultramétrica. j) u(j. j.: Supongamos el árbol en posición vertical. j) x. entonces la relación binaria Rx sobre los elementos de iRx j si u(i. si la relación (10. ci ) = u(ck . u(j. cj ). cj ): De…nimos: u0 (ck . u0 (ca . cb ) = u(ca . la propiedad ultramétrica es invariante por transformaciones monótonas. u(cb . j) u(j. cb ) supfu(ca . cb . k 6= i. ci ) supfu(ca . u(cb . cb ). Otra propiedad importante es que juntando elementos próximos de seguimos manteniendo la propiedad ultramétrica.3) Consideremos el triángulo fca .3. k) x = u(j. k): Entonces u(i. k) por la transitividad de Rx : Esto demuestra que u(j. k) y por lo tanto el triángulo fi. j) x.2. cj ) = mínimo: Entonces uniendo ci con cj . u0 (cb . ci ). cb ). k) = u(i.: Si k 6= i. ci [ cj )g: Finalmente.1 contiene el dendograma correspondiente a la jerarquía indexada del ejemplo 10. ci )g = supfu0 (ca . j. j. k): Sea x = u(j. ci [ cj ) = u(ca .3. cj los dos clusters más próximos: u(ci .10. . k) x ) u(i. La Figura 10. j: (10.1. a. u0 (cb . cb ). ci [ cj g: Entonces: u0 (ca . kg es ultramétrico.5 Supongamos que sobre los m clusters del clustering = c1 + c2 + + cm hay de…nida una distancia ultramétrica u: Sean ci . u0 (ca . se puede de…nir una distancia ultramétrica u0 sobre los m 1 clusters del clustering = c1 + + ci [ cj + + cm : Demost. Supongamos ahora que Rx es de equivalencia y que el triángulo fi. ci [ cj ) = u(ck . b 6= i. GEOMETRÍA ULTRAMÉTRICA 193 que nos demuestra la transitividad. por la propiedad ultramétrica tenemos que u(ck . j. kg veri…ca: u(i. cb ) = u(ca . Teorema 10. ci [ cj ). y esto vale para cualquier clustering. j. ci [ cj )g. k) u(i. ci )g = supfu0 (ca . ci ) = u(ck . conservamos la propiedad ultramétrica. j) = mínimo.194 CAPÍTULO 10. j.6 Si u es distancia ultramétrica y u0 = '(u) es una transformación de u donde ' es una función positiva monótona (creciente o decreciente). jg + + fng y repitamos el paso 2 hasta llegar a : En este proceso. k) = u(j. Nos lo permite el siguiente procedimiento. CLASIFICACIÓN Proposición 10. Algoritmo fundamental de clasi…cación Sea ( . Demost. k) ) u0 (i. cj ) = mínimo.3. Los unimos fig [ fjg = fi. j) 10. juntando elementos o clusters más próximos. 3. k): Algoritmo fundamental de clasi…cación A partir de un espacio ultramétrico podemos construir una jerarquía indexada. El fundamento de este algoritmo consiste en el hecho de que.: Si fi.5. Comencemos con la partición: = f1g + + fng: 2. u) un espacio ultramétrico. Sean i.3. Consideremos la nueva partición: = f1g + + fi.3. j) u0 (i. entonces u0 es también distancia ultramétrica. kg es un triángulo ultramétrico con base fi. cj ): El resultado de este proceso es una jerarquía indexada (C.5). k 6= i. tendremos que u(i. ). k). cada vez que unimos ci con cj tal que u(ci . k) = u(j.4) . jg y de…nimos la nueva distancia ultramétrica u0 u0 (k. j los dos elementos más próximos: u(i.4. fi. en virtud del Teorema 10. de…nimos el índice (ci [ cj ) = u(ci . (ver Teorema 10. u(i. j. jg) = u(i. (10. k) = u0 (j. jg y ' es monótona. 1. j. j. Equivalencia entre jerarquía indexada y ultramétrica Una jerarquía indexada es una estructura conjuntista. Un espacio ultramétrico es una estructura geométrica. . j) supfu(i. k) = La posibilidad de construir una jerarquía indexada a partir de una distancia ultramétrica es una consecuencia del algoritmo fundamental de clasi…cación. fj.1 Sea (C. k 2 cjk ) cij (cjk ) cjk ) u(i. k)g: (cij ) u(i. cjk los mínimos clusters que contienen fi. ) de…nimos la siguiente distancia u(i.5. u(j. Comentarios: 1. k 2 cik ) cij cik ) u(i. j) = (cik ) Así pues: u(i. kg.5 y el algoritmo fundamental de clasi…cación.10.5. Ambas estructuras son equivalentes.3. y por tanto (axioma de la intersección) hay dos posibilidades: a) cik cjk ) i. Demost. Teorema 10.: A partir de (C. k) = b) cjk cik ) i. u) de…ne una jerarquía indexada (C. EQUIVALENCIA ENTRE JERARQUÍA INDEXADA Y ULTRAMÉTRICA195 10. ). Tenemos que cik \ cjk 6= . j. ) una jerarquía indexada total sobre un conjunto : Entonces podemos de…nir una distancia ultramétrica u sobre : Recíprocamente.3) permite de…nir de manera inequívoca una distancia entre un cluster y la unión de los dos clusters más próximos. j. kg respectivamente. k). 2. Sea fi.4). Obsérvese la analogía entre el Teorema 10.5. Esta propiedad es la que otorga importancia a la distancia ultramétrica. donde cij es el mínimo cluster (respecto a la relación de inclusión) que contiene i. kg un triángulo y sean también cik . Obsérvese además que (10. todo espacio ultramétrico ( . j) = (cij ). El índice de la jerarquía viene dado por (10. j) = (cij ) u(j. jg y de…nimos la distancia de un elemento k al cluster fi. (10.. n1 12 1n 22 2n .5. ii = 0: nn Si la distancia es ultramétrica. donde f es una función adecuada. 3. 1. A ij = ji = (i. Sean i.. Pero en general no cumple la propiedad ultramétrica y por lo tanto hemos de modi…car adecuadamente este algoritmo. entonces no hay ningún problema para llevar a cabo una clasi…cación construyendo una jerarquía indexada.. en el sentido de que juntaremos los elementos o clusters más próximos. k).3.. . j. Basta con aplicar el algoritmo fundamental de clasi…cación (Sección 10. n2 . Algoritmo de clasi…cación Sea ( . jg 0 (k.196 CAPÍTULO 10. @ . fi. C C . El algoritmo de clasi…cación se basa en el Teorema 10. j) = mínimo. Los unimos fig [ fjg = fi. j). CLASIFICACIÓN 10. jg + + fng.4). j)) de orden n n entre los elementos de un conjunto : 0 1 11 B 21 B = B . Algoritmos de clasi…cación jerárquica Supongamos que.6.5) . Comencemos con la partición: = f1g + + fng: 2. k 6= i. C . ) un espacio métrico. . Consideremos la nueva partición: = f1g + + fi. hemos obtenido una matriz de distancias = ( (i. en relación a unas variables observables. y procuraremos obtener triángulos ultramétricos. j los dos elementos más próximos: (i. k)). jg) = f ( (i. (j. 10.6. ALGORITMOS DE CLASIFICACIÓN JERÁRQUICA 197 y repitamos el paso 2 hasta llegar a : En este proceso, cada vez que unimos ci con cj tal que (ci ; cj ) = mínimo, de…nimos el índice (ci [ cj ) = 0 (ci ; cj ): (10.6) La función f en (10.5) se de…ne adecuadamente a …n de que se cumpla la propiedad ultramétrica. El resultado de este proceso es una jerarquía indexada (C; ). 10.6.1. Método del mínimo Los diferentes métodos de clasi…cación jerárquica dependen de la elección de f en (10.5). Una primera elección conveniente de f consiste simplemente en tomar el valor más pequeño de los dos lados fi; kg; fj; kg del triángulo fi; j; kg con base fi; jg, es decir: 0 (k; fi; jg) = m nf (i; k); (j; k)g; k 6= i; j: (10.7) En otras palabras, hacemos que el triángulo (i; jg (i; k) = a (j; k); se transforme en ultramétrico 0 (i; jg 0 (i; k) = 0 (j; k) = a: Ejemplo. Sea una matriz de distancias sobre = f1; 2; 3; 4; 5g: El método del mínimo proporciona una jerarquía indexada (C; ) asociada a 198 CAPÍTULO 10. CLASIFICACIÓN una matriz ultramétrica U : 1 2 3 4 5 1 0 1 3 4 7 2 0 4 4 8 = 3 0 2 8 4 0 7 5 0 (1; 2; 3; 4) (1; 2; 3; 4) 0 5 (1; 2) 3 ! 4 5 (1; 2) 3 4 0 3 4 0 2 0 5 (1; 2) (3; 4) 7 (1; 2) 0 3 8 ! (3; 4) 0 7 5 0 5 7 ! 7 0 5 7 ! C = ff1g0 ; : : : ; f5g0 ; f1; 2g1 ; f3; 4g2 ; f1; 2; 3; 4g3 ; 0 1 2 3 4 5 1 0 1 3 3 7 2 0 3 3 7 (C; ) ! U = 3 0 2 7 4 0 7 5 0 El método del mínimo produce una distancia ultramétrica u que goza de la siguiente propiedad. Teorema 10.6.1 Sea U = fu j u es ultrametrica; u(i; j) (i; j)g el conjunto de distancias ultramétricas más pequeñas que : Entonces la distancia ultramétrica u resultante de aplicar el método del mínimo es el elemento máximo de U u(i; j) u(i; j); u 2 U; 8i; j 2 : Demost.: Sean fi; jg los elementos más próximos. Entonces u(i; j) = (i; j): La columna k (6= i; j) tendrá términos repetidos iguales a una distancia 0 construida tomando un mínimo. Si u es otra distancia ultramétrica, entonces: a) si es estrictamente más pequeña es evidente que u > u. b) si u(k 0 ; k 00 ) es más grande que u(k 0 ; k 00 ) pero es igual a alguna , entonces la columna k tendrá elementos repetidos, y al menos uno será superior a 0 : Contradicción. El razonamiento es parecido si consideramos un cluster c y un elemento k 2 = c: 7g 10.6. ALGORITMOS DE CLASIFICACIÓN JERÁRQUICA 199 Compárese con U en el ejemplo anterior. Véase también el Teorema 10.7.3. A la vista de este resultado, podemos decir que u es la mejor aproximación a por defecto. 10.6.2. Método del máximo Una segunda elección razonable de f consiste en tomar el valor más grande de los dos lados fi; kg; fj; kg del triángulo fi; j; kg con base fi; jg, es decir: 0 (k; fi; jg) = maxf (i; k); (j; k)g; k 6= i; j: (10.8) En otras palabras, hacemos que el triángulo (i; jg (i; k) (j; k) = b; se convierta en ultramétrico 0 (i; jg 0 (i; k) = 0 (j; k) = b: El método del máximo produce una distancia ultramétrica u que goza de la siguiente propiedad. Teorema 10.6.2 Sea U = fu j u es ultrametrica; u(i; j) (i; j)g el conjunto de distancias ultramétricas más grandes que : Entonces la distancia ultramétrica u resultante de aplicar el método del máximo es un elemento minimal de U u(i; j) u(i; j); u 2 U; 8i; j 2 : Así u es la mejor aproximación a por exceso. Comentarios: 1. Las distancias u; u; y veri…can: u(i; j) Hay igualdad u = (i; j) = u si y sólo si u(i; j): es ultramétrica. 200 CAPÍTULO 10. CLASIFICACIÓN 2. u es elemento máximo y es único. El método del mínimo sólo tiene una solución. 3. u es elemento minimal y no es único. El método del máximo puede tener varias soluciones. 4. Si todos los elementos fuera de la diagonal de la matriz de distancias son diferentes, entonces la solución obtenida aplicando el método del máximo es única y por tanto u es elemento mínimo. Finalmente, una notable propiedad de los métodos del mínimo (también conocido como single linkage) y del máximo (complete linkage) es que conservan la ordenación de la distancia ; en el sentido de la Proposición 10.3.6. Teorema 10.6.3 Los métodos del mínimo y del máximo son invariantes por transformaciones monótonas de la distancia : 0 = '( ) ) u0 = '(u) donde u; u0 son las ultramétricas asociadas a ; tona positiva. 0 y ' es una función monó- Demost.: En el proceso de encontrar la ultramétrica sólo intervienen los rangos de los valores de ; que son los mismos que los rangos de los valores de la transformación 0 : 10.7. Más propiedades del método del mínimo Una propiedad de la distancia ultramétrica dice que todo elemento de una bola es también centro de la propia bola. Proposición 10.7.1 Sea B(i0 ; r) una bola cerrada de centro i0 y radio r: B(i0 ; r) = fi 2 j u(i0 ; i) rg: Entonces 8i 2 B(i0 ; r) verif ica B(i; r) = B(i0 ; r): 10.7. MÁS PROPIEDADES DEL MÉTODO DEL MÍNIMO 201 La demostración es inmediata. También se veri…ca: Proposición 10.7.2 Sea fi1 ; : : : ; im g: Se cumple la desigualdad u(i1 ; im ) supfu(i ; i +1 )j = 1; : : : ; m 1g: Demost.: Por recurrencia sobre m. Para m = 2 es la desigualdad ultramétrica. Supongamos cierto para m 1. Tenemos: u(i1 ; im ) Sea ahora supfu(i1 ; im 1 ); u(im 1 ; im )g supfsupfu(i ; i +1 )j = 1; : : : ; m 2g; u(im 1 ; im )g supfu(i ; i +1 )j = 1; : : : ; m 1g: = f1; 2; : : : ; ng y una distancia sobre : De…nición 10.7.1 Una cadena [i; j]m es el conjunto fi = i1 ; i2 ; : : : ; j = im g: De…nición 10.7.2 Indiquemos sup[i; j]m = sup (i ; i +1 ) m 1 el máximo salto de la cadena [i; j]m : De…nimos la distancia sobre u(i; j) = nf sup[i; j]m m Teorema 10.7.3 Se veri…ca: 1. u es una ultramétrica tal que u : 2. Si u es otra ultramétrica tal que u entonces u u: 3. u es la ultramétrica que se obtiene por el método del mínimo. Demost.: [i; j]2 = fi; jg es una cadena que une i; j y por lo tanto u(i; j) sup[i; j]2 Sea [i; j; k] una cadena que une i; j pero que contiene k: El conjunto de las cadenas [i; j; k] está contenido en el conjunto de las cadenas [i; j]. Por lo tanto: nf sup[i; j]m nf0 sup[i; k; j]m0 (10.9) m m 202 CAPÍTULO 10. CLASIFICACIÓN Por otra parte, dadas las cadenas [i; j]; [j; k] podemos construir [i; k; j] = [i; j] [ [j; k] de modo que sup[i; k; j] = supfsup[i; j]; sup[j; k]g Teniendo en cuenta (10.9) deducimos que u(i; j) Sea ahora u supfu(i; k); u(j; k)g . Aplicando la Proposición 10.7.2 u(i; j) sup u(i ; i 1 +1 ) sup[i; j]m m Por lo tanto u(i; j) nf sup[i; j]m = u(i; j): m Conviene comparar este resultado con el Teorema 10.6.1 10.8. Ejemplos Ejemplo 10.8.1 Profesores. Un grupo de n = 11 profesores de probabilidades y estadística de la Universidad de Barcelona han publicado, entre 1994 y 2000, unos 150 artículos internacionales, algunos en colaboración. Con la …nalidad de agrupar los profesores según los artículos que publicaron juntos, consideramos el coe…ciente de similaridad s(i; j) = número de artículos que i; j han publicado juntos: De…nimos entonces la disimilaridad d(i; j) = 1 s(i; j)= m nfs(i; i); s(j; j)g: Calculando d(i; j) para cada par de profesores, obtenemos la siguiente matriz de distancias: que trabajan en análisis multivariante (AM). Este grá…co pone de mani…esto que hay tres grupos principales con 4.06 1 1 0.2. respectivamente.11 0 1 0.50 Fortiana 0.2: Representación mediante un dendograma que agrupa 11 profesores según los artículos publicados conjuntamente. .33 1 1 1 1 0 1 1 1 0. estadística matemática (EM) y análisis estocástico (AE). método del mínimo (single linkage). Are Arenas 0 Corcuera 1 Cuadras 0.75 0 1 1 0.33 1 1 1 1 0 1 1 1 1 0. 2 y 5 profesores.33 0. obtenemos el dendograma de la Figura 10.25 0 Aplicando un análisis cluster.93 1 0 1 1 1 1 0 1 1 1 San Sar 0 0. a esta matriz de disimilaridades.75 1 1 1 0 0. EJEMPLOS 203 Figura 10.10.8.83 Marquez 1 Nualart 1 Oliva 1 Oller 1 Rovira 1 Sanz 1 Sarra 1 Cor Cua For Mar Nua Oli Oll Rov 0 1 1 1 1 1 0. 204 CAPÍTULO 10. (1993) para más detalles. Por ejemplo.Gallego. Castellano. Italiano. Midiendo objetivamente sus diferencias en relación a las letras que describen los números 1 a 10. duplicación.3: Representación mediante un dendograma (método del mínimo) de 14 idiomas europeos. Danés. añadido. Holandés.8. se pretende agrupar jerárquicamente 14 idiomas europeos: Alemán. Noruego y Polaco. Inglés. . CLASIFICACIÓN Figura 10. . Vasco. Catalán. Véase Oliva et al. . Ejemplo 10. Finés. . etc. Las disimilaridades iniciales se obtiene a partir de las diferencias al escribir los números del 1 al 10.) al escribir cada uno de los números 1. Los idiomas tienen semejanzas y diferencias entre sus palabras. Húngaro.2 Idiomas. 2. Francés. . 10. entre Inglés y Noruego hay 27 diferencias (sumando las que hay para cada uno de los números del 1 al 10). La disimilaridad entre cada par de idiomas se calcula sumando el número de letras que cambian (por supresión. y entre Español (Castellano) e Italiano sólo hay 17. EJEMPLOS 205 La matriz de disimilaridades es: Ale Alemán 0 Inglés 29 Vasco 45 Catalán 34 Castellano 32 Danés 30 Finés 58 Francés 33 Gallego 32 Holandés 19 Húngaro 42 Italiano 37 Noruego 29 Polaco 45 Ing Vas Cat Cas Dan Fin Fra Gal Hol Hun Ita Nor Pol 0 44 28 29 26 55 32 27 25 38 35 27 44 0 45 46 43 59 46 44 43 45 46 43 53 0 17 27 57 13 13 43 40 22 29 44 0 31 55 24 7 32 42 17 32 36 0 59 33 26 29 36 32 3 44 0 59 55 56 56 60 58 56 0 23 33 38 24 33 45 0 33 40 15 27 38 0 37 36 28 42 0 45 36 52 0 33 0 42 44 Sobre esta matriz de disimilaridades se lleva a cabo un análisis cluster jerárquico. aplicamos ahora un análisis cluster sobre la matriz de distancias de la Tabla 8. véase Figura 10. 0 . aunque son dos idiomas bastante distintos. método del mínimo (single linkage). El Polaco y el Húngaro.3. El Vasco y el Finés se mantienen separados de las otras lenguas.4. forman un cluster.8. siguiendo la dicotomía “gran cantidad” vs “pequeña cantidad”. Claramente se aprecia que los idiomas de origen latino se agrupan. El resultado es el dendograma de la Figura 10.3.7.8. indicando que hay una buena estructura jerárquica. Los resultados con el método del mínimo son bastante parecidos. Se percibe una división principal. Ejemplo 10. que también se agrupan. manteniendo una cierta similaridad con las lenguas anglosajonas.3 Adjetivos.10. que agrupa los adjetivos de peso y extensión espacial. Continuando con el ejemplo 8.2 (mitad inferior izquierda) por el método del máximo (complete linkage). puesto que tendremos una máxima dispersión entre clusters. y podemos considerar la descomposición de la variabilidad total T=B+W Una partición en g clusters que hace máxima B o mínima W. son: a) Minimizar tr(W): b) Minimizar jWj: c) Minimizar = jWj=jTj: d) Maximizar tr(W 1 B) .206 CAPÍTULO 10. justi…cados por el análisis multivariante de la varianza.9. dará una solución al problema.4: Representación mediante un dendograma de 23 adjetivos por el método del máximo. CLASIFICACIÓN Figura 10. Clasi…cación no jerárquica Una clasi…cación no jerárquica de n objetos en relación a una matriz de datos cuantitativos X. estamos en la misma situación contemplada en el Cap. Si tenemos g clusters. consiste en obtener g grupos homogéneos y excluyentes (clusters). Algunos criterios. 7. 10. en relación a algún criterio. 10. Comenzar con g puntos del espacio Rp y asignar los objetos a g clusters de acuerdo con la proximidad (distancia euclídea) a los g puntos iniciales. xk ) k=1 i=1 disminuye a cada paso. Repetir el paso anterior. Krzanowski. número muy grande incluso para valores moderados de n y g: Por ejemplo. Es posible probar que la suma de cuadrados de las distancias euclídeas de los puntos de cada cluster al centroide g n X X d2 (xki . Es éste un tema abordado desde muchas perspectivas (véase Gordon. Calcular los centroides de los g clusters obtenidos y reasignar los objetos según su proximidad al centroide de cada cluster. Parar cuando jWj ya no disminuye. Otro criterio considera dif (k) = (k 1)2=p W(k 1) k 2=p W(k) . g 1 n g donde B(k). es necesario seguir algún algoritmo de agrupación. Normalmente el usuario determina el número k de clusters.10. Hartigan. W(k) indican las matrices entre-grupos y dentro-grupos para k grupos. Número de clusters Diversos autores (Calinski. Un primer criterio consiste en tomar el valor k tal que maximice la cantidad cl1 (k) = tr(B(k)) tr(W(k)) = .10. 3. El método de las medias móviles consiste en: 1. 1999). calculando cada vez la cantidad jWj (o el criterio de optimización escogido). 2. 10. Lai) han propuesto métodos para estimar el número de clusters (conglomerados) de una clasi…cación. NÚMERO DE CLUSTERS 207 Pero la cantidad de maneras diferentes de agrupar n objetos en g clusters es del orden de g n =g!. Harabasz. necesitaríamos formar más de 1023 clusters si n = 50 y g = 3: Por tanto. diversos autores relacionaron las clasi…caciones jerárquicas con los espacios ultramétricos (Benzecri. dado que la propiedad ultramétrica ya era conocida en otros campos de la matemática. Posteriormente. También se ha argumentado (Flury. y clasi…caciones jerárquicas de las distancias. Hartigan (1967) y Johnson (1967) son dos referencias importantes para representar matrices de similaridades (o disimilaridades) mediante dendogramas y relacionarlos con las clasi…caciones jerárquicas. Johnson). jerárquica o no. .208 CAPÍTULO 10. La clasi…cación moderna (denominada taxonomía numérica) se inicia en 1957 con la necesidad de proponer criterios objetivos de clasi…cación (Sokal. Incluso se han realizado clasi…caciones de las propias maneras de clasi…car. comparan el cambio de log jW(k)j respecto al cambio esperado para una distribución apropiada de referencia. que permitía clasi…car animales y plantas según género y especie. 1997) que el planteamiento correcto del análisis cluster consiste en encontrar mixturas f (x) =p1 f1 (x) + +pg fg (x). Una crítica que se ha hecho al análisis cluster es el excesivo repertorio de distancias y métodos de clasi…cación. E[log jW(k)j] 10. CLASIFICACIÓN y elige k tal que maximiza cl2 (k) = dif (k)=dif (k + 1): Pero cl1 i cl2 no están de…nidos para k = 1: Un tercer criterio propone el estadístico W(k) H(k) = 1 =(n k 1). Michener). es decir. (2001) proponen un método que contempla también el caso k = 1: Partiendo del resultado de cualquier clasi…cación. Jardine. log jW(k)j: Complementos La historia de la clasi…cación comienza con la sistemática de Carl von Linné. W(k + 1) empieza con k = 1 y aumenta k si H(k) crece signi…cativamente de acuerdo con una aproximación a la distribución F.11. Sibson. Tibshirani et al. Véase Gordon (1999). Sneath. N.J.10. Simpson propusieron el método de clasi…cación denominado ‡exible. C. por ejemplo. a pesar del resultado de Holman. D. Kruskal). es posible representar un espacio ultramétrico con una sola dimensión utilizando una métrica adecuada. J. que consiste en de…nir la distancia de un cluster a la unión de dos clusters en función de unos parámetros. y análogamente en los siguientes pasos. inicialmente 0 (k. k) + j (j. Consúltese Everitt (1993). Hall. Ball.11. en el año 1999 se realizó la clasi…cación jerárquica del reino vegetal a partir de distancias entre secuencias de DNA. Gower conjeturó en 1971 que toda distancia ultramétrica era euclídea con dimensión n 1. Dando valores a los parámetros se obtienen los métodos siguientes (se incluye denominación estándar): Criterio de agrupación i j Mínimo (single linkage) 1=2 1=2 Máximo (complete linkage) 1=2 1=2 Media (weighted average link) 1=2 1=2 upgma (group average link) ni =(ni + nj ) nj =(ni + nj ) 0 0 0 0 1=2 +1=2 0 0 upgma (Unweighted pair group method using arithmetic averages) es un método recomendable porque proporciona una clasi…cación que se ajusta bien a la distancia inicial en el sentido de los mínimos cuadrados. E. Crithcley. Diday y otros propusieron algoritmos e…cientes de agrupación no jerárquica. (1996). Pero si una distancia mide razonablemente las diferencias entre los objetos. obteniendo una concordancia de un 60 % con la clasi…cación tradicional basada en la similitud morfológica de las plantas. Jardine y R. j) + j (i. entonces se pueden obtener clasi…caciones objetivas aplicando análisis cluster jerárquico. Por ejemplo. fi. jg) = i (i. Interesó entonces estudiar la relación entre representaciones en árbol y en coordenadas (Bock. G. . Critchley y Heiser (1988) probaron que. Un estudio de los vectores propios y las dimensiones principales de una matriz de distancias ultramétricas es debido a Cuadras y Oller (1987). k) (j. COMPLEMENTOS 209 donde cada densidad fi representaría un cluster y f la densidad de los datos que hemos observado. k) + (i. k)j. un resultado que sería probado por Holman (1972).H. Heiser. Véase también Cuadras y Carmona (1983) y Cuadras et al. CLASIFICACIÓN .210 CAPÍTULO 10. xp ).1) . La probabilidad de clasi…cación errónea (pce) es pce = P (R2 = 1 )P ( 1) 211 + P (R1 = 2 )P ( 2 ): (11. :::. xp ) 0 asignamos ! a en caso contrario asignamos ! a 1. xp ). 2 dos poblaciones. identi…car la especie a que pertenece una planta. etc. Indiquemos x = (x1 . xp ) las observaciones de las variables sobre un individuo !. Se trata de asignar ! a una de las dos poblaciones. Introducción Sean 1 . :::. :::. y que a menudo es planteado mediante una función discriminante D (x1 . 2: Esta regla divide Rp en dos regiones R1 = fxjD(x) > 0g. :::. Una regla discriminante es un criterio que permite asignar ! conocido (x1 . Entonces la regla de clasi…cación es Si D (x1 .1. :::. determinar si un tumor es benigno o maligno.Capítulo 11 ANÁLISIS DISCRIMINANTE 11. nos equivocaremos si asignamos ! a una población a la que no pertenece.Xp variables observables. X1 . R2 = fxjD(x) < 0g: En la decisión de identi…car !. Este problema aparece en muchas situaciones: decidir si se puede conceder un crédito. es 2) M 2 (x.2.2. 2: La función lineal (11. Discriminador lineal Sean 1 . Las distancias de Mahalanobis de las observaciones x =(x1 . 2 los vectores de medias de las variables en 1 . (11. f2 (x) son las densidades de x en 1 . 2: Un primer criterio de clasi…cación consiste en asignar ! a la población más próxima: Si M 2 (x. ANÁLISIS DISCRIMINANTE 11. 2 ) asignamos ! a 1 . 1) = x0 x0 = ( 2 1 x+ 1 x 0 1) 1 2 2x0 1 2 0 1 1 1 + 2x 1 1 ( 2 + 1 ) + 2x0 1 ( 2 1 1 2 ): De…nimos la función discriminante L (x) = x Entonces M 2 (x. xp )0 de un individuo ! a las poblaciones son M 2 (x. 2 .2) 1. 2 : Una regla de clasi…cación consiste en asignar ! a la población donde la verosimilitud de las observaciones x es más grande: Si f1 (x) >f2 (x) asignamos ! a en caso contrario asignamos ! a La función discriminante es V (x) = log f1 (x) log f2 (x) : 1. i = 1. 11. respectivamente. : : : .2. 1 ) < M 2 (x.2.212 CAPÍTULO 11. 2) M 2 (x.3) y la regla (11. tenemos: M 2 (x. 2: .3) es el discriminador lineal de Fisher. Clasi…cación en dos poblaciones 11. i) 0 i) = (x 1 (x i ). y supongamos que la matriz de covarianzas es común.2) en caso contrario asignamos ! a 2 : Expresando esta regla como una función discriminante. Regla de la máxima verosimilitud Supongamos que f1 (x) .1. 1 2 ( 1) 1 + 2) 0 1 = 2L(x) L(( ( 1 1 2) : + 2 ) =2) Si L(x) >0 asignamos ! a en caso contrario asignamos ! a (11. las probabilidades a posteriori de que ! pertenezca a las poblaciones (teorema de Bayes) son qi fi (x) P ( i =x) = .2.: Supongamos que se dispone de otra regla que clasi…ca a 1 si x 2R1 . Teorema 11. R2 son regiones complementarias del espacio muestral.3. 213 Regla de Bayes En ciertas situaciones. q1 + q2 = 1: Una vez que se dispone de las observaciones x =(x1 . y a 2 si x 2R2 . 2: El discriminador de Bayes es B (x) = log f1 (x) log f2 (x) + log (q1 =q2 ) : Cuando q1 = q2 = 1=2. Indicando dx =dx1 dxp . q2 = P ( 2) . siendo R2 = fxjB(x) <0g: . se conocen las probabilidades a priori de que ! pertenezca a cada una de las poblaciones q1 = P ( 1) . : : : . 2: q1 f1 (x) + q2 f2 (x) La regla de clasi…cación de Bayes es Si P ( 1 =x) >P ( 2 =x) asignamos ! a en caso contrario asignamos ! a 1. donde R1 . la probabilidad de clasi…cación errónea es Z Z pce = q1 f1 (x)dx+q2 f2 (x)dx R2 R1 Z Z Z = (q1 f1 (x) q2 f 2 (x))dx+q2 ( f2 (x)dx+ f2 (x)dx) R2 R2 R1 Z = (q1 f1 (x) q2 f 2 (x))dx+q2 : R2 Indiquemos z = q1 f1 (x) q2 f 2 (x): Esta última integral es mínima si R2 incluye todas las x tales que z<0 y excluye todas las x tal que z>0: Por tanto pce es mínima si R2 = R2 . Demost.2.11. CLASIFICACIÓN EN DOS POBLACIONES 11.1 La regla de Bayes minimiza la probabilidad de clasi…cación errónea.2. i = 1. xp ). entonces B (x) = V (x) : Este discriminador es óptimo . 1 es Np ( 1. coinciden.3. ): 11.2. y por tanto los discriminadores máximo verosímil y lineal. = 0 1) 1 (x 2 V (x) = 1 1 . Sea la distancia de Mahalanobis entre las dos poblaciones =( 0 2) 1 Si suponemos que x proviene de Np ( 0 y de E(x . es decir.3. y la función discriminante de Bayes es el discriminador lineal más la constante log(q1 =q2 ): . ) si x proviene de Np ( 2 . (x 2 )(x 2) = 0 1 esperanza de U = (x (x 1) E(U ) =E[(x 0 2) 1 (x 2) 0 2) y la varianza de V = (x var(V ) = E(( 2 0 1 1 1) + (x (x 1 ( 2 ): 1 ). entonces es fácil ver que 1 B(x) =L(x)+ log(q1 =q2 ).214 CAPÍTULO 11.Xp en y en 2 es Np ( 2 . y conocemos las probabilidades a 2 ) . 2 ).4) L(x) es N ( 21 . entonces 1 1 ) + (x 2 = 2 (x 0 2) 1 (x 2) = L(x). q2 = P ( = 2 = . el segundo basado en el criterio de la mínima distancia. ). ) si x proviene de Np ( 1 . de x 0 1 ) (x 2 1 ) es 2. 1) i )g: Discriminador lineal Si suponemos 6= 1 2. Clasi…cación en poblaciones normales Supongamos ahora que la distribución de X1 .3. + 2(x 2) 2 )(x 0 2) =x 1 2 p. 2) 1 ( 2 2 + 2 1. ANÁLISIS DISCRIMINANTE 11. tenemos que la 1 )] =p+ . :::. es la misma que la de L(x) y es 0 2) 1 ( 2 1 )) = : Entonces encontramos fácilmente la distribución de la función discriminante L(x) : L(x) es N (+ 21 . 1 1=2 0 1 expf (x fi (x) = (2 ) p=2 i 1 i) i (x 2 11.1. priori q1 = P ( 1 ) . (11. Regla de Bayes Si suponemos 1 6= 2 . 3. 11.3. x2 . 1 6= 2 : Entonces el criterio de la máxima verosimilitud proporciona el discriminador Q (x) = 1 0 x 2 + 12 1 1 2 0 2 1 1 2 1 2 2 x + x0 0 1 1 1 1 1 1 1 1 + 1 log j 2 2 2j 2 1 log j 2 1j : Q(x) es el discriminador cuadrático.4. 2 son desconocidos y se deberán estimar a partir de muestras de tamaños n1 .3. CLASIFICACIÓN EN POBLACIONES NORMALES 11. y 1 . Análogamente podemos obtener el discriminador cuadrático de Bayes B(x) =Q(x) + log(q1 =q2 ): 11. entonces la estimación de será S =(n1 S1 + n2 S2 )=(n1 + n2 ) y la versión muestral del discriminador lineal es b (x) = [x L 1 2 (x1 + x2 )]0 S 1 (x1 x2 ) : .3. Discriminador cuadrático Supongamos 1 6= 2 .11. n2 de las dos poblaciones sustituyendo 1 . ) es p p P (L(x) <0j 1 ) = P ((L(x) 21 )= ) = ( 12 ). S2 : Si utilizamos el estimador lineal. 2 donde (z) es la función de distribución N (0.3. 215 Probabilidad de clasi…cación errónea La probabilidad de asignar x a cuando proviene de Np ( 1 . 2 . 2 por las matrices de covarianzas S1 . 1 . 1): La probabilidad de clasi…cación errónea es p ): pce = q1 P (L(x) <0j 1 ) + q2 P (L(x) >0j 2 ) = ( 21 Por tanto pce es una función decreciente de la distancia de Mahalanobis entre las dos poblaciones.5. 2 por los vectores de medias x1 . Clasi…cación cuando los parámetros son estimados En las aplicaciones prácticas. 1 . . se midieron las variables l = longitud. 94 301:4 31:02 31:02 222:6 1 22:1 9:7 . 12 ) si x proviene de Np ( (x1 ). Mytilicola intestinalis es un copépodo parásito del mejillón. 2.4. que en estado larval presenta diferentes estadios de crecimiento. a = anchura. x2 ) : Ejemplo Ejemplo 11.4.216 CAPÍTULO 11. pero la distribución La distribución muestral de L asintótica es normal: b L(x) es N (+ 12 . El primer estadio (Nauplis) y el segundo estadio (Metanauplius) son difíciles de distinguir. b L(x) es N ( = (x1 x2 )0 S 1 1 2 1. anch) = [(long. anch) = 0:069long 1 2 (461:1. ANÁLISIS DISCRIMINANTE b (x) es bastante complicada. Sobre una muestra de n1 = 76 y n2 = 91 copépodos que se pudieron identi…car al microscopio como del primero y segundo estadio respectivamente. ). y se obtuvieron las siguientes medias y matrices de covarianzas: Estadio-1 ( 219:5 138:1 ) 409:9 1:316 1:316 306:2 x1 = S1 = x2 = S2 = Estadio-2 ( 241:6 147:8 ) 210:9 57:97 57:97 152:8 Discriminador lineal La estimación de la matriz de covarianzas común es: S = (n1 S1 + n2 S2 )=(n1 + n2 ) = 301:4 31:02 31:02 222:6 El discriminador lineal es: L(long. 285:9)] 0:034anch + 20. ) si x proviene de Np ( donde 11.1 Copépodos. EJEMPLO 217 Figura 11. La línea recta es el conjunto de puntos tales que L = 0: La parábola es el conjunto de puntos tales que Q = 0: La tabla de clasi…caciones es: Estadio asignado 1 2 Estadio 1 61 15 original 2 21 70 Discriminador de Bayes Una larva.4. la larva pasa a un estadio fácilmente identi…cable. una probabilidad 4=12 = 1=3 de pertenecer al estadio 1 y una probabilidad 8=12 = 2=3 de pertenecer al estadio 2. q2 = 2=3. Así q1 = 1=3. Por tanto. desde que eclosiona está 4 horas en el estadio 1 y 8 horas en el estadio 2. Al cabo de 12 horas. una larva tiene. anch) + log(1=2) = 0:069 long 0:034 anch + 20:24 .11. a priori.1: Discriminadores lineal y cuadrático en la clasi…cación de copépodos en Estadios 1 y 2. anch) = V (long. y el discriminador de Bayes es B(long. l. . 32) = 26:22 con 3 g. Efectuando cálculos se obtiene: Q(long. : : : . anch) = 0:0014 long2 + 0:002 anch2 0:002 long 0:445 long 0:141 anch + 72:36 anch Con el clasi…cador cuadrático se han clasi…cado bien 2 individuos más (Fig. Las diferencias entre las matrices de covarianzas son signi…cativas. 11. Por tanto.1): Estadio asignado 1 2 Estadio 1 59 17 original 2 17 74 11. donde k asignar ! a una de las k poblaciones sobre la base de las observaciones x = (x1 . xp )0 de p variables. x2 . 2 . el discriminador cuadrático puede resultar más apropiado. Discriminación en el caso de k poblaciones Supongamos ahora que el individuo ! puede provenir de k poblaciones 3: Es necesario establecer una regla que permita 1 .218 CAPÍTULO 11. : : : . k .5. ANÁLISIS DISCRIMINANTE Probabilidad de clasi…cación errónea Una estimación de la distancia de Mahalanobis es 22:1 301:4 31:02 31:02 222:6 9:7 1 22:1 9:7 = 1:872: La probabilidad de asignar una larva al estadio 1 cuando corresponde al estadio 2 o al estadio 2 cuando corresponde al estadio 1 es pce = ( 1p 1:872) = ( 0:684) = 0:247: 2 Discriminador cuadrático El test de homogeneidad de covarianzas nos da: 2 = [1 1 13 1 ( + 18 75 90 1 )](1835:4 165 882:5 926. 2. : : : .5) equivale a Si Lij (x) > 0 para todo j 6= i. un criterio de clasi…cación consiste en asignar ! a la población más próxima: Si M 2 (x. i) = m nfM 2 (x. i = 1. 2. Lij (x) = 21 [M 2 (x. 1 ). 1 funciones discriminantes. i) 0 i) = (x 1 (x i ). : : : .5) Introduciendo las funciones discriminantes lineales Lij (x) = i j 0 1 x 1 2 i j 0 1 i + j es fácil probar que (11. M 2 (x. DISCRIMINACIÓN EN EL CASO DE K POBLACIONES 11.5. i )]: Lji (x) : 3.5. k )g. asignamos ! a i: Este criterio es más general que el geométrico y está asociado a las funciones discriminantes Vij (x) = log fi (x) log fj (x): . k. Regla de la máxima verosimilitud Sea fi (x) la función de densidad de x en la población i : Podemos obtener una regla de clasi…cación asignando ! a la población donde la verosimilitud es más grande: Si fi (x) = maxff1 (x). sólo necesitamos conocer k 11. y que la matriz de covarianzas es común. : : : . asignamos ! a i: (11. asignamos ! a i: Además las funciones Lij (x) veri…can: 1.1. Lij (x) = j) M 2 (x. Si consideramos las distancias de Mahalanobis de ! a las poblaciones M 2 (x.11. Lrs (x) = Lis (x) Lir (x) : Es decir.5. fk (x)g. 219 Discriminadores lineales Supongamos que la media de las variables en i es i . 11.8 x2 =2. se conocen las probabilidades a priori q1 = P ( 1 ) . Pero si las matrices de covarianzas son diferentes 1 . 1 0 x 2 1 + 2 1 1 j 0 j i 1 j j 1 2 1 x + x0 0 i 1 i i 1 i 1 j + 1 log j 2 jj 2 1 log j 2 ij : Regla de Bayes Si además de las funciones de densidad fi (x).220 CAPÍTULO 11. se veri…ca Vij (x) = Lij (x). queremos clasi…car a una de las 3 especies una ‡or cuyas medidas son: x1 =6. la regla de Bayes que asigna ! a la población tal que la probabilidad a posteriori es máxima Si qi fi (x) = maxfq1 f1 (x). ANÁLISIS DISCRIMINANTE En el caso de normalidad multivariante y matriz de covarianzas común.3. entonces este criterio dará lugar a los discriminadores cuadráticos Qij (x) = 11.8 x3 =4.6.6.5. qk fk (x)g. la probabilidad de clasi…cación errónea es ! k k X X pce = qi P (j=i) . y los discriminadores máximo verosímiles coinciden con los lineales.4 . : : : . asignamos ! a i. Un ejemplo clásico Continuando con el ejemplo 3. i=1 j cuando en realidad j6=i y se demuestra que la regla de Bayes minimiza esta pce. : : : . : : : .2. k . si P (j=i) es la probabilidad de asignar ! a es de i .8 x4 =1. está asociada a las funciones discriminantes Bij (x) = log fi (x) log fj (x) + log(qi =qj ): Finalmente. q k = P ( k ) . x1 )] . L23 (x) = L13 (x) L12 (x). L31 (x) = L13 (x). UN EJEMPLO CLÁSICO 221 La matriz de covarianzas común es 0 0:2650 0:0927 0:1675 0:0384 B 0:1154 0:05524 0:0327 S=B @ 0:18519 0:0426 0:0418 1 C C A Las distancies de Mahalanobis (al cuadrado) entre las 3 poblaciones son: Setosa Versicolor Virginica Setosa 0 89.201 Versicolor Virginica 0 Los discriminadores lineales son: L12 (x) = 21 [M 2 (x. x1 )] .6. L21 (x) = L12 (x). Versicolor.864 179. El resultado de este proceso da: Población 1 original 2 3 Población asignada 1 2 50 0 0 48 0 1 3 0 2 49 Sólo hay 3 individuos mal clasi…cados y la pce estimada es 3=150 = 0:02: . clasi…carlo a partir de los demás y observar si sale bien clasi…cado (método leaving-one-out). x2 ) M 2 (x.11. L32 (x) = L23 (x): La regla de decisión consiste en asignar el individuo x a la población i si Lij (x) > 0 8j 6= i: Se obtiene: Individuo x L12 51:107 L13 L21 44:759 51:107 L23 L31 6:3484 44:759 L32 Población 6:3484 2 Por lo tanto clasi…camos la ‡or a la especie I.38 0 17. L13 (x) = 12 [M 2 (x. x3 ) M 2 (x. Para estimar la probabilidad de clasi…cación errónea pce podemos omitir una vez cada individuo. CAPÍTULO 11. ANÁLISIS DISCRIMINANTE Complementos El Análisis Discriminante se inicia en 1936 con el trabajo de R.W. Si de…nimos y(!. A. en diversos trabajos. A. J. B. x) = P ( 1 =x) = q1 f1 (x)=(q1 f1 (x) + q2 f2 (x)). Fisher sobre clasi…cación de ‡ores del género Iris. Smith introdujeron el discriminador cuadrático. Se pueden obtener otros modelos cambiando F: Por ejemplo. Cavalli y C. Anderson estudiaron las propiedades del discriminador lineal. estudió el modelo de discriminación logístico. Este modelo se estudia en el próximo capítulo. Entonces el modelo logístico (modelo logit) supone y(!. x) = 1 1+e + 0 x = F( 0 x). entonces obtenemos el llamado modelo probit. la regla de clasi…cación es ! es de 1 si y(!. donde F (z) = 1=(1+e z ) es la llamada función de distribución logística.7. . L. de 2 en caso contrario.A. Wald y T. x) > 1=2. Anderson.222 11. si escogemos la función de distribución normal estándar. A. 1. : : : .1. indicando P (A) = p. y = 0 si A no se presenta.Capítulo 12 DISCRIMINACIÓN LOGÍSTICA Y OTRAS 12. Si la probabilidad de A no depende de otras variables. Supongamos que un suceso (o evento) de interés A puede presentarse o no en cada uno de los individuos de una cierta población. la verosimilitud de una única observación y es L = py (1 p)1 y . L = 1 p si y = 0: Si realizamos n pruebas independientes y observamos y1 . Análisis discriminante logístico 12. la verosimilitud es n Y L= pyi (1 p)1 yi = pk (1 p)n k i=1 223 . pues L = p si y = 1. Consideremos una variable binaria y que toma los valores: y = 1 si A se presenta. yn .1. Introducción El modelo de regresión logística permite estimar la probabilidad de un suceso que depende de los valores de ciertas covariables. DISCRIMINACIÓN LOGÍSTICA Y OTRAS P siendo k = yi la frecuencia absoluta de A en las n pruebas. Xp : Es decir.1.224 CAPÍTULO 12. ambas en función de x 0 1 e 0+ x p(x) = 1 p(x) = 0 . p )0 parámetros de regresión: El modelo (12. . Para estimar p resolvemos la ecuación de verosimilitud @ ln L = 0 @p cuya solución es pb = k=n. : : : . Modelo de regresión logística Supongamos ahora que la probabilidad p depende de los valores de ciertas variables X1 . entonces la probabilidad de acontecer A dado x es p(y = 1jx): Indicaremos esta probabilidad por p(x): La probabilidad contraria de que A no suceda dado x será p(y = 0jx) = 1 p(x): Es fácil darse cuenta que pretender que p(x) sea una función lineal de x no puede funcionar correctamente. p(1 p)=n): Muy distinta es la estimación cuando esta probabilidad depende de otras variables. la frecuencia relativa del suceso A: La distribución asintótica de pb es normal N (p. La probabilidad de A debe entonces modelarse adecuadamente.2. (12. podemos entender el modelo logístico en el sentido de que y = p(x) + e. 12. es muy conveniente suponer un modelo lineal para la llamada transformación logística de la probabilidad ln p(x) = 1 p(x) 0 + 1 x1 + + p xp = 0 + 0 x. : : : . xp )0 son las observaciones de un cierto individuo ! sobre las variables.1) equivale a suponer las siguientes probabilidades para A y su contrario. 0 : + x 0 1+e 1 + e 0+ x Hagamos ahora una breve comparación con el modelo lineal.1) siendo = ( 1 . si x = (x1 . : : : . pues p(x) está comprendido entre 0 y 1: Por diversas razones. donde se supone que y es una variable respuesta cuantitativa y que e es un error con media 0 y varianza 2 : Usando la misma terminología. El modelo de regresión lineal (véase Capítulo 13) es y= 0 + 1 x1 + + p xp + e. X = B . la regla de discriminación logística (suponiendo los parámetros conocidos o estimados) simplemente decide que ! posee la característica A si p(x) > 0:5. 1 xn1 xn2 yn x1p x2p . . C .. xip ) se puede tabular matricialmente como 0 1 0 1 x11 x12 y1 B 1 x21 x22 B y2 C B C B y = B .12. dado x. y no la posee si p(x) 0:5 Introduciendo la función discriminante p(x) . el error e tiene media 0 y varianza p(x)(1 p(x)): Dado un individuo !. xi1 . 0 entonces y = 0: Estimación de los parámetros La verosimilitud de una observación y es L = p(x)y (1 obtención de n observaciones independientes p(x))1 y : La (yi .1.. .. Lg (x) = ln 1 p(x) la regla de decisión logística es Si Lg (x) > 0 entonces y = 1. si Lg (x) 12. : : : .1. para poder tener en cuenta el término constante la primera columna de X contiene unos. @ .. . xnp Nótese que. xi ) = (yi . ANÁLISIS DISCRIMINANTE LOGÍSTICO 225 donde ahora y sólo toma los valores 0 ó 1: Si y = 1 entonces e = 1 p(x) con probabilidad p(x): Si y = 0 entonces e = p(x) con probabilidad 1 p(x): De este modo. @ .. . La verosimilitud de n observaciones independientes es L= n Y p(xi )yi (1 p(xi ))1 yi i=1 Tomando logaritmos ln L = n X i=1 yi ln p(xi )(1 p(x))1 yi 1 C C C: A 0 en el modelo.3. A .. .. . . . .var(bi )). Sin embargo las ecuaciones (12. la matriz X y el vector de probabilidades (X) = (p(x1 ) : : : . . la matriz de información de Fisher es I = X0 VX.4. DISCRIMINACIÓN LOGÍSTICA Y OTRAS A …n de hallar los estimadores máximo verosímiles de los parámetros beremos resolver las ecuaciones @ ln L = 0. 1. 0 p(xn )(1 p(xn )) La distribución asintótica de b es normal multivariante Np+1 ( . siendo comparables con las ecuaciones normales (Capítulo 13) X0 X = X0 Y. Distribución asintótica y test de Wald Indiquemos por b = (b0 . p(xn ))0 . .226 CAPÍTULO 12.1. Pn (yi p(xi )) = 0... luego =1 p(xi ) = xij (1 p(xi )) Análogamente derivaríamos ln(1 p(xi )) = ln(1 + e 0 + 1 xi ): Se obtienen entonces las ecuaciones de verosimilitud para estimar los parámetros . que depende de . p: ln(1 + e 1 xi 0 + 1 xi 0 ln p(xi ) = 1 ln p(xi ) = xij de- e 0 + xi 0 1+e 0 + xi 0 e 0+ x xij 1+e 0 + 0 xi ). . siendo 2 3 p(x1 )(1 p(x1 )) 0 6 7 . @ j Se tiene ln p(xi ) = @ @ 0 @ @ j 0 + j = 0.2) n p(xi )) = 0. Aplicando la teoría asintótica de los estimadores máximo verosímiles. j = 1.2) no se pueden resolver explícitamente. V=4 5: . salvo que ahora el modelo X es (X). 12. p: i=1 xij (yi Utilizando el vector y. Véase Peña (2002). estas ecuaciones se pueden escribir como X0 (X) = X0 y. la distribución asintótica del parámetro bi es normal N ( i . : : : . I 1 ): En particular. para estimar los parámetros del modelo lineal y = X +e. Pi=1 (12. debiéndose recurrir a procedimientos numéricos iterativos. : : : . b1 . bp )0 la estimación de los parámetros. : : : . o bien z 2 con distribución ji-cuadrado con 1 g. Se puede interpretar D como menos dos veces la razón de verosimilitudes del modelo ajustado y el modelo saturado D= 2 ln L(modelo de regresión) : L(modelo saturado) El modelo saturado es el que posee tantos parámetros como observaciones. 1). l. el test de Wald calcula 0 w = b I b.1. Ajuste del modelo En regresión logística se obtiene el ajuste del modelo calculando la verosimilitud L del modelo (estimando los parámetros por máxima verosimilitud) y utilizando el llamado estadístico de desviación: D= 2 ln L(modelo de regresión).12. la signi…cación de un coe…ciente de regresión: H0 : i = 0: Utilizando la desviación D calcularemos G = D (modelo sin las variables) D(modelo con las variables) L(modelo sin las variables) : = 2 ln L(modelo con las variables) . En nuestro caso n Y L(modelo saturado) = yi yi (1 yi )1 yi ) = 1: i=1 Supongamos ahora que deseamos estudiar la signi…cación de una o varias covariables. con distribución asintótica N (0.5. ANÁLISIS DISCRIMINANTE LOGÍSTICO 227 donde var(bi ) es el correspondiente elemento diagonal de la matriz inversa I 1: El llamado test de Wald para la signi…cación de i utiliza el estadístico q b z = i = var(bi ).1. Si se desea estudiar la signi…cación de todos los parámetros de regresión. bajo la hipótesis nula = 0: 12. En particular. l. con distribución asintótica ji-cuadrado con p + 1 g. la curva Se va dando la proporción de individuos a los que se detecta tumor maligno. Curva ROC Supongamos que la población consiste en individuos que poseen un tumor. En particular k = 1 si sólo estudiamos la signi…cación de una variable. Si queremos estudiar la signi…cación de k variables. el cual puede ser maligno (suceso A).1: Curva ROC que representa las curvas 1-Especi…cidad y Sensibilidad. DISCRIMINACIÓN LOGÍSTICA Y OTRAS Figura 12. pues bastantes individuos podrían ser clasi…cados como tumor benigno siendo maligno. y para t = 1 todos resultarían benignos. 12. l. La curva 2 indicaría que los datos poseen mejor capacidad de discriminación que la curva 1.228 CAPÍTULO 12. Para t = 0 todos los individuos resultarían malignos. . Se llama sensibilidad a la curva Se(t) = P (p(x) > tjy = 1). o benigno (contrario de A): La regla de discriminación logística Si p(x) > 0:5 decidimos que y = 1 puede resultar insu…ciente en este caso. entonces la distribución asintótica de G es ji-cuadrado con k g. 0 t 1: Variando t.1.6. Es la curva que resulta de representar los puntos (1 Es(t).edu/statdata/statdata/ . Ejemplo 12. Es decir. peso antes embarazo. sin cometer demasiados errores (decidir que es maligno cuando en realidad es benigno).umass. la curva Es va dando la proporción de individuos a los que se detecta tumor benigno. Es un problema importante en diagnosis médica determinar el valor de corte t tal que detecte el mayor número de tumores malignos. Visitando la página web http://www. 0 t 1: Variando t. Véase Hosmer y Lemeshow (2000). y cuanto más se aparta de la diagonal.1).1. mejor es la discriminación (Figura 12.) que provocan el nacimiento de un bebé prematuro. En el caso de que la curva coincida con la diagonal.1 Bebés. tendríamos que la función discriminante logística Lg (x) = ln[p(x)=(1 p(x))] tiene exactamente la misma distribución tanto si y = 1 como si y = 0: El área bajo la curva ROC es siempre mayor o igual que 0:5: Un valor a partir de 0:8 se considera como que la discriminación es buena.1. La curva ROC (Receiving Operating Characteristic) resume las dos curvas de sensibilidad y especi…cidad. Para t = 0 todos los individuos resultarían benignos. se intentó estudiar las causas (edad. Un valor a partir de 0:9 se consideraría como muy bueno. etc. La discriminación sería perfecta si el área vale 1. se tiene que Se(t) = P (p(x) > tjy = 1) = 1 Es(t) = P (p(x) > tjy = 0): Entonces no es posible distinguir entre las dos poblaciones. La curva ROC está por encima de la diagonal. Se(t)) 0 t 1. En un estudio epidemiológico sobre n = 189 mujeres que han tenido un bebé. y para t = 1 todos resultarían malignos. fumar. ANÁLISIS DISCRIMINANTE LOGÍSTICO 229 Se llama especi…cidad a la curva Es(t) = P (p(x) < tjy = 0).12. es decir. Se considera que un bebé es prematuro si su peso está por debajo de los 2500 gramos. 1-Especi…cidad en el eje OX. y la Sensibilidad en el eje OY. detectamos . 1 si menor que 2500gr) y las variables predictoras Edad. : : :. En la siguiente tabla vemos que si disminuye el punto de corte. La variable Raza (categórica con 3 estados). sus desviaciones típicas y el estadístico de Wald se dan en el siguiente cuadro. Visitas). race. smoke. En el archivo original las variables se denominan: age. Raza. Consideramos LOW como variable dependiente (0 si peso mayor 2500gr. obtenemos D = 2 ln(modelo) = 214:575: Considerando el término constante y 3 variables (Peso. Luego no hay ventaja en incluir las variables Edad y Número de visitas. Regression-Logistic) se puede bajar el archivo “Low Birthweight”. DISCRIMINACIÓN LOGÍSTICA Y OTRAS (!Data sets. obtenemos D = 2 ln(modelo) = 215:05: La diferencia entre las dos desviaciones 215:05 214:575 = 0:475 es ji-cuadrado con 3 g. visits. Las estimaciones de los parámetros 0 . Raza. weight. 1 .. en caso contrario es normal. Peso. 0:022 0:035 0:41 1 0. no signi…cativo. Peso (peso de la madre). 5 se puede alterar para mejorar la Sensibilidad (detectar un bebé con peso bajo) o la Especi…cidad (detectar un bebé con peso normal). 012 0:006 3:76 1 7:79 2 0:94 0:41 5:07 1 0:29 0:52 0:30 1 1:05 0:38 7:64 1 0:008 0. Fumadora (0=no fuma. Fumadora. Variable Edad Peso Raza Raza_1 Raza_2 Fumadora Visitas Constante D = 2log(verosim) ST( ). l.230 CAPÍTULO 12. Wald g. Visitas (número de visitas al médico durante el primer trimestre). Fumadora). El valor de corte 0. 16 0:002 1 0:79 0:15 25:3 1 214:57 p 0:622 0:052 0:020 0:024 0:583 0:006 0:963 0:000 Con el modelo considerando el término constante y 5 variables (Edad. La regla estándar de decisión en regresión logística es: Si p(x) > 0. 2=negro. se desglosa en 2 variables binarias. 1=fuma). 3=otros). l. 5 el bebé tiene el peso bajo. Raza (1=blanco. 100 76.5 0. pero menos de peso normal. El área bajo la curva ROC es 0. variando la probabilidad de corte.0 93. 684.2: Curva ROC que representa la Sensibilidad frente a 1 Especi…cidad. ANÁLISIS DISCRIMINANTE LOGÍSTICO 231 más bebés de bajo peso.9 % Normales pred.3 1. .2 50.1 0. para los datos de bebés con bajo peso. indicando que el modelo posee una capacidad de predicción moderada. En este ejemplo (Figura 12.12.8 100 100 % Peso bajo pred.3 15. Corte 0.7 0 La curva ROC es el grá…co conjunto de 1-Especi…cidad (eje horizontal) y la Sensibilidad (eje vertical). 5 en el peor de los casos (que la curva ROC coincida con la diagonal). 9.2) el área vale 0.1.3 0. Figura 12.7 0. La diagonal indicaría empate (no se distingue entre bebé de bajo peso y bebé normal). conseguimos obtener el modelo logístico a partir del discriminador lineal.1. pierde en e…ciencia.7. Al ser el logístico un modelo más amplio y robusto. ) con probabilidades a priori q1 = q0 = 1=2. la probabilidad de y = 1 (es decir. de la población Np ( 1 .232 CAPÍTULO 12. = 1 ( 1 0) . DISCRIMINACIÓN LOGÍSTICA Y OTRAS 12. La e…ciencia relativa asintótica es una función de siendo la distancia de Mahalanobis entre las dos poblaciones: =( 1 0 0) 1 ( 1 0 ): . Efron (1975) calculó analíticamente la e…ciencia relativa (cociente entre las probabilidades de clasi…cación errónea) del modelo logístico respecto al p lineal normal. que incluye la normal. y utilizando el discriminador lineal. Np ( 0 . 0 1) es el discriminador lineal. Comparación entre discriminador lineal y logístico En el modelo logístico conocemos la probabilidad p(x) de y = 1 dados los valores x 0 e 0+ x p(x) = 0 1 + e 0+ x Bajo normalidad Np ( 1 . Sin embargo. En realidad el modelo logístico sirve para la clase de distribuciones pertenecientes a la familia exponencial. ). el modelo normal es más e…ciente. )) dado x es f1 (x) = P (y = 1jx) = f1 (x) + f0 (x) e 1 (x 2 e 1 (x 2 1) 0 1 (x 1) 1) 1 0 1 (x 1 (x 2 +e Multiplicando numerador y denominador por e 2 (x 1 0 1 0 do en cuenta que 21 (x (x 1) 1 ) + 2 (x 0) donde 0 1 1 ( 0 ( + 1) L (x) = x 2 0 1) 0) 0 1 0) 1 (x (x 0 1 (x 0) : 0) y tenien) = L(x). vemos que P (y = 1jx) = Puesto que 0 L(x) = = 1 ( 2 0 1 + + 0 e L(x) : 1 + e L(x) x siendo 0 0) 1 ( 1 0) . 15 1 p valor 0. y decrece hasta 0.4.995 . 031 Constante 20. 12 ST( ) 0. 1 . y el copépodo sería asignado al estadio 2. para valores muy pequeños de .anch) = 0:069 long 0:034 anch + 20:94 p p = 1:872 = 1:368: La e…ciencia del discriminador logísEn este ejemplo tico con respecto al lineal normal es del orden de 0:98. respectivamente: e 20:23+0:069l+0:031a 1+e 1 + e 20:23+0:069l+0:031a Por ejemplo. 069 Anchura 0. se obtiene Variable Amplitud 0.5 2 2.343 Continuando con el ejemplo 11. 000 0.5 4 E…ciencia 1.2.641 . el discriminador lineal (suponiendo normalidad e igualdad de matrices de covarianzas) es: L(long. si l = 248.486 . 013 3.343 para = 16 (la probabilidad de error en el caso logístico es tres veces mayor que en el normal si es grande).5 3 3.5 1 1. 000 Las probabilidades de que un copépodo con longitud l y anchura a pertenezca al estadio 1 y al estadio 2 son. l. 23 D = 2log(verosim) 167. 20:23+0:069l+0:031a 12. Análisis discriminante basado en distancias Los métodos que hemos descrito funcionan bien con variables cuantitativas o cuando se conoce la densidad. entonces las probabilidades son 0:136 y 0:863. 21 1 5. a = 160.12. categóricas o mixtas.1.2. 012 0. 859 1 38. ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 233 Para q1 = q0 = 1=2 (el caso más favorable para el discriminante logístico). Los valores son: p 0 0. 015 0.000 . Pero a menudo las variables son binarias. . Aplicando el modelo logístico.3). Los resultados prácticamente coinciden con el discriminador lineal (Figura 12. 277 Wald g. la e…ciencia es la misma (vale 1). 31.968 . Aceptando y aplicando el principio de que siempre es posible de…nir una distancia entre observaciones. es posible dar una versión del análisis discriminante utilizando solamente distancias.786 .000 1.899 . X un vector aleatorio con valores en F Rp y densidad f (x1 . indicando la misma e…ciencia para discriminar entre los dos estadios. El área bajo la curva ROC es 0. a t. que varía aleatoriamente. De…nimos la función de proximidad de ! a en relación con X como la función Z 2 2 2 (x) = E (x.3: Curvas ROC para el discriminador lineal y el logístico (izquierda). .234 CAPÍTULO 12. DISCRIMINACIÓN LOGÍSTICA Y OTRAS Figura 12.2. xp ) : Sea una función de distancia entre las observaciones de X: De…nimos la variabilidad geométrica como la cantidad Z 2 1 (x. La función de proximidad Sea una población.1. xp )0 las observaciones de X sobre !. 12. t)f (t)dt V (X) : (12. y x = (x1 . Ambas curvas son indistinguibles (derecha). que es …ja.838. menos la variabilidad geométrica.3) F 2 (x) es la media de las distancias de x. :::. X) V (X) = (x. y) f (x)f (y)dxdy V (X) = 2 F V (X) es el valor esperado de las distancias (al cuadrado) entre observaciones independientes de X: Sea ! un individuo de . :::. Debe quedar claro que depende del vector aleatorio X. 2. Seguidamente. i ) . ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 235 Teorema 12. : > y una norma kzk2 =< z.3). 22 . y por tanto la regla DB asigna ! a la población más próxima. La regla DB solamente depende de las distancias entre individuos. . una función distancia. i = 1. (x) . La regla discriminante DB Sean 1 . pero puede tener diferentes versiones 1 . (y) 2 L son las imágenes de x. y) = (x y)0 1 i (x y) .1. correspondientes a 1 . ) ! L con un producto escalar < :. 2 . z >. mediante (12. y) = k (x) (y)k2 . distance-based) es: 2 Si 21 (x) 2 (x) asignamos ! a en caso contrario asignamos ! a 1. i = 1.2.12. si las poblaciones son normales Np ( i . que en general tendrá diferente distribución en 1 y 2 .2. Sea ! un individuo que queremos clasi…car. 2 . Por ejemplo. con valores x = X (!). cuando estemos en 1 . respectivamente.2. y consideramos las distancias de Mahalanobis 2 i (x. 2 . y: Se veri…ca: V (X) = E(k (X)k2 ) 2 (x) = k (x) kE( (X))k2 : E( (X))k2 : En consecuencia. 2: Teniendo en cuenta el Teorema 12. encontraremos las funciones de proximidad 21 .2.2. i = 1. 2. podemos a…rmar que la variabilidad geométrica es una varianza generalizada. se cumple 2 i (x) = k (x) E i ( (X))k2 . tal que 2 donde (x. La regla de clasi…cación basada en distancias (DB. 12. es formalmente la misma en cada población. lo único que cambia es la matriz . 2 dos poblaciones. y que la función de proximidad mide la distancia de un individuo a la población.1 Supongamos que existe una representación de (F. ) en un espacio L (Euclídeo o de Hilbert) (F. 2. 2 ) y 2 es la distancia de 1 Mahalanobis entre observaciones 2 (x. f2 (x). (12. Np ( Mahalanobis más una constante 2 i (x. La regla DB comparada con otras Los discriminadores lineal y cuadrático son casos particulares de la regla DB. 2) y) + log j (x y 2 i es la distancia de i j =2 x 6= y.2.2. la regla DB equivale a utilizar el discriminador E (x) = [x 1 2 ( 1 + 0 2 )] ( 1 2) . 2 . no se dispone de las densidades f1 (x). y) = (x y)0 (x y) . entonces el discriminador cuadrático es Q (x) = 2 2 1 2 2 1 (x) (x) : 3.4.3. :::. x = y. E (x) es útil en determinadas circunstancias. sino de dos muestras de tamaños n1 . 1 ) . Si las poblaciones son Np ( 1 . 1. 1 ) . Xp ) en las poblaciones 1 . y) = (x =0 y)0 1 i (x) : 2. Si las poblaciones son Np ( 1 . cuando la cantidad de variables es grande en relación al número de individuos.236 CAPÍTULO 12. Np ( 2 . Si es la distancia euclídea ordinaria entre observaciones. entonces las funciones de proximidad son 2 i 0 i) (x) = (x 1 (x i) y el discriminador lineal es L (x) = 2 2 1 2 2 1 (x) 2. Sea 1 = ( ij (1)) la matriz n1 n1 de distancias . DISCRIMINACIÓN LOGÍSTICA Y OTRAS 12. La regla DB en el caso de muestras En las aplicaciones prácticas. pues tiene la ventaja sobre L(x) de que no necesita calcular la inversa de : 12.4) conocido como discriminador Euclídeo. por ejemplo. n2 de las variables X = (X1 . 12. ij (1) = E (xi . y 2 = ( ij (2)) la matriz n2 n2 de distancias entre las muestras de la segunda población. : : : . es decir. . 2 E donde x. las distancias a los n2 individuos de 2 : Si x son las coordenadas (convencionales) de ! cuando suponemos que es de 1 . :::. y.2 Supongamos que podemos representar ! y las dos muestras en dos espacios euclídeos (posiblemente diferentes) x. las estimaciones de las funciones de proximidad son n1 X b2 (x) = 1 1 n1 i=1 2 i (1) Vb1 . i (1). 1 E b2 (y) = d2 (y.j=1 2 ij (2): Sea ! un individuo. :::. x2 . i = 1. no es necesario. ANÁLISIS DISCRIMINANTE BASADO EN DISTANCIAS 237 entre las muestras de la primera población. xn1 y1 . x1 . las distancias a los n1 individuos de 1 y i (2). xn1 2Rp . x2 . y son los centroides de las representaciones euclídeas de las muestras.y) . 2: Esta regla solamente depende de distancias entre observaciones y es preciso insistir en que el conocimiento de x. Indicamos (las representaciones euclídeas de las muestras) por x1 . yj ): Las estimaciones de las variabilidades geométricas son: n1 1 X b V1 = 2 2n1 i. xj ).j=1 2 ij (1) . :::.x) . (12. yn2 muestra de muestra de 1. y1 . ij (2) = E (yi . yn2 2Rq . La regla DB en el caso de muestras es n2 X b2 (y) = 1 2 n2 i=1 2 2 Si b1 (x) b2 (y) asignamos ! a en caso contrario asignamos ! a 2 i (2) Vb2 : 1. y análogamente y. i = 1.2. n2 . La regla DB clasi…ca ! a la población más próxima: Teorema 12. y.2. respectivamente. Entonces se cumple b2 (x) = d2 (x.5) 2. :::. n1 . y2 . n2 1 X b V2 = 2 2n2 i. : : : . y2 . Los datos describen un grupo de 137 mujeres.: Consideremos x. x) = 1 n i=1 n X (xi Pn i=1 xi )=n: Por un lado x)0 (xi x) i=1 = 1 n n X x0i xi + x0 x 2x0 x: i=1 Por otro lado 1 2n2 n X d2 (xi . Tomando los 137 casos. se calcula el número de individuos mal clasi…cados utilizando el discriminador lineal LDF (11. utilizando el coe…ciente de similaridad de Gower (8. DISCRIMINACIÓN LOGÍSTICA Y OTRAS Demost. el discriminador euclídeo (12. Krzanowski (1975) ilustra el llamado “location model”para llevar a cabo análisis discriminante con variables mixtas (cuantitativas.238 CAPÍTULO 12. x= ( 1 n n X 2 d (xi . x2 . con respecto a 7 variables cuantitativas.2). binarias.x) : E Ejemplo 12.j=1 = 1 n n X x0i xi x0 x: i=1 Restando b2 (x) = x0 x+x0 x 2x0 x =d2 (x. Con el método DB se clasi…can equivocadamente sólo 39 mujeres. x1 . xj ) = 1 2n2 i. xn .12) para variables mixtas y transformándolo en distancia mediante (8. Véase Krzanowski (1980) para una descripción de los datos.2.j=1 n X (xi xj )0 (xi xj ) i. Los resultados están contenidos en la siguiente tabla. Tumor Benigno Maligno Total Casos 78 59 137 LDF 31 27 58 EDF 29 37 56 LM 21 24 45 DB 18 21 39 .4). :::.8).1 Diagnosis. el “location model” LM (que consiste en ajustar un discriminador lineal para cada combinación de las variables categóricas) y el discriminador basado en distancias DB. categóricas). 76 con tumor benigno y 59 con tumor maligno. 2 binarias y 2 categóricas (con tres estados cada una). véase Cuadras y Fortiana (2000). Complementos Albert y Anderson (1984) probaron que en el modelo logístico. otros para variables mixtas. si las muestras están muy diferenciadas. como el método del núcleo. ) y Np ( 2 . (2011) se lleva a cabo una interesante aplicación a la robótica. . Para datos en general se puede abordar también mediante distancias. 2008) y Cuadras et al. Los métodos de análisis discriminante basados en distancias pueden abordar todo tipo de datos y han sido estudiados por Cuadras (1989. 0 1.3. las estimaciones resultan demasiado grandes y no son correctas. 12. El caso de varias poblaciones ha sido estudiado por Bar-Hen (2001) e Irigoien y Arenas (2008). o de una tercera población Np ( 3 . véase Anderson y Willis (2003) y De Cáceres et al. las estimaciones de los parámetros no funcionan. Existen otros métodos de análisis discriminante. del vecino más próximo. el basado en el “location model”de Krzanowski (1975). o bien a otro grupo distinto. (véase Tabla 3. Por ejemplo. En Jauregui et al. véase Cuadras (1992b). Permiten mejorar la ordenación y formación de clusters. en el caso de los datos de ‡ores del género Iris. algunos no-paramétricos. en una prospección arqueológica puede interesar averiguar si un cráneo pertenece a un mismo grupo humano (en el que hay hombres y mujeres). ). 1992b. Además. (2006). etc. Este problema ha sido estudiado por Rao (1973) y Bar-Hen y Daudin (1997) para datos normales. el problema de la tipicalidad consiste en decidir si una observación x proviene de la mixtura Np ( 1 + (1 ) 2 . los estimadores máximo verosímiles de los parámetros no existen si hay completa separación de las muestras de las dos poblaciones. Longford (1994) estudió la función de verosimilitud en el modelo de regresión logística con coe…cientes de regresión aleatorios. ). ): Por ejemplo. COMPLEMENTOS 239 Para otros ejemplos con datos categóricos o mixtos.3.12.2). (1997). Dadas dos poblaciones Np ( 1 . Consúltese McLachlan (1992). 240 CAPÍTULO 12. DISCRIMINACIÓN LOGÍSTICA Y OTRAS . El modelo lineal Supongamos que una variable observable Y depende de varias variables explicativas (caso de la regresión múltiple). A @ Los elementos que intervienen en el modelo lineal son: =( 2. A @ . xnm 10 1 1 m 1. Entonces tendremos n observaciones de Y .. @ . y2 . El vector de parámetros: 1. 0 m) : e1 e2 . : : : . o que ha sido observada en diferentes situaciones experimentales (caso del análisis de la varianza). El vector de observaciones: y = (y1 . . (13.. en 1 C C C: A . . . . C = B .1... que en muchas situaciones aplicadas. C + B A@ . .. x1m x2m .1) i = 1.. yn xn1 xn2 .Capítulo 13 EL MODELO LINEAL 13. n. yn )0 : 2. : : : .. 241 0 CB C B CB 2 C B C B . se ajustan a un modelo lineal yi = xi1 1 + xi2 2 + + xim que en notación matricial es 0 1 0 y1 x11 x12 B y2 C B x21 x22 B C B B . : : : . m + ei . @ xn1 xn2 4. incorrelacionadas y con varianza común 2 . n: 2. EL MODELO LINEAL 3. Suposiciones básicas del modelo Supongamos que las desviaciones aleatorias o errores ei del modelo lineal se asimilan a n variables aleatorias con media 0. satisfacen: 1. El vector de desviaciones aleatorias: e = (e1 . 2 In ): El valor r = rango(X) es el rango del diseño. i 6= j = 1.2. en )0 La notación matricial compacta del modelo es: y = X + e: Solamente y y X son conocidas. es decir. según el tipo de diseño experimental que siguen los datos. var(ei ) = 2 . 13. 1 ó 1.. En los modelos de análisis de la varianza. E(ei ) = 0. : : : . i = 1. X contiene las observaciones de m variables explicativas. Se veri…ca r r = m se dice que es un modelo de rango máximo. En los modelos de regresión. X contiene los valores 0.242 CAPÍTULO 13. : : : . e = 2 In : Si podemos suponer que los errores son normales y estocásticamente independientes. e2 . E(ei ej ) = 0.. : : : . La matriz de diseño: 0 1 x1m x2m C C C: A xnm x11 x12 B x21 x22 B X =B . m y cuando . : : : . entonces estamos ante un modelo lineal normal y Nn (X . en )0 son: E(e) = 0. : : : . 3. n: Estas condiciones equivalen a decir que el vector de medias y la matriz de covarianzas del vector e = (e1 . n: i = 1. e2 . yn )0 .2) i=1 sea mínimo.3. donde (X0 X) es una inversa generalizada de X0 X: La suma de cuadrados residual de la estimación de R02 = (y siendo X b )0 (y ybi = xi1 b1 + Xb) = n X (yi i=1 + xim bm : es ybi )2 .3). Teorema 13.3. . se plantea mediante el criterio de los mínimos cuadrados (LS.3. ESTIMACIÓN DE PARÁMETROS 243 13. : : : . Se desea encontrar b = (b1 . : : : .3. m )0 en función de las observaciones y = (y1 .1. “least squares”). : : : .13. Parámetros de regresión La estimación de los parámetros = ( 1 . Distinguiremos dos casos según el rango del diseño.4) b) r < m: Cuando el diseño no es de rango máximo una solución es b = (X0 X) X0 y.1 Toda estimación LS de es solución de las ecuaciones X0 X = X0 y (13.3) denominadas ecuaciones normales del modelo. a) r = m: Entonces la estimación de es única: b = (X0 X) 1 X0 y: (13. Estimación de parámetros 13. Demost. bm )0 tal que e0 e = (y X )0 (y X )= n X (yi xi1 ::: 1 xim 2 m) (13.: e0 e =(y X )0 (y X ) = y0 y 2 0 X0 y+2 X0 X : Derivando vectorialmente respecto de @ 0 ee= @ e igualando a cero 2X0 y+2X0 X = 0 obtenemos (13. 2 Sea Cr (X) el subespacio de Rn de dimensión r generado por las columnas de X: Entonces E(y) = X 2Cr (X) y b e= y X b es ortogonal a Cr (X): Demost. Teorema 13. 2 =var(ei ). : : : . CAPÍTULO 13.: Por las ecuaciones normales X0b e = X0 (y X b ) = X0 y X0 X b = 0: b2 = R02 =(n r). = 0 si i > r. es un estimador insesgado de 2 : Demost. : : : . : : : .: Sea T = [t1 . : : : . 0.3 Sea y = X + e el modelo lineal donde e satisface las suposiciones básicas del modelo (Sección 13.3. EL MODELO LINEAL Varianza La varianza común de los términos de error. de manera que las r primeras generen el subespacio Cr (X) y por tanto las otras n r sean ortogonales a Cr (X): De…nimos z = T0 y: Entonces z =(z1 .2. tr+1 . Entonces el estadístico siendo R02 la suma de cuadrados residual y r = rango(X) el rango del modelo.244 13. Por tanto T0 b e es T0 b e = (0. zn )0 y en consecuencia R02 0 0 0 =b eb e=b e TT b e= n X i=r+1 zi2 : . zr+1 . es el otro parámetro que debemos estimar en función de las observaciones y = (y1 . pues ti es ortogonal a Cr (X) si i > r: Consideremos b e= y X b : Entonces 0 b 0 Tb e= z T X . tr . : : : . : : : . Lema 13. donde las r primeras componentes de T0b e son cero (por el lema anterior) y las n r componentes de T0 X b son también cero.2). tn ] una matriz ortogonal tal que sus columnas formen una base ortonormal de Rn .3.3. zn )0 veri…ca E(zi ) = t0i X = i si i r. yn )0 y de X: En esta estimación interviene de manera destacada la suma de cuadrados residual. i = 1. : : : . U = ( b 2 (X0 X) 1 ): )0 X0 X( b )= 2 2 m: 4. b es estocásticamente independiente de R02 : 5.4.1.5. y por tanto n X E(Ro2 ) = E(zi2 ) = (n r) 2 : i=r+1 Bajo el modelo lineal normal. b Nm ( . R02 = 2 2 n m: En general.4 Sea y Nn (X .1. 2 . Xm es yi = 0 + xi1 1 + + xim m + ei .3.5) . 13.13. 3. (13. la de z es E(zi2 ) = var(zi ) = E(zi ) = 0. que sigue la distribución ji-cuadrado. : : : . La estimación LS de es también la estimación máximo verosímil de : Esta estimación es además insesgada y de varianza mínima. 2 In ) el modelo lineal normal de rango máximo m = rango(X): Se veri…ca: 1. la estimación de es estocásticamente independiente de la estimación de 2 .4. y por ser T ortogonal. ALGUNOS MODELOS LINEALES La matriz de covarianzas de y es también 2 In : Así 2 245 In . i > r. 2. Algunos modelos lineales 13. Teorema 13.4. Regresión múltiple 2 sigue la distribu- El modelo de regresión múltiple de una variable respuesta Y sobre m variables explicativas X1 . si r =rango(X) m. se cumple que R02 = ción 2n r : Véase el Teorema 13. n. : : : .. C C C A 0 B B B B e X= B B B B @ 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 0 0 1 1 1 1 1 21 C C C C C: C C C A Diseño de dos factores Supongamos que las n = a b observaciones de una variable observable Y se obtienen combinando dos factores con a y b niveles. son: rango r = 3 < m = 4) y restringida X 0 B B B B X= B B B B @ 13.4. : : : . : : : .2.6). k 1 : Por ejemplo. n1 = n2 = 2. .246 CAPÍTULO 13.ni . : : : . se supone la restricción lineal 1 + + k = 0. y que disponemos de ni réplicas (observaciones independientes de Y ) yi1 . EL MODELO LINEAL donde yi es la i-ésima observación de Y. . . las matrices de diseño inicial X (de e (de rango máximo). n3 = 3. : : : . (13. xim son las i-ésimas observaciones de las variables explicativas..6) donde es la media general y i es el efecto aditivo de la condición i: Las desviaciones aleatorias eih se suponen normales independientes. Diseño de un factor Supongamos que una variable observable Y ha sido observada en k condiciones experimentales diferentes. La matriz de diseño es 0 1 1 x11 x1m B 1 x21 x2m C B C X = B . . 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 2 0 0 1 1 0 0 0 0 0 0 0 1 1 1 31 C C C C C. ..k. A 1 xn1 xnm 13. h = 1. y xi1 . y por tanto cabe considerar solamente los parámetros .4. respectivamente. @ . . si k = 3. 1 . En el modelo (13.3. i = 1. C : . . yini bajo la condición experimental i: El modelo es yih = + i + eih . A ht1 htm es ..5. i es el efecto aditivo del nivel i del factor …la. si a = b = 3 las matrices de diseño de (13.8). i = 1.7) y teniendo en cuenta (13. son: 0 B B B B B B X= B B B B B B @ 13.5. 3 …ncas y 3 fertilizantes en cada …nca). t: m.13. : : : . 1 1 1 1 1 1 1 1 1 1 2 3 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 2 0 0 0 1 1 1 0 0 0 0 31 0 0 0 0 0 0 1 1 1 B B B B B B e = B X B B B B B @ C C C C C C C. ..8) i = j = 0: i=1 j=1 Por ejemplo. con t < m …las linealmente independientes. . De…nición 13. producción de trigo obtenida en 9 = 3 3 parcelas. C H = @ . .6) se suponen las restricciones lineales a b X X (13. Las desviaciones aleatorias eij se suponen normales independientes. HIPÓTESIS LINEALES 247 denominados factor …la y columna (por ejemplo.. 0 1 h11 h1m B . En el modelo (13.5. C C C C C A 1 1 1 1 1 1 1 1 1 1 2 1 2 1 0 1 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 C C C C C C C: C C C C C A Hipótesis lineales Consideremos el modelo lineal normal y = X + e: Una hipótesis lineal es una restricción lineal sobre los parámetros del modelo.1 Una hipótesis lineal de rango t sobre los parámetros una restricción lineal hi1 Indicando la matriz t 1 + + him m = 0. El modelo es yij = + i + j (13. j es el efecto aditivo del nivel j del factor columna. donde es la media general. .7) + eij . es y la matriz de diseño X en X: e + e: y =X (13.F (X) generados por las …las de H y X: Entonces F (H) F (X) Rm : Sea C una matriz m (r t) tal que F (C0 ) F (X) y HC = 0: En otras palabras. c) Es evidente que si el modelo es de rango máximo. : : : . se transforma en (13.9) De…nición 13.9) es cierta. los parámetros se convierten en e Así el modelo lineal. cualquier hipótesis lineal es demostrable. Cuando una hipótesis (13. bajo H0 .248 CAPÍTULO 13. EL MODELO LINEAL la notación matricial de una hipótesis lineal es H0 : H = 0: (13.10).10). consideramos los subespacios F (H). siendo La estimación LS de es e = XC: X b = (X e 0 X) e 1 Xy e y la suma de cuadrados residual es e b)0 (y X e b): R12 = (y X . bajo la restricción H = 0.5. las columnas de C pertenecen a F (X) y son ortogonales a F (H): Si de…nimos los parámetros = ( 1 .2 Una hipótesis lineal es demostrable si las …las de H son combinación lineal de las …las de X: Dicho de otra manera. si existe una matriz A de orden t n tal que H = AX: Observaciones: a) Suponemos que la matriz H es de rango t: b) Solamente podremos construir un test (el test F) para decidir si podemos aceptar o no una hipótesis lineal si esta hipótesis es “demostrable”. r t )0 tales que =C . r = rango(X) = m.10) Para obtener (13. entonces H = HC = 0 y el modelo y = X + e. y1 .5. tr0 . la matriz de diseño X se transforma en e XC. es decir.1 Sea y Nn (X . las columnas de XC son combinación lineal de las X= columnas de X: Podemos encontrar una matriz ortogonal T = [t1 . : : : . Teorema 13.3) son también normales independientes. bajo la restricción (13. : : : .13. : : : . 2 In ) el modelo lineal normal y planteemos la hipótesis lineal demostrable H0 : H = 0 de rango t: Consideremos los estadísticos R02 = (y Se veri…ca: 1.5. R12 R02 2 2 t. t: 3. tr+1 . X b H )0 (y R12 = (y X b H ): 2 n r: 2. Si H0 es cierta R12 2 siendo r0 = r 2 n r0 . yn son normales independientes.9). 2 es suma de (n r) cuadra- 2. tr . Si H0 es cierta. Cada zi es N (0. tr0 +1 . : : : . zn (véase Teorema 13. tn ] . 1) independientes. HIPÓTESIS LINEALES 249 También se puede probar que la estimación LS de los parámetros . 1. Si la hipótesis lineal es cierta. R02 ) y R02 son estocásticamente Demost. 2 ) para i > r: Luego R02 = dos de variables N (0. es b H = b (X0 X) H0 (H(X0 X) H0 ) 1 H b y la suma de cuadrados del modelo lineal es R12 = (y X b H )0 (y XbH ) El siguiente teorema es conocido como Teorema Fundamental del Análisis de la Varianza.: Observemos primero que bajo el modelo lineal normal. : : : .3. y z1 . R02 = 2 X b )0 (y X b ). los estadísticos (R12 independientes. . . sigue la distribución donde t = r r0 : 3. R02 no tienen Consecuencia inmediata y muy importante de este resultado es que. el cociente F sigue la distribución F con t y n r grados de libertad y no depende de la varianza (desconocida) del modelo.3. . tr ]: Siguiendo los mismos argumentos del Teorema 13. entonces el estadístico F = (R12 R02 )=t R02 =(n r) 2 2 = (R12 R02 ) n R02 r t Fnt r : (13.3. tenemos que R12 n X = zi2 i=r 0 +1 y R12 = 2 sigue la distribución R12 2 n r0 : Por otro lado r X R02 = zi2 i=r 0 +1 y (R12 R02 )= 2 2 t.11) Es decir.. . . Inferencia en regresión múltiple Consideremos el modelo de regresión múltiple (13.250 CAPÍTULO 13. Las sumas de cuadrados que intervienen en R02 y en R12 términos en común. que equivale a decir que la variable respuesta Y no depende de las variables explicativas X1 . Xm : La matriz de la hipótesis lineal es 0 1 0 1 0 0 B 0 0 1 0 C B C H = B . por tanto son independientes. . 13. : : : . . rango(H) = m: @ . El rango del modelo es rango(X) = m + 1: La hipótesis más interesante en las aplicaciones es H0 : 1 = = m = 0.. : : : .. .. C . A 0 0 0 1 . . si H0 es cierta. tr0 ] Cr (X) = [t1 .6.5). EL MODELO LINEAL tal que Cr0 (XC) = [t1 . : : : . 2). : : : .13. etc. d) errores correlacionados.7. podemos construir un modelo lineal considerando las dimensiones principales obtenidas aplicando análisis de coordenadas principales sobre una matriz de distancias entre las observaciones. Carmona (2005). = n X (yi y)2 . Peña (1989). Cuadras et al. Se demuestra que n n X X 2 2 2 R0 = (yi ybi ) = (1 R ) (yi y)2 . c) mínimos cuadrados ponderados. (1996). . b1 . Xm (Teorema 4. evidentemente b0H = y (media muestral) y las sumas de cuadrados residuales son R02 = n X (yi i=1 2 R12 ybi ) . Un estudio más completo incluiría: a) análisis grá…co de los residuos. solamente interviene el parámetro 0 .11). : : : . Complementos Hemos visto los aspectos fundamentales del modelo lineal.2. e) selección de las variables. Consultar Cuadras y Arenas (1990). COMPLEMENTOS 251 Si H0 es cierta. b) efectos de la colinealidad. bm son los estimadores LS bajo el modelo no restringido y ybi = b0 + xi1 b1 + + xim bm : Aplicando (13. bajo H0 tenemos que F = (R12 R02 ) n m m R02 1 Fnm m 1 : El test F se suele expresar en términos de la correlación múltiple.7. entonces F = R2 n 1 R2 m m 1 Fnm m 1 : Rechazaremos H0 si F es signi…cativa. 13. i=1 i=1 donde R es el coe…ciente de correlación múltiple muestral entre las variables Y y X1 . Véase Sche¤é (1959). Para tratar variables explicativas mixtas. Chatterjee y Price (1991). i=1 donde b0 . si H0 es cierta. es decir. si la correlación múltiple poblacional es cero. Por tanto. 252 CAPÍTULO 13. EL MODELO LINEAL . ..k. . : : : . . . . estudiados simultáneamente en un diseño factorial. i = 1.. Diseño de un factor Supongamos que las observaciones de una variable Y solamente dependen de un factor con k niveles: Nivel 1 y11 y12 Nivel 2 y21 y22 . . : : : .. . yknk en el modelo (13. y1n1 y2n2 . . Indiquemos: P Media nivel i : yi = (1=ni )P hP yih y = (1=n) i h yih Media general: No. Nivel k yk1 yk2 Si escribimos i = yih = donde i + i i.6) tenemos + eih . 14. . es la media de la variable en el nivel i.1.Capítulo 14 ANÁLISIS DE LA VARIANZA (ANOVA) El análisis de la varianza comprende un conjunto de técnicas estadísticas que permiten analizar cómo operan diversos factores. sobre una variable respuesta. total de observaciones: n = n1 + + nk 253 ..ni . h = 1. como una consecuencia del Teorema 13.254 CAPÍTULO 14. y la suma de cuadrados residual es R02 = QD : La hipótesis nula de mayor interés es la que establece que no existen diferencias entre los niveles de los factores: H0 : 1 = = k: Se trata de una hipótesis demostrable de rango k 1. Bajo H0 solamente existe una media y su estimación es b = y: Entonces la suma de cuadrados residual es R12 = QT y además se veri…ca R12 R02 = QE : Por tanto. tenemos que: 1.5.1. los estadísticos QE y QD son estocásticamente independientes. si H0 es cierta. QE =(k 2 y QD = 2 2 n k: 1) es también estimador centrado de QT 2 QE 2 n 1. ANÁLISIS DE LA VARIANZA (ANOVA) Indiquemos también: P 2 = Pi n Pi (yi y) 2 = Pi Ph (yih yi ) = i h (yih y)2 Suma de cuadrados entre grupos: QE Suma de cuadrados dentro de grupos: QD Suma de cuadrados total: QT Se veri…ca la relación fundamental: QT = QE + QD : Las estimaciones LS de las medias i b i = yi . 2 2 y 2 k 1: 3. : : : . Si H0 es cierta.1) . QD =(n k) es un estimador centrado de 2. Consecuencia inmediata es que. son i = 1. Si H0 es cierta. entonces el estadístico F = QE =(k QD =(n 1) k) Fnk k1 : (14. k. B. . Bb y1b y2b . por columnas y general. : : : .l. . b j=1 b yi = 1X yij .. a i=1 a yj = 1 XX yij . Aa B1 y11 y21 . n r = ab (a + b 1) = (a Las estimaciones de los parámetros son b = y..Bb . y1 y2 .7) con las restricciones (13. y. con a y b niveles A1 . . .2. ya1 y1 ya2 y2 . . i es el efecto del nivel Ai del factor …la.Aa y B1 . y j + y): La suma de cuadrados residual del modelo es R02 = a X b X i=1 j=1 (yij yi y j + y)2 : 1)(b 1): . y que disponemos de una observación para cada combinación de los niveles de los factores: A1 A2 . j es el efecto del nivel Bj del factor columna. El rango del diseño y los g. : : : . bi bj = (yij y la expresión de la desviación aleatoria es ebij = yij b bj = y j b i = yi yi y. yab yb ya y siendo 1X yij ... denominados factores …la y columna. del residuo son r = 1 + (a 1) + (b 1) = a + b 1. Supongamos que los datos se ajustan al modelo (13. 255 Diseño de dos factores Supongamos que las observaciones de una variable Y dependen de dos factores A. .. donde es la media general. DISEÑO DE DOS FACTORES 14.. ab i=1 j=1 a y =y= b las medias por …las.8).2. B2 y12 y22 .14. . ANÁLISIS DE LA VARIANZA (ANOVA) También consideramos las siguientes cantidades. QR =(a 1)(b 1) es un estimador centrado de 2 y QR = 2 2 (a 1)(b 1) : 2. QB =(b 1) es también estimador centrado de 2 . Si H0A es cierta. Supongamos H0B cierta. 3. QA =(a 1) es también estimador centrado de 2 .256 CAPÍTULO 14. desarrollando (yij que yi )2 = ((y j y)+(yij yi y j +y))2 resulta R12 = QB + QR : Análogamente. si H0A es cierta. Si H0B es cierta. donde SC signi…ca “suma de cuadrados”: P SC entre …las: QA = b Pi (yi y)2 SC entre columnas: QB = a j (y j y)2 P SC residual: QR = i.1 se veri…ca: 1.5. Entonces el modelo se transforma en yij = + i + eij . y por tanto a X b X 2 R1 = (yij yi )2 : i=1 j=1 Ahora bien. 2 QB = 2 (b 1) y los estadísticos QB y QR son estocásticamente independientes. actúa solamente un factor.j (yij y)2 Se veri…ca la siguiente identidad: QT = QA + QB + QR : En el modelo de dos factores. las hipótesis de interés son: H0A : H0B : 1 1 = = = = a b = 0 (no hay efecto …la) = 0 (no hay efecto columna) Ambas hipótesis son demostrables. 2 QA = 2 (a 1) y los estadísticos QA y QR son estocásticamente independientes. es decir. obtendríamos R12 = QA + QR : Por el Teorema 13.j (yij yi y j + y)2 P SC total: QT = i. El .c 1 X y=y = yij : abc i.Bj . : : : :Aa y B1 . B. ac i. ya1c y1 ya22 . . h = 1. denominados factores …la y columna. ya2c y2 ..c 1 X = yijh . y22c . : : : .b..3. y12c y221 . yab1 . y1bc y2b1 . : : : .. b. DISEÑO DE DOS FACTORES CON INTERACCIÓN 257 Por lo tanto tenemos que para decidir H0A utilizaremos el estadístico FA = QA (a 1)(b 1) QR (a 1) a F(a 1 1)(b 1) . . : : : . . . . siendo la media general. y11c y211 . con a y b niveles A1 . bc j.Bb . c h=1 c yij a. yabc yb ya y siendo b. c.h=1 yj a. y2bc . : : : . : : : .h=1 El modelo lineal del diseño de dos factores con interacción es yijh = + i + j + ij + eijh . : : : . j el efecto del nivel Bj del factor columna.. y que disponemos de c observaciones (réplicas) para cada combinación de los niveles de los factores: A1 A2 .. ya11 . i el efecto del nivel Ai del factor …la. Aa B1 y111 .j. .h=1 1X = yijh . : : : . b F(a 1 1)(b 1) : y para decidir H0B utilizaremos FB = 14. ij la interacción entre los niveles Ai . : : : . : : : .. j = 1. QB (a 1)(b 1) QR (b 1) Diseño de dos factores con interacción Supongamos que las observaciones de una variable Y dependen de dos factores A.3. B2 y121 . : : : . Bb y1b1 . y1 y2 . : : : . : : : . y21c . a. i = 1.14.c 1 X yi = yijh . : : : . h=1 También debemos considerar las siguientes cantidades.j. ANÁLISIS DE LA VARIANZA (ANOVA) parámetro ij mide la desviación del modelo aditivo E(yijh ) = + i + j y solamente es posible estimar si hay c > 1 réplicas.j (yij yi y j + y)2 P SC residual: QR = i.258 CAPÍTULO 14.j (yijh y)2 Se veri…ca la siguiente identidad QT = QA + QB + QAB + QR : Las hipótesis de interés son: H0A : H0B : H0AB : = 1 = 11 = 1 = = = = 0 (no hay efecto …la) b = 0 (no hay efecto columna) ab = 0 (no hay interacción) a . del residuo son abc ab = ab(c 1): Las estimaciones de los parámetros son b = y.b. La suma de cuadrados residual del modelo es R02 = a. donde SC signi…ca “suma de cuadrados”: P y)2 SC entre …las: QA = bc Pi (yi SC entre columnas: QB = ac j (y j y)2 P SC de la interacción: QAB = c i. l.c X (yijh yi )2 : i. bij = yij yi bij = (yij y): y.jh (yijh yi )2 P SC total: QT = i. Se suponen las restricciones a X i = i=1 b X j = j=1 a X ij = i=1 b X ij = 0: j=1 Así el número de parámetros independientes del modelo es 1 + (a 1) + (b 1) + (a 1)(b 1) = ab y los g. b i = yi b = yj j y. y la expresión de la desviación aleatoria es ebijh = yijh b bi bj y j + y. i. Un modelo típico es yijkh = + A i + B j + C k + AB ij + AC ik + BC jk + ABC ijk + eijkh . C. k AB AC BC ij . podemos ver que la aceptación o el rechazo de cada hipótesis se decide mediante el test F: QA ab(c 1) QR a 1 QB ab(c 1) = QR b 1 QAB ab(c 1) = QR (a 1)(b 1) FA = FB FAB 14. donde i indica el nivel i-ésimo de A. jk ABC ijk eijkh = = = = = media general.4.14.4. y hay d réplicas para cada combinación de los niveles. hay 3 factores A. B y C. b. interacciones entre A y B. Cada factor representa una causa de variabilidad que actúa sobre la variable observable. A y C. a 1 Fab(c 1) b 1 Fab(c 1) (a 1)(b 1) 1) Fab(c Diseños multifactoriales Los diseños de dos factores se generalizan a un número mayor de factores. c niveles.h donde R es el residuo. j indica el nivel j-ésimo de B. B. y h indica la réplica h para la combinación ijk de los tres factores.B y C. efectos principales de A. DISEÑOS MULTIFACTORIALES 259 Como en los casos anteriores. las observaciones son yijkh .j.C. interacción entre A. respectivamente. H0AB : AB = 0 (la interacción entre A y B no es signi…cativa). entonces A tiene (a 1) .k. j . que pueden interactuar. ik . Si por ejemplo. etc.B. desviación aleatoria N (0. siendo: C B A i . 2 ): Son hipótesis de interés: H0A : A i = 0 (el efecto principal de A no es signi…cativo). i Los contrastes para aceptar o no estas hipótesis se obtienen descomponiendo la variabilidad total en sumas de cuadrados X (yikjh y)2 = A + B + C + AB + AC + BC + ABC + R. k indica el nivel k-ésimo de C. Si los factores tienen a. B con a. Pb categorías respectivamente. Por ejemplo.. si C no interactúa con A.5. que sirven para aceptar o rechazar H0A y H0AB .B. R=q F = AB=(a 1)(b R=q 1) . y hemos observado las ab categorías n = ij fij . i. AB tiene (a D.j. el residuo es 1)(b 1) g. Entonces las sumas de cuadrados correspondientes se suman al residuo. l. Si interpretamos las réplicas como un factor R = D + AD + BD + CD + ABD + ACD + BCD + ABCD con q = (d 1) + (a 1)(d 1) + + (a 1)(b 1)(c 1)(d 1) = abc(d 1) g. respectivamente. l. A=(a 1) .l. ANÁLISIS DE LA VARIANZA (ANOVA) g.k. R0 =q 0 F = AB=(a 1)(b R0 =q 0 1) : Modelos log-lineales Supongamos que tenemos dos variables categóricas A.260 CAPÍTULO 14. En determinadas situaciones experimentales puede suceder que algunos factores no interactúen. q 0 = (a 1)(c 1) + (b 1)(c 1) + (a 1)(b 1)(c 1) + q: Los cocientes F para las hipótesis anteriores son ahora F = 14.h donde R0 = AC + BC + ABC + R es el nuevo residuo con g. el modelo es yijkh = + A i B j + + C k + AB ij + eijkh y la descomposición de la suma de cuadrados es X (yikjh y)2 = A + B + C + AB + R0 . Entonces calcularemos los cocientes F F = A=(a 1) .l. . (14. pi = P (Ai ). Pa = ( i=1 ln Fij )=a : El modelo (14.. Por tanto. que podemos escribir como ln Fij = siendo A i B j + A i + B j . . B2 f12 f22 . . Fi = npi . es decir..5.14. B1 f11 f21 .2) es un ejemplo de modelo log-lineal. En general no se puede aceptar la independencia estocástica.. . si ln pij = ln pi + ln p j : Si introducimos las frecuencias teóricas Fij = npij . MODELOS LOG-LINEALES 261 veces... Indiquemos las probabilidades pij = P (Ai \ Bj ). Bb f1b f2b . P = ( bj=1 ln Fij )=b . . f1 f2 . donde fij es el número de veces que se observó la intersección Ai \Bj .2) y escribir ln Fij = + A i + B j + AB ij . es decir.2) P P = ( ai=1 bj=1 ln Fij )=ab. F j = np j . f j = i fij son las frecuencias marginales de Ai . p j = P (Bj ): Existe independencia estocástica entre Ai y Bj si pij = pi p j . . hemos de añadir un término AB ij a (14. tenemos la tabla de contingencia a b : A1 A2 . la condición de independencia es ln Fij = ln Fi + ln F j ln n.Bj respectivamente. . . Aa fa1 fa2 fab fa f1 f2 fb n P P donde fi = j fij .. puede interesarnos saber si: a) A. El tratamiento de 3 variables categóricas A. C son mutuamente independientes. Partiendo de una tabla de contingencia a b c. Conviene observar que obtendríamos 2 = 0 en el modelo c).2). La i ij similitud con el modelo ANOVA de dos factores es bastante clara. Sean Fbij = nfi fj las estimaciones máximo-verosímiles de las frecuencias esperadas. pero los contrastes de hipótesis se resuelven mediante ji-cuadrados. c) Hay además dependencia entre A. l. B. . B. que son dependientes. La hipótesis de interés es la independencia entre A y B AB ij H0 : = 0.j y el test de la razón de verosimilitud se basa en X 2 fij log(fij =Fbij ). que equivale a decir que los datos se ajustan al modelo (14. i. en cuyo caso el modelo es ln Fijk = A i + B j + + C k. En las aplicaciones no conocemos las frecuencias esperadas Fij . C es semejante. sino las frecuencias observadas fij : Entonces la estimación de los parámetros es muy semejante al modelo ANOVA. B.j que también sigue la distribución ji-cuadrado con (a 1)(b 1) g.262 CAPÍTULO 14. C ln Fijk = + A i + B j + C k + AB ij AC ik + + BC jk + ABC ijk . el test ji-cuadrado o el de razón de verosimilitud nos permiten decidir si los datos se ajustan al modelo. d) A es independiente de B. entre B y C ln Fijk = + A i + B j + C k AB ij + + AC ik + BC jk . ya que los datos se ajustan perfectamente al modelo. ANÁLISIS DE LA VARIANZA (ANOVA) B A = ln Fij donde AB j es la desviación del modelo lineal. siendo el modelo ln Fijk = + A i + B j + C k + BC jk : En cada caso. El test jicuadrado clásico consiste en calcular X (fij Fbij )2 =Fbij i. C. b) Hay dependencia entre A y B. entre A y C. pues 2 es muy signi…cativo. Por ejemplo. Tabla 14. supervivencia y clase.151 [GEC][S] 659. El modelo [GE][GS][GC][ES][EC][SC] con sólo las interacciones de segundo orden se ajusta mejor pero también debe rechazarse.000 [GES][GEC][GSC][ESC] 5. Indicamos por la parte del modelo que contiene los efectos principales y las interacciones de orden inferior a la máxima propuesta.3 3 0. Ejemplo 14.000 [GESC] 0 [GEC][GSC][ESC] 9. en el caso del modelo [GESC].1. MODELOS LOG-LINEALES 263 Clase Género Edad Supervivencia 1 2 3 T Hombre Adulto NO 118 154 387 670 Mujer 4 13 89 3 Hombre Niño 0 0 35 0 Mujer 0 0 17 0 Hombre Adulto SÍ 57 14 75 192 Mujer 140 80 76 20 Hombre Niño 5 11 13 0 Mujer 1 13 14 0 Tabla 14.000 [GEC][GSC][GES] 32.4 25 0.5.14. edad.l. p [G][E][S][C] 1216.33 13 0.000 [GE][GS][GC][ES][EC][SC] 112. El modelo con todas las .1 Analicemos los datos de supervivencia del "Titanic"(véase el Ejemplo 9.5.2).1: Tabla de frecuencias combinando género.8. tendríamos = + G i + E j + S k + C l + GE ij + GS ik + GC il + ES jk + EC jl + SC kl Entonces los modelos analizados son: Modelo para ln Fijkl E S C + G i + j + k + l + GE + SC ij + kl ESC + GES + + ijk jkl S + GEC + ijl k GES + GEC + GSC ijl ikl + ijk + GESC ijkl ESC + GEC + GSC ijl ijk + jkl 2 Símbolo g.3 15 0.2 4 0.3 6 0. de los datos del "Titanic".056 El modelo [G][E][S][C] debe rechazarse. que incluye todas las interacciones.. debe aplicarse Análisis de Per…les. 14. ANÁLISIS DE LA VARIANZA (ANOVA) interacciones de tercer orden [GES][GEC][GSC][ESC] puede aceptarse. es decir. Wilks probó que el test F. . El salvamento de los pasajeros se produjo en los términos siguientes: “mujeres y niños primero (según la clase) y después hombres de primera clase”. Eisenhart consideró que algunos efectos podían ser aleatorios. es decir. El modelo [GEC][S]. .. C : @ . Complementos El Análisis de la Varianza fue introducido por R. indicando que todas las variables interaccionan. = 2 I: Pero S. C. . .264 CAPÍTULO 14. . Véase Cuadras (2000). para resolver problemas de diseño experimental en agricultura. l. véase (14. Se concluye que debemos aceptar que la supervivencia dependía del género. Existen muchos diseños diferentes. Los primeros estudios y aplicaciones consideraban factores de efectos …jos. Hemos visto que es una aplicación del modelo lineal.. . los efectos que actúan sobre los modelos pueden ser …jos. En 1947. pero también debe rechazarse. si 0 1 1 B C 1 B C = 2 B . aleatorios o mixtos. sigue siendo válido si las variables son equicorrelacionadas. Un modelo razonable que podría aceptarse es el [GEC][GSC][ESC].3). Peña (1989). En ANOVA de un factor hemos supuesto datos independientes e igualdad de varianzas. Ciertamente. cuyo estudio dejamos para otro momento. Fisher en 1938. se ajusta perfectamente a las frecuencias observadas. dando lugar también a un test F. pero carece de interés (hay tantos parámetros como datos). 2 = 9:2 con 4 g. edad y clase es independiente de la supervivencia.1). . A 1 En el caso general de una cualquiera. signi…caría suponer (caso de aceptarse) que el combinado de género. edad y clase. véase (3. Huitson (1966). El modelo [GESC] es el modelo de dependencia completa. A. y cuando hay interacciones el cálculo de los cocientes F es diferente. .6. e y2 . como en el caso univariante. que suponemos siguen un modelo lineal univariante y X j + ej : El modelo lineal multivariante es Y = XB + E 265 (15.. La matriz de datos es 0 B B Y =B @ y11 y12 y21 y22 .Capítulo 15 ANÁLISIS DE LA VARIANZA (MANOVA) 15... Supongamos que tenemos n observaciones independientes de p variables observables Y1 . C = [e A ej = (y1j .1. Yp . obtenidas en diversas condiciones experimentales. y1p y2p . . : : : . ynj )0 son las n observaciones (independientes) de donde y ej = la variable Yj . y2j .1) .. : : : .e yp ]. ynp 1 C C y1 . . . . Modelo El análisis multivariante de la varianza (MANOVA) es una generalización a p > 1 variables del análisis de la varianza (ANOVA). : : : . . yn1 yn2 . . p ej = donde R0 (j. j) es la suma de cuadrados residual del modelo univariante y X j + ej : . así como la matriz de covarianzas : En el modelo univariante y = X + e.. j)) de orden p 0 b XB). . Estimación de parámetros En el modelo MANOVA debemos estimar los m p parámetros de regresión contenidos en B... 11 12 1p 21 22 2p .. . .. . ): 15.. 1 .. mp y E la matriz de desviaciones aleatorias 0 e11 e12 e1p B e21 e22 e2p B E = B . Suponemos que las …las de E son independientes Np (0. . A xnm B la matriz de parámetros de regresión 0 B B B =B @ 1 x1m x2m .2... la estimación LS b = (X0 X) X0 y 0 minimiza b e0 b e= (y X b ) (y X b ): En el caso multivariante. . ANÁLISIS DE LA VARIANZA (MANOVA) siendo X la matriz de diseño 0 B B X =B @ x11 x12 x21 x22 . m1 m2 . . el estimador b tal que minimiza la traza LS de B es B 0 b 0 E) b = tr[(Y tr(E b (Y XB) b 0E b = (Y R0 = E b (Y XB) b XB)]. A 1 C C C: A Las matrices Y y X son conocidas. xn1 xn2 .266 CAPÍTULO 15. . . @ . . .. b = Y XB: b siendo E La matriz de residuos es la matriz R0 = (R0 (i. . . en1 en2 enp C C C. . .. C C C.. 5 . cov(yi ) = cov(ei ) = . y e0i son …las de E: 3..2. Luego (Y XB0 ) (Y XB0 ) = R0 + M. b Por otra parte es decir. donde yi0 son …las de Y.2. es decir. E = 4 .. B cuando el diseño es de rango máximo r = rango(X) =m. yj ) = cov(ei . E(Y) = XB.1 Consideremos el modelo de regresión multivariante Y = XB + E.2). b 0 (XB b XB0 ) =(Y XB) b 0 X(B b B0 ) = 0 por veri…car B b pues (Y XB) 0 las ecuaciones normales (15.. para B0 = B: b = (X0 X) 1 X0 E(Y) =(X0 X) 1 (X0 X)B = B: E(B) . X0 XB (15. yn0 e0n con las condiciones: 1. y por b = (X0 X) X0 Y B b minimiza la traza tr(E b 0 E) b así como el detercuando r < m: El estimador B b 0 E): b Además B b es un estimador insesgado de B: minante det(E Demost. ej ) = 0 para i 6= j: Entonces las estimaciones LS de los parámetros de regresión B veri…can las ecuaciones normales b = X0 Y. E(E) = 0: 2. ESTIMACIÓN DE PARÁMETROS 267 Teorema 15.15.. Entonces la traza y el determinante de (Y XB0 )0 (Y XB0 ) alcanzan el valor mínimo cuando M = 0. siendo M una matriz p p de…nida positiva. siendo 2 3 2 3 y10 e01 6 7 6 7 Y = 4 .: Sea B0 otro estimador de B: Entonces: (Y XB0 )0 (Y b + XB b XB0 )0 (Y XB b + XB b XB0 ) XB b XB0 )0 (XB b XB0 ) = R0 + (XB b 0 (XB b XB0 )+(XB b XB0 )0 (Y XB) b +(Y XB) XB0 ) = (Y b = R0 + (XB 0 b XB0 ) (XB XB0 ). cov(yi .2) y vienen dados por b = (X0 X) 1 X0 Y. 5 . podemos expresar la matriz de residuos como R0 = Y0 [I X(X0 X) X0 ]Y: Una estimación centrada de la matriz de covarianzas b = R0 =(n Demost. ver ecuaciones Consideremos el residuo E= b es ortogonal a X en el sentido que normales (15. : : : . tr . Sea Z = T0 Y:Entonces E(Z) = T0 XB = r primeras …las n r últimas …las 0 b Y XB: b De X0 (Y XB) b = 0.: (Y 0 b (Y XB) b = Y0 Y XB) = Y0 Y = Y0 Y = Y0 [I es r): b Y0 XB b Y0 XB b 0 X0 Y + B b 0 X0 XB b B b 0 X0 Y = B b 0 X0 XB) b (por B Y0 X(X0 X) X0 Y X(X0 X) X0 ]Y: Sea ahora T = [t1 . r . tr+1 . donde indica un valor posiblemente no nulo. de manera que las r primeras generen el mismo subespacio Cr (X) generado por las columnas de X: Por lo tanto las otras n r columnas serán ortogonales a Cr (X): Es decir. : : : . tn ] una matriz ortogonal tal que sus columnas formen una base ortonormal de Rn .2).2 Bajo las mismas condiciones del teorema anterior. si i > r. t0i X = t0i X = 0 si i r. deducimos que E donde Zn r b= T0 E es matriz (n b = T0 Y T0 E 0 Zn r) r r primeras …las n r últimas …las p: Pero b =Z T0 XB 0 = 0 Zn .268 CAPÍTULO 15.2. ANÁLISIS DE LA VARIANZA (MANOVA) Teorema 15. con r = rango(X). : : : . : : : .5).3.15. 269 b coinciden. ) independientes. Se veri…ca entonces que la distribución de R0 es Wishart Wp ( . zn r ] donde z01 . el modelo se transforma en e + E. ) independientes. Contraste de hipótesis lineales Una hipótesis lineal demostrable de rango t y matriz H es H0 : HB = 0 donde cada …la de H es combinación lineal de las …las de X: Como en el caso univariante (Sección 13. si H0 es cierta. Luego R0 = Z0n r Zn r cumple las condiciones de una matriz p p que sigue la distribución de Wishart.2. 15. las últimas n TT0 = I. Sea R0 la matriz de residuos. Y =X la estimación de los parámetros B restringidos a H0 viene dada por bH = B b (X0 X) H0 (H(X0 X) H0 ) 1 HB b B y la matriz residual es R1 = (Y b H )0 (Y XB b H ): XB .3 Sea Y = XB + E el modelo lineal normal multivariante donde las …las de E son Np (0. CONTRASTE DE HIPÓTESIS LINEALES es decir.3. como r …las de Z y de T0 E b =E b 0 TT0 E b= b 0E R0 = E 0 Z0n r 0 Zn r = Z0n r Zn r : Indiquemos Z0n r = [z1 .: Hemos visto en el teorema anterior que E(Zn r ) = 0: Así las n r …las de Zn r son todas Np (0. n r): Demost. z0n r son las …las (independientes) de Zn r : Entonces cada zi es un vector de media cero y matriz + zn r z0n r : y Z0n r Zn r = z1 z01 + de covarianzas : Luego E(zi z0i ) = Por lo tanto E(R0 ) = E(z1 z01 + + zn r z0n r ) = (n r) : Teorema 15. Entonces. las matrices R1 y R1 Wishart R1 Wp ( . Entonces HC = 0 y el modelo Y = XB + E se convierte en Y =X e siendo X = XC. R1 siendo t = rango(H). r0 = r R0 siguen la distribución de R0 Wp ( .2. t).2. R0 Wp ( . ut+1 . : : : . tn ] tal que las r0 = r t primeras columnas generen XC y las r primeras generen X Cr0 (XC) = [t1 . : : : .: Si la hipótesis H0 es cierta. R0 son estocásticamente inde- Demost. tr ]: Siguiendo los mismos argumentos del teorema 15. ur . tr . tr0 +1 . donde las columnas de XC son combinación X se transforma en X lineal de las columnas de X: Podemos construir una matriz ortogonal T = [t1 . ur ] generen X: Consideremos la matriz C de orden m (r t) generada por [ut+1 . t: 3. y C = B. : : : . tr0 ] Cr (X) = [t1 . : : : . ut+1 . n r): 2. Si H0 es cierta. Se veri…ca: 1. n r0 ). ur+1 . : : : . tr+1 .1 Sea Y = XB + E el modelo lineal multivariante. pues HB = HC = 0: Así la matriz de diseño e = XC. y [u1 .270 CAPÍTULO 15. : : : . R0 la matriz de residuos. el subespacio generado por las …las de H está contenido en el generado por las …las de X: Podemos construir una base ortogonal de Rm [u1 . las matrices R0 y R1 pendientes. . ur ]: e + E. ut . : : : . tr0 . um ] tal que [u1 . Si H0 es cierta. : : : . : : : . ut . tenemos que b= T0 E 0 Zn r0 .3. : : : . : : : . H0 : HB = 0 una hipótesis lineal demostrable y R1 la matriz de residuos bajo H0 . donde las …las de E son Np (0. ut ] generen H. ANÁLISIS DE LA VARIANZA (MANOVA) Teorema 15. : : : . ) independientes. T0 (Y X = 4 Zt Zn r0 Zn r es Wishart Wp ( . Aceptaremos H0 si signi…cativo y rechazaremos H0 si es pequeño y signi…cativo. i es el efecto del nivel i del factor. entonces R0 y R1 R0 son Wishart independientes y = j(R1 jR0 j jR0 j = R0 ) + R0 j jR1 j (p. t): Así 0 1 sigue la distribución de Wilks. es decir. n r. n r0 ) e independiente de R0 : La consecuencia más importante de este teorema es que. matriz Wishart lambda de Wilks Desviación hipótesis t R1 R0 = jR0 j=jR1 j Residuo n r R0 Criterio decisión: Si 15. correspondiendo a la misma situación experimental del análisis canónico de . < se rechaza H0 .ni . donde P ( (p.15. i = 1. n r. donde es un vector de medias general. : : : . ) independientes. si H0 es cierta. Por tanto e b )0 (Y X e b ) = Z0 R1 = (Y X n r0 Zn r0 r0 ): Por otro lado podemos escribir 2 3 0 e b) = 0 5. l. h = 1. n donde las t = r r0 …las de Zt son independientes de las n Entonces R1 = Z0t Zt + Z0n r Zn r .k. R1 r …las de Zn r : R0 = Z0t Zt . yih es la observación multivariante h en la situación (o población) i.4. donde R1 R0 es Wishart Wp ( . MANOVA DE UN FACTOR donde las n r0 …las de Zn r0 271 son Np (0.4. no es Tabla general MANOVA g. : : : . t) < )= : Manova de un factor El modelo del diseño de un único factor o causa de variabilidad es yih = + i + eih . matriz Wishart lambda de Wilks B = jWj=jTj W (p. La hipótesis nula consiste en a…rmar que las i son iguales a cero. T = (tuv ). obtenemos la tabla: . i = 1. Se veri…ca T = A + B + R0 : Si las ó las son nulas. entonces R1 = R0 + A ó R1 = R0 + B. k T 1) Manova de dos factores Si suponemos que las n = a b observaciones multivariantes dependen de dos factores …la y columna. MANOVA de un factor g. : : : . j = 1. y u la media general. n k. Como generalización del caso univariante. respectivamente (Sección 3. Tenemos pues que W = R0 . : : : . son las matrices de dispersión “dentro grupos”. T = R1 = B + W. : : : . p.3. a. Entre grupos k 1 Dentro grupos n k Total n 1 15. intervienen las matrices A = (auv ). j es el efecto aditivo del nivel j del factor columna.3). para contrastar la hipótesis de que no in‡uye el factor …la o el factor columna. u. siendo. R0 = (ruv ) con elementos P auv = b Pi (yi u y u )(yi v y v ) buv = a j (y ju y u )(y jv y v ) P ruv = ij (yiju yi u y ju + y u )(yijv yi v y jv + y v ) P tuv = ij (yiju y u )(yijv y v ). “entre grupos” y “total”. Así pues. B =(buv ). b. i es el efecto aditivo del nivel i del factor …la. para cada variable Yu . y ju la media …jando el nivel j del factor columna. respectivamente. etc. en ninguna de las variables.272 CAPÍTULO 15.5. con n = n1 + + nk . con a y b niveles respectivamente. donde es la media general. l. indicando q = (a 1)(b 1). v = 1. B = R1 R0 . ANÁLISIS DE LA VARIANZA (MANOVA) poblaciones (Capítulo 7). el modelo es yij = + i + j + eij . q. h = 1. R0 = (ruv ). c.6. b. r = ab(c 1). obtenemos la tabla: . yijhp )0 es la réplica multivariante h de las variables observables. : : : . : : : . a (p. = i. i es el efecto aditivo del nivel i del factor …la. : : : . v = 1. parámetro que mide la desviación de la aditividad del efecto de los factores. donde auv buv cuv ruv tuv P = bc Pi (yi u y u )(yi v y v ) = ac j (y j u y u )(y j v y v ) P = c i. i = 1. con a y b niveles respectivamente. T = (tuv ).j (yiju y u )(yiju y u ). : : : . q. El modelo lineal es yijh = + i + j + ij + eijh . j = 1. (p. p. También. como en el caso univariante. Indicando q = (a 1)(b 1). columna o las interacciones no in‡uyen. MANOVA DE DOS FACTORES CON INTERACCIÓN 273 MANOVA de dos factores matriz lambda g. en ninguna de las variables. AB = (cuv ).15. a.j (yij u yi u y j v + y u )(yij v yi v y j v + y v ) P = i. intervienen las matrices A = (auv ). e yijh = (yijh1 . que veri…can T = A + B + AB + R0 : (AB no es un producto matricial). b 1) 1) Manova de dos factores con interacción En el diseño de dos factores con interacción suponemos que las n = a b c observaciones multivariantes dependen de dos factores …la y columna.6.jh (yijhu yi u )(yijhv yi v ) P u. para contrastar las hipótesis de que los factores …la. l. donde es la media general. B = (buv ). ij es la interacción. Wishart de Wilks Filas a 1 A jR0 j=jR0 + Aj Columnas b 1 B jR0 j=jR0 + Bj q R0 Residuo Total ab 1 T 15. y que hay c observaciones (réplicas) para cada una de las a b combinaciones de los niveles. j es el efecto aditivo del nivel j del factor columna. : : : . Y3 =peso del tumor.22 18. b 1) (p.90 0. Filas a 1 b 1 Columnas Interacción q r Residuo Total abc 1 15.51 0.274 CAPÍTULO 15. ANÁLISIS DE LA VARIANZA (MANOVA) MANOVA de dos factores con interacción g.00 0.17 20.49 0.50 0.44 0.18 18. matriz lambda Wishart de Wilks A jR0 j=jR0 + Aj B jR0 j=jR0 + Bj AB jR0 j=jR0 + ABj R0 T (p.34 0.32 19.90 0. a 1) (p.00 0.31 20.74 16.20 15.20 21.15 18.38 17.84 0.28 Los resultados MANOVA son: Hembras Y 1 Y 2 Y3 19.02 19. En un experimento para inhibir un tumor.25 20.16 18.54 19. se quiere investigar el efecto del sexo (S) y de la temperatura ambiental (T).92 0. r.57 22.22 19.27 23.17 . r.30 20. Machos Temp Y 1 Y 2 Y3 4 18. l.85 19.26 0. Se consideran las variables: Y1 =peso inicial.69 0.30 0.1 Ratas experimentales.20 20 21.81 0.45 20.68 19.41 17.87 22.08 0. q) Ejemplos Ejemplo 15.95 0.33 19.20 20.66 21. Y2 =peso …nal.7. r.30 0.15 16.58 19.15 19.56 20.7.35 19.24 18.35 34 20. 7. EJEMPLOS 275 Figura 15.1: Representación canónica de los datos de las ratas hembras (izquierda) y machos (derecha). l. g. .1) ayuda a visualizar las diferencias. Podemos ver que la pequeña diferencia entre las representaciones de las tres temperaturas de los machos y de las hembras. indican una cierta interacción. 0:2588 3:219 6 y 20 0:3360 6:586 3 y 10 0:7731 0:458 6 y 20 Son signi…cativos los efectos S y T. Una representación canónica de los 3 2 = 6 grupos (Figura 15. T 2 S 1 T S 2 Residuo 12 Total 17 matriz dispersión 1 4:932 9:705 0:2888 @ 32:58 0:3769 A 0:0196 0 1 0:6050 1:233 0:1906 @ 2:516 0:3888 A 0:0600 0 1 0:2540 0:8052 0:0359 @ 3:205 0:0881 A 0:0060 1 0 19:07 7:023 0:1943 @ 26:69 0:2084 A 0:0392 0 1 24:86 18:76 0:0620 @ 65:00 0:2847 A 0:1250 0 lambda F g. l. pero la interacción no es signi…cativa.15. aunque no signi…cativa. machos y hembras (factor S). ANÁLISIS DE LA VARIANZA (MANOVA) Ejemplo 15.txt) Las matrices de dispersión entre especies (6 especies en 8 localidades). en relación a 5 variables biométricas (datos en http://www.2 Coleópteros. entonces = n=2 : . pero ahora teniendo en cuenta el sexo. y F son: 1 0 debidas a la interacción.6. vamos a estudiar 8 poblaciones (6 especies en 8 localidades.1.276 CAPÍTULO 15.ub. Continuando con el ejemplo 7. residual y los estadísticos 14303 24628 17137 48484 36308 B 43734 31396 85980 64521 C B C = 0:0068 23610 61519 46405 C L=B 35 B C F2353 = 152:8 @ 169920 126980 A 95395 0 1 675:94 1613:0 1644:5 4520:0 3270:6 B 3849:3 3924:4 10786: 7804:9 C B C C 5 = 0:1944 4001:0 10997: 7957:2 S=B B C F = 463:2 @ 30225: 21871: A 559 15825: 0 1 96:470 81:532 63:559 92:035 20:554 B 97:205 85:554 157:28 102:31 C B C = 0:7692 B 86:405 127:66 108:25 C L S=B 35 C F2353 = 4:329 @ 428:97 236:53 A 282:30 0 1 1546:7 1487:8 1346:4 2452:6 1924:0 B 3498:5 3078:4 4206:6 3415:6 C B C 3082:9 3888:2 3159:4 C R0 =B B C @ 9178:6 6038:0 A 5950:3 15. Otros criterios Sean 1 p los valores propios de R0 respecto de R1 . es decir. teniendo en cuenta que si es la razón de verosimilitud en el test de hipótesis.7.8. entre sexos. factor L) de coleópteros del género Timarcha. las raíces de la ecuación det(R0 R1 ) = 0: Podemos expresar el criterio de Wilks como jR0 j = 1 = p: jR1 j Este criterio es especialmente interesante.edu/stat/personal/cuadras/ escarab. 5. Así.8 35 y 2354 Hotelling 28. Pillai y Roy. l. Hotelling. obtenemos los siguientes valores de los estadísticos de Wilks.2) y se obtiene maximizando la F de Fisher-Snedecor para todas las combinaciones lineales de las variables: r a0 (R1 R0 )a n r 0 n = .2 35 y 2787 Pillai 2.0068 152.8. y sus transformaciones a una F: F g.2. Se cumple la relación 01 = (1 p )= p y se toma como estadístico de contraste 0 1 2 =1 p = r1 : 1 + 01 En el ejemplo 15. debe ser necesariamente función de los valores propios 1 p (Anderson. OTROS CRITERIOS 277 Es fácil ver que 0 1: Se llaman correlaciones canónicas generai 2 lizadas (al cuadrado) a ri = 1 i . Traza de Hotelling: 1 tr[R0 (R1 R0 )] = p X 1 i i i=1 2. para contrastar las diferencias entre las 6 especies (encontradas en 8 localidades). : : : .15. p: Entonces el criterio de Wilks en términos de correlaciones es p Y (1 ri2 ): = i=1 Se demuestra que cualquier estadístico que sea invariante por cambios de origen y de escala de los datos.7.78 35 y 2815 Roy 24. i = 1. max F (a) = max 1 a a a0 R0 a t t siendo 01 el primer valor propio de (R1 R0 ) respecto de R0 .090 57. 1958).02 446. Traza de Pillai: p X 1 tr[R1 (R1 R0 )] = (1 i=1 3.90 2002 7 y 563 = . Raíz mayor de Roy: =1 p = p X i=1 i) = ri2 1 p X ri2 : ri2 : i=1 = r12 : Este último estadístico está basado en el principio de unión intersección (véase Sección 3. Wilks 0. otros estadísticos propuestos son: 1. Hotelling. Por ejemplo. y diferentes para p > 1: No está claro cuál es el mejor criterio. y a continuación aplicando el modelo de regresión multivariante. Para datos mixtos o no normales. Wilks. Véase Cuadras (2008). ANÁLISIS DE LA VARIANZA (MANOVA) Figura 15. matrices que se pueden visualizar mediante elipsoides de concentración. Complementos El Análisis Multivariante de la Varianza es muy similar al Análisis de la Varianza. Wishart y S. depende de la hipótesis alternativa. J. dando lugar al método llamado CATANOVA (Light y Margolin. entonces el criterio de Roy es el más potente. se puede plantear MANOVA utilizando distancias entre las observaciones.2).9. Véase Rencher (1998). . si los vectores de medias están prácticamente alineados. Esta extensión multivariante se inicia en 1930 con los trabajos de H. Tales criterios miden el tamaño de H = R1 R0 respecto de E = R0 . en el diseño de un factor. Cuadras y Cuadras (2011). 15. Roy propuso un planteamiento basado en el principio de unión-intersección. Friendly (2007) propone representar ambos elipsoides en el llamado HE plot (Figura 15. Los cuatro criterios que hemos visto son equivalentes para p = 1. S. Posteriormente S. 1971).2: Representación HE plot (combinada con la representación canónica) de los datos de las ‡ores Iris. Se puede plantear un análisis tipo ANOVA para datos categóricos.278 CAPÍTULO 15. calculando coordenadas principales mediante MDS. con los elipsoides de concentración de las matrices H = R1 R0 (línea gruesa) y E = R0 (línea discontinua). N. salvo que interviene más de una variable cuantitativa observable. 1 Una función paramétrica = p0 es estimable si y 0 sólo si el vector …la p es combinación lineal de las …las de la matriz de diseño X: 279 . : : : .1.1 Una función paramétrica los parámetros = ( 1 . donde a = (a1 . es estimable se da Proposición 16. pm )0 : Una función paramétrica una combinación lineal b de y = (y1 . m )0 = p1 1 + + pm m es una combinación lineal de = p0 . además de la estimación de los parámetros de regresión . : : : .1. tal que E( b ) = : La caracterización de que una función paramétrica a continuación. Funciones estimables En el modelo lineal univariante y = X + e.Capítulo 16 FUNCIONES ESTIMABLES MULTIVARIANTES 16.1. yn )0 b = a1 y1 + es estimable si existe + an yn = a0 y. donde p = (p1 . : : : . an )0 . tiene también interés la estimación de ciertas combinaciones lineales de los parámetros : De…nición 16. : : : . Si a01 y es otro estimador centrado con a1 2 Cr (X). tiene varianza mínima. Demost. entonces E(e a0 y) E(a0 y) = (e a0 a0 )X = 0 )e a = a1 . que prueba que b = p0 b tiene varianza mínima. Se ve- . entonces b = p0 b es único. Si b es estimador LS de una función paramétrica estimable. Un criterio para saber si p0 es función paramétrica estimable es p0 (X0 X) X0 X = p0 : . es decir. p0 es combinación lineal de las …las de X: 16. donde e a2 Cr (X) y b es ortogonal a Cr (X): Consideremos al estimador e a0 y: Tenemos E( b ) = E(a0 y) =E(e a0 y + b0 y) =E(e a0 y) + b0 X =E(e a0 y) = . puesto que b0 X = 0: Luego e a0 y es estimador centrado.: Existe un estimador insesgado b = a0 y de = p0 : Sea Cr (X) el subespacio generado por las columnas de X: Entonces a =e a+b. e a0 y es único. b = p0 b es estimador lineal insesgado de y. Teorema 16. Teorema de Gauss-Markov La estimación óptima de una función paramétrica estimable = p0 se obtiene sustituyendo por b .2. la estimación LS de : Este resultado se conoce como teorema de Gauss-Markov. )e a0 y = e a0 X b = p b : Así b = e Finalmente. que vale para todo : Por lo tanto a0 X = p0 . b e= y X b es ortogonal a Cr (X) y e a0 e = e a0 y e a0 X b = 0 0 a0 y = p0 b es único y centrado.280 CAPÍTULO 16. Por otro lado. indicando kak2 = a21 + + a2n . tenemos que var(a0 y) = kak2 2 = (ke ak2 + kbk2 ) 2 ke ak2 2 = var(e a0 y). dentro de los estimadores lineales insesgados de .2. 2. es decir.1 Sea ri…ca: = p0 1.: E( b ) = E(a0 y) = a0 E(y) = a0 X = p0 . FUNCIONES ESTIMABLES MULTIVARIANTES Demost. 3. 0 = p1 1 + + pm m es una combi- = p0 B..1)... 5 . 281 Funciones estimables multivariantes En el modelo lineal multivariante (15. 5 : yn m De…nición 16. : : : .1 Una función paramétrica multivariante nación lineal de las …las de B. Se veri…ca: 0 = ( 1.16.1 Una función paramétrica 0 = p0 B es estimable si y sólo si el vector …la p0 es combinación lineal de las …las de la matriz de diseño X: La demostración es similar al caso univariante. tal que E( b ) = : La caracterización de que una función paramétrica siguiente: es estimables es la Proposición 16. donde p = (p1 . m los vectores …la de B. donde a = (a1 . : : : . La estimación óptima de una fpem 0 = p0 B viene dada por b 0 = p0 B: b b Sólo hay que sustituir B por sus estimaciones LS B: Teorema 16.3.. : : : . FUNCIONES ESTIMABLES MULTIVARIANTES 16.3.3.2 Sea estimable. : : : . es decir: 2 3 2 3 y1 1 6 7 6 7 Y = 4 . an )0 . p) = p0 B una función paramétrica .3. y 1 . también tiene interés la estimación de ciertas combinaciones lineales de los parámetros B: Indiquemos por y1 . yn los vectores …la de Y. B = 4 . : : : . pm )0 : Una función paramétrica multivariante 0 timable (fpem) si existe una combinación lineal b de las …las de Y b 0 = a1 y1 + es es- + an yn = a0 Y. : : : . Si B 2. La distribución de b es la de una combinación lineal de variables normales independientes. j como M (i. yn son las …las de la matriz de datos Y: El vector g = (g1 . b p ) = p0 B b es único.3. 2. Distancia de Mahalanobis Sean b 1 . b y R0 son estocásticamente independientes. Podemos plantear la representación canónica del sistema como una generalización del análisis canónico de poblaciones.4. n r): 3. : : : .1) La versión del Teorema 15. b s las estimaciones LS de los fpem. entonces: 1. que es mínima. El estimador LS de es b 0 = p0 B b = p0 (X0 X) X0 Y =g1 y1 + + gn yn donde y1 .3. como la cantidad 2 = g12 + + gn2 : (16.1 para fpem es: b es la estiTeorema 16.4. Podemos de…nir la distancia de Mahalanobis (estimada) entre las funciones i . j)2 = ( b i b j )0 b 1 (bi b ): j .3 En el modelo MANOVA normal.282 CAPÍTULO 16. FUNCIONES ESTIMABLES MULTIVARIANTES b es estimador LS de B. si b = p0 B mación LS de . 0s = p0s B es un sistema de s funciones paramétricas estimables.1. Cada b j es estimador lineal insesgado de entre los estimadores lineales insesgados de y de varianza mínima j j: Observemos que este teorema vale sin necesidad de una hipótesis de normalidad. : : : . 16. La distribución de R0 es Wp ( . Análisis canónico de funciones estimables Supongamos que 01 = p01 B. y podemos de…nir la dispersión de b . b = R0 =(n r) la estimación de la matriz de covarianzas. 1. entonces b 0 = ( b 1 . gn )0 es único. : : : . : : : . 16. s.4. V0 b V = I. ) y (n r) b es Wp ( . j)2 r p+1 : Análogamente vemos que la distribución de n es también Fnp 16. n r) y n r (n p+1 r)p 1 ij Fnp M (i. vp ] la matriz de vectores propios de U0 U respecto de b . j) es Hotelling T 2 (p.1). n r). . i = 1. consideremos las medias 1Xb . es decir. . : : : . : : : . b s son las …las w10 .. : : : . : : : . 1 j = 1. . = s i=1 ij s j y la matriz 0 B U =@ b 11 b s1 . p ) es la matriz diagonal con los valores propios. : : : . ws0 de la matriz W = UV: La distancia euclídea entre las …las coincide con la distancia de Mahalanobis entre las fpem (wi wj )0 (wi wj ) = ( b i b )0 b j 1 (bi b ): j . b 1 1p .. b . entonces ij1 ( b i b j ) es Np (0. por lo tanto ij1 M (i. ANÁLISIS CANÓNICO DE FUNCIONES ESTIMABLES 283 0 0 Sea ij = kgi gj k : Si b i = gi0 Y es independiente de b j = gj0 Y y se veri…ca la hipótesis H0 : i = j . U0 UV = b VD . p+1 1 b 2 ( i r)p 2 donde 0b i) 1 (bi i) es la dispersión mínima (16. donde D =diag( 1 . : : : .2. sp p p 1 C A: Sea V = [v1 . s. con la normalización vj0 b vj = 1. r (n r p+1 . : : : . Las coordenadas canónicas de b 1 . Coordenadas canónicas Si b i = ( b i1 ..4. b ip )0 .16. las proyecciones canónicas de las estimaciones de las fpem. Los datos sobre 8 individuos (media de varias pruebas) eran: . Se quiere hacer una comparación de dos fármacos ansiolíticos (Diazepan y Clobazan) con un placebo.l.5. g: Sea 1 el coe…ciente de con…anza. j) = 2s i. P. i R ) donde 16. que indicaremos D. Podemos entender wi0 como una estimación de i 0 = 0i V. : : : . C. V (Y)m = 100 V + 1+ 1 + + m : p Regiones con…denciales 0 Sean wi0 = b i V. Las variables observables son efectos secundarios en la conducción de automóviles: Y1 =tiempo de reacción (segundos) a la puesta en rojo de un semáforo.j=1 s i=1 i. y que es máxima en dimensión reducida m: El porcentaje de variabilidad explicada por las m primeras coordenadas canónicas es Pm = 100 16. círculos en dimensión 2) de centros y radios (wi .1 Fármacos.5. FUNCIONES ESTIMABLES MULTIVARIANTES De manera análoga podemos de…nir la variabilidad geométrica de las funciones estimables. probando que es p s 1 X 1X 2 V = 2 M (i.3. s.284 CAPÍTULO 16. Y2 =distancia mínima (cm.) entre dos puntos que el conductor necesitaba para poder pasar por el medio. y consideremos: R2 = F (n (n r r)p : p + 1) Luego las proyecciones canónicas i de las fpem pertenecen a regiones con…denciales que son hiperesferas (esferas en dimensión 3.. i es la dispersión mínima (16. la proyección canónica de i : Podemos también encontrar regiones con…denciales para las i . i = 1. i = 1.1) de la estimación LS de i: Ejemplos Ejemplo 16. : : : . donde F sigue la distribución F con p y (n g p + 1) g.4. F tal que P (F > F ) = . 719 157. Las coordenadas y los radios de la representación .0 .0 . :0275 1:97 .8 .618 181.6 Los datos se ajustan a un diseño de dos factores sin interacción: yij = + i+ j +eij : Interesa estudiar si hay diferencias signi…cativas entre los fármacos.2 .2 Diazepan Y1 Y2 .1): 1 = 2 = 3 = 1=8 = 0:354: Los dos valores propios de U0 U respecto de b son 1:684 y 0:108 y explican el 100 % de la variabilidad geométrica en dimensión 2.701 205. p con dispersión (16.6 . 3 = + 3: La tabla MANOVA es: g. l.628 163.4 . 2 = + 2.2 .619 184.025 9. l.776 164.849 189. EJEMPLOS 285 Placebo Y1 Y2 .493 166. queremos hacer un test sobre la hipótesis H0 : 1 = 2 = 3 y representar las funciones estimables 1 = + 1. Es decir.548 177.5.2 .4 .741 170.0 .517 167.0 . b 2 = (:672.858 171. b 3 = (:737. y si las hay.818 175.6 Individuo 1 2 3 4 5 6 7 8 Clobazan Y1 Y2 .16.6 .8 .731 184.876 174.678 215.519 203.86 4 y 26 309 :258 1:23 . 180:8)0 .602 158.637 194.855 189.482 2.6 .2 .2 .84 14 y 26 8474 :037 1:96 2221 Las diferencias entre fármacos y entre individuos son signi…cativas Las estimaciones LS son: b 1 = (:659. 184:0)0 .8 .8 . Fármacos 2 Individuos 7 Residuo 14 matriz dispersión lambda F g.687 152. 175:3)0 .641 247.846 173.2 . representarlos y compararlos.0 .595 153.8 . W2 (derecha) son: temp 4 20 34 W1 :539 1:29 :753 W2 radio :871 1:29 :091 1:29 :779 1:29 Y1 Y2 Y3 W1 :395 :961 :405 W2 :278 :276 :653 . FUNCIONES ESTIMABLES MULTIVARIANTES Figura 16. Ejemplo 16. W2 (derecha) son: Fármaco Y1 Y2 radio Placebo 19. que explican el 100 % de la variabilidad geométrica (Figura 16.1).86 Diazepan 21. Y2 .86 Y1 Y2 W1 W2 .7. vamos a realizar la representación canónica de los tres niveles de la temperatura.296 . resulta que C no los tiene.375. Las coordenadas y los radios de la representación canónica (izquierda) y las correlaciones entre variables observables Y1 .86 Clobazan 19. canónica (izquierda) y las correlaciones entre variables observables Y1 .529.32 8.286 CAPÍTULO 16. Los valores propios de U0 U respecto de b son 2.1: Representación canónica de tres fármacos en un diseño de dos factores. 1.494 . Puesto que las variables miden efectos secundarios.5.68 0. pero D sí (Figura 16.91 0.2).2 Ratas experimentales.955 La representación canónica indica que no hay diferencias entre P y C.73 8. Y2 . En cambio D se diferencia signi…cativamente de P.1. Y3 y canónicas W1 . Continuando con el ejemplo 15.869 -.75 8.44 0. Y3 y canónicas W1 . 16.edu/stat/personal/cuadras/escarab.5. podemos hacer la representación canónica de las 6 especies en 8 localidades.2 % de la variabilidad geométrica (inercia).2.054.5.7.txt). Los dos primeros valores propios de U0 U respecto de b son 201.3 Coleópteros.67 y 28. Las coordenadas y los radios de la representación canónica (izquierda) y las correlaciones entre variables observables y canónicas (derecha) son: Especie 1 2 3 4 5 6 7 8 W1 4:567 3:760 1:944 2:613 2:299 1:705 6:828 10:06 W2 radio 1:164 :342 :5129 :342 1:031 :418 1:536 :342 1:731 :342 :6381 :342 3:671 :503 2:475 :342 Y1 Y2 Y3 Y4 Y5 W1 :600 :661 :453 :804 :748 W2 :115 :450 :698 :522 :522 .2: Representación canónica de los efectos principales de las temperaturas. Continuando con el ejemplo 15. Ejemplo 16. EJEMPLOS 287 Figura 16. eliminando el efecto del sexo y de la interacción (datos en www.ub. véase la Figura 16. que explican el 98.3. Esta representación permite visualizar las diferencias entre las especies. Arenas y Cuadras (2004). Complementos El teorema de Gauss-Markov se puede generalizar de diversas maneras al caso multivariante.6. 16. La representación canónica de funciones paramétricas estimables multivariantes fue propuesta por Cuadras (1974). sin la in‡uencia del dimor…smo sexual y de la interacción especie sexo (Fig.288 CAPÍTULO 16. 16. Ver Mardia et al.3). Rencher (1998). . (1979).3: Representación canonica de 8 poblaciones (6 especies de coleópteros encontradas en 8 localidades distintas). eliminando el efecto del dimor…smo sexual y de la interacción. (1996) y otras generalizaciones en Lejeune y Calinski (2000). FUNCIONES ESTIMABLES MULTIVARIANTES Figura 16. Ver Cuadras et al. Wiley. (1999) Aprender de los datos: el análisis de componentes principales. Biometrics. J. 289 . and A. 53.. T. 39-48. 511-525. A. C. and J. and T. Willis (2003) Canonical analysis of principal coordinates: a useful method of constrained ordination for ecology. A. 33. (1958) An Introduction to Multivariate Analysis. Daudin (1997) A test of a special case of typicality in linear discriminant analysis. [8] Bar-Hen. T. Comm. Simul. Rubin (1956) Statistical inference in factor analysis. (2001) Preliminary tests in linear discriminant analysis. Anderson (1984) On the existence of maximum likelihood estimates in logistic regression models. Morineau. Barcelona. Statistica. una aproximación desde el data mining. EUB. 4. A. 585–593. 111-150. of the Third Berkeley Symposium on Math. Cuadras (2004) Comparing two methods for joint representation of multivariate data. M. York. and J. Stat. W.. Biometrika. [2] Aluja. [9] Bar-Hen. Delta. A. Grané (2008) 100 Problemas Resueltos de Estadística Multivariante. 1-19. M.. A. and Prob. A. and H. Madrid. [6] Arenas. [5] Anderson. Comp. Stat. and C. 5. 84. N. [4] Anderson. 415-430. 71. Ecology.-J. Proc. [7] Baillo. T. [3] Anderson. W.J.Bibliografía [1] Albert. (North–Holland). [16] Cox. A. Elsevier Science Publishers B. M. London. of Classi…cation. [12] Cailliez. Paris. [17] Cramer. [14] Carmona. N. Eunibar. Amsterdam. (1981) Métodos de Análisis Multivariante. de Barcelona. 5. Heiser (1988) Hierarchical trees can be scaled perfectly in one dimension. 30.). E. Universidad Central de Venezuela. (1989) Distance analysis in discrimination and classi…cation using both continuous and categorical variables. J. Psychometrika. Barcelona.. C. Wiley. and W.M. (1974) Análisis discriminante de funciones paramétricas estimables. P. (1988) Distancias estadísticas (con discusión) . and M. C. Galindo Villardón. 43-54. L’Analyse des Correspondances. A. F. pp. 25. J. V. I. W. Barcelona. Dodge (Ed. . Lohnes (1971) Multivariate Data Analysis. [18] Critchley. A. La Taxinomie. Inv. La Muralla. C. Dunod. EUB. T. Cox (1964) Multidimensional Scaling. Trab. invariant measures of multivariate association. [15] Cooley. 5-20. [19] Cuadras. 48. F. M. M. [21] Cuadras. II. M. P. 459–473. F. 1996. W. 305-308. 44. R. [13] Cárdenas C. (1976) L’Analyse des Données. Esta. and P. [20] Cuadras. Statistical Data Analysis and Inference. (2005) Modelos Lineales. M. 3a Ed. Barcelona. Chapman and Hall. 3-31. Nicewander (1979) Some symmetric. Madrid. and M. J. C. and W. (2001) Biplot con información externa basado en modelos bilineales generalizados.290 BIBLIOGRAFÍA [10] Batista. Coenders (2000) Modelos de Ecuaciones Estructurales. Psychometrika. F. Pub. [11] Benzecri. Oper. Caracas. Estadística Española. York. (1983) The analytical solution of the additive constant problem. In: Y. Univ. and G. 295-378. [22] Cuadras. Morinneau (Eds. 3-20. Bairamov and O. (1991) Ejemplos y aplicaciones insólitas en regresión y correlación. [30] Cuadras. 42. Analyses Multidimensionnelles des Données. (2000) Problemas de Probabilidades y Estadística. [29] Cuadras. [33] Cuadras. Niemi (Eds). [32] Cuadras. M. [25] Cuadras. The Netherlands. Tiit.15-26. (1992a) Probability distributions with given multivariate marginals and given dependence structure.75-83. 8. M. [27] Cuadras. VSP/TEV. 81. (2005b) First principal component characterization of a continuous random variable.). 15. C. J. C. M. C. 367-382. Barcelona. (2002a) On the covariance between functions. Gebizlioglu. M. T. Fernández and E. 189-199. (2002b) Correspondence analysis and diagonal expansions in terms of distribution functions. 29. (1993) Interpreting an inequality in multiple regression. Vol 3. 137-150.). C. Saint Mandé (France). C. pp. I. Multivariate Statistics and Matrices in Statistics. Research Letters in Information and Mathematical Sciences. New Trends in Probability and Statistics. Chapman & Hall/CRC-Press. The American Statistician. [31] Cuadras. J. 256-258.( Eds. 51-66. Characterizations and Applications. C. C. Multivariate Analysis. EUB. Biometrical Letters. M. C. C. Balakrishnan. Kollo and H. In: K. In: N. [26] Cuadras. In: E. 103. M. M. 47. J. (1995) Increasing the correlations with the response variable may not increase the coe¢ cient of determination: a PCA interpretation. Qüestiió. M (1992b) Some examples of distance based discrimination. . New York. of Statistical Planning and Inference. 97-103. pp. 19-27. (2005a) Continuous canonical correlation analysis. [24] Cuadras.BIBLIOGRAFÍA 291 [23] Cuadras. M. C. Advances on Models. Vol. 2. CISIA-Ceresta. [28] Cuadras. C. pp. M. of Multivariate Analysis. (1998) Multidimensional dependencies in ordination and classi…cation. M. and J. pp. M. (2009) Constructing copula functions with weighted geometric means. [43] Cuadras. [36] Cuadras. Carmona (1983) Euclidean dimensionality of ultrametric distances. Ingrassia.. [42] Cuadras. Qüestiio. (Eds.. and F. New Perspectives in Statistical Modeling and Data Analysis. 55-84. M. Boston. Fortiana (1997) Probability densities from distances and discriminant analysis. C.. M.. (2014) Nonlinear principal and canonical directions from continuous extensions of multidimensional scaling. Balakrishnan. 1317-1318. of Statistical Planning and Inference. Fortiana (1996) Some computational aspects of a distance-based model for prediction. 2261-2279. 6171. C. 7. (Eds. M. J.-Theor. 30. M. J. Birkhauser. [37] Cuadras. C. (2011) Distance-based approach in multivariate association. A. [35] Cuadras. 132-149.-Theor. SORT. (2010) On the covariance between functions (correction). M.. Springer. C. pp.. 4. M. Meth. Mínguez. B. Augé (1981) A continuous general multivariate distribution and its properties. Advances in Mathematical and Statistical Modeling. M. In: S. 33. C. Sarabia. (2008) Distance-based multisample tests for multivariate data. [44] Cuadras. Stat. 25. M.). J.). In: Arnold. C. [39] Cuadras. Comm. Atkinson. M. [38] Cuadras. C. and C. Comp. C. C. Open Journal of Statistics. 139. Arenas (1990) A distance based regression model for prediction with mixed data. Stat. . of Multivariate Analysis. Meth.292 BIBLIOGRAFÍA [34] Cuadras. 101. Statistics and Probability Letters.. 19. and J. M. 535-542. (2006) The importance of being the upper bound in the bivariate family.. R. C. Vichi. [40] Cuadras. and J. 339353. M. Comm. C. N.-Simul. R. M. Rocci. C. 37663772. [41] Cuadras. 353-358. C. Berlin. 405-411. 593-609. Commun. Arenas. A10. Stat. R. [46] Cuadras. In: Gupta. Cuadras (2011) Partitioning the geometric variability in multivariate analysis and contingency tables.). (Eds. [51] Cuadras. M. In: B. World-Scienti…c. Piccolo. V. Academic Press. C. [47] Cuadras. Visualization of Categorical Data. 365-376. Rao (Eds. and J. M. Berlin. (2002) Orthogonal expansions and distinction between logistic and normal. pp. C. M. and J. Fortiana (1994) Ascertaining the underlying distribution of a data set. Girko (Eds. The Netherlands. and V. Singapore.BIBLIOGRAFÍA 293 [45] Cuadras. and J.R. M. Springer. (Eds. 417. M. C. [48] Cuadras. [50] Cuadras. Fortiana (1996) Weighted continuous metric scaling. Balakrishnan.). 223-230. M. and J. In: C. 64-74. K. and J. C. 17. Verde. C. D. S. and J. Greenacre. Boston. VSP. pp. Gutierrez and M. C. Huber-Carol.). N. pp. and Cuadras. Multivariate Analysis. M. [54] Cuadras. Fortiana (1993a) Continuous metric scaling and prediction. C. Blasius and M. Fichet. A. D. [52] Cuadras. Mesbah. Fortiana (1993b) Aplicación de las distancias en estadística. M.J.M. Valderrama (Eds. (North–Holland). pp.). C. 1–14. 47–66. Goodness-of-…t Tests and Validity Models. C. Fortiana (1995) A continuous metric scaling solution for a random variable. M. Fortiana (1998) Visualizing categorical data with related metric scaling. of Multivariate Analysis. C. (Eds.325-338. Vichi. pp. and Y. pp. and D. 52. Lahlou (2006) Principal directions of the general Pareto distribution with applications. R. Selected Topics on Stochastic Modelling. In: J.). 27–40. Cuadras. J. Cuadras and C. M. 39-74. N. 2572-2583. [53] Cuadras. York. Birkhauser. and D. D. Linear Algebra and its Applications. . Qüestiió. Multidimensional Statistical Analysis and Theory of Random Matrices. In: R. Cuadras (2006) A parametric approach to correspondence analysis. M. Classi…cation and Multivariate Analysis for Complex Data Structures. M. Future Directions 2. In: C. J. L. Amsterdam. Zeist.). Elsevier Science Publishers B. M. of Statistical Planning and Inference. 237-244. Nikulin. [49] Cuadras. 136. 294 BIBLIOGRAFÍA [55] Cuadras, C. M. and J. Fortiana (2000) The Importance of Geometry in Multivariate Analysis and some Applications. In: C.R. Rao and G. Szekely, (Eds.), Statistics for the 21st Century, pp. 93-108. Marcel Dekker, N. York. [56] Cuadras, C. M. and J. Fortiana (2004) Distance-based multivariate two sample tests. In: M. S. Nikulin, N. Balakrishnan, M. Mesbah, N. Limnios (Eds.), Parametric and Semiparametric Models with Applications to Reliability, Survival Analysis, and Quality of Life, pp. 273-290. Birkhauser, Boston. [57] Cuadras, C. M., Fortiana, J. and M. Greenacre (2000) Continuous extensions of matrix formulations in correspondence analysis, with applications to the FGM family of distributions. In: R. D. H. Heijmans, D. S. G. Pollock and A. Satorra, (Eds.), Innovations in Multivariate Statistical Analysis, pp. 101-116. Kluwer Ac. Publ., Dordrecht. [58] Cuadras, C. M., Cuadras, D. and M. Greenacre (2006) Comparison of di¤erent methods for representing categorical data. Comm. Stat.Simul. and Comp., 35 (2), 447-459. [59] Cuadras, C. M., Fortiana, J. and F. Oliva (1996) Representation of statistical structures, classi…cation and prediction using multidimensional scaling. In: W. Gaul, D. Pfeifer (Eds.), From Data to Knowledge, pp. 20-31. Springer, Berlin. [60] Cuadras, C. M., Fortiana, J. and F. Oliva (1997) The proximity of an individual to a population with applications in discriminant analysis. J. of Classi…cation, 14, 117-136. [61] Cuadras, C. M. and Y. Lahlou (2000) Some orthogonal expansions for the logistic distribution. Comm. Stat.-Theor. Meth., 29, 2643-2663. [62] Cuadras, C. M. and J. M. Oller (1987) Eigenanalysis and metric multidimensional scaling on hierarchical structures. Qüestiió, 11, 37-57. [63] Cuadras, C. M. and M. Sánchez-Turet (1975) Aplicaciones del análisis multivariante canónico en la investigación psicológica. Rev. Psicol. Gen. Aplic., 30, 371-382. BIBLIOGRAFÍA 295 [64] Cuadras, C. M., Valero, S., Cuadras, D., Salembier, P. and J. Chanussot (2012) Distance-based measures of association with applications in relating hyperspectral images. Comm. Stat., Theor.- Meth., 41, 2342– 2355. [65] Chatterjee, S. and B. Price (1991) Regression Analysis by Example. Wiley, N. York. [66] De Cáceres, M., Oliva, F. and X. Font (2006) On relational possibilistic clustering. Pattern Recognition, 39, 2010-2024. [67] Eckart, C. and G. Young (1936) The approximation of one matrix for another of lower rank. Psychometrika, 1, 211-218. [68] Efron, B. (1975) The e…cency of logistic regression compared to normal discriminant analysis. J. of the American Statistical Association, 70, 892-898. [69] Esco…er, B. and J. Pagès (1990) Analyses Factorielles Simples et Multiples. Dunod, Paris. [70] Escou…er, Y. (1973) Le traitement des variables vectorielles. Biometrics, 29, 751-760. [71] Everitt, B.S. (1993) Cluster Analysis. Edward Arnold, London. [72] Flury, B. (1997) A First Course in Multivariate Statistics. Springer, N. York. [73] Fortiana, J. and C. M. Cuadras (1997) A family of matrices, the discretized Brownian Bridge and distance-based regression. Linear Algebra and its Applications, 264, 173-188. [74] Friendly, M. (1994) Mosaic displays for multi-way contingency tables. J. of the American Statistical Association, 89, 190–200. [75] Friendly, M. (1999) Extending mosaic displays: Marginal, conditional, and partial views of categorical data. J. of Computational and Graphical Statistics, 8, 373–395. [76] Friendly, M. (2007) HE plots for multivariate linear models. J. of Computational and Graphical Statistics, 16, 421-444. 296 BIBLIOGRAFÍA [77] Gabriel, K. R. (1971) The biplot graphic display of matrices with application to principal component analysis. Biometrika, 58, 453-467. [78] Galindo Villardón, M. P. (1986) Una alternativa de representación simultánea: HJ-Biplot. Qüestiió, 10, 13-23. [79] Gittings, R. (1985) Canonical Analysis. A Review with Applications in Ecology. Springer-Verlag, Berlin. [80] Golub, G. H. and C. Reinsch (1970) Singular value decomposition and least squares solutions. Numerische Mathematik, 14 (5), 403–420. [81] Gordon, A. D. (1999) Classi…cation. Chapman and Hall, London. [82] Gower, J. C. (1966) Some distance properties of latent roots and vector methods in multivariate analysis. Biometrika, 53, 315-328. [83] Gower, J. C. (1971a) A general coe¢ cient of similarity and some of its properties. Biometrics, 27, 857-871. [84] Gower, J. C. (1971b) Statistical methods of comparing di¤erent multivariate analyses of the same data. In: F.R. Hodson, D.G. Kendall, P. Tautu (Eds.), Mathematics in the Archaeological and Historical Sciences, pp. 138-149. Edinburgh University Press, Edinburgh. [85] Gower, J. C. and D. J. Hand (1996) Biplots. Chapman and Hall, London. [86] Gower, J. C., Lubbe, S. and le Roux, N. (2011) Understanding Biplots. Wiley, N. York. [87] Gra¤elman, J. (2001) Quality statistics in canonical correspondence analysis. Environmetrics, 12, 485-97. [88] Greenacre, M. J. (1984) Theory and Applications of Correspondence Analysis. Academic Press, London. [89] Greenacre, M. J. (2008) La Práctica del Análisis de Correspondencias. Fundación BBVA - Rubes Ed., Barcelona. [90] Greenacre, M. J. (2010) Biplots in Practice. Fundación BBVA - Rubes Ed., Barcelona. BIBLIOGRAFÍA 297 [91] Harman, H. H. (1976) Modern Factor Analysis. The Univ. Chicago Press, Chicago, 3a ed. [92] Hartigan, J. A. (1967) Representation of similarity matrices by trees. J. of the American Statistical Association, 62, 1140-1158. [93] Hastie, T. and R. J. Tibshirani (1990) Generalized Additive Models. Chapman and Hall, London. [94] Hill, M. O. (1973) Reciprocal averaging: an eigenvector method of ordination. J. of Ecology, 61, 237-249. [95] Holman, E. W. (1972) The relation between Hierarchical and Euclidean models for psychological distances. Psychometrika, 37, 417-423. [96] Hosmer, D. W. and S. Lemeshow (2000) Applied Logistic Regression, 2nd Edition. Wiley, N. York. [97] Huitson, A. (1966) The Analysis of Variance. Charles Gri¢ n, London. [98] Hutchinson, T. P. and C. D. Lai (1991) The Engineering Statistician’s Guide to Continuous Bivariate Distributions. Rumsby Scienti…c Pub., Adelaide. [99] Irigoien, I. and C. Arenas (2008) INCA: New statistic for estimating the number of clusters and identifying atypical units. Statistics in Medicine, 27, 2948-2973. [100] Jauregui, E., Irigoien, I., Sierra, B., Lazkano, E. and C. Arenas (2011) Loop-closing: A typicality approach. Robotics and Autonomous Systems 59, 218-227. [101] Joe, H. (1997) Multivariate Models and Dependence Concepts. Chapman and Hall, London. [102] Johnson, S. C. (1967) Hierarchical clustering schemes. Psychometrika, 32, 241-254. [103] Joreskog, K. (1967) Some contributions to maximum likelihood factor analysis. Psychometrika, 32, 443-482. 298 BIBLIOGRAFÍA [104] Joreskog, K. (1969) A general approach to con…rmatory maximum likelihood factor analysis. Psychometrika, 34, 183-202. [105] Joreskog, K. (1970) A general method for analysis of covariance structures. Biometrika, 57, 239-251. [106] Joreskog, K, Sorbom, D. (1999) LISREL 8: A Guide to the Program and Applications. Scienti…c Software International, Inc., Chicago. [107] Krzanowski, W. J. (1975) Discrimination and classi…cation using both binary and continuous variables. J. of the American Statistical Association, 70, 782-790. [108] Krzanowski, W. J. (1980) Mixtures of continuous and categorical variables in discriminant analysis. Biometrics, 36, 493-499. [109] Krzanowski, W. J. (1988) Principles of Multivariate Analysis: A user’s perspective. Oxford Clarendon Press, Oxford. [110] Krzanowski, W. J. and D. Radley (1989) Nonparametric con…dence and tolerance regions in canonical variate analysis. Biometrics, 45, 11631173. [111] Lancaster, H. O. (1969) The Chi-Squared Distribution. J. Wiley, N. York. [112] Lawley, D. N. and A. E. Maxwell. (1971) Factor Analysis as a Statistical Method. Butterworth, London. [113] Lebart, L., Morineau, A. and N. Tabard (1977) Techniques de la Description Statistique. Dunod, Paris. [114] Leujene, M. and T. Calinski (2000) Canonical analysis applied to multivariate analysis of variance. J. of Multivariate Analysis, 72, 100-119. [115] Light, R. J. and B. H. Margolin (1971) An analysis of variance for categorical data. J. of the American Statistical Association, 66, 534544. [116] Longford, N. T. (1994) Logistic regression with random coe¢ cients. Computational Statistics and Data Analysis, 17, 1-15. BIBLIOGRAFÍA 299 [117] Manzano, M. and J. Costermans (1976) Dos métodos para el estudio psicológico del léxico: su aplicación a algunos adjetivos de la lengua española. Revista Latinoamericana de Psicología, 8, 171-191. [118] Mardia, K. V., Kent, J. T. and J. M. Bibby (1979) Multivariate Analysis. Academic Press, London [119] McLachlan, G. J. (1992) Discriminant Analysis and Statistical Pattern Recognition. Wiley, N. York. [120] Muirhead, R. J. (1982) Aspects of Multivariate Statistical Theory. Wiley, N. York. [121] Nelsen, R. B. (2006) An Introduction to Copulas. Springer, N. York, Second Edition. [122] Oliva, F., Bolance, C. and L. Diaz (1993) Aplicació de l’anàlisi multivariante a un estudi sobre les llengües europees. Qüestiió, 17, 139-161. [123] Oller, J. M. (1987) Information metric for extreme values and logistic distributions. Sankhya, 49 A, 17-23. [124] Oller, J. M. and C. M. Cuadras (1985) Rao’s distance for negative multinomial distributions. Sankhya, 47 A, 75-83. [125] Peña, D. (1989) Estadística Modelos y Métodos 2. Modelos Lineales y Series Temporales. Alianza Universidad Textos, 2a Ed., Madrid. [126] Peña, D. (2002) Análisis de Datos Multivariantes. McGraw Hill Interamericana, Madrid. [127] Quesada-Molina, J. J. (1992) A generalization of an identity of Hoe¤ding and some applications. J of the Italian Stat. Society, 3, 405-411. [128] Rao, C. R. (1952) Advanced Statistical Methods in Biometric Research. Wiley, N. York. [129] Rao, C. R. (1973) Linear Statistical Inference and their Applications. Wiley, N. York. [130] Rao, C. R. (1995) A review of canonical coordinates and an alternative to correspondence analysis using Hellinger distance. Qüestiió, 19, 2363. Psychometrika. A. H. [140] Spearman. J. 76.. 6.. and T. M. M. 429447. G. [137] Seal. (1995) Methods of Multivariate Analysis. 634-649. R. Anuario de Psicología. York. (1989) Alternative test criteria in covariance structure analysis: A uni…ed approach. (1963) The dimensions of con‡ict behavior within and between nations. Psychometrika. (1904) General intelligence objetively determined and measured. 50. Wiley. G. York. [132] Rencher. (1998) Multivariate Statistical Inference and Applications. N. of Psychology. J. Hastie (2001) Estimating the number of clusters in a data set via the gap statistic. [143] van der Heijden. Cuadras (1972) Adaptación española del cuestionario E. de Leuw (1985) Correspondence analysis used complementary to loglinear analysis. N. . London. Soc. Ltd. G. A. H. 131-151. J. Ch. F. [138] Seber. Wiley. 411-423.P. C. General Systems Yearbook. [134] Sánchez-Turet. 31-59. Wiley. C. and J. Methuen and Co.300 BIBLIOGRAFÍA [131] Rencher. M. Paris. Dunod. [141] Tibshirani. American J.I. R. G. A. York. L. 201-293. R. 15. 1-50. [144] Waller. Wiley. [139] Seber. Stat. [142] Torrens-Ibern. F. G. Walther. 63. A. [133] Rummel. (1972) Modéles et Méthodes de l’Analyse Factorielle. 8. Wiley. York. and C. Psychometrika. A. (1964) Multivariate Statistical Analysis for Biologists. N. P. (1977) Linear Regression Analysis. [136] Sche¤é. [135] Satorra. N. 54. N. York. (2011) The geometry of enhancement in multiple regression. (1984) Multivariate Observations. B. (1959) The Analysis of Variance. N. de Eysenck. 19. 15 vectorial. 229 sensibilidad. 93 de…nición. 75 componentes principales comunes. 75 correspondencias múltiples. 282 de Pearson. 35 de Hotelling. 80. 136. 148 de Bhattachariyya. 19. 215 lineal. 94 coe…ciente de Pearson. 77 distribución. 126. 229 ROC. 53 301 . 67 canónica generalizada. 214 cuadrático. 277 múltiple. 97 aproximación a la distribución F. 166 curva especi…cidad. 166. 101 coordenadas canónicas. 36 de Eckart-Young. 22 biplot. 88. 21 singular. 140. 150 de Mahalanobis. 127. 19. 173 simples. 190 discriminador Bayes. 83 comunalidad. 24.Índice alfabético Análisis factorial múltiple. 19 ciudad. 21 desigualdad de Cramér-Rao. 64 simple. 191 ultramétrica. 137. 34. 212 distancia. 98. 136 de Prevosti. 165 distribución F de Fisher-Snedecor. 130 correlación canónica. 165 corrección de Box. 191 descomposición espectral. 171 procrustes. 93 simple. 155 de Rao. 148 ji-cuadrado. 228 dendograma. 43 triangular. 215. 34. 283 principales. 148 Euclídea. 152 dominante. 43 HE plot. 229 coleópteros. 150. 278 Heywood. 55. 47. 175 de correlaciones. 154 elecciones. 115 por mínimos cuadrados. 117 Titanic. 132. 98 de covarianzas. 72 estudiantes. 38. 173. 51. 247. 108 hipótesis lineal. 27. 266 ejemplos adjetivos. 205 árboles. 18. 43. 44. 47. 79 varianza generalizada. 169 copépodos. 190 factor único. 41 multinomial. 60 asignaturas. 16 de dispersión dentro grupos. 177. 257 falacia ecológica. 284 ‡ores. 274. 103. 202 ratas experimentales. 138 de información de Fisher. 100 común. 153 idiomas. 257 inversa generalizada. 115 medidas de variabilidad variación total. 243. 272 de dispersión entre grupos. 157. 116 de Bartlett. 109 estimable multivariante. 33 elíptica. 188 matriz centrada. 281 estimable univariante. 18 .302 ÍNDICE ALFABÉTICO de Wilks. caso de. 216 corredores. 204 intención de voto. 263 espacio ultramétrico. 189 profesores. 253. 100 en diseños factoriales. 89 familias. 38 normal bivariante. 35. 32 normal multivariante. 269 interacción. 116 bebés. 103. 71 fármacos. 44 medición de factores de Anderson-Rubin. 238 distancia genética en Drosophila. 109 normales. 54 partidos. 98. 272 de distancias Euclídeas. 287 colores cabello y ojos. 98. 255. 276. 108. 15 de Burt. 271 de Wishart. 25. 21. 286 test de capacidad. 220 herramientas prehistóricas. 175 moscas. 163 jerarquía indexada. 30 ecuaciones de verosimilitud. 91 diagnosis. 113. 279 score. 16. 136 función de verosimilitud. 212. 51 probabilidad de clasi…cación errónea. 69 de factores comunes. 112 covarimin. 199 del mínimo. 213. 100 Thurstone. 47 preordenación. de Thurstone. 105 278 de Wilks. 46 comparación de medias. 106 de la dimensión. 17 de unión-intersección. 183 de Gauss-Markov. 213. 112 varimax. coe…ciente de de…nición. 98 mosaicos. 149 Gower. 280 de parsimonia. 49 de equivalencia distribucional. 261 logístico. 130 realce en regresión múltiple. 57 teorema de Stein. 94 regla de Bartlett-Lawley. 197 ‡exible. 215 comparación de dos medias. 149 paradoja tablas concatenadas. 144 Sokal-Sneath. 61. 130 303 basada en distancias. 143 Dice. 112 oblicua. 69 . 99 rotación biquartimin. 70. 151. 111 quartimin. 145 de Craig. 110 de variables canónicas. 61 de Cochran. 107 del máximo. 184 de Rao. 220 discriminación logística. 238 Jaccard. 241 log-lineal. 184 número de clusters (conglomerados).ÍNDICE ALFABÉTICO método de las medias móviles. test 211. 51 de Bartlett. 111 similaridad. 224 de regresión múltiple. 112 ortogonal. 211 máxima verosimilitud. 151 unifactorial. 144 Sokal y Michener. 219 relaciones tetrádicas. 207 de componentes principales. 52 razón de verosimilitud. 245 lineal. 225 discriminante. 61. 209 modelo de regresión logística. 235 de Bayes. 113 quartimax. 207 del factor principal. 224 multifactorial. 49 principio de Fisher. 111 promax. 86 de correlaciones canónicas. 53. 227 independencia. 45 tipicalidad. 142. 16. 16 procrustes. 81 lineal.304 de esfericidad. 126 componentes principales. 67 compuesta. 127. 164 variabilidad geométrica (inercia). 81. 69. 171 variable canónica. 24. 117 unicidad. 78. 68. 84 sobre la media. 80. 85 sobre la covarianza. 239 transformación canónica. 21. 51 de Wald. 87 de razón de verosimilitud. 52. 101 valores singulares. 78 ÍNDICE ALFABÉTICO . 88.
Copyright © 2025 DOKUMEN.SITE Inc.