Análisis Multivariante en la Investigación ComercialAsignatura: Investigación de Mercados II Centro: Universidad Autónoma de Madrid ...............................................................................................1 TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL...............................................................................4 Introducción..............................................................................................4 Definición del AM......................................................................................4 Diseños y conceptos básicos del AM........................................................5 Tratamientos previos de los datos. ..........................................................9 Supuestos del AM...................................................................................11 Clasificación de los métodos del AM.......................................................13 Programas Informáticos..........................................................................14 Ejercicio 1...............................................................................................14 TEMA 2: EL ANALISIS FACTORIAL..............................................16 Definición y objetivo del AF. ..................................................................16 Conceptos básicos..................................................................................17 Distinción entre AF y ACP.......................................................................18 Supuestos del ACP. (Son específicos del ACP)........................................19 Diseño del ACP. (Procedimientos)...........................................................20 Caso practico..........................................................................................25 Tratamiento de los datos con DYANE y SPSS.........................................38 Ejercicio 2...............................................................................................45 TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS ........50 Introducción............................................................................................50 Definición y objetivo del AFC. ................................................................51 Conceptos básicos del AFC.....................................................................52 Supuestos del AFC. ................................................................................53 Diseño del AFC........................................................................................53 Casos prácticos con DYANE....................................................................54 Ejercicio 3...............................................................................................65 TEMA 4: EL ANALISIS CLUSTER.................................................69 Introducción............................................................................................69 Definición y objetivo del AC....................................................................70 Conceptos básicos del AC.......................................................................70 Supuestos del AC. ..................................................................................70 Diseños del AC........................................................................................72 Casos prácticos con DYANE....................................................................76 Ejercicio 4...............................................................................................77 TEMA 5: LA REGRESIÓN MULTIPLE............................................82 Introducción............................................................................................82 Definición y objetivo de la RM................................................................84 Términos y conceptos básicos de la RM.................................................85 Supuestos de la RM. ..............................................................................88 Tamaño muestral....................................................................................89 Diseño de la RM......................................................................................89 Casos prácticos con DYANE y SPSS........................................................90 Análisis de Supuestos de la RM............................................................104 Ejercicio 5.............................................................................................116 TEMA 6: EL ANÁLSIS DISCRIMINANTE......................................119 Introducción..........................................................................................119 Definición y objetivo.............................................................................120 Conceptos y términos básicos del AD...................................................120 Supuestos del AD..................................................................................123 Diseño del AD.......................................................................................123 Casos prácticos.....................................................................................124 Ejercicio 6.............................................................................................155 TEMA 7: EL ANÁLSIS multivariante de la varianza (MANOVA)....160 Introducción..........................................................................................160 Definición y objetivo.............................................................................162 Términos y conceptos básicos del MANOVA.........................................164 Supuestos básicos del MANOVA. .........................................................169 Diseño del estudio con el MANOVA......................................................170 Casos prácticos con SPSS.....................................................................171 Ejercicio 7.............................................................................................182 TEMA 9: LA REGRESIÓN LOGÍSTICA (MODELO LOGIT)................187 Introducción..........................................................................................187 Objetivo de la RL..................................................................................187 Modelo de la RL....................................................................................187 Diseño del estudio con la RL. ...............................................................188 Medición de la variable dependiente....................................................188 Estimación del modelo.........................................................................188 Supuestos básicos de la RL. ................................................................188 Bondad de ajuste..................................................................................189 Interpretación de los resultados...........................................................190 Comparación de los modelos: regresión, discriminante y logit............192 Casos prácticos con SPSS.....................................................................193 Ejercicio 9.............................................................................................199 TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL Estructura de la clase: 1. Introducción. 2. Definición del AM. 3. Diseños y conceptos básicos del AM. 4. Tratamientos previos de los datos. 5. Supuestos del AM. 6. Clasificación de los métodos del AM. 7. Programas informáticos. Introducción. En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM. Debemos reflexionar que sería mejor emplear: análisis univariante, análisis bivariante o análisis multivariante. Si queremos analizar por separado variables utilizaremos el anáilisis univariante y bivariante. En el caso de necesitar un análisis en conjunto, emplearemos técnicas multivariantes. Con esta técnica determinaremos si las variables están influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las relaciones múltiples. Si queremos utilizar /analizar múltiples variables simultáneamente, tenemos que utilizar técnicas multivariantes. Definición del AM. El AM se puede definir como: Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado. Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables cuando sus efectos no tienen sentido si se interpretan por separado. Valor teórico: “Es el elemento esencial del AM”. Combinación de todas las variables. Debemos sintetizar todas las variables en un solo valor teórico. (Muchas veces hay que ponderar múltiples variables de modo empírico). Diseños y conceptos básicos del AM. (Diseño de una investigación de mercados---flujo del AM) Los pasos a seguir al realizar una investigación se pueden resumir como sigue: Definir el objetivo a través de un estudio previo. Establecer las hipótesis. Seleccionar variables y escalas. Establecer la metodología (instrumentos, muestreo, etc.) Seleccionar la técnica multivariante más apropiada. Determinar el nivel de significación (alpha). Coleccionar datos. Evaluar los supuestos básicos de la técnica multivariante. Estimación del modelo multivariante y valoración del ajuste del modelo. Interpretar el valor teórico (rechazar o no las hipótesis). Validación e interpretación de los resultados. 1) Definir el objetivo a través de un estudio previo Primeramente, tenemos que determinar el objetivo del estudio. A continuación, investigaremos la literatura existente para establecer el estado del arte. Definir para qué queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados anteriormente sobre el tema. Determinamos así qué queremos realizar en el trabajo, es decir, justificar la pretensión del trabajo. “Hay dos cosas importantes Conocimiento y creatividad”. Hay que establecer un objetivo pero justificarlo a través de la revisión bibliográfica. 2) Establecer las hipótesis Establecemos las hipótesis que queremos validar o rechazar mediante el estudio. 3) Seleccionar variables y escalas Después, tenemos que determinar el tipo de variables y escalas a emplear. La palabra “variable” se refiere a una magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos básicos de datos, no métricos (cualitativos) o métricos (cuantitativos). Según el tipo de datos, tendremos que determinar el tipo de escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas. Escalas Nominal Características Identifica por categorías mutuamente excluyentes Los números no tienen valor matemático Ordenación de las categorías. Los números no dan información de la distancia Ordinal entre categorías. Intervalo Identifica una distancia constante entre categorías. Tiene un origen arbitrario. Razón Se puede realizar comparación proporcional entre categorías. Tiene un origen absoluto. A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada técnica multivariante requiere un determinado tipo de variables (métricas y no métricas). Respecto al primer trabajo, es aconsejable incluir entre 15-20 "atributos" que se puedan medir en una escala de intervalo que tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. También, os conviene incluir variables que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables métricas con una escala de razón, tales como gastos mensuales (de una determinada marca, etc.), ingresos, tiempo, etc., podremos utilizar algunas técnicas de dependencia, por ejemplo, regresión múltiple y análisis discriminante, para el segundo trabajo. Para convertir valores no métricos en métricos: Desacuerdo opiniones 1 2 3 4 Acuerdo Ordenamos las Escala de Likert: Con 5 grados, también lo hay con 7 grados. Siempre es mejor tener más grados. Completamente en desacuerdo -2 Más o menos en desacuerdo No sabe, no contesta Más o menos de acuerdo Completamente de acuerdo -1 0 +1 +2 4) Establecer la metodología (instrumentos, muestreo, etc.) Tras seleccionar variables y escalas, ahora tendremos que establecer la metodología. 5) Seleccionar la técnica multivariante más apropiada. Después, seleccionaremos la técnica multivariante más adecuada, y a continuación, determinaremos el nivel de significación. 6) Determinar el nivel de significación (alpha). El nivel de significación está fuertemente relacionado con el llamado “error de medida”. Debemos aumentar el nivel de significación para aumentar el valor del estudio y para ello hay que disminuir el error de medida. Cuanto mayor nivel de significación mejor. El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos. (Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando calculamos correlaciones o medias, normalmente el efecto verdadero está parcialmente camuflado por este error de medida, causando la perdida de precisión. Es decir, la presencia del error de medida produce distorsiones en las relaciones observadas y debilita el poder de las técnicas multivariantes. Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y la validez. (conceptos que hay que incluir en trabajo) • La fiabilidad es el grado en que la variable observada mide el valor verdadero y está libre de error. Si la misma medida se realiza muchas veces, las medidas fiables llegarán a los mismos resultados. La fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que no es necesariamente idéntico en todas las mediciones. Ejemplos de este tipo de error son errores de codificación, sesgos de entrevistadores, caracteres de los entrevistados, etc. La validez se define como el grado en que la medida representa con precisión lo que se supone que representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por los gastos totales de las economías domésticas. La validez puede verse perjudicada tanto por el error aleatorio como por el error sistemático. El error sistemático es el sesgo permanente en todas las mediciones. Por ejemplo, errores en los ítems de la escala, ausencia de claridad en el cuestionario, etc. Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la validez del instrumento de investigación. • Todas las técnicas multivariantes, excepto el análisis cluster y el análisis multidimensional, se basan en la inferencia estadística de los valores de una población o la relación entre variables de una muestra. Si estamos realizando un censo de toda la población, entonces no tenemos que preocuparnos de la inferencia estadística por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la población total, y por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadístico Para interpretar las inferencias estadísticas, tenemos que determinar el nivel aceptable de error estadístico. Se tienen que establecer hipótesis nula Ho. Se suelen comparar las medias determinando que una o dos medias sean iguales o distintas. El modo de aproximación más común es determinar el nivel de error de Tipo I, que también se llama alfa. El error de Tipo I es la probabilidad de rechazar la hipótesis nula cuando es cierta. O dicho de otra manera, la probabilidad de que la prueba estadística muestre significación estadística cuando en realidad no está presente. Al determinar el nivel de error de Tipo I, tenemos que fijar también el segundo tipo de error, que es el error de Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hipótesis nula cuando es realmente falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo II, y maximizar el nivel de confianza (1-alfa) y la potencia (1-beta). Realidad Decisión Rechazar H0 No rechazar H0 Aceptar H0 Cierta Error Tipo I α Potencia 1-β Falsa Nivel de Confianza 1-α Error Tipo II β Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho cuando es falsa. Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor. Establecer el nivel de significación es importante y por ello, tenemos que seguir determinados pasos para poder determinarlo: a. Establecer la Ho (Hipótesis nula) y la H1 (Hipótesis alternativa) b. Elegir la prueba estadística c. Fijar el nivel de significación (alfa) d. Calcular estadístico. e. Se compara el estadístico calculado con el teórico. Si es mayor se rechaza H0. Si es menor no se rechaza Ho. 7) Recopilar datos 8) Evaluar los supuestos básicos de la técnica multivariante. . Examinar gráficamente: Hay que examinar la forma de la distribución y para ello podemos utilizar: Histograma: Representación gráfica de los datos que muestra la frecuencia de los datos en categorías. Para ello. si los datos siguen una distribución normal. Existen dos razones que explican la importancia de realizar un buen análisis de los datos: . Hay que ver si cumplen una serie de supuestos. Ej: ¿ para qué sirven los resultados para la empresa. Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos. Hacemos los siguientes tratamientos: Examinar gráficamente los datos para saber la forma de la distribución. Muchas veces los efectos del incumplimiento de los supuestos no se representan directamente en los resultados. 10) Interpretar el valor teórico (rechazar o no las hipótesis). mejor será la predicción y podremos determinar más fácilmente las relaciones entre las variables. 11) Validación e interpretación de los resultados: (en el trabajo esta última parte debe tener implicaciones para el mundo real. Es fundamental observar las variables individualmente. pero también hay que ver las relaciones entre las variables conjuntamente. para la vida real… ----lo valorará mucho en el trabajo) Tratamientos previos de los datos. Es un conjunto o representación gráfica de los puntos de datos basados en dos .9) Estimación del modelo multivariante y valoración del ajuste del modelo.Las técnicas multivariantes requieren muchos más datos y supuestos más complejos que las técnicas univariante o bivariantes.Cuanto más cuidado tengamos en analizar los datos. y analizar las diferencias entre grupos. Es el primer método de examen gráfico. Gráfico de dispersión: Se analizan las relaciones bivariantes. sino que tienen un efecto importante sobre la naturaleza e interpretación de los datos. Tratar datos ausentes mediante métodos de imputación Detectar casos atípicos y eliminarlos si no son aleatorios. analizar las relaciones entre variables. Es una forma muy útil de averiguar si existe una distribución normal. Se transforma la distribución normal en cajas y bigotes. ya que son una molestia para nosotros.5 Si el tamaño n>80: > 4 Procedimientos bivariantes: diagramas cajas y bigotes. Si podemos aplicar el proceso de estandarización de datos: media igual a cero. b) Sustitución por valor constante: hay que buscar algún valor que creamos que representa esta población. c) Imputación por regresión: para predecir el valor más representativo - Casos atípicos: Hay que decidir si emplearlos o eliminarlos. Datos ausentes: Hay que determinar si existen datos ausentes.variables. los datos que queden fuera de un cuartil serán los casos atípicos. Por lo que eliminamos y no utilizamos esos datos. es el análisis para detectar casos atípicos. por ello sustituimos los datos por la media. al transformar la distribución. No eliminar casos y sustituir datos ausentes. Se investiga si la relación entre las dos variables es aproximadamente lineal. La línea de la caja representa el valor de la mediana La línea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias entre grupos. y no conseguimos un nivel de significación aceptable. Tenemos dos opciones: Eliminar casos para evitar el sesgo. desviación estándar igual a 1 Si el tamaño de la muestra n< 80. Gráfico de cajas y bigotes: Se analiza las diferencias entre grupos. . Se representan con asteriscos o círculos. Podemos emplear: Procedimientos univariantes: el concepto de la distribución normal para ello tenemos que tipificar o estandarizar los datos. el eliminar datos no es bueno porque tendríamos menos datos. Hay que averiguar si los datos son decisorios o no. A veces. Es una forma útil de identificar casos atípicos porque. igual es necesario buscar estudio semejante. Hay que eliminarlos si no son aleatorios. podemos eliminar los datos fuera de 2. Tres métodos: a) Sustitución por la media: la media es el valor más representativo de una población. y para estudiar estas relaciones utilizamos las técnicas multivariantes. para poder aplicar las técnicas multivariantes. Para evitar los sesgos más importantes. y para emplearlas es necesario que la distribución sea normal. Es importante para muchas técnicas multivariantes que utilizan las métricas de varianza ya que es necesario que existan iguales niveles de dispersión ( como ejemplo análisis discriminante ) . Y cuando no cumplen los supuestos.Procedimientos multivariantes: D2 Mahalanovis. 2. Si tenemos un conjunto de datos. Las relaciones entre una gran cantidad de variables son muy complejas. Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadísticos aún cuando no cumplen los supuestos. - Supuestos del AM. se suponen las siguientes condiciones o supuestos: Normalidad: cumplirlo es importante porque muchas técnicas multivariantes tiene que utilizar las estadísticas de la prueba T y la F. los sesgos serán más potentes. Es una forma de medir la distancia con la media estandarizada. Hay dos razones principales: 1. cuando existe un caso atípico podemos medir su distancia y podemos decir en comparación con otras distancias si es o no atípico. Podemos estar analizando cosas que no tienen que ver con la realidad. Entonces. Las técnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los supuestos como variables aisladas. Por ello. Homocedasticidad: consiste en suponer que las variables dependientes tengan los mismos niveles de dispersión desde el punto de vista de la variable independiente. en primer lugar hay que determinar el punto o centroide de todas las variables (x) y luego medir la distancia para cada variable con una media estandarizada. y tienen que cumplir los supuestos de las variables multivariantes. al igual que las distorsiones. hablamos de muchos datos. por qué debemos saber si los datos cumplen los supuestos. Es necesario que exista una relación lineal entre las dos variables. . Son errores que no están correlaciones. En las técnicas multivariantes hay que calcular las correlaciones.Linealidad: Es importante porque muchas técnicas multivariantes tienen que utilizar el concepto de correlación. para lo cual se debe cumplir el supuesto de linealidad. Ausencia de errores correlacionados: consiste en suponer que cualquiera de los errores de predicción es independiente del resto. que son independientes. G I T TÉCNICAS DE INDEPENDENCIA E S T R U C T U R A D E R E L A C I O N E S V A R I A B L E S C A S O S O B J E T O S A N A L I S I S F A C T O R A I AN L A L I S I S C L U S ¿ T C E ó Rm o s e m i d e n l o s a t r i b u t o M E T R I C NA O M E T R I C A M D S A F C Para realizar una investigación comercial multivariante hay que realizar los siguientes preguntas: ¿ podemos dividir las variables en dependientes o independientes? ¿ cuántas de estas variables son tratadas como dependientes? ¿ cómo son las variables medidas ( el tipo de escala ) ? .Clasificación de los métodos del AM. c a n Mó A n iN c Oa VR AE G R E CS OI O N N J U ND T I S O C R I ML O . TÉCNICAS DE DEPENDENCIA ¿ C U A D N e T p A e S n V d A R I A B i e n t e s L E S S E U T I L I Z A N ? V A R R e I A S D E P E l a c i ó n s i m D p I E l e N T E SU R N e A l a D c E P E N D ió n s i m I E N p l e T E E S C A L A D E P E N D I E N TE ES SC A L A D E P E N D I E N T E S M E T R I C A M E T R I C A N O M E T R I C A E S C A L A I N D E E P S E C N A D L IAE NI N T D E E SE P S E C N A D L I A E NI N T D E ES P E N D I E N T E S M E T R I NC OA M E T MR EI C T A R I NC OA M E T MR EI C T A R I NC OA M E T R I C A C o r r . no dan valores matemáticos. El efecto de cada una de estas variables independiente de las otras no tiene sentido. Define el análisis multivariante con sus propias palabras. Error tipo II: se define como la probabilidad de que se acepte la hipótesis de un posible valor cuándo este es falso. error de Tipo I y error de Tipo II. 3. si son métricos si que dan valores matemáticos. Define el análisis multivariante con sus propias palabras. . sin embargo. ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante? Existen dos tipos de escalas: métricas y no métricas. Son aquellas técnicas estadísticas que nos van a ayudar a analizar al mismo tiempo un conjunto de variables. potencia. 1.Programas Informáticos. Error tipo I: se define como la probabilidad de que se rechace la hipótesis de un posible valor cuándo este es cierto. potencia. Por tanto. Vamos a utilizar dos programas : SPSS y Dyane Ejercicio 1 1. ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante? 3. Relaciona. distingue. Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad. Nivel de significación: me indica en que medida el valor observado es representativo de la muestra. distingue. Relaciona. 2. 2. homocedasticidad y ausencia de errores correlacionados. Si los datos son no métricos. linealidad. y explica los siguientes términos: nivel de significación. ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes? 5. error de Tipo I y error de Tipo II. y explica los siguientes términos: nivel de significación. pero analizadas simultáneamente su efecto tiene interpretación. es crucial conocer que escala para determinar que técnica multivariante es más apropiada en función de la escala. 4. para ello hacemos un histograma que nos va a indicar la frecuencia de los datos. esto nos indicará si existe una distribución normal. este nos va a servir para indicar si la relación entre dos variables es lineal. linealidad.Student y de la f. Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersión de la varianza en todas las variables independientes. El tercer método son los gráficos de cajas y bigotes. Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad. Este gráfico está dividido en cuartiles y nos sirve para detectar casos atípicos.4. El segundo método es el gráfico de dispersión. Las técnicas multivariantes nos sirven para estudiar la relación simultánea entre el comportamiento de más de dos variables. ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes? Existen tres métodos: Primero hay que saber la forma de la distribución.Snedecor. homocedasticidad y ausencia de errores correlacionados. Linealidad: nos indica la relación existente entre las variables y nos permitirá hallar correlaciones. La afirmación es falsa ya que esta relación debe cumplir todos los supuestos: el supuesto de normalidad nos servirá para poder usarse los estadísticos de la t. El último supuesto que debe cumplir es que cualquier error de predicción sea independiente del resto. . 5. Distinción entre el AFC y ACP. 6. En definitiva. Tratamiento de los datos con DYANE y SPSS. imagen de los consumidores sobre una bebida. Definición y objetivo del AF. etc Para el AF buscaremos los índices de correlación entre variables. Supuestos del ACP. etc. factores principales y diferenciación de nuestro producto. Estimación del número de factores a ser extraídos. se enmarca dentro de la segmentación. y que permite extraer un número reducido de los factores (es decir. Conceptos básicos del AF. Diseño del ACP. estudio de aptitudes. imagen del establecimiento. El análisis factorial (AF) se puede definir como “la técnica estadística multivariante (de interdependencia) cuyo objetivo principal es resumir las variables y extraer información (los factores más importantes) de grandes bases de datos. Caso práctico. Criterios para determinar el nivel de significación de las cargas factoriales. El AF tiene dos objetivos: La reducción y sintetización de los datos para identificar sus estructuras básicas (de las grandes BBDD). 7. 3. 2. Lo que haremos es juntar aquellas que tengan una correlación alta entre ellas y formar un factor con ellas. Métodos de rotación de los factores. El AF se utiliza principalmente para los siguientes tipos de investigación: Imagen de marca. Definición y objetivo del AF. procurando una mejor comprensión de la estructura de los mismos”. Dichas variables deben ser métricas. 5. El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente. e identificaremos las correlaciones altas. los valores teóricos) con los cuales se intenta explicar al máximo todo el conjunto de variables originales. 4. . La creación de una nueva serie de variables (los llamados “factores”) que pueden ser utilizados posteriormente en otros análisis multivariantes (por ejemplo la regresión múltiple o el análisis cluster).TEMA 2: EL ANALISIS FACTORIAL Estructura de la clase: 1. Los factores no son directamente observables. Las cargas son el peso de cada variable en el Factor. Conceptos Factor Definición Es el valor teórico que se extrae con el AF.+ βnXn)de las variables originales. β2..Conceptos básicos.. Las (Cargas)2 es la proporción de varianza de la variable que contribuye a las correlaciones con otras variables. Es una medida de la cantidad de varianza contenida en la matriz de correlación de tal forma que la suma de los autovalores debe ser igual al número de variables.. Dicho de un modo mejor. Cargas Comunalidad Autovalor (eigenvalue) Reglas de extracción 1.... Las (Cargas)2 = Comunalidad Es una varianza compartida con otras variables. Las cargas de los factores al cuadrado indican qué porcentaje de la varianza en una variable original se atribuye a un determinado factor. Es una combinación lineal (Y=β1X1+ β2X2+. Es la correlación entre las variables originales (el peso de cada variable en el factor) y los factores. El factor es una relación lineal. y la clave para entender la naturaleza de un factor específico. Por ello usamos la técnica del AF.+ βnXn).Factores tipo autovalor > 1 . .. Es la proporción de varianza de la variable que contribuye a su vez con correlaciones con otras variables.Factores con cargas > 50% 2.. Los factores representan las dimensiones subyacentes (extracción del Factor1) que resumen la serie original de variables. Otra definición. βn para hallar el factor (Y=β1X1+ β2X2+..Es la cantidad de información explicada por el modelo AF y su varianza asociada con cada factor. Calcularemos β1. nos centramos sólo en el ACP. AFC ACP Varianza común Varianza específica y error Distorsionan los procesos de extracción Varianza total La Varianza Total se divide en: 1..Varianza Común: es aquella varianza donde una variable se comparte con todas las demás variables. En este curso. 3. En AFC no se usa la Varianza Específica y la Varianza de Error porque se supone que distorsiona. .Varianza Específica: es aquella varianza asociada únicamente con una variable específica. Pero se supone que tiene varios inconvenientes: .Distinción entre AF y ACP. Nota: En Investigación de Mercados (IM). se está refiriendo en realidad al ACP. En el ACP los factores se basan en la varianza total (que incluye la varianza común y la varianza específica y error). Este será el que nosotros usemos. los investigadores prefieren usar el ACP.Varianza del Error: es aquella varianza debida al error de medición.. La diferencia entre estos dos métodos consiste en el tipo de varianza que analizan. 2.. como sucede en el ACP. En el AFC los factores se basan solamente en la varianza común. cuando se menciona AF. En investigación comercial se suelen utilizar métodos o modelos básicos para obtener soluciones factoriales: análisis factorial común (AFC) y análisis de componentes principales (ACP).Es muy difícil estimar sólo la varianza común.Puede proporcionar múltiples soluciones en lugar de una. ya que presenta menos inconvenientes. . Por ello. no podemos extraer factores).70 y 0.60 y 0. → Contraste de esfericidad de Bartlett: Esta prueba es más objetiva y eficaz.Supuestos del ACP. Es una prueba estadística para examinar la existencia de correlaciones significativas. Linealidad y Homocedasticidad.50 para que sea conveniente hacer el ACP.30. pero no indica el nivel de correlación. (Son específicos del ACP) Supuestos generales: Normalidad. La prueba de Bartlett sólo prueba la presencia de relaciones significativas. no cuales son.60: Despreciable.50 y 0. Los índices obtenidos pueden ser: Si Si Si Si Si KMO KMO KMO KMO KMO es mayor que 0.70: Mediocre está entre 0. y es menor que 0. Se trata de cuantificar. Esto se consigue con el tercer análisis: Índice KMO → Índice K-M-O (la adecuación muestral de Kaiser-MeyerOlkin): Es una prueba más completa aún que la anterior.80: Sobresaliente está entre 0. Este nivel de correlación se puede examinar de tres maneras: → Examen visual de la matriz de correlaciones: Seleccionamos las correlaciones altas. mediante un índice estadístico.80: Regular está entre 0. Examina la presencia de correlaciones significativas indicando solamente si existen. Para considerar una correlación alta. y la conveniencia del Análisis de Componentes Principales (ACP). el grado de intercorrelación entre variables.50: Inaceptable Pero siempre ha de ser mayor de 0. . esta tiene que ser > 0. Supuesto específico: Se asume que existe un nivel suficientemente elevado de correlación entre las variables (En caso contrario. El resultado a esta prueba sería “Significativo” o “No significativo”. La consistencia interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0. Rotación de factores Ver gráfico. se considera que existen correlaciones altas cuando éstas son > 0.60. Lo aconsejable es que sea >= 100. necesitamos realizar una transformación de no métricas a métricas. es decir: poner un patrón de cargas a cada factor. Matriz de correlaciones Como ya se ha comentado. precio. establecimiento. Usos adicionales de los factores . En caso contrario. (Procedimientos) Selección de variables Seleccionamos variables métricas. Tamaño muestral El criterio a seguir para determinar el tamaño muestral óptimo a utilizar con ACP. Asegura que los items de las escalas o las preguntas de la escala están midiendo las mismas contrucciones y éstas están altamente intercorrelacionadas entre sí. Estas preguntas deben estar altamente correlacionadas entre sí. Estimación del número de factores a ser extraídos Ver página siguiente.30.Diseño del ACP. Test de Bartlett Aplicamos el test de Bartlett y el índice KMO. Este test aparece en DYANE. Validación Un método para efectuar una validación a nuestro ACP es dividir la muestra en dos partes independientes y aplicar a cada una de ellas el ACP. etc. Atribuir un significado a cada factor. Para ello creamos una serie de preguntas para cada dimensión. Está relacionado con la fiabilidad y se utiliza para asegurar la fiabilidad de la escala que estamos utilizando. Por ej: En el comportamiento de compra hacia una marca determinada. es decir: si coinciden ambas la muestra sería representativa y por tanto. Interpretación de los factores Proceso de etiquetación de factores. examinamos la actitud hacia el producto. Si obtenemos los mismos factores/dimensiones. Examen de los supuestos generales (y específicos) Concepto: Consistencia Interna. el ACP sería válido. la muestra no debe ser inferior a 50 observaciones. Criterio de raíz latente →DYANE AUTOVALOR Criterio a priori Criterio de porcentaje de la varianza Sólo se consideran los factores que tienen autovalores mayores que 1.Regresión múltiple o Cluster. Ya se sabe de antemano cuántos factores hay que extraer sobre la base de un estudio previo. Se identifica el número óptimo de factores que contienen una proporción de la varianza común sustancialmente alta. Se suelen utilizar cargas y estas deben ser >50% del factor. Se obtienen los factores que representan un porcentaje acumulado especificado de la varianza total extraída (aproximadamente un 60% de la varianza total en las ciencias sociales). Resultado del Pre-Test. Criterio de contraste de caída . ya que cualquier factor individual debería explicar por lo menos una variable. Estimación del número de factores a ser extraídos Con el fin de decidir cuántos factores se deben extraer. el investigador empieza generalmente con alguno de los siguientes criterios predeterminados. Indica que la varianza común domina la Pto. La curva se convierte en una línea horizontal.CRITERIO DE CONTRATE DE CAIDA (Gráfico realizado con SPSS) Gráfico de sedimentación 8 6 Curva con inclinación descendente. de corte elegido. Sería otra forma obtener factores. de corte. Si este fuera el pto. tendríamos que seleccionar 6 factores Rotación ortogonal: Es una rotación ortogonal ya que se realiza en un ángulo de 90º (tipos) • QUARTIMAX • VARIMAX→DYANE (utilizada en el curso) • EQUIMAX . Este sería el criterio de contraste de caída 4 2 0 1 3 5 7 9 11 13 15 17 19 21 Otra técnica sería utilizar el criterio de Raíz Latente o Autovalor y comprobar con valor 1 del Autovalor que punto corta del gráfico. Con esta técnica se obtienen más factores que con la de Autovalor Número de componente Métodos de rotación de los factores. Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrón de factores más simple y más significativo. V3 V4 factor I (rotado) Rotación oblicua: Cuando nos es una rotación con un ángulo de referencia de 90º Criterios para determinar el nivel de significación de las cargas factoriales. a) Asegurar la significación práctica. (Interpretación de los factores) Al interpretar los factores. se debe determinar qué cargas factoriales merece la pena considerar. Para ello hay dos criterios importantes.55 . seleccionamos cargas factoriales>0. Muestra >= 100 observaciones.GRAFI CO DE ROTACI ON factor II (no rotado) factor II (rotado) V1 V2 factor I (no rotado) Al rotar los ejes. podemos captar más variables que en un principio estaban alejadas de los ejes originales. 5 y potencia de 0.Muestra < 100 observaciones. . Utilizar un nivel de significación de 0.8. seleccionamos cargas factoriales>0.75 b) Valorar la significación estadística. Caso práctico. El punto 7 lo trataremos primero.318-337).Caso practico. El caso “TeleSake” X1 : Velocidad de entrega X2 : Nivel de precios X3 : Presentación de la comida X4 : Imagen del logotipo X5 : Eficacia del servicio X6 : Atención al cliente X7 : Calidad de la comida El punto 6. podríamos elegir el segundo módulo (es decir. (2) módulo de tablas de medios. pp. y (3) módulo de tablas específicas (DYANE. pero sólo con el Dyane y simplemente para ver los criterios a utilizar y la interpretación y el análisis de los datos. las variables tanto filas como columnas son categóricas). con lo que el punto 7 quedará cubierto. Si vuestros cuestionarios se basan en variables categóricas. lo realizaremos con el SPSS y el Dyane. Sin embargo. mandad un mensaje al foro o pasad por mi despacho con vuestros datos. Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicación del AFC: (1) módulo de tablas de frecuencias. las variables filas son numéricas mientras que las variables columnas son categóricas). Si tenéis alguna duda o pregunta. . normalmente es recomendable utilizar el primer módulo (es decir. si los cuestionarios usan variables numéricas con escalas de Likert. 4697 -0.0541 0.0771 -0.0320 0.1862 0.0000 -0.1 Con Dyane.5130 0.4872 0. En esta matriz consideramos todos los factores.0931 0.97% 2.0009 -0.2698 -0.0552 0.1161 0.98% 96.37% 83.0000 También tenemos 7 factores con valores propios.0771 -0.3195 0.2408 -0.7924 -0.5130 0.0504 0.0248 -0.0504 0.3225 -0.0025 -0.0197 0.5093 0.0047 -0.4697 X3 X4 X5 X6 -------.0604 -0.3745 0.1204 1.0000 -0.95% 99.0238 -0.08% 66.92% 0.6119 0.4872 0.0000 1.-------.00% CARGAS DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0.4826 0. por lo que tenemos la Comunalidad igual a1 .0000 1.3135 0.73% 5.4481 0.-------0.0283 0.4826 X2 --------0.-------.0000 -0.1727 0.4180 0.3492 0.4524 -0.5949 0.3340 0.2000 -0.2722 0.5412 0.0000 1.6920 0.0054 -0.2722 0.2820 -0.5081 0.0075 -0.7789 0.87% 100.7882 0.2000 -0.0312 -0.2987 0.7386 0.3512 0.0000) Según el test de Bartlett me sale significativo FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 -------.2044 0.5258 2.4481 0.4921 0.0243 -0.0343 0.0000 -0.13% % VAR.7882 0.6119 0.0055 -0.7515 0.4761 0.25% 90.002679 Ji cuadrado con 21 grados de libertad = 567.1862 1.2024 -0.0000 1.5640 0.6040 -0.29% 16. A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S ===================================================================== IDENTIFICACIÓN DE LAS VARIABLES ------------------------------VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE 1 2 3 4 5 6 7 : : : : : : : X1 X2 X3 X4 X5 X6 X7 X1 X2 X3 X4 X5 X6 X7 Matriz de coeficientes de correlación simple -------------------------------------------X1 -------1.-------.1773 1.0009 COMUNALIDAD ----------1.: 36.1858 0.0000 1.1811 0.-------VALOR PROPIO: 2.0092 % DE VARIANZA: 36.87% 7.3492 1.5418 0.-------.0255 0.0000 1.6020 0.0000 X1 X2 X3 X4 X5 X6 X7 Test de Bartlett ---------------Determinante de la matriz de correlación = 0.5407 (p = 0.1161 1.08% 30.Haremos otra práctica con la BD de Telesake: 6.0666 -0.-------.0508 0.0552 0.0000 0.0010 0.0185 0.2987 1.0000 0.1014 -0.0666 0.5494 -0.0343 -0.2408 1.5280 0.ACUMUL.5093 0.-------.1773 X7 --------0.-------. 5609 -0.9951 0.7539* 0.3745 0.1133 0.0905 5.0620 0.0522 0.-------.08% % VAR.5904 -0.1930 -0.37% FACTOR 3 --------0.25% COMUNALIDAD ----------0.3830 -0.0470 0.0582 -0.2730 -6.1727 0.COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0.0095 0.0711 0.1167 0.9452* 0.08% Hemos obtenido 3 factores más importantes.3137 -0.5778 -0.1246 0.87% 83.0569 -0. no tiene importancia Cargas de los factores retenidos: --------------------------------FACTOR 1 FACTOR 2 -------.4524 -0.8401 0.3544 0.0736 0.1763 0. .0946 -0.0101 -0.: 36.0341 0.8798 0.7643 0.8845 0.0151 -0.5418 0.7991 0.1873 -0.1081 0.5081 0.2698 2.5340 0. ROTACIÓN VARIMAX: ----------------Cargas de los factores retenidos (después de la rotación): ---------------------------------------------------------FACTOR 1 FACTOR 2 FACTOR 3 -------.8851 0.5037 0.2848 -0.2839 0.6920 0.0046 -0.1272 -0.9005 0.0054 1.0459 -1.1811 16. Lo que podremos saber es cuanto varianza está explicada con el análisis de componentes principales.6020 0.8947 0.9081 5.5949 0. Podemos ver que es muy elevada.9951 0.8851 0.5258 % DE VARIANZA: 36.8055* 0.16% 83.7924 0.4921 0.1525 -0.2233 0.4587 0.6040 0.: 33.8845 0.2924 0.3673 0.98% La interpretación es mucho más fácil y significativa. Se mantiene.9210* 0.7789 0.2740 0.ACUMUL.1034 Esta matriz.0931 -0.6183 X1 X2 X3 X4 X5 X6 X7 VARIANZA: 2.0439 0.5640 0. y se pueden explicar casi todos los factores.1566 1.1948 0.6183 X1 X2 X3 X4 X5 X6 X7 VARIANZA: 2.2090 0.0063 0.7515 0.1204 30.1858 0.9005 0.6215 23.0231 -0.--------0. Pero con esta matriz es difícil distinguir que variable es más importante que las otras.08% 1.7386 -0.25% COMUNALIDAD ----------0. pero bastante alta.2024 -0.6746 -0.0368 -1.0766 0.--------0. La varianza explicada no ha cambiado.5418 0.7596* 0.5598 0. Ahora la Comunalidad es menor que 1.3788 % DE VARIANZA: 33. de momento.1766 0.10% 60.8269 26.5280 0.9799* 0.0576 -0.6490 0.ACUMUL.1714 -0.6490 0.1462 0.7524* 0.8947 0.29% 66.0644 1.4302 0.98% % VAR. Al final tenemos la interpretación gráfica.0073 -0.3487 -0.6242 -0. Esto dependerá. .5227 -0.0039 -0.0598 0.0665 0.3037 0.3262 0. Tendremos que “poner nombre o etiqueta” a cada factor.3452 -0.3953 -0.0349 -0.0694 0.1194 -0. Hay una regla general para atribuir significado a cada factor: Siempre hay que considerar las variables con mayores cargas.0189 0.0604 0.COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0.5582 0.0407 Ahora tendremos que interpretar los factores.3094 0.0997 0.0657 0. REPRESENTACIÓN GRÁFICA DE LOS FACTORES -------------------------------------VARIABLES: Código -----A B C D E F G Significado ---------------X1 X2 X3 X4 X5 X6 X7 FACTORES 1 y 2: FACTOR 2 |—————————————————————————————————————————————————————————————————————————————————• 1.8 1.7 + + | | | | -0.4 0.8 -0.1 + + B | | A | | 0.1 + + | | | | -0.4 + + | | | | 0.4 + + | | | | -0.7 + + | | | | 0.8 + + | | | | -0.4 -0.2 + + | | | | -0.3 + + | | | | 0.9 + + | | | | -1.5 + + | | | | 0.0 +----+---C---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+----|FACTOR 1 | | | -0.5 + + | | | | -0.2 + E + G | | | | 0.6 + + | | | | 0.6 0.2 0.8 + + | | | | 0.2 0.6 + + | | | | -0.0 + + | |————+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+————• -1.0 + + | | |F | 0.0 0.0 .0 -0.6 -0.3 + + | | | | -0.9 + + D | | | | 0. para el análisis con el SPSS.6. Usaremos los mismos datos que antes. Ahora veremos las opciones en el SPSS. Seleccionamos el elemento datos/Análisis Factorial” de menú “Analizar/Reducción de .2 Con SPSS. Y nos aparecerá una ventana como la siguiente: Ahora pulsamos “Descriptivos” Matriz de correlaciones dependerá de lo que queramos. pero chequearemos KMO y prueba de esfericidad de Bartlett para asegurarnos un grado de significación de variables . porque sepamos el número de factores que queremos extraer.Pulsamos ahora “Extracción”: Autovalores mayores que: podemos cambiarlo a 0.8 por ejemplo. y la Solución factorial sin rotar. También podemos cambiar el criterio a Número de factores. Nosotros usaremos el primer criterio Nos interesa seleccionar también el Gráfico de sedimentación. Seleccionamos ahora Rotación: . En botón opciones: Para ACP podemos seleccionar varios métodos para sustituir o tratar los valores ausentes. para ayudar en la visualización Suprimir valores absolutos menores que: Opción muy importante a seleccionar. En formato de utilización. usaremos ordenados por tamaño.Seleccionamos ahora Puntuaciones: Guardar las puntuaciones factoriales para análisis posteriores. Nosotros usaremos Reemplazar por la media ya que es el valor teóricamente mas representativo. para pasar al análisis de los resultados . Pulsaremos Continuar y Aceptar. 6. Filtro Peso Segmentar archivo Núm. de filas del archivo de trabajo Manipulación de los valores perdidos Definición de los perdidos Casos utilizados.2. Sintaxis FACTOR /VARIABLES x1 x2 x3 x4 x5 x6 x7 /MISSING MEANSUB /ANALYSIS x1 x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO EXTRACTION ROTATION /FORMAT SORT BLANK(. Recursos Tiempo transcurrido Memoria máxima necesaria 0:00:00. factorial Notas Resultados creados Comentarios Entrada Datos 05-MAR-2004 17:48:02 C:\Documents and Settings\ecolab\Escritorio\Rafa\TeleSa ke.16 7204 (7.1 Análisis de los datos con SPSS. A.50) /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION . los valores perdidos son sustituidos por la media de las variables.sav <ninguna> <ninguna> <ninguna> 100 MISSING=EXCLUDE: Los valores definidos como perdidos por el usuario son considerados como perdidos. MEAN SUBSTITUTION: Para cada variable utilizada.035K) bytes . 884 . Sin embargo la segunda prueba.000 1.446. baja. puesto que ha salido significativo para el test de Bartlett. pero podemos ver que estamos con niveles muy altos. porque tiene todos los factores.000 Extracción .000 1.000 Vemos que es inaceptable: según KMO sale 0.000 .000 1. sale significativo.885 . Comunalidades Inicial 1.618 Método de extracción: Análisis de Componentes principales.995 .541 21 .895 .5 es inaceptable. Inicialmente está a 1. Según nuestro criterio.901 Velocidad de entrega Nivel de precios Presentación de la comida Imagen del logotipo Eficacia del servicio Atención al cliente Calidad de la comida 1. podemos aceptar este test.000 1. Después de la extracción.KMO y prueba de Bartlett Medida de adecuación muestral de Káiser-MeyerOlkin. Este cuadro muestra cuanta varianza esta explicada con este modelo. Para un estudio exploratorio. .649 .446 567.000 1. . Test de Bartlett. si KMO < 0. Prueba de esfericidad de Bartlett Chi-cuadrado aproximado gl Sig. 949 99.374 83.246 Autovalores iniciales Componente 1 2 3 4 5 6 7 Total 2.181 % de la varianza 36.920 .972 2.526 2.873 % acumulado 36.082 30. La varianza total explicada.120 1.246 90.181 .291 16.869 100.000 Suma de las saturacion la rotac Total 2.165 Información de la varianza Información de antes de la rotación después de la ro Método de extracción: Análisis de Componentes principales.873 7.082 66.379 1.827 1.204 .131 % acumulado 36.120 1.Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción Total 2. tenemos autovalores iniciales.984 26. .541 .082 66.622 % de la varianza 33.526 2.731 5.374 83.418 .977 96.291 16.098 23.082 30.009 % de la varianza 36. 0 1 2 3 4 5 6 7 Número de componente El gráfico de sedimentación. Para determinar factores.0 1. Pero también hemos usado otro criterio para seleccionar factores.Gráfico de sedimentación 3.0 2. Según este criterio podemos determinar 4 factores.5 0. observamos la curva. y vemos el punto de corte donde cambia la inclinación.0 Autovalor . . Más o menos a partir del punto 4 cambia la inclinación.5 2.5 1. 452 .604 . Después de la rotación VARIMAX hemos obtenido 3 factores. y hemos seleccionado la opción que ordena de mayor a menor.752 . de este modo es mas fácil identificar la importancia de las variables.477 .806 . .865 -.602 -. Método de rotación: Normalización Varimax con Kaiser.560 2 3 Método de extracción: Análisis de componentes principales.542 . a La rotación ha convergido en 5 iteraciones. a 3 componentes extraídos Matriz de componentes rotados(a) Componente 1 Presentación de la comida Calidad de la comida Nivel de precios Velocidad de entrega Atención al cliente Imagen del logotipo Eficacia del servicio -.658 .921 . Tratamiento de los datos con DYANE y SPSS.595 2 3 .561 .779 .218 2 .528 .641 3 . Método de rotación: Normalización Varimax con Kaiser.754 -.508 Método de extracción: Análisis de componentes principales. así solo salen las variables importantes.792 .739 -. Matriz de transformación de las componentes Componente 1 2 3 1 .692 .Matriz de componentes(a) Componente 1 Nivel de precios Calidad de la comida Presentación de la comida Eficacia del servicio Velocidad de entrega Atención al cliente Imagen del logotipo .602 -.945 . Hemos suprimido las variables con menor importancia.760 .564 -.159 .752 .980 .736 Método de extracción: Análisis de componentes principales. ..Es el criterio para seleccionar las cargas.7.Se guardarán para su uso posterior Y seleccionamos las variables a estudiar.Girar los ejes de referencias para captar mas variables o hacer la Interpretación más fácil. las opciones que tiene el Dyane y cuáles Medias y desviaciones estándar de las variables no nos interesan Test de Bartlett si que nos interesa. Representación Gráfica de los factores: representar 2 factores Rotación VARIMAX. Ahora seleccionamos: Guardar los factores retenidos como variables.. Valores propios mayores que 1 (también llamados autovalores). . Es el método mas frecuentemente utilizado.1 Tratamiento de los datos con DYANE. para ver si existe un nivel significativo de correlación de los factores. Vamos a ir viendo seleccionaremos. 1606 -0.-------.0000 0.0438 -0.2343 0.2368 -0.0568 MARK_NEC 0.1718 0.0804 -0.La economía social de mercado es la mejor doctrina económica.4297 (p = 0.-------0.0826 -0.60% 11.1247 -0.3404 -0.0014 0.2381 0.3078 0.El empresario debe ser admirado por la sociedad porque crea riqueza.0848 0.2379 0.1265 0.1297 -0.0556 -0.0000 ECME_PLA -0.0956 0.7250 1.1694 -0.El liberalismo es la mejor doctrina económica.2233 -0.2423 0.2433 -0.1221 -0.-------.2255 -0.60% 5.83% 8.-------.2184 1.2977 -0.0000 DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 -------.2161 -0.2522 -0.3499 -0.1421 EPU_OBSO 0.0474 LIBERAL -0.1896 -0.5235 -0.0860 1.1671 -0.6977 0.1437 -0.1001 0.083411 Ji cuadrado con 105 grados de libertad = 385.-------VALOR PROPIO: 3.0000 0.6023 0.2196 -0.1432 0.1465 0.0000 0.1293 -0.1587 -0.1459 0.0979 -0.31% 73.0015 0.1707 -0.1999 0.-------.3528 0.0671 -0.0357 -0.0730 -0.0510 -0.0826 0.0758 0.1432 BAL_SOCI 0.--------------.-------.0438 0.-------.1915 0.2396 0.0000 ECSOLMER -0.1537 -0.-------.2282 1.0531 0.5558 0.0000 -0.7488 0.8399 0.0000 0.1988 1.0000 -0.87% 2.0833 -0.2601 -0.3378 0.2405 1. Matriz de coeficientes de correlación simple -------------------------------------------EPU_OBEC EPU_OBSO BENSOLAC BAL_SOCI MARK_NEC -------.2196 0.4859 -0.1844 0.El socialismo es la mejor doctrina económica.2745 -0.1089 0.1716 0.3830 % DE VARIANZA: 21.1036 0.0846 1.1537 -0.3078 0.0427 0.2622 1.-------.36% 94.1459 0.El comunismo es la mejor doctrina económica.3784 -0.1302 -0.1296 0.En la distribución de los beneficios deben participar sólo los accionistas.0969 -0.0758 0.2437 0.1988 -0.1737 0.0048 -0.1421 0.0655 -0.2203 0.0298 -0.5343 -0.1059 -0.4599 -0.1992 0.0869 0.1738 -0. VARIABLE 8 : SOCIALIS .0000 0.1737 COMUNISM 0.0679 0.-------.45% 100.Todas las empresas deberían realizar el balance social.1924 -0.2381 -0.1582 0.1265 0.2745 BEN_OBJ1 -0.4629 -0.0014 -0.0423 -0.0782 -0.La empresa pública puede cumplir los objetivos sociales mejor que la privada VARIABLE 3 : DIRE_SUF .0666 -0.0044 BENSOLAC -0.1849 0.0097 -0.1305 -0.1953 0.1036 0.0510 DESP_LIB -0.90% 3.6326 -0.0848 0.0371 0.0630 1.3367 0.1190 0.2522 0.1739 -0.07% 6.0671 1.2381 0.A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S ===================================================================== IDENTIFICACIÓN DE LAS VARIABLES ------------------------------VARIABLE 1 : EPU_OBEC .0000 0.2504 0.45% 91.0888 0.0672 1.3204 -0.99% 4.0000 DESP_LIB -0.0427 0.3667 -0.2184 0. VARIABLE 4 : ECME_PLA .1391 0.1412 0.0680 1.-------.0782 -0.0438 0.0722 -0.1735 0.2935 0.3173 0.2233 0.2368 -0.2423 -0.0000 LIBERAL -0.0326 -0.2396 0.1230 1.--------------.1785 -0.65% 4.2935 -0.1999 0.2504 0.1343 -0.3784 1. por todos los trabajadores de la empresa.1614 1.La dirección de la empresa debe ser elegida por sufragio universal.1370 0.3340 0.0248 0.0512 0.3173 -0.0015 -0.2727 0.0560 -0.0298 -0. creando necesidades aparentes.1089 -0.1059 ECSOLMER -0.0956 0.2995 0.51% 78.3499 -0.0196 0.1582 0. VARIABLE 10: EMPR_CRE .80% 5.2727 0.1412 0.5037 -0.10% 41.6449 0.1476 -0.2475 0.1253 0.1305 0.1247 -0.1924 1.0722 0.2433 -0.2433 0.3204 0.5856 0.2078 0.-------.2857 0.0000 -0.91% 5.3202 0.4710 0.0935 0.8867 0.3373 -0.0565 0.2255 -0.1476 -0.2255 -0.4190 -0.1915 -0.2437 0. permitiría la creación de puestos de trabajo.2315 0.0689 1.-------.2056 -0. VARIABLE 12: BEN_OBJ1 . VARIABLE 9 : COMUNISM .1731 -0.0833 0.3171 0.-------.-------.3728 1. VARIABLE 6 : LIBERAL .2000 0.3202 0.3566 -0.1391 0.El empresario sólo explota a los trabajadores.1845 1.0728 0.2605 0.1844 0.1913 -0.0048 0.0000 -0.1042 -0.0000 -0.0767 .2820 -0.00% CARGAS DE LOS FACTORES: COMUNALIDAD ----------EPU_OBEC 0.-------.1362 0.2539 -0.15% 87.2850 -0.30% 3.2098 1.3378 0.3533 0.2775 -0.1437 -0.0868 ECME_PLA -0.3728 -0.1362 1.2379 0.2121 -0.0358 0.1656 0.0000 0.2056 0.93% 50. VARIABLE 11: EMPR_EXP .4829 0.3251 0.La economía de mercado proporciona una asignación de recursos mejor que la obtenida con la economía planificada por el estado.1735 DIRE_SUF 0.2078 EMPR_EXP 0.0000 EPU_OBSO 0.0103 -0.0000 DIRE_SUF 0.1676 -0. VARIABLE 2 : EPU_OBSO .La posibilidad de despido libre.0565 0.0039 SOCIALIS 0.1111 0.-------.0000 -0.-------.3579 0.-------.0908 0.El marketing es sólo un método para vender más.0066 -0.0873 -0.1941 -0.2622 0.0728 0.20% 4.71% 68.1621 0.2475 0.0630 0.3336 0.El beneficio deber ser el primer objetivo de la empresa VARIABLE 13: BENSOLAC .1921 -0.0730 -0.0438 0.1111 0.0802 0.0000) FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 FACTOR 8 FACTOR 9 FACTOR 10FACTOR 11FACTOR 12FACTOR 13FACTOR 14FACTOR 15 -------.3156 -0.2662 1.2995 -0.0908 0.3886 -0.0868 -0.0248 0.0425 -0.7805 0.1738 -0.3165 -0.50% 8.: 21.1370 -0.0000 0. con indemnización.1190 0.0474 -0.0044 Test de Bartlett ---------------Determinante de la matriz de correlación = 0.-------.2615 -0.80% 62.0215 0.0103 -0.2775 0.0969 -0.1296 -0.0756 0.2315 -0.0000 -0. VARIABLE 5 : DESP_LIB .3679 0.1001 0.2151 -0.0802 0.1261 -0.0583 -0.0568 1.0370 -0.0371 -0.3032 0.3244 1. VARIABLE 14: BAL_SOCI .2121 -0.2605 0.0425 EMPR_CRE -0.1425 -0.3528 0.2255 -0.4305 0.0878 0.0860 -0.0326 1.2463 0.0039 0.22% 2.ACUMUL.1042 -0.0158 -0.-------.2229 0.00% 56.3533 -0.58% 97.1302 -0.La empresa pública puede cumplir los objetivos económicos mejor que la privada.1953 -0. VARIABLE 15: MARK_NEC .2597 0.50% 83.1621 0.0873 0.2662 0.60% 33.1614 -0. VARIABLE 7 : ECSOLMER .0097 -0.3768 -0.0293 0.-------EPU_OBEC 1.55% % VAR. 0276 0.1786 -0.0379 -0.1499 -0.5066 -0.3941 -0.4154 0.0285 0.0276 0.4363 -0.2684 0.1454 -0.3705 -0.4579 -0.1207 -0.3470 -0.2460 -0.6155 -0.0150 0.2827 -0.3979 -0.2307 -0.1673 0.1953 0.2128 -0.1632 -0.4648 -0.0961 0.1800 0.3682 0.2056 0.3065 -0.0000 0.0095 -0.2208 DIRE_SUF 0.1449 0.0255 0.0947 -0.0104 0.3419 0.6659 EMPR_EXP 0.1774 LIBERAL -0.0831 0.0806 Cargas de los factores retenidos: --------------------------------- Aquí han salido 5 factores sin rotación.1657 0.2075 0.4681 0.0610 -0.3527 -0.4824 -0.3621 1.4669 -0.2209 -0.4176 0.0797 -0.3367 0.1529 -0.4185 -0.3418 -0.2126 0.3358 0.1802 -0.3379 -0.0423 -0.4763 BEN_OBJ1 -0.2632 -0.1567 0.3426 -0.3402 0.3535 -0.2258 -0.1179 0.3952 0.1938 0.2149 0.1184 -0.0743 -0.3490 0.0893 -0. como tienen elevados números en las cargas.0202 -0.0585 -0.1283 -0.2593 0.0571 0.0052 -0.2492 -0.4253 0.4659 0.4420 -0.2567 -0.4072 0.1312 -0.3693 -0.4602 0.0799 MARK_NEC 0.0798 0.5278 0.5474 0.0337 0. Pero esta matriz es difícil de interpretar porque tiene las cargas muy altas para el factor 1 y para el factor 2.3167 -0.1019 -0.2551 1.5607 0.4817 ECSOLMER -0.0946 -0.2137 -0.0568 0.1752 -0.1554 -0.1180 0.3174 -0.0438 -0.4789 0.1899 -0.2299 0.1693 -0.5957 ECME_PLA -0.1750 -0.0508 0.0983 -0.6636 0.0504 -0.3592 -0.4402 0.3212 DESP_LIB -0.2616 -0.2928 -0.2425 -0.4659 -0.3833 0.1755 EPU_OBSO 0.0606 0.0975 0.4897 0.3308 -0.3029 0.0000 COMUNISM 0.1880 -0.3509 0.3765 -0.0441 -0.0410 -0.1615 -0.5511 -0.1199 -0.2646 -0.2324 0.3158 0.0610 0.0801 -0.0266 0.0000 BAL_SOCI 0.0687 -0.SOCIALIS 0.1488 -0.1645 -0.1140 -0.4787 0.0306 1.3110 0.0106 0.0124 0.0979 -0.1472 1.0355 0.6978 0.4978 0.1899 -0.0575 0.2714 -0.4300 -0.3055 -0.4941 -0.2042 0.2000 0.5558 -0.0000 BENSOLAC -0.2858 0.1884 -0.2389 -0.2028 -0. ¿Qué variable es más importante que las otras? .0472 Después de esta matriz.0023 0.1828 -0.0362 -0.1541 0.1519 -0.4314 0.3653 0.7819 -0.1155 0.4285 0.0773 0.1624 0.3267 -0.2882 -0. no sabemos que factor es más importante que otro.2949 -0.5378 0.2552 -0.2131 -0.2502 0.2181 -0.0491 1.0329 0.0738 0.1510 -0.3843 BENSOLAC -0.1681 EMPR_CRE -0.0000 BEN_OBJ1 -0.3934 -0.3036 0.0764 0.1012 -0.5596 -0.1231 0. salen coeficientes de puntuación de los factores.3463 -0.0288 -0.0760 0.8284 -0.3457 0.1358 -0.3839 -0.1607 -0.1952 -0.4932 -0.2812 -0.1172 0.0870 0.1362 0.2280 -0.2920 -0.4569 -0.6396 -0.0017 -0.0046 -0.1497 0.1824 1.3973 -0.9453 COMUNISM 0.0000 MARK_NEC 0.2840 -0.2778 0.3054 -0.0758 0.2191 -0.0574 -0.0788 0.1419 -0.0295 0.0769 0.3434 -0.1820 0.2054 0.2777 0.0588 -0.0461 1. Aunque hemos extraído varios factores.7803 -0.2416 0.1426 -0.3592 0.1326 0.1403 -0.0610 -0.1296 -0.1310 -0.2894 -0.1376 -0.1273 0.1501 -0.5846 -0.2127 -0. Se tienen que multiplicar cada coeficiente de correlación por las variables originales para comprobar los resultados de los factores COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: EPU_OBEC 0.2442 0.3258 0.3004 0.2421 0.1865 0.2838 -0.2324 -0.0344 0.2481 -0.1879 -0.1926 -0.1829 0.0467 0.0604 0.1226 -0.0196 -0.1472 0.1420 0.1488 -0.2780 0.0644 1.2161 0.0949 -0.2200 -0.4825 0.0050 -0.0000 EMPR_EXP 0.0817 0.2698 -0.4822 -0.0731 0.0522 0.3725 0.1546 -0.2144 -0.1359 -0.1110 -0.0850 -0.2320 -0.1032 -0.3772 -0.0399 -0.1715 0.2298 -0.0868 0.4899 -0.1204 BAL_SOCI 0.3559 -0.0662 0.2934 -0.1438 -0.3547 -0.1270 -0.0452 0.0733 0.4323 0.0199 0.0855 0.1074 -0.0618 -0.3242 -0.0473 0.0572 0.0667 -0.4342 0.2052 0.0000 EMPR_CRE -0.0287 0.5184 0.3542 0.1242 -0.1499 -0.1242 -0.4275 0.1799 SOCIALIS 0.2383 0.0973 0.3994 0.3247 0.0744 0.2804 -0.1804 -0.2487 -0. 2405 % DE VARIANZA: 21.5069 0.4659 -0.3617 0.0489 0.0204 0.1505 -0.3579 -0.4190 0.4791 0.4599 0.80% de la varianza total.1019 0.1716 -0.6423* 0.5322* 0.84% FACTOR 4 --------0.6326 -0.2998 0.8009* 1.1297 -0.4285 0.6842 0.0520 0.1713 0.5069 0.1718 0.5235 0.0684 -0.2463 0.4176 -0.9690 13.4822 -0.1180 0.6613 0.0427 -0.5951 0.3373 -0.2567 -0.3941 1.6666 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC VARIANZA: 1.3559 1.83% 43.0731 1.50% 33.0163 0.2113 0.1368 0.3679 0.5496 0.1584 0.4641 0.0929 0.6876* 0.3693 0.1099 0.3682 0.0106 0.ACUMUL.7964* 0.1977 -0.1228 -0.3171 0.2858 1.0023 -0.3434 -0.2191 -0.2343 -0.6842 0.5561 0.3725 0.2098 8.1403 -0.7363* 0.2539 -0.1448 0.1880 -0.3078 0.1408 -0. Con este modelo factorial hemos explicado un 56.2174 0.4402 -0.6172 0.3031 0.3778 0.6551* 0.1343 -0.0201 -0.1656 0.5989* 0.3886 -0.3417 0.2698 -0.1308 -0.67% FACTOR 5 -------0.2243 -0.1344 -0.0430 0.4300 0.00% FACTOR 5 -------0.06% 31.4793 9.0410 -0.1771 0.1158 -0.6571 0.1293 0.1379 0.6023 0.1229 0.80% 56.2882 -0.4648 0.0421 0.5142 0.6071* 0.3894 0.5359* -0.0396 1.6666 VARIANZA: 3.2424 -0.5363 0.5111 0.5474 -0.10% FACTOR 3 --------0.2802 -0.3091 0.3078 -0.2070 -0.3065 -0.2977 -0.2000 -0.5702* -0.80% COMUNALIDAD ----------0.5205 0.6147* -0.5496 0.3165 -0.6738* -0.5037 0.2894 FACTOR 2 --------0.83% 41.7250 11.7740 11.78% FACTOR 3 -------0.5558 -0.60% Haremos la rotación VARIMAX para ver que factor es más importante.4859 -0.80% COMUNALIDAD ----------0.1288 FACTOR 2 --------0.3667 -0.1645 -0.6571 0.07% 50.3055 -0.1910 -0.0771 0. Ahora hemos mejorado la interpretación de los datos y podemos distinguir que variable tiene mas peso en cada factor.1106 -0.0408 1.92% Tres efectos de la rotación VARIMAX: La cantidad total de varianza es la misma.1301 0.0016 0.0112 -0.0196 6.5142 0.0773 0.1791 -0.0979 -0.2360 0.13% 56.5111 0. .4525 0.92% % VAR.3547 -0.5096 10.60% % VAR.ACUMUL.1735 0.1587 -0.6652* -0.2161 -0.0738 0.5205 0.5363 0. Vemos la carga de los factores retenidos después de la rotación ROTACIÓN VARIMAX: ----------------Cargas de los factores retenidos (después de la rotación): ---------------------------------------------------------FACTOR 1 -------0.1348 0.1094 -0.3973 0.4494* -0.2320 -0.5846 0.3156 -0.93% FACTOR 4 --------0.3038 0.6155 0.EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC FACTOR 1 -------0.0150 0.0655 -0.4641 0.0066 -0.5951 0.3244 8.2203 0.: 21.7876 % DE VARIANZA: 11.2042 -0.1845 0.0293 0.6172 0.5561 0.: 11.1362 -0.4791 0.4681 1.86% 21.6613 0.4072 0.1809 -0. 1552 -0.3223 -0.2583 -0.3802 -0.0122 -0.1396 -0.1147 -0.0735 0.0352 -0.2336 0.0401 -0. Hemos redistribuido la varianza.1829 REPRESENTACIÓN GRÁFICA DE LOS FACTORES -------------------------------------VARIABLES: Código -----A B C D E F G H I J K L M N O Significado ---------------EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC .0440 -0.1343 -0.1776 0.Sin embargo.5907 0.2591 -0.0559 -0.4980 0. COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 0.0637 0.2499 0.1964 -0.0756 -0.0363 -0. Ahora podemos ver que variable tiene mas peso para cada factor (las que tienen *).1054 0.1822 -0.3779 0.1385 0.0906 -0.1791 -0.0282 0.0419 -0.1461 0. para que cada factor tenga niveles semejantes de varianza.0790 0.0240 0. Tercer efecto de la rotación es que hemos mejorado la interpretación de los datos.0119 0.0237 0.1126 -0.1866 0.0500 0. la varianza es de cada factor es menor.0492 -0.0655 0.1141 0.1183 0.0170 -0.1491 0.0804 0.3335 0.4030 -0.0151 0.5974 0.2286 0.1957 -0.3752 0.3009 0.0843 0.3597 -0.1950 -0.4103 0.3777 0.1320 0.0409 -0.0263 0.3741 0.0909 -0.1332 0.0433 -0.0649 0.0629 0.0566 -0.0678 0.2445 0.2253 -0.0564 0.0738 0. 8 -0.5 + + | | L | | 0.0 + + | |————+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+————• -1.1 + + | | | | -0.4 0.9 + + | | | | 0.2 + + N | | D | K H | 0.4 + + | | | | -0.6 + + | | | | 0.0 Tenemos una representación gráfica para los factores 1 y 2 después de la rotación VARIMAX.1 + + | | M | | 0.7 + + | | | | -0. .8 + + | | | | -0.6 -0.3 + + J | | | | 0.4 -0.3 + + | | | | -0.7 + + | | | | 0.8 + + G | | | | 0.8 1.0 -0.0 0.6 + + C | | | | -0.2 0.FACTORES 1 y 2: FACTOR 2 |—————————————————————————————————————————————————————————————————————————————————• 1.0 + + | | | | 0.2 + + I A | | | | -0.6 0.0 +----+---+---+---+---+---+---+---+---+---+---+--F+---+---+---+---+---+---+---+----|FACTOR 1 | E O B | -0.2 0.4 + + | | | | 0.5 + + | | | | -0.9 + + | | | | -1. . ¿Cuáles son los criterios que podemos emplear para determinar el número de factores a extraer? 3. ¿Para qué usaríamos una rotación ortogonal en el ACP? 4.5963 Tecnología -0.5106 Calidad 0. Interpreta lo que indica la tabla y prepara un informe: ---------------------------------------------------------Cargas de los factores retenidos (después de la rotación): FACTOR 1 FACTOR 2 COMUNALIDAD Prestigio 0.2364 0.2328 0.5302 Estatus social 0. 2. se consiguieron los siguientes resultados. Una imagen de marca se puede examinar desde la interacción de varias dimensiones o construcciones que caracterizan a dicha marca.4916 -0. cargas.” 5..0930 0.Ejercicio 2 1.97% 1.6780 27.5477 Extravagancia -0.0595 0. nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra.5692 VARIANZA: % DE VARIANZA: % VAR.7263* 0.5875 26.43% . En el presente estudio.97% 27.4516 Sofisticación 0.6132* 0.5690* 0.: 1.46% 54. Construye un diseño adecuado para el siguiente estudio con el ACP: “La imagen juega un papel de gran importancia en el marketing.6605* -0.ACUMUL. Tras realizar una investigación sobre la imagen de BMW. Define y relaciona los siguientes términos: factor.3287* 0.4509* 0.0857 0. y comunalidad. 1. Define y relaciona los siguientes términos: factor, cargas, y comunalidad. 2. ¿Cuáles son los criterios que podemos determinar el número de factores a extraer? emplear para Para el último criterio es posible que se quiera explicar gráficamente con el grafico de sedimentación. Tendríamos que explicar como determinar el punto de corte. 3. ¿Para qué usaríamos una rotación ortogonal en el ACP? La rotación es una manipulación matemática del ACP que facilita la interpretación de factores. Se utiliza para lograr un patrón de factores más simple y teóricamente más significativo. Técnicamente, la rotación consiste en girar los ejes de referencia de los factores hasta alcanzar una determinada posición para redistribuir la varianza de los mismos. Si se mantiene un ángulo de 90 grados, se llama rotación ortogonal, y sino se denomina rotación oblicua. En el ACP, normalmente se usa la rotación ortogonal. En el libro de AM, vienen explicados todos estos sistemas de rotación 4. Construye un diseño adecuado para el siguiente estudio con el ACP: “La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interacción de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra...” En el apartado de objetivo del estudio se puede escribir algo como lo de arriba. En la introducción habría que intentar convencer de porque el profesor tiene que leer ese trabajo. Normalmente la introducción es para resumir las partes más importantes y convencer de porque leer el trabajo. Primeramente, investigaremos la literatura existente para establecer el estado del arte. A continuación, establecemos las hipótesis que queremos validar o rechazar mediante el estudio. ¿Por qué queremos efectuar este estudio? Es una de las preguntas a responder. Diferentes a objetivos. Ahora estableceremos y concretaremos las partes técnicas: variables y escalas. En el ACP se pueden utilizar solo variables métricas. Si tenemos variables categóricas, las tenemos que convertir en variables métricas. Este tipo de variables se llaman variables ficticias. Dependiendo de la técnica multivariante, podemos utilizar estas variables ficticias para el análisis. Ahora determinamos el tamaño muestral. Como regla general, el tamaño de la muestra debe ser por lo menos 50, y preferiblemente superior a 100 observaciones. Ventaja de realizar revisión bibliográfica: saber como se diseñan los estudios, saber que variables, que escalas, que técnicas multivariantes se han realizado. Así tendremos mejor información para saber tipo de variables y tipo de escalas. Después de determinar el tamaño muestral, hay que concretar los métodos de la investigación, instrumentos, colección de datos, muestreo, etc. Ahora examinamos los supuestos. Ahora ya tenemos datos, y tenemos que examinar los supuestos. Hay dos tipos de supuestos a examinar: Aparte de los supuestos principales como la normalidad, la linealidad y la homocedasticidad, hay que examinar el supuesto específico: ver si existe un alto nivel de correlación entre las variables. Para examinarlo: Examen visual de la matriz de correlaciones, Test de Bartlett, Indice KMO Después determinamos el número de factores a ser extraídos. Ver el criterio: Criterio Criterio Criterio Criterio de raíz latente a priori de porcentaje de la varianza de contraste de caída Si seleccionamos varios criterios (como hoy), una regla general, empírica; cuando seleccionamos Criterio de contraste de caída, normalmente salen uno o dos factores más que cuando se selecciona el Criterio de Valores Propios mayores que uno. Es lógico, ya que el Criterio de Contraste de Caída es un simple examen visual, y el otro es mucho más empírico y objetivo. Haré una revisión bibliográfica, y si salen los factores que espero después de mi revisión bibliográfica, me puedo quedar con ese criterio También se realiza normalmente la rotación ortogonal de los factores para su mejor interpretación. Después de esto, tenemos que atribuir significado a cada factor asignándole una etiqueta adecuada. Finalmente, realizaremos una interpretación y validación de los factores 5. Tras realizar una investigación sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe: ---------------------------------------------------------Cargas de los factores retenidos (después de la rotación): FACTOR 1 FACTOR 2 COMUNALIDAD Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticación 0.6605* -0.2364 0.5963 Tecnología -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692 VARIANZA: % DE VARIANZA: % VAR.ACUMUL.: 1.6780 27.97% 27.97% 1.5875 26.46% 54.43% Dos puntos a tener en cuenta: 1. No se deben repetir, sino interpretar los datos Cuando ya se tienen los datos, no importan las respuestas que repiten datos: ¡ya se pueden ver en la tabla! 2. Realizar recomendaciones: a) para la empresa, y b) para los investigadores Entonces: Diremos que variable tiene mayor importancia en cada factor. Pe Luego diremos como interpretar estos datos. En el cuadro no dice nada sobre la interpretación. Entonces, para FACTOR 1 y FACTOR 2 tendremos que interpretar. Para poner una etiqueta al FACTOR 1, pensaremos en alguna palabra que tenga que ver con sofisticación, prestigio, estatus social y calidad. “Los elementos determinantes de la imagen implican una relación coherente entre todos los factores extraídos. El primer factor se puede etiquetar como “Estatus”, e indica la imagen de prestigio que da la marca BMW. La Sofisticación ha sido percibida como la imagen principal de dicha marca. Esta imagen parece ser una percepción general de BMW. El segundo factor es más difícil interpretar, ya que existen dos elementos contradictorios, es decir, Tecnología y Extravagancia. Probablemente, la marca BMW ha sido evaluada de tal manera debido al elevado nivel de precio que no necesariamente compensa el nivel de tecnología percibida.”.Shintaro. Uno de los peligros del ACP es la subjetividad a la hora de interpretar los factores. Con esta técnica no se puede evitar la interpretación subjetiva. Otro de los peligros es la interpretación de las etiquetas. Deberíamos explicar que significa cada etiqueta. “Desde el punto de vista empresarial, nuestra recomendación seria realizar acciones filantrópicas con el fin de aumentar su imagen social, tales como patrocinar partidos deportivos, llevar a cabo actividades culturales, etc. También habría que hacer una publicidad comparativa entre la marca BMW y otras marcas competidoras para convencer a los consumidores de que la relación entre precio y calidad es equilibrada o incluso superior a la de otras marcas. Metodológicamente, hay dos advertencias que merecen nuestra atención. Primero, el hecho de que el estudio ha extraído solo dos factores implica que el número de ítems incluidos en el cuestionario probablemente no era suficiente. Segundo, como los factores explican solo la mitad (un 54%) de la varianza total, existirían otras dimensiones o construcciones que explican la otra mitad de la varianza. En un futuro estudio, se deben considerar e incorporar estas dos limitaciones para aumentar la significación tanto práctica como estadística.”. Shintaro. donde Es una técnica para analizar tablas de contingencia. C y D) y queremos saber la existencia de similitud entre marcas. Conceptos básicos del AFC. Existen varios métodos para medir la similitud entre marcas. Ejemplo: Analizamos las cervezas más representativas del mercado español. Requiere de una matriz de datos con entradas NO negativas. 6. Definición y objetivo del AFC. de ahí que no puedan haber datos negativos. luego A con C. las técnicas de descomposición del análisis multidimensional (AM) han sido frecuentemente utilizadas. comparar por parejas. 4. El AM es un conjunto de procedimientos para desplegar las relaciones (de similitud o preferencia) mediante un mapa perceptual. Casos prácticos con DYANE. en las últimas épocas. Introducción. Se tienen que identificar correctamente los objetos y los atributos. 2. En el pasado. Podríamos por ejemplo. El AM es una técnica de descomposición de datos y éstos se representan mediante un mapa perceptual. . es decir A con B. Sin embargo. Introducción. Supuestos del AFC. 5. se han combinado aspectos del análisis factorial o del análisis discriminante y del análisis multidimensional para configurar una nueva técnica llamada “análisis factorial de correspondencias”. Diseño del AFC. Se utilizan variables categóricas nominales. 3. B. Queremos saber el posicionamiento de las marcas existentes en la actualidad para introducir una nueva marca de cerveza extranjera: SanMiguel A − Amstel OBJETOS (marcas representativas) CruzCampo Heineken Mahou Sabor Pr ecio ATRIBUTOS Envase Otro ejemplo: Imaginemos que tenemos una serie de marcas de bebidas alcohólicas (A. etc.TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS Estructura de la clase: 1. la B y la D son las marcas mas distanciadas tal y como se puede comprobar en la tabla de doble entrada anterior. midiendo éstas de una forma más objetiva mediante las distancias entre marcas: D -2 C -1 0 A 1 B 2 En el gráfico anterior. Por ejemplo. En el gráfico anterior. es decir. Colocar atributos gráficamente. estaríamos observando una única dimensión al estar las marcas dispuestas horizontalmente. podríamos incluso mejorar el nivel de percepción: Dimensión 2 A B Dimensión 1 C D Resumiendo: Encuesta con escala nominal (dicotómicas). colocando el orden de similitud entre las marcas. comprobamos que esta ordenación es difícil de apreciar una vez dispuesta esta información en forma de tabla. mutuamente excluyentes Definición y objetivo del AFC. si se puede apreciar mejor las distancias existentes entre similitud de marcas. creamos una tabla de doble entrada y determinamos un orden de similitudes. ya que tienen un valor igual a 6.Para poder realizar este estudio. Podríamos utilizar un índice estadístico para ordenar los datos. Si quisiéramos utilizar dos dimensiones. El análisis factorial de correspondencias (AFC) es una técnica de interdependencia descriptiva que representa gráficamente mediante filas . por ejemplo: Marca A Marca Marca Marca Marca A B C D Marca B 1 Marca C 3 4 Marca D 5 6 2 Una vez asignadas las similitudes. Determinació n de Atributos y Objetos Mapa de posicionamiento. tanto de frecuencias como de valores medios. se calcula una matriz de covarianzas de las variables columna. Dentro de cada eje o factor. Conceptos básicos del AFC. su capacidad para representar relaciones entre categorías de datos nominales con filas y columnas en un mismo espacio. la contribución a la inercia de cada variable está en función de los valores de su coordenada y de la frecuencia total de la variable columna o fila correspondiente. La medida de la asociación entre variables filas y columnas viene dada por la inercia (concepto del DYANE)(variación explicada del modelo) total. Los valores de la X2 pueden convertirse en medidas de similitud. El AFC difiere de otras técnicas de interdependencia en su capacidad para utilizar tanto datos no métricos como relaciones no lineales. La Chi-cuadrado (X2) es una medida estandarizada de las frecuencias observadas de cada celda con las frecuencias esperadas de celdas. Las raíces y los vectores característicos que se obtienen permiten calcular las coordenadas de las variables filas y columnas. A partir de la tabla de contingencia. los porcentajes de las filas (columnas) de ambas son parecidos. y así sucesivamente. de modo que el primer factor es el que mayor inercia explica. Otra definición: Es una representación gráfica y podemos ver esa representación gráfica entre objetos y atributos de una forma muy sencilla. . 2. La correlación de cada variable con cada uno de los ejes factoriales obtenidos depende del valor de la coordenada respecto del eje considerado y las restantes coordenadas con los demás ejes. Cada factor obtenido contribuye a la inercia en forma decreciente. que luego se factoriza aplicando el Análisis de Componentes Principales. El objetivo principal del AFC es identificar afinidades entre categorías de filas y columnas presentadas en forma de tabla. basándose en la descomposición de la Chi-cuadrado. Si dos filas (columnas) tienen perfiles próximos. Las ventajas principales del AFC son: 1.y columnas una tabla de contingencia. es decir. La inercia es el resultado de dividir el valor de la X2 de la tabla por la suma total de frecuencias. aparecerán próximos sobre el grafico. luego el segundo. Si aparecen alejados tienen perfiles diferentes. Cálculo de la X2 Identificación del número apropiado de dimensiones. . ¿Como? Con la adición o sustracción por ejemplo de un objeto. Si los datos cambian drásticamente. Comprobación de los supuestos del AFC. podemos saber si el análisis es dependiente de ese objeto en concreto y no de la relación de este con los demás. Por ejemplo.Supuestos del AFC. el número máximo de dimensiones es tres. si una variable dispone de cinco categorías y la otra de cuatro. El número máximo de dimensiones es igual al número más pequeño de filas o columnas menos uno. Método de validación: Los investigadores deben evaluar la sensibilidad de los resultados. Diseño del AFC. Se pueden utilizar tanto datos no métricos como relaciones no lineales. En el ejemplo de las marcas. El uso del AFC tiene una relativa libertad respecto a sus supuestos básicos. Creación de una tabulación cruzada de entradas no negativas. tenemos siempre que seleccionar las más representativas. El proceso de muestreo es clave (a la hora de seleccionar los objetos más representativos) cuando se aplica en el mundo real. quiere decir que evidentemente que no hemos elegido los objetos correctamente. Determinación del objetivo del estudio. (Con dos ejes para realizar el posicionamiento) Interpretación y validación. Los supuestos del AFC se centran principalmente en la comparabilidad y representatividad de los objetos que están siendo evaluados y de los encuestados. Creación del mapa perceptual. DYT. Las variables fila tienen que seguir una ESCALA NOMINAL. El número de EJES (DIMENSIONES) difiere de la definición dada por el profesor.Casos prácticos con DYANE. se ha utilizado el fichero COMPORT. obtenemos el análisis factorial por correspondencias (AFC) Elegimos la opción TABLA DE FRECUENCIAS: Después seleccionamos las variables fila y columna. lo calculado en DYANE también es válido. han de seguir una ESCALA CATEGÓRICA. Por lo tanto. Una vez abierto este fichero en DYANE. Las variables columna. . Esto es debido a que DYANE tiene en cuenta otros factores para calcular dichos EJES.0. ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC1 Para este ejercicio. fichero de ejemplo del DYANE v2. En este caso las variables son DICOTÓNMICAS (SI o NO). 5% de la información.-------0.5720 -0. TABLA DE FRECUENCIAS: 1 2 3 4 5 6 TARJETA -Sí TARJETA -No AUTOMOV -Sí AUTOMOV -No VIVIENDA-Sí VIVIENDA-No CLASSOC ----------------------------------Alta/me Med Me dia alta ia media dia baja Baja -------.6902 -1.3584 0.8711 -2.2189 -0.En este caso.083073 Valores de la Inercia y la Chi-Cuadrado Dimensiones o ejes AUTOVALORES obtenidos VALORES PROPIOS: CONTRIBUCION A LA INERCIA: VECTORES PROPIOS: -------.4241 -0. En este caso.6915 0.-------.0012 0.0000 98.0588 -1.3383 -0.-------. siempre que no se necesite verdaderamente esta información para el estudio que queramos elaborar. El eje 3 es ignorable.5171 1.7678 Los ejes 1 y 2 son los AUTOVECTORES más representativos.5723 1. Resumiendo: Los ejes 1 y 2 representan el 99.5867 0. Como variables columna. AUTOMOV y VIVIENDA.2178 INERCIA TOTAL: 0.5211 1.0818 0.1901 -0. elegimos CLASSOC. elegimos como variables fila TARJETA. ESTUDIO DE LAS COLUMNAS ----------------------3 ---------------------- (% de inercia explicada para cada eje) E J E 1 E J E 2 E J E ---------------------- ---------------------- .-------. se puede despreciar la información proporcionada por el eje 3.-------87 110 54 2 74 198 384 91 94 135 135 17 67 173 303 76 112 183 219 31 49 125 219 62 JI-CUADRADO: EJE 1 EJE 2 EJE 3 249. 96 33.000 0.089 CORRELACION -----0.994 0.006 CORRELACION -----0.35 15.74 COORDENADA -----0. Media media 55.012 0. Alta/media alta 37.08 20.305 -0. VIVIENDA-Sí 9.48 29.999 0.64 7.90 6.48 ESTUDIO DE LAS FILAS -------------------3 ---------------------% INER. TARJETA -Sí 6.019 0. -----22.002 0.40 4.80 6.71 5.962 % INER.70 14.991 0.993 0.005 -0.000 0.005 CORRELACION -----0.11 7.95 ---------------------COORDENADA ------0.004 0.019 -0. EXPLIC. AUTOMOV -No 26. EXPLIC.940 0.013 0.009 -0.012 0. AUTOMOV -Sí 43.007 0.49 4.24 62.07 34.25 2.---------------A Alta/media alta B Media media C Media baja D Baja VARIABLES FILA: Código Significado -----. VIVIENDA-No 11.10 4. TARJETA -No 2.197 -0.82 COORDENADA -----0. medimos la similutud que puedan tener las variables aplicando un criterio .001 0. -----1. EXPLIC.003 0.023 0. -----46.993 0. EXPLIC.002 0. Media baja 2.006 -0.000 0.86 22.164 -0.994 0.23 COORDENADA ------0. EXPLIC.17 3.07 10.188 0. Baja 5.58 3.% INER.008 0.002 -0.000 0.977 0.99 COORDENADA ------0.000 0.207 CORRELACION -----0.059 0. -----0.940 % INER.227 0.056 0.484 0.030 -0. -----46.006 0.173 -0.671 -0.002 -0. -----1.47 8. EXPLIC.23 2.007 0.038 % INER.000 E J E 1 E J E 2 E J E ---------------------COORDENADA -----0.052 CORRELACION -----0.004 0.---------------1 TARJETA -Sí 2 TARJETA -No 3 AUTOMOV -Sí 4 AUTOMOV -No 5 VIVIENDA-Sí 6 VIVIENDA-No EJES 1 y 2: Únicamente se miran los resultados de éstos 2 ejes ya que la información proporcionada por el eje 3 es ignorable.001 (Codificación o etiquetación de las variables para su representación grafica) REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Código Significado -----.011 0.03 2. En este gráfico.059 % INER.450 CORRELACION -----0.044 -0.11 3.007 -0. EJE 2 • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 5 | | 2 C | 3 | --------------------------------------4------------+-----------B---------------------A---------EJE 1 | | | | 6 | 1 | | D | | | La var. No tenemos que olvidar que la técnica del AFC mide el posicionamiento de las variables. D está relacionada con la 6 | | | | | | | | | | | | | | | | | | | | | | | | | | • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• . observando las variables directamente del gráfico.subjetivo. dado que somos nosotros los que tenemos elegir dicha simulitud. -------.-------- . Las variables fila siguen una escala de Likert.0.ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC2 Este ejercicio se ha realizado utilizando el fichero ACTI_TEMP. TABLA DE VALORES MEDIOS: PROMOC_A ----------------------------------Tercera Cuarta Quinta Sexta (81/82) (82/83) (83/84) (84/85) -------.DYT del DYANE v2.-------. Escogemos la opción de Tabla de Valores Medios del Análisis Factorial por correspondencias en DYANE: Escogemos 10 variables fila y 1 variable columna. El número de ejes o dimensiones es 3. 019 0.402 0. BENSOLAC 0.004 0.9020 0. BAL_SOCI 5.19 4.007384 2.34 2.00 ---------------------COORDENADA ------0.39 2. SOCIALIS 26.0052 0.004 -0. EXPLIC.768 0.19 1.4635 1.218 0.855 0.07 3.029 -0.011 0.57 9.36 3.097 -0.227 .027 0.6515 0.47 3.3423 VALORES PROPIOS: CONTRIBUCION A LA INERCIA: VECTORES PROPIOS: Se puede despreciar la información del tercer eje ESTUDIO DE LAS COLUMNAS ----------------------3 ---------------------% INER. EXPLIC.77 3.169 0.143 0. -----62. -----6.76 0.41 4.022 0.009 % INER.012 -0.022 0.0004 70.001 E J E 1 E J E 2 E J E ---------------------COORDENADA -----0.036 0. Sexta (84/85) 44.030 0.007 -0.772 % INER.78 3.47 2.23 2. EXPLIC.37 1.68 1.40 2.97 22.03 7.419 0.98 0.9535 -1.5854 -0.21 2.028 CORRELACION -----0.83 69.0923 23.079 CORRELACION -----0.977 0.034 0. -----1.14 4.21 2.010 -0.010 0. Tercera (81/82) 5. EMPR_EXP 3.016 0.17 6.27 1.011 0.134 0.41 4.4465 1.18 3.46 42.99 0.25 COORDENADA -----0.001 % INER.68 3.111 E J E 1 E J E 2 E J E ---------------------CORRELACION -----0.59 7. EXPLIC.880 % INER.936 0. ECSOLMER 1.3292 -0. EXPLIC.09 29.37 2.114 -0.0017 0.53 3.62 2.10 2.034 0.026 0.57 2.1 2 3 4 5 6 7 8 9 10 LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 2.0608 -1.-------.015 0. -----18. COMUNISM 10.66 1.48 7.32 0.63 2.71 ESTUDIO DE LAS FILAS -------------------3 ---------------------% INER.019 0.30 5.60 ---------------------COORDENADA -----0.692 0.043 -0.007 0.01 COORDENADA ------0.73 3.27 1.87 COORDENADA -----0.096 0.255 0.007 0.004 0.033 0.565 0.71 0.030 0.068 0.25 2.021 CORRELACION -----0.83 2.008 0.038 0.56 2.30 58.5292 0.275 0.008 CORRELACION -----0.70 0.14 8.827 0. Cuarta (82/83) 44.040 0. Quinta (83/84) 5. -----0.044 0.195 0.069 0.90 2.-------0.71 0.006 -0. EXPLIC.38 3.045 0.012 CORRELACION -----0. EMPR_CRE 16. LIBERAL 34.028 -0.09 4. -----1.7862 INERCIA TOTAL: JI-CUADRADO: EJE 1 EJE 2 EJE 3 -------.404 0.121 0. BEN_OBJ1 1.09 6.31 2.047 -0.27 4.61 7.4711 -1.015 -0.040 0.028 -0.1877 5.5541 0.006 -0.957 0.02 0.05 4.62 2.726 0.18 0.76 1.17 3.53 2.6594 0.67 1.00 4.35 2.040 -0.45 2.833 0.20 2.76 2. MARK_NEC 1.198 16.39 0.---------------1 LIBERAL 2 ECSOLMER 3 SOCIALIS 4 COMUNISM 5 EMPR_CRE 6 EMPR_EXP 7 BEN_OBJ1 8 BENSOLAC 9 BAL_SOCI 10 MARK_NEC .---------------A Tercera (81/82) B Cuarta (82/83) C Quinta (83/84) D Sexta (84/85) VARIABLES FILA: Código Significado -----.10.798 22.47 0.117 0.34 0.008 0.004 REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Código Significado -----.058 0. EJES 1 y 2: EJE 2 • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• | | | | | | | | | | | | | | | | | | | | | | | | 10 | | | | | B | 6 | | | | | 5 9 A | | | | | D | 2 | --------------------------------------------------+--------------------------------------------EJE 1 | 1 4 | 3 | | | | | | | | | | | | 8 | | | | | | | | | | | |C | | | | | | | | | 7 | | | | | | | | | | | | • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC3 . 00 9.00 9.00 1 2 3 4 5 Hidratan Natural Dermopro No deter Pielsuav . que está definida previamente.00 4.00 5.00 9. TABLA: Ideal HPravia Sanex Tacto -------.00 3.TBL.00 5.00 6.00 5.00 3.-------.TBL. ambos vienen con DYANE v2.-------.DYT con el fichero AFC1. En este ejercicio.00 6.Utilizamos el fichero ACTI_EMP.00 5.00 5.00 9.00 6. elegimos TABLA ESPECÍFICA (“AD HOC”).00 2. elegimos la tabla AFC1.00 4.00 5.-------9.00 5. En entrada de datos. 7.-----.221 1.374 9.01 -0.40 -0.0204 CONTRIBUCION A LA INERCIA: Escogemos las dos dimensiones VECTORES PROPIOS: ESTUDIO DE LAS COLUMNAS ----------------------- 1. 4. 2. Hidratan Natural Dermopro No deter Pielsuav Recambio Olor agr Económic E J E 1 ---------------------COORCORRE.00 8.6970 -0. -----.131 0.81 -0.427 3.-----0. DENADA LACION EXPLIC.190 0.60 REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Código Significado -----.87 0.537 13. 8.6573 28.2074 -1.39 0.81 E J E 2 ---------------------COORCORRE.71 -0.% INER.63 E J E 2 ---------------------COORCORRE. 6.669 10.584 41. 3.441 45. 2.------0.226 0.001 0. -----.82 0.00 1.00 8. DENADA LACION EXPLIC.423 23.4557 -0.0351 0. 4.318 0.329 0.18 -0. DENADA LACION EXPLIC.247 3.-------0.058 0.055297 3.037 0.---------------1 Hidratan 2 Natural 3 Dermopro 4 No deter 5 Pielsuav 6 Recambio 7 Olor agr 8 Económic .00 1.08 -0.% INER.00 7.004 0.123 0.06 0.% INER.% INER.32 -0.00 0.359 0.---------------A Ideal B HPravia C Sanex D Tacto VARIABLES FILA: Código Significado -----.096 0.9980 1.6817 INERCIA TOTAL: VALORES PROPIOS: JI-CUADRADO: EJE 1 EJE 2 -------. -----.104 0.341 33.2915 1.011 0.172 0. 5.522 1.00 5.00 2.00 1.063 0.39 0.0157 63.00 -0.5563 1.045 0.3685 -0.65 -0.128 0.557 25.00 5.16 0.185 15.21 ESTUDIO DE LAS FILAS -------------------- 1. Ideal HPravia Sanex Tacto E J E 1 ---------------------COORCORRE.055 0. 3.------0.320 0.01 0.921 51.00 2.001 0.4315 0.125 0. DENADA LACION EXPLIC.59 0.030 0.592 26.-----.52 0.404 13. -----.-----.996 23.201 1.811 30.-----.00 2.6 7 8 Recambio Olor agr Económic 6.36 -0.012 1.069 0.404 23.40 -0.101 0.-----0.169 0.275 0. EJES 1 y 2: EJE 2 • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• | | | | | | | | | | | 7 B | | | | | | | | D | | | | | | 5 | | | | | | 4 | | | | | | | | | | | ---------------------------------------1----------+--------------------------------------------EJE 1 | | 6 | | C | | | 2 | | | | | | | | | | | | | | | 3 | A | | | | | | | | | | | | | | | | | | | | | | | | 8 | • ————————————————————————————————————————————————————————————————————————————————————————— ——————————• . . automóvil. automóvil o vivienda). ¿Cómo se puede determinar el número máximo de dimensiones en el AFC? 5. Se efectuó un estudio empírico sobre la relación entre las diversas clases sociales y la posesión de tarjeta de crédito. y vivienda.Ejercicio 3 1. (3) media baja. (2) media media. y (4) baja. de tarjeta de crédito. se asignó una de las dos categorías siguientes: “sí tengo” (número “1”) o “no tengo” (número “0”). Define y relaciona los siguientes términos: la Chi-cuadrado y la inercia. 6. Menciona una de las precauciones que hay que tener en el uso del AFC. Explica dos ventajes principales del uso del AFC. 3. 2. La clase social se clasificó en cuatro tipos. Interpreta lo que indica la siguiente Representación gráfica. Respecto a la posesión de cada atributo (es decir. (1) alta/media alta. 4. Interpreta lo que indican los siguientes datos y explica cómo se crea una representación gráfica. . se asignó una de las dos categorías siguientes: “sí tengo” (número “1”) o “no tengo” (número “0”). automóvil o vivienda). Explica dos ventajes principales del uso del AFC. Menciona una de las precauciones que hay que tener en el uso del AFC. casi su totalidad. Prescindimos del tercero porque aporta poco a la inercia. (2) media media. la clase media/alta explica mayor Representa de la inercia (46. 2. Interpreta lo que indican los siguientes datos y explica cómo se crea una representación gráfica. Interpreta lo que indica la siguiente Representación gráfica. La clase social se clasificó en cuatro tipos. 3. (1) alta/media alta. Se efectuó un estudio empírico sobre la relación entre las diversas clases sociales y la posesión de tarjeta de crédito. automóvil. Define y relaciona los siguientes términos: la Chi-cuadrado y la inercia. .07%). ¿Cómo se puede determinar el número máximo de dimensiones en el AFC? 5.1. y (4) baja. El eje 1 explica el 98% de la inercia. y vivienda. De las categorías. Respecto a la posesión de cada atributo (es decir. de tarjeta de crédito. 4. (3) media baja. 6. ese es el peligro que tenemos al usar técnicas interdependientes. Hay que justificar las interpretaciones. Fiesta y P106 no puedo captar suficientes atributos para describirlos. se proyectará sobre el eje de ordenadas Si está alejado el origen. punto y saxo. Polo Asociación con los atributos más cercanos. Ibiza y Clío Punto. los perfiles son distintos. 3. En concreto.A la hora de interpretar u n mapa de posicionamiento debemos tener en cuenta si los datos están en la parte positiva o negativa. su comportamiento será distinto del resto y su contribución a la inercia será mayor. Los atributos explican las características de esas agrupaciones. 1. Saxo y Corsa. que son coches pequeños. Si están próximos los perfiles son similares. Si su valor es la media. Se comprueba la asociación de los atributos observados a los encuestados con las diversas marcas de automóvil. . En el gráfico podemos ver 4 grupos. 4. no tiene importancia. no nos podemos fiar de los resultados de este estudio ya que el atributo amplitud está muy cercano al corsa. En lo que hay que fijarse es en la distancia entre los datos y agrupar los objetos que estén más cerca. 2. Si están alejados. Por lo que el cliente no estaría de acuerdo con los resultados. este mapa no es muy fiable. Ejemplo ilustrativo: Imaginemos que hemos realizado una serie de encuestas para saber una/s característica/s de consumidores de grandes superficies más representativas en la CCAA de Madrid. Introducción. en este caso. Por ejemplo. Introducción. taxonomía numérica o análisis de clasificación. 4. Supuestos del AC. a esta técnica también se la denomina construcción de tipología. En estadística. Conceptos básicos del AC. los consumidores en grupos homogéneos entre sí y para formar los grupos o clústers . El origen de esta técnica multivariante se encuentra en la biología y la botánica. Básicamente consiste en agrupar. . 3. Los investigadores de estas áreas de conocimiento tenían que agrupar las distintas especies de animales y vegetales en familias que fueran lo más homogéneas posibles. Las aplicaciones del análisis cluster al marketing son múltiples. Definición y objetivo del AC. 2. Por ello. Al representar gráficamente los datos obtenidos. 6. la búsqueda de objetos relativamente homogéneos se denomina “análisis cluster” (Conglomerados o grupos. Diseño del AC. Tienen que ser homogéneos internamente y heterogéneos entre los grupos). y para ello vamos encontrando las distancia mínima entre los puntos o consumidores.TEMA 4: EL ANALISIS CLUSTER Estructura de la clase: 1. lo haremos sobre dos ejes donde cada eje tenga sus medidas estandarizadas. se utiliza mucho en el campo de la segmentación. 5. Casos prácticos con DYANE. Por ejemplo: consumidores divididos en cinco grupos. (Conglomeración significa agrupación) (3)determinación del número de conglomerados o clusters en la solución final. investigación previa o suposición propia. (2) Confirmación de una taxonomía o tipología propuesta.Definición y objetivo del AC. podemos conseguir los siguientes objetivos específicos: (1) Simplificación de los datos e identificación de las relaciones entre los conglomerados o clusters. hay dos supuestos específicos que sí son importantes: . Las variables a utilizar en el AC son métricas. normalidad y homocedasticidad) tienen en general poco peso en el AC. Los supuestos generales (linealidad. El análisis cluster se puede definir como una serie de técnicas estadísticas (grupo de técnicas) que sirven para determinar grupos internamente homogéneos (heterogéneos). El AC funciona mejor cuando tenemos una teoría específica. Con estos grupos homogéneos. (Medir la distancia entre dos puntos) (2)determinación del método de conglomeración jerárquica o no jerárquica. Para formar los conglomerados o clusters homogéneos hay que seguir tres pasos: (1)determinación del método de medición de la similitud entre los objetos. Y se hace así por estudios previos. El análisis cluster es la única técnica multivariante que no estima el valor teórico empíricamente sino que utiliza el valor teórico especificado por el investigador. Se debe incluir sólo aquellas variables que caracterizan los objetos que se están agrupando y que son coherentes con el objetivo del estudio. Dicha coherencia debe basarse en una teoría explícita. pero distintos entre sí. A cada uno de estos grupos se le denomina “conglomerado” o “cluster”. Supuestos del AC. El objetivo principal del AC es la obtención de grupos internamente homogéneos y distintos entre sí basándose en su similitud para un conjunto de características especificadas. MUY IMPORTANTE: Somos nosotros los que estimamos el valor teórico. Conceptos básicos del AC. No obstante. Hay dos métodos para evaluar el nivel de multicolinealidad: (1)VIF (factor de inflación de la varianza). (2)Tolerancia. ). más difícil es interpretar los resultados del análisis. y es muy sensible a los casos atípicos. . porque es más difícil saber cuál es el efecto de una variable aislada debido a las interrelaciones entre las variables. b) El nivel de multicolinealidad: La multicolinealidad es (una medida por la cual una variable puede ser explicada por otras variables. Estos dos índices se verán mejor en el modelo de regresión lineal múltiple. Cuanto mayor es la multicolinealidad del análisis. El nivel de multicolinealidad implica ver el nivel de independencia entre las variables.a) La representatividad de los datos: La bondad del AC depende mucho de la representatividad de la muestra. Determinar el procedimiento de obtención de conglomerados o clusters. Determinar el método de medición de similitud: . Selección de variables relevantes (representativas): Existen fundamentalmente tres métodos de selección de variables: inductivo. Examinar el nivel de multicolinealidad. Examinar los supuestos. En el método cognitivo se utilizan las predicciones de determinados expertos de la industria para definir las variables. Detectar los atípicos. Se pueden utilizar los factores del ACP. En el método deductivo. Determinar objetivos del AC: Qué queremos averiguar de esta técnica. Determinar el método de medición de distancia o similitud. La consistencia interna de los grupos resultantes es mayor ya que no se incluyen variables irrelevantes. Se utiliza más en estudios exploratorios. En el método inductivo (intuitivo). ni las variables ni el número de grupos tienen un nexo con una teoría. deductivo y cognitivo. (Revisión bibliográfica) Seleccionar las variables y asegurar su representatividad. Interpretación y validación de los resultados. Utilización de los factores.Diseños del AC. Determinar el número de conglomerados o clusters. Examinar los supuestos: Detectar los atípicos Nivel de multicolinealidad. la selección de variables se apoya en la literatura teórica existente. Para diseñar un AC hay que seguir los siguientes pasos: Determinar objetivos del AC. calculada por la fórmula: D istancia = ( x2 − 1 ) 2 + y 2 − 1 ) 2 x ( y La distancia Euclídea al cuadrado tiene la ventaja de no tener que tomar la raíz cuadrada lo que acelera notablemente los cálculos. La más utilizada es la distancia Euclídea. Los casos pueden ser agrupados conforme a la similitud o distancia entre objetos. Existen varias medidas de distancia. y es la medida de distancia recomendada para los métodos de análisis cluster del centroide y Ward. La distancia Euclídea entre los puntos es la longitud de la hipotenusa de un triángulo. * Distancia de Mahalanobis .El concepto fundamental del análisis cluster es “la similitud”. En SPSS están el (1) y el (2). los objetos se van dividiendo donde después se constituyen conglomerados más pequeños hasta quedar los conglomerados básicos. Algoritmo de Johnson): Cada objeto empieza dentro de conglomerado. hay varios métodos de encadenamiento. 2) Procedimientos no jerárquicos (Análisis Cluster K-means): Asignan los objetos a conglomerados una vez que el número de conglomerados a formar está especificado. Los objetos más cercanos se combinan en conglomerados agregados reduciendo así el número de conglomerados. 3) Encadenamiento promedio: Se basa en la distancia media de todos los casos. Globalmente. 2) Método divisivo o modelo descendente (por ejemplo. basándose en la búsqueda de la mejor solución. hay dos procedimientos: 1) Procedimientos jerárquicos: Consisten en la construcción de una estructura en forma de árbol. Los métodos más importantes son los tres primeros. Entre todas las distancias máximas existentes. 1º ver las distancias y después incluir los puntos de esa distancia. diferenciados entre sí. 2) Encadenamiento completo: Se basa en la distancia máxima entre los dos casos. IMPORTANTE: En DYANE sólo está el (1). . Dentro del método aglomerativo o modelo ascendente. Está implementado así en DYANE. Algoritmo de Howard-Harris): Empezamos con un gran conglomerado que contiene todas las observaciones con los objetos. Dentro del procedimiento jerárquico. Determinar el conglomerados: procedimiento de obtención de Se trata de cómo elegir formas de combinar los objetos. En pasos sucesivos. Es un procedimiento matemático. existen varios agrupación: métodos de 1) Método aglomerativo o modelo ascendente (por ejemplo. 1) Encadenamiento simple: Se basa en la distancia mínima entre los dos casos. 4) Encadenamiento de Ward: Calcula la media de todas las variables de cada cluster. etc. . y luego calcula la distancia euclídea al cuadrado entre cada indiviuo y la media de su grupo. 5) Encadenamiento del centroide: Distancia entre los centroides de los conglomerados. El dendrograma muestra el cluster que es combinado y los valores de los coeficientes en cada caso. Esta aproximación. En la matriz de distancias. (2) Matemáticamente determinar el número de conglomerados. Cada conglomerado se analiza por separado y se comparan después los resultados. También. (1998) explica que "la aproximación más directa es realizar el AC para muestras distintas.. a menudo no es práctica debido a las restricciones de tiempo o de costes o a la no disponibilidad de objetos. Hair et al. se puede realizar escindiendo la muestra en dos grupos. Existen tres criterios que pueden ayudar al investigador a tomar una decisión relativa al número óptimo de grupos a formar: (1) Dendograma.. Otra forma de visualizar la representación de los pasos en un análisis jerárquico es el dendrograma." (pp. de la misma manera que en el ACP. Con esta base teórica (estadística de fuentes secundarias) podemos dividir las observaciones para obtener un determinado número de clusters. sin embargo. (3) Base teórica. 517). Revisar estudios previos. Interpretación y validación de los resultados: La validación del AC. El dendrograma se lee de izquierda a derecha. . Determinar el número de conglomerados: El resultado de la agrupación se suele resumir en una matriz de distancias. podemos decidir cuantos clusters se necesitan comparando las distancias entre los casos. Casos prácticos con DYANE. ¿Cuáles son los pasos básicos en la obtención de clusters? Define y relaciona los siguientes términos: la similitud y la distancia Euclídea. 5. 4. Explica cómo elegir formas de combinar los objetos.Ejercicio 4 1. 3. 2. Matriz de distancias euclídeas A B A B C D E 0 1 20 12 7 0 14 11 18 C D E 0 5 25 0 23 0 . Explica en qué consiste el “encadenamiento completo” utilizando el siguiente cuadro. Explica dos ventajas principales del uso del AC. 3º. “Alumnos que han entregado el trabajo la última semana” 2. c) Recomendado: La existencia de una teoría previa. “Alumnos que han entregado el trabajo la semana pasada”. Por eso nos centramos en tres pasos. b) Podemos utilizar medidas matemáticas. Podemos proponer un modelo mediante estudios previos o datos estadísticos de la industria o los artículos de expertos del área. El procedimiento ideal del AC es utilizar el método Jerárquico y obtener los resultados. ¿Cómo? Hay 3 métodos para determinar el nº de clusters: a) En los métodos Jerárquicos.Determinar el nº de conglomerados o clusters en la solución final. el criterio más usado es la observación del dendograma.Nos centramos en la determinación del método de medición de la similitud entre los objetos. Define y relaciona los siguientes términos: la similitud y la distancia Euclídea. Aquí nos hemos marcado la distancia euclídea como indicador 2º. . Explica dos ventajas principales del uso del AC. y luego validar estos resultados con el método No Jerárquico. Calcular matemáticamente el nº de conglomerados. ¿Cuáles son los pasos básicos en la obtención de clusters? Por definición el AC es un conjunto de técnicas de clasificación de objetos y no una sola. Con esto proponemos la base teórica.... como por ejemplo una taxonomía en la que se puedan dividir en grupos del tipo “Alumnos que no han entregado el trabajo de ITM”. 1º. pero esto no lo hemos visto. 3. Tengo una taxonomía clasificable. 1) Simplificar los datos e identificar las relaciones entre los conglomerados o clusters 2) Confirmar una taxonomía o tipología propuesta El Análisis Cluster funciona mucho mejor cuando tenemos una base teórica.Determinación del método de Conglomeración Jerárquica o No Jerárquica (el No Jerárquico no lo estudiaremos este año).1. Para medir la distancia matemáticamente usamos el concepto de distancia euclídea. En etapas ulteriores los dos conglomerados más cercanos se combinan en un nuevo conglomerado agregado. reduciendo así el número de conglomerados paso a paso 2) Método divisivo o modelo ascendente (Algoritmo de Howard-Harris en Dyane) Empezamos con un gran conglomerado que contiene todas las observaciones y en los pasos sucesivos las observaciones que son mas diferentes se dividen y se construyen conglomerados más pequeños. Tenemos que medir la distancia. la similitud es sinónimo de distancia entre objetos. La similitud es un concepto fundamental del análisis cluster. existen varios métodos de agrupación: 1) Método aglomerativo o modelo ascendente (Algoritmo de Johnson en Dyane).. En este método. (Esto esta en el esquema del tema 4) . Globalmente. Esencialmente. Distancia=Similitud Para medirlo se utiliza la distancia euclídea: Distancia = Básicamente hablamos de objetos para clasifica y agrupar un conglomerado. Explica cómo elegir formas de combinar los objetos.Son conceptos principales del Análisis Cluster. La Distancia Euclídea entre dos puntos es la longitud de la hipotenusa de un triangulo. en base a los cual pueden ser agrupados. y esta distancia es sinónimo de similitud. hay dos procedimientos del análisis cluster: Procedimientos jerárquicos y Procedimientos No jerárquicos: Dentro del jerárquico. …. Etc. cada objeto o observación empieza dentro de su propio conglomerado. y se calcula así: Distancia = ( X 2 − X 1) 2 +(Y 2 −Y 1) 2 4. La más utilizada es la distancia Euclídea. hay que formar una nueva matriz de combinaciones como la siguiente: AB 0 ? ? ? C 0 5 25 D 0 23 E AB C D E 0 3) Ahora hay que calcular las distancias mínimas con la nueva matriz de combinaciones mediante el encadenamiento completo: D(AB)C = Max (dA – C. dB-D) = Max (12. la distancia mínima se da entre A y B. La distancia mínima se da ente C y D. Explica en qué consiste el “encadenamiento completo” utilizando el siguiente cuadro. 2) Después de agrupar los dos casos. Matriz de distancias euclídeas A B C D E A 0 1 20 12 7 B 0 14 11 18 C 0 5 25 D E 0 23 0 1) Primeramente hay que identificar entre que variables la distancia es mínima: En este ejemplo. dB-C) = Max (20. se agrupan estos dos casos.5. Por ello. 14) = 20 D(AB)D = Max (dA – D. Por ello. 11) = 20 D(AB)E = Max (dA – E. AB CD E . dB-E) = Max (7. se agruparían estos dos casos. 18) = 18 4) La nueva matriz de distancias es AB C D E AB 0 20 12 18 C 0 5 25 D 0 23 E 0 Ahora repetimos el proceso con esta nueva tabla. Y esto siempre mirando la matriz anterior) 7) La nueva matriz de distancias es: AB CD E AB 0 20 18 CD 0 25 E 0 La distancia mínima se da entre AB y E.AB CD E 0 ? 18 0 ? 0 D(AB)(CD) = Max (dAB-C. 23) = 25 (Siempre hay que calcular las distancias para agrupar los casos. La matriz final es: ABE CD ABE 0 CD 25 0 Nota: El encadenamiento simple es igual pero con las distancias mínimas en lugar de las distancias máximos Gráfico Dendograma 18 20 5 1 . dD-E) = Max (25. que es 18. dAB-D) = Max (20. 12) = 20 D(CD)E = Max (dC-E. Supuestos de la RM. Diseño de la RM. por ejemplo SI o NO. Regresión Logística se usa cuando tenemos una variable dependiente nominal. 2. no tiene que ser dicotómica. Términos y conceptos básicos de la RM. Definición y objetivo. con dos valores.2 Introducción Regresion Multiple . Casos prácticos con DYANE y SPSS. 4. Introducción. 1. 6. tenemos que utilizar Regresión Múltiple.TEMA 5: LA REGRESIÓN MULTIPLE Estructura de la clase: 1. Para Análisis Discriminante podemos utilizar una variable categórica. Cuando tenemos variables dependientes METRICAS. Cuando tenemos una variable dependiente NO METRICA. y tenemos una serie de variables independientes NO METRICAS. 3. Introducción. usaremos el Análisis Discriminante. 2. 3. y variables independientes METRICAS. Cuando tenemos VARIAS variables dependientes METRICAS. Tamaño muestral. 1.1 Introducción General Cuando queremos predecir una variable dependiente en función de unas variables independientes: Y = Variable dependiente X1 + X2 +…+ Xn Variables independientes 1. aquí usaremos MANOVA. En la regresión logística se usa cuando la variable categórica es nominal. es decir dicotómica. y variables independientes METRICAS. 5. Tenemos solamente UNA variable dependiente métrica y varias independientes METRICAS. 7. Error de Predicción En la Regresión Múltiple. . Un concepto importante en la regresión simple es la distancia entre el valor y la predicción. También hemos hecho predicción con una única variable independiente.Es básicamente una técnica de predicción. 1. La Regresión Múltiple es la continuación de la Regresión Simple. por eso usaremos los mismos conceptos. Hasta ahora hemos estudiado la predicción sin variables independientes. como son la utilización de la media y la técnica ANOVA para la comparación de medias. En este caso estamos utilizando la técnica de Regresión Simple. Es una regresión lineal para predecir la tendencia de una población. A esto se le llama Error de Predicción. tenemos que minimizar los errores de predicción. que tiene una variable independiente y una variable dependiente. 2. .Definición y objetivo de la RM. (2) Explicar la relación entre las variables dependientes e independientes al formar el valor teórico. ¿Qué es la Regresión Múltiple? Usar las variables independientes cuyos valores son conocidos para predecir la única variable criterio seleccionada por el investigador Y Variable Métrica Dependiente = X1 + X2 +…+ Xn Variables Métricas Independientes La RM es una técnica estadística que puede utilizarse para analizar la relación entre una única variable dependiente y varias variables independientes. Objetivos: (1) Maximizar la potencia conjunta de predicción de las variables independientes. 0001 0.1001 22. CORREL. y la cuota de mercado de la provincia (que son las variables independientes X1 X2 y X3 .6462 0. .Términos y conceptos básicos de la RM.9200 %VarPobl ( X3) 1.3752 0.1889 (p= 0.-------% Paro (Y) 3.7 -0.3585 0.7435 p=0.6495 Coeficiente de regresión alfa: 6.9909 2.0900 0.------. Variable Dependiente Variable Independiente Coeficiente de determinación: 0.-------------.4349 4.8521 Residuo: 46 35.1071 NivelEco (X1) 5. Supongamos que queremos predecir el porcentaje de paro sobre la población (que es la variable dependiente Y). a partir del porcentaje de variación de la población en el período 1991-98. Vamos a estudiar los términos y conceptos básicos de la RM con un ejemplo.6823 p=0.1800 1.---------. VARIANZA AÑADIDA Coeficiente de Regresión Beta β Coeficiente de Correlación Múltiple R VARIABLE MEDIA -------.0000 1.--------------.2977 -0. dependerá del nivel de significación.8958 p=0.4219 ANÁLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS ---------------------. el nivel económico.4279 ------------------------Varianza total: 49 61.--------------------.-------------.0200 0.0408 0.-------.-------25.2692 -0.0059 CuotaMer ( X2) 1993. respectivamente.4985 -------------------.0643 -0.8521 0.----------.--------------------Debida a la regresión: 3 25.0294 -5.8300 El coeficiente de determinación y el coeficiente de correlación múltiple son coeficientes muy importantes para valorar el Análisis de Regresión Múltiple Mediante el valor de t de Student podemos rechazar o aceptar las variables independientes.-------------------.5167 0.2800 F de Snedecor con 3 y 46 grados de libertad = 11. PARCIAL SUMA DE CUADRADOS AÑADIDA PROPORC.4219 Coeficiente de correlación múltiple: 0.9000 1.4077 DESVIACIÓN ESTÁNDAR COEFICIENTE REGRESIÓN ERROR ESTÁNDAR T DE STUDENT COEFIC.0000) MEDIA CUADRADOS 8.4098 2365.6174 0.0001 -0. Aceptar o rechazar las variables.5026 0. Para realizar esta predicción suponemos que Y se puede expresar como una combinación lineal de las variables independientes X1 X2 y X3 de este tipo: Y = α +β1 X1 +β2 X2 + . Usaremos variables independientes para predecir esta variable dependiente que hemos seleccionado. tendremos que justificar porque usamos este nivel de significación. En nuestro modelo. La F de snedecor.] .Los criterios para establecer el nivel de significación dependen de nuestra base teórica. +βn Xn + e [Supongamos que queremos predecir el % de paro sobre la población (Y como variable dependiente). trata la hipótesis de que el porcentaje de variación explicada por el modelo es mayor que la explicada por la media... La tercera parte de esta tabla habla del Análisis de la varianza.10. este nivel de significación es aceptable.. si queremos aceptar nuestro modelo para un nivel de significación de p = 0. Sobre todo en estudios EXPLORATORIOS (No confirmatorios). Para hacer regresión múltiple sobre el Dyane: Y nos saldrán los valores de la tabla de arriba. Importante: El error estándar implica la precisión de la predicción. Varía entre 0 y 1. Coeficiente de regresión beta (β1. Este índice expresa la proporción de la varianza de la variable dependiente explicada por el modelo de regresión múltiple. e): Es la diferencia entre los valores reales y el valor de predicción de la variable dependiente Y. Por ello se ajusta la infracción del coeficiente de determinación y se calcula el Coeficiente de Determinación Ajustado (R2 Ajustado). La parte más importante de la t de Student es que tenemos que utilizar este índice para determinar si una variable independiente debería salir de la ecuación una vez que se ha añadido. Los dos siguientes índices son quizás los más importantes para la interpretación de los datos. Error estándar: Es la desviación típica de los errores de predicción. Varía entre 0 y 1. Coeficientes de regresión alpha (α): Es el valor constante que toma la variable dependiente Y si las variables independientes X1 X2 y X3 valiesen cero. El valor t mide la significación de la correlación parcial de la variable reflejada en el coeficiente de regresión. Estableceremos un nivel de significación. Coeficiente de correlación múltiple (R): Es el coeficiente de correlación de la regresión múltiple de las variables independientes y la variable dependiente. Se utiliza para la interpretación de los datos. Coeficiente de determinación (R2): Es el coeficiente de correlación múltiple al cuadrado.…. La t de Student se utilizó en el primer semestre para ver diferencias significativas entre poblaciones. Un nivel de error estándar más pequeño implica una predicción más segura o correcta. t de Student: El coeficiente de regresión dividido por su error estándar. β2. Error de predicción (Residuo. . βn): Expresa el cambio estimado en la variable dependiente Y debido a un cambio unitario de la variable independiente. Este coeficiente esta influenciado por el número de variables independientes relativas al tamaño muestral. 0. pp.01. 3. Para ello utilizaremos dos índices que . Pasos a seguir: 1) Primer paso: examinar la matriz de correlación de las variables independientes para identificar la presencia de una elevada correlación (generalmente de 0. para fijar un alfa =0. el ratio F se utiliza para contrastar la hipótesis de que la cantidad de variación explicada por el modelo de regresión es más que la variación explicada por la media (Hair et al. [Si fijamos un nivel de significación de p = 0. Así. 0. A pesar de eso. Por ejemplo nosotros creemos que son los tres factores muy influyentes en el nivel de paro. 174). Supuesto específico: Ausencia de la multicolinealidad. aunque nuestro planteamiento inicial es que el % de paro depende de las otras variables también. Linealidad. Supuestos generales: Linealidad. Es decir. Independencia de los residuos. Por eso.05. Queremos saber si la variación explicada por el modelo es mayor que cero R2>0.4985 no significativo] F de Snedecor: Se utiliza el análisis de la varianza para contrastar la hipótesis de dependencia lineal entre la variable dependiente y las variables independientes. 1. para saber que variables rechazar es muy importante mirar estudios anteriores. y poder aceptar más variables independientes. Homocedasticidad. por eso utilizamos índices objetivos.En la tabla de ejemplo tenemos el valor de la t de Student.90 o más). Homocedasticidad: El test M de Box (Hair et al. 2.1.. Supuestos de la RM.00001 sólo fijaremos una sola variable independiente. podemos cambiar nuestro nivel de significación. 4.0000 significativo p = 0. Independencia de los residuos. y nosotros queremos demostrar que las 3 influyen y las queremos incluir en nuestro modelo para hacer la previsión. El observar la matriz de correlaciones es bastante subjetivo. . significación estadística). Normalidad. podemos observar los siguientes valores: p = 0.. 67). Normalidad. aunque el valor realmente importante es el valor de la p (probabilidad. 0001. de 1. Estas dos medidas son: El valor de tolerancia: la cantidad de variabilidad de las variables independientes seleccionadas no explicadas por el resto de las variables independientes. NumerodeOb servacione s Numerode var iablesdepe ndientes >5 2) El nivel deseado está entre 15 y 20 observaciones para cada variable independiente. y luego justificar este objetivo. que son las que se explican a continuación: 1) El ratio de observaciones sobre las variables independientes nunca debería caer por debajo de cinco. Para la regresión múltiple hay una serie de reglas a seguir. 2) Segundo paso: utilizar dos medidas estadísticas para evaluar la colinealidad de múltiples variables.explicamos en el siguiente punto: El valor de tolerancia y El test del factor de inflación de la varianza (VIF). Tendremos que justificar el tamaño de la muestra. indicando que casi cualquier relación es estadísticamente significativa. Objetivos. El tamaño de la muestra siempre es problemático. Diseño de la RM. . Tamaño muestral. Lo primero es establecer el objetivo del estudio. Un valor del VIF elevado denota una elevada colinealidad. 3) Las muestras muy grandes. Tamaño muestral. El test del factor de inflación de la varianza (VIF): es el inverso del valor de tolerancia.000 observaciones o más. hacen los test de significación estadística demasiado sensibles. No siempre podremos obtener un tamaño muestral grande o deseado. Un valor de tolerancia reducido denota una elevada colinealidad. Nota: el valor de tolerancia por defecto en el SPSS para excluir una variable es 0. Interpretación.dyt Desde el Dyane. Tenemos dos posibilidades de validación: 1) Podremos obtener otra muestra de la población para evaluar la correspondencia de los resultados obtenidos de las dos muestras. Casos prácticos con DYANE y SPSS. Estimación del modelo. nuestro modelo predice los valores correctamente. Entonces cuando comparamos el índice de determinación y el de determinación ajustado y ambos son muy parecidos. podremos obtener el coeficiente R2 ajustado o corregido. Supuestos generales y específicos. DYANE: Especificación confirmatoria. realizar la regresión múltiple para cada submuestra y comparar los resultados. donde nos saldrá una ventana como ésta. Esto es porque R2 esta influenciado por tamaño muestral y por el número de variables y número de variables independientes. significa que estamos construyendo el modelo correcto. C:\Docum ents and Settings\e97554\Escritorio\Rafa\Est_Prov. 2) Podemos dividir la muestra en dos submuestras. Podemos examinar los coeficientes Beta y averiguar su importancia relativa en el valor teórico de la regresión múltiple. Dependiendo del programa informático. Validación. hemos seleccionado el Análisis de Regresión Múltiple.dyt Est_Prov. Con la siguiente base de datos de Dyane. . hemos realizado el ejemplo que se muestra a continuación.1. 7. Caso práctico 1 con DYANE. 0000 % Paro %VarPobl NivelEco CuotaMer Estos son los valores que más nos interesan de esta parte Coeficiente de determinación: 0. SUMA DE .0164 -0.1689 NivelEco CuotaMer -------. CuotaMer .Cuota de Mercado Matriz de coeficientes de correlación simple: -------------------------------------------% Paro -------1.4077 Coeficiente de determinación nos interesa en gran medida.0000 -0.0000 0.4219. Coeficiente de correlación múltiple: 0. y nos saldrán los resultados como los que pasaremos a analizar A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E =========================================================== IDENTIFICACIÓN DE LAS VARIABLES ------------------------------VARIABLE DEPENDIENTE: % Paro .6125 0. ya que es el porcentaje de la varianza explicada por este modelo.0369 0.6495 Coeficiente de regresión alfa: 6.1936 1. %VarPobl .1936 0. es saber si queremos incluir o no las variables independientes.--------0.0369 0. de derecho VARIABLES INDEPENDIENTES: 1.6125 0.Variación Población 91-98 (%) 2. NivelEco .0797 -0.0000 -0.Pulsaremos el botón “Calcular”. Otro aspecto importantísimo. PROPORC.0164 1. a la hora de estudiar nuestro modelo.0797 %VarPobl --------0.% Paro s/pob.Nivel Económico 3.1689 1. COEFIC. 3764 5. .8958 p=0.0676 0.0001 -0.-------% Paro 3.-------.DESVIACIÓN CUADRADOS VARIANZA VARIABLE MEDIA ESTÁNDAR AÑADIDA -------.1071 %VarPobl 1.0003 NivelEco 23.2800 MEDIA CUADRADOS --------------------8.9200 2.-------5.6462 p=0.7702 F de Snedecor con 3 y 46 grados de libertad = 11.5167 0.0001 0.1800 1.4098 2365.0000) El nivel de F de Snedecor no parece mostrar ningún problema (p=0.1889 (p= 0.9000 1.4219 ANÁLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIÓN ---------------------Debida a la regresión: Residuo: Varianza total: GRADOS LIBERTAD --------------3 46 ----49 SUMA CUADRADOS --------------------25.0900 0.7681 0. PARCIAL AÑADIDA ----------.1001 p=0.--------------------------------.0000).8521 0.8521 35.0000 1.7435 -0.4985 -5.0452 -----.4279 --------------------61.2977 0.0200 -0.6174 0.0643 -------------2 0.2692 CuotaMer 1993.4349 COEFICIENTE REGRESIÓN ERROR ESTÁNDAR T DE STUDENT CORREL.-------------.6823 -0.0164 0.8300 4.-------0.0294 0.---------. .DYT Comport.7.No La variable 5 tiene varias categorías.Dyt En la siguiente BBDD las variables que adoptan valores 1 o 2 son variables categóricas. por ejemplo la variable 6. tendremos que crear variables ficticias (en el menú Datos del Dyane). Si tuviéramos variables categóricas. Veamos con otra BD como hacer esto: C:\Docum ents and Settings\e97554\Escritorio\Rafa\COMPORT. Caso práctico 2 con DYANE. Para convertir las variables categóricas en variables métricas. que toma los siguientes valores: 1. Cabe destacar la posibilidad de manejar variables categóricas en el análisis de regresión múltiple.2.Si 2. Veámoslo gráficamente: . podríamos convertirlas en variables métricas y trabajar con estas nuevas variables en el análisis de regresión múltiple.. Ahora crearemos otra variable ficticia con la variable Clase Social. las variables ficticias que nos ha creado son: A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E =========================================================== . Con todo ello. y hacemos el análisis con las variables ficticias creadas. IDENTIFICACIÓN DE LAS VARIABLES ------------------------------VARIABLE DEPENDIENTE: FICTI_01 .Clase social: Media baja (1 = Sí. 0 = No) Matriz de coeficientes de correlación simple: -------------------------------------------FICTI_01 -------1. 0 = No) 2.3477 0.0000 7. FICTI_02 .2242 p=0.2896 1.3917 Coeficiente de regresión alfa: 0.3004 0.0000 0.4961 COEFICIENTE REGRESIÓN ERROR ESTÁNDAR T DE STUDENT CORREL. ya que la t de Student es menor para todas las variables.2922 -0.2634 FICTI_01 -------0.4617 0.05. FICTI_03 .0474 0.0000 -0. DESVIACIÓN CUADRADOS VARIANZA VARIABLE MEDIA ESTÁNDAR AÑADIDA -------. PROPORC.3867 FICTI_02 -------0. notamos que el modelo sólo nos esta explicando un 15 %.1610 0.8473 0.3356 0.5890 1.-------------.1534 FICTI_01 FICTI_01 FICTI_02 FICTI_03 Coeficiente de determinación: Si observamos el Coeficiente de Correlación.0839 FICTI_02 12.9897 0.0458 9.1018 0.4347 FICTI_01 0.0000 -0. por lo que llegaremos a la conclusión de que no podemos usar sólo esta variable. podemos aceptar todas las variables independientes.0261 0.Usa tarjeta de crédito: Sí (1 = Sí.0042 -----.0000 2.0522 0.Clase social: Media media (1 = Sí. 0 = No) 3.2188 0.0703 -------------2 Si establecemos un nivel de significación del 0. variable que hemos separado en varias ficticias para convertirla en una variable métrica.3867 -0.5189 0. Coeficiente de correlación múltiple: 0.2922 1.2896 0.1534 0.0776 p=0.5890 FICTI_03 --------0. .1598 -0.7947 0.-------FICTI_01 0.3675 15. FICTI_01 .Clase social: Alta/media alta (1 = Sí.3080 0.0653 FICTI_03 0.0215 COEFIC.0000 0.-------8. Es un porcentaje muy bajo. 0 = No) VARIABLES INDEPENDIENTES: 1. PARCIAL AÑADIDA SUMA DE ----------.-------.---------.2634 -0.--------------------------------.1598 -0.2530 0.4380 0.9394 p=0.------0. 1606 F de Snedecor con 3 y 996 grados de libertad = 60.0000) La f de Snedecor es otro indicador que hay que mirar también.1531 (p= 0.9897 160.9910 MEDIA CUADRADOS --------------------9.0013 --------------------188.ANÁLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIÓN ---------------------Debida a la regresión: Residuo: Varianza total: GRADOS LIBERTAD --------------3 996 ----999 SUMA CUADRADOS --------------------28.6632 0. Es un indicador importante. . Para ello seleccionamos continuación: el elemento de menú que vemos a Pulsando Aceptar. donde guardamos como fichero de datos. ya que el análisis de regresión múltiple del Dyane es bastante simple. Ahora trataremos de pasar una BBDD de Dyane a SPSS. siendo muchísimo más completo el análisis del SPSS.3. nos saldrá otra ventana.dat: . es decir . Exportar de Dyane a SPSS.7. Abrimos la base de datos que acabamos de crear para el SPSS. Y pasamos por las siguientes ventanas: ¡Cuidado! Este parámetro hay que cambiarlo .Ahora ya podemos entrar en SPSS. Menú Archivo/Datos. y desde el podremos trabajar con esta base de datos SPSS: Abrir la BBDD de formato texto. Ahora quitaremos la opción Coma y la opción Espacio: Una vez hemos hecho la transformación podemos dar nombre a las variables. tal y como queramos. seleccionando la pestaña “Vista de variables”: . niveleco y cotamer: El resultado se muestra a continuación. Para nuestro ejemplo queremos estimar la variable paro en función de otras tres. como son varipob. CUOTAMER. Variable dependiente: PARO Resumen del modelo Modelo 1 R R cuadrado .650 a . Regresión b Variables introducidas/eliminadas Modelo 1 Variables introducidas CUOTAMER.384 Error típ.422 R cuadrado corregida . Observamos que nuestro modelo explica un 42% del total. hacemos el análisis de regresión.Una vez hecho esto. Podemos ver que los resultados son los mismos que el Dyane. R cuadrado es el coeficiente de determinación. Método Introducir a. VARIPOB. VARIPOB.87759 a. Variables predictoras: (Constante). Todas las variables solicitadas introducidas b. a NIVELECO Variables eliminadas . . NIVELECO Aquí se explican los índices más importantes. de la estimación . 478 -. .408 . En el Dyane obtuvimos un valor muy parecido.090 . con distintas significaciones.064 a.617 . Variable dependiente: PARO Aquí metemos todas las variables independientes y vemos las consecuencias.682 -5. 6.189.852 35. NIVELECO b. Variable dependiente: PARO En el Análisis de Varianzas tenemos una F de Snedecor de 11.189 Sig.428 61.280 gl 3 46 49 Media cuadrática 8.029 -.896 Sig.744 1. Tenemos diferentes valores de t para cada variable.517 .413 -. Variables predictoras: (Constante). CUOTAMER.658 .499 .000 Coeficientes estandarizad os Beta -. debería ser muy parecida a R cuadrado. . VARIPOB. . En nuestro caso vemos que es una comparación muy subjetiva.000 .000 .078 -. a Coeficientes Modelo 1 (Constante) VARIPOB NIVELECO CUOTAMER Coeficientes no estandarizados B Error típ.R cuadrado corregida.220 t 13. b ANOVA Modelo 1 Regresión Residual Total Suma de cuadrados 25.770 F 11.000 .020 .000 a a. SPSS: Estimación por etapas. Ahora siguiente método seria la regresión lineal con el Método de Pasos Sucesivos. Este método es muy útil cuando el número de variables independientes es muy elevado. Hasta ahora, con el Dyane y con SPSS, hemos metido sólo 3 variables independientes. Normalmente, serán más. Si tenemos variables independientes elevado, es mejor usar esta segunda opción para saber si incluimos o eliminamos cada variable independiente: El resultado se muestra a continuación. Regresión a Variables introducidas/eliminadas Modelo 1 Variables introducidas Variables eliminadas NIVELECO . Método Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100). a. Variable dependiente: PARO Solo se ha seleccionado la variable nivel económico Resumen del modelo Modelo 1 R R cuadrado ,613 a ,375 R cuadrado corregida ,362 Error típ. de la estimación ,89313 a. Variables predictoras: (Constante), NIVELECO b ANOVA Modelo 1 Regresión Residual Total Suma de cuadrados 22,991 38,289 61,280 gl 1 48 49 Media cuadrática 22,991 ,798 F 28,822 Sig. ,000 a a. Variables predictoras: (Constante), NIVELECO b. Variable dependiente: PARO Ahora el nivel de f de Snedecor es totalmente distinto, siendo significativo. a Coeficientes Modelo 1 (Constante) NIVELECO Coeficientes no estandarizados B Error típ. 6,391 ,481 -,481 ,090 Coeficientes estandarizad os Beta -,613 t 13,289 -5,369 Sig. ,000 ,000 a. Variable dependiente: PARO b Variables excluidas Modelo 1 Beta dentro VARIPOB -,039 a CUOTAMER ,206 a t -,338 1,813 Sig. ,737 ,076 Correlación parcial -,049 ,256 Estadísticos de colinealidad Tolerancia ,999 ,963 a. Variables predictoras en el modelo: (Constante), NIVELECO b. Variable dependiente: PARO Análisis de Supuestos de la RM. Coeficiente estandarizado es importante para interpretar los datos. Cuando metemos las variables independientes en unidades distintas, el coeficiente de regresión beta, no son directamente comparables. Por eso, lo más útil es el coeficiente estandarizado. Lo veremos con el SPSS. Trabajo con SPSS Si tenemos valores perdidos en SPSS podremos utilizar la función de SPSS de “Reemplazar valores perdidos”. Es importante reemplazar estos valores con la media o con el valor estimado de regresión. Para realizar la regresión múltiple tenemos que cumplir varios supuestos: Supuestos generales • Linealidad.- Para esto podríamos visualizar gráficamente gráficos de dispersión.. • Normalidad.- Aquí tenemos dos opciones. o Podemos examinar histograma. Mediante el SPSS podemos examinar el Histograma de residuos o Podemos examinar gráficos de dispersión. En este caso examinamos variables • • Homocedasticidad.- Tendremos que aplicar el Análisis basado en t de Student. Usamos el valor t de Student para estandarizar los residuos (luego lo estudiamos) Ausencia de errores correlacionados.- Dos opciones: o Usar el Análisis anterior basado en t de Student o Usar el test de Durban-Watson Examinar Normalidad Para examinar la normalidad: Estudiaremos las siguientes tres variables: Ahora seleccionamos estadísticos, seleccionando solo descriptivos pero lo que realmente nos interesara en el gráfico Q-Q normal de varpobl: . muy importante seleccionar “Gráficos con pruebas de Normalidad” Nos salen una serie de datos.También en la parte Gráficos. Gráfico Q-Q normal de varpobl 3 2 1 0 Normal esperado -1 -2 -3 -10 0 10 20 Valor observado Se puede ver que la variable sigue una distribución normal Gráfico Q-Q normal de nivel economico 2 1 0 Normal esperado -1 -2 1 2 3 4 5 6 7 8 9 Valor observado Se puede ver que la variable sigue una distribución normal . Gráfico Q-Q normal de cuotamer 3 2 1 0 Normal esperado -1 -2 -3 -4000 -2000 0 2000 4000 6000 8000 10000 12000 14000 Valor observado Se puede ver que la variable tiene una no tiene una distribución exactamente normal. pero las tres variables concurren en una distribución normal. Para ver la linealidad se puede comprobar mediante “Generar todos los gráficos parciales” en SPSS (“Regresión Lineal” ”Gráficos” Seleccionar esta opción) . y varias variables independientes (varpobl. seleccionaremos: • Diagnósticos de colinealidad. y generamos todos los gráficos parciales para ver linealidad . Método = Introducir. • Durbin-Watson. Para ver Ya que nuestro interés es ver los supuestos generales y específicos En el botón “Gráficos”. nos lanzaremos a hacer la Regresión Lineal. Seleccionaremos para podremos ver la homocedasticidad.En la parte de Residuos.. Lo que queremos es predecir el paro en función de unas variables independientes (varpobl. que quiere decir que vamos a aplicar la Estimación Conjunta En el botón Estadísticos.Examinar Linealidad Una vez analizado el supuesto de normalidad.. niveleco y cuotamer). ZRESID significa residuo tipificado ZPRED significa regresión valor tipificado pronosticado Seleccionamos Histograma para ver normalidad de los residuos. nivel económico y cuota mercado). Para ello seleccionamos la variable paro como única variable dependiente.Nos saldrá el índice VIF y el valor de la tolerancia. 220 t 13. cuotamer.029 -.189 Sig.035 1. de la estimación . .413 -.408 . nivel economico b. Como regla general. este índice tiene que ser alrededor de 2.000a a. Si obtenemos el número cerca de 2 podremos interpretar la variable independiente como que no tienen errores correlacionados. Variable dependiente: paro Una regla general es que VIF tiene que ser menor que 2. Cuando tenemos un valor de tolerancia 0.000 . Variables predictoras: (Constante).2 o 0. varpobl.958 .617 .000 .064 Estadísticos de colinealidad Tolerancia FIV . varpobl.000 .658 . 6.896 Sig.478 -. para ver la ausencia de errores correlacionados.044 1.Regresión b Variables introducidas/eliminadas Modelo 1 Variables introducidas cuotamer. .3 denota elevada colinealidad.87759 Durbin-W atson 1.384 Error típ.020 .000 Coeficientes estandarizad os Beta -.280 gl 3 46 49 Media cuadrática 8. Variables predictoras: (Constante).744 1.078 -. Todas las variables solicitadas introducidas b. El valor de tolerancia reducido denota elevada colinealidad.499 . nivel a economico Variables eliminadas . . varpobl. cuotamer.895 a.517 .682 -5. Variable dependiente: paro El Test Durbin-Watson no lo hemos tenido hasta ahora.422 R cuadrado corregida . Método Introducir a.428 61.650 a . Variable dependiente: paro b Resumen del modelo Modelo 1 R R cuadrado . Variable dependiente: paro a Coeficientes Modelo 1 (Constante) varpobl nivel economico cuotamer Coeficientes no estandarizados B Error típ. nivel economico b. (Ver la parte de gráficos) b ANOVA Modelo 1 Regresión Residual Total Suma de cuadrados 25.932 1.852 35.074 a.966 .770 F 11.090 . 763 .El valor del VIF es el inverso del valor de tolerancia. significa elevada colinealidad.838 Máximo 5.771 Media 3.05 .000 Desviación típ.964 Proporciones de la varianza nivel (Constante) varpobl economico . tenemos el Coeficiente Estandarizado.437 . para comparar la importancia de las variables.4318 2.93 . podemos decir que no existe la multicolinealidad.00 . Mínimo 2. para ver que variable es mas importante.185 -1.9000 .04 .000 .034 Indice de condición 1.01 a. a Diagnósticos de colinealidad Modelo 1 Dimensión 1 2 3 4 Autovalor 2. Variable dependiente: paro a Estadísticos sobre los residuos Valor pronosticado Residuo bruto Valor pronosticado tip. .01 .02 . Variable dependiente: paro Gráficos .02 . Existen correlaciones muy altas entre las variables independientes.72636 .000 1.000 . Los coeficientes no estandarizados no son comparables directamente. Si el valor de tolerancia es muy bajo y el del VIF es muy alto.85031 1.0000 . Si VIF es elevado.01 .903 2. lo que tenemos es problema de multicolinealidad. Sin embargo.94 .01 .97 cuotamer .969 N 50 50 50 50 a.6133 -2.5672 2.02 .295 2. Residuo tip. Coeficientes (de beta) no estandarizados y Coeficientes (de beta) estandarizados.765 .97 .515 8.00 . Lo que podemos hacer es un Análisis de Componentes Principales y utilizar los factores que resulten como variables independientes para realizar el análisis de regresión.01 .3130 -1. Si ambos valores están cerca de 1. 50 2. típ.50 1.25 1.7. Gráfico de dispersión Variable dependiente: paro 3 2 Regresión Residuo tipificado 1 0 -1 -2 -3 -2 -1 0 1 2 3 Regresión Valor pronosticado tipificado El gráfico de la dispersión es el resultado de los valores estandarizados y los valores basados en t de Student.75 -1 Regresión Residuo tipificado Con este gráfico vemos la normalidad de los residuos.75 1. Para cumplir el supuesto de homocedasticidad observaremos esta dispersión.25 -1. pero supongamos que están dentro del límite y cumplen el supuesto de la normalidad.00 1. Aquí hay algunos valores fuera de la normalidad.200 0.25 2.55 -. 5 -.00 N = 50. En nuestro gráfico vemos que es bastante uniforme (porque cuando están los puntos AGRUPADOS en los dos extremos del grafico tenemos heterocedasticidad) .00 -1. Cuando observamos este gráfico tenemos que tener una dispersión uniforme y aleatoria (debe cumplir las dos condiciones).55 .00 75 2. = .97 Media = 0.00 2. y aceptamos la normalidad.50 -1.Histograma Variable dependiente: paro 10 8 6 4 Frecuencia 2 0 Desv.70 .20 -.5 . en el SPSS hacemos doble clic sobre este gráfico. Aquí podremos seleccionar: Opciones del diseño de dispersión: .Gráfico de regresión parcial Variable dependiente: paro 3 2 1 0 -1 paro -2 -10 0 10 20 varpobl Este vale para ver que tipo de relación existe entre dos variables. Y aceptamos Gráfico de regresión parcial Variable dependiente: paro 3 2 1 0 -1 paro -2 -10 0 10 20 varpobl La línea es linealidad Gráfico de regresión parcial Variable dependiente: paro 3 2 1 0 -1 -2 paro -3 -4 -3 -2 -1 0 1 2 3 4 nivel economico . No es que sea muy claro. pero por eso hay que tener una buena base teórica.Aquí vemos que tienen una relación lineal Gráfico de regresión parcial Variable dependiente: paro 3 2 1 0 -1 paro -2 -4000 -2000 0 2000 4000 6000 8000 10000 12000 cuotamer Gráfico de regresión parcial Variable dependiente: paro 3 2 1 0 -1 paro -2 -4000 -2000 0 2000 4000 6000 8000 10000 12000 cuotamer Puede que aquí también exista una relación lineal. . para poder justificar la inclusión de esta variable. Por otra parte.992 0.587 5.112 VIF 1.” Shintaro.804 0. ¿Cómo determinaría incluir o rechazar variables independientes utilizadas en una ecuación de regresión múltiple? 2.990 0.187 0. Hay que buscar la correlación parcial que tiene significación 2. La palabra clave es Correlación Parcial. Interprete el siguiente tabla: Variable X1 X2 X3 X4 X5 Tolerancia 0. Explique y relacione los siguientes términos: error de predicción y error estándar. 1. ¿Por qué es importante examinar el supuesto de linealidad cuando se utiliza la regresión? 3. ¿Por qué es importante examinar el supuesto de linealidad cuando se utiliza la regresión? .007 1. con el test t de student mediamos la significación de la correlación parcial de las variables independientes. ¿Cómo determinaría incluir o rechazar variables independientes utilizadas en una ecuación de regresión múltiple? “Por una parte.010 8. Y la expresaríamos mediante el valor del coeficiente del coeficiente t de student.Ejercicio 5 1. Explique la relación entre el coeficiente de determinación y el coeficiente de determinación ajustado.337 1. 4.896 5. apoyándonos en una base teórica fijaríamos el nivel de significación exigida y con ello determinaríamos si una variable debe salir de la ecuación o mantenerse. “El error de predicción es la diferencia entre los valores reales y el valor de predicción de la variable dependiente Y. En la regresión múltiple buscamos una combinación lineal. Buscamos una línea recta. “Porque el concepto fundamental del análisis de regresión que es el coeficiente de correlación esta basado en una relación lineal”. De la misma manera. el concepto de correlación es el de la combinación entre dos variables). Si no eliminamos las observaciones altamente correlacionadas la interpretación de los coeficientes de correlación podrían verse afectados negativamente por la multicolinealidad. dichos índices indican lo contrario: altos niveles de multicolinealidad.007 1.896 ¿Cómo podemos interpretar el valor de la tolerancia y el valor del VIF?¿Qué indican los índices tolerancia y VIF? Ausencia de multicolinealidad. Por eso buscamos variables independientes que expliquen la variable independiente. “Los valores de tolerancia superan todos el valor 0.804 0.80 indicando niveles de colinealidad muy reducidos. las dos variables restantes.010 8. 3. mientras que el error estándar es la desviación típica de los errores de predicción. Sin embargo.”Shintaro. Podíamos observar la matriz de correlaciones. es decir X3 y X5.0. . El VIF es la inversa de la tolerancia.187 0. mediante el coeficiente de correlación (que esta basado en una relación lineal. Shintaro.112 VIF 1. 4. Un error estándar mas pequeño implica una predicción mas segura.337 1.587 5. Interprete el siguiente tabla: Variable X1 X2 X3 X4 X5 Tolerancia 0. La diferencia entre el valor real y valor predicho es el error de predicción.990 0. pero es bastante subjetivo.992 0.La regresión Múltiple busca una combinación. los valores del VIF de dichas variables están muy próximos a 1. Por eso usamos estos dos índices. Explique y relacione los siguientes términos: Error de predicción y error estándar.” Shintaro. Nuestra misión es minimizar todos los errores de predicción. Para saber el % de la varianza explicada por el modelo. El coeficiente de determinación esta afectado por el numero de variables independientes relativas al tamaño muestral (relacionada con variables independientes y tamaño muestral). “El coeficiente de determinación (R ) es el coeficiente de correlación múltiple al cuadrado. El CDA (R ajustado) se hace mas pequeño a medida que tenemos menos observaciones por variable independiente. El valor corregido es el Coeficiente de determinación ajustado.” Shintaro. es necesario “corregir” la inflación de la R2. Para determinar el coeficiente de determinación tenemos que conseguir el coeficiente de correlación múltiple (R). 2 . Como dicho coeficiente esta afectado por el número de variables independientes relativas al tamaño muestral. y por ello es particularmente útil para comparar las diferentes ecuaciones de regresión estimadas con distintas variables independientes o diferentes tamaños muestrales. Explique la relación entre el coeficiente de determinación y el coeficiente de determinación ajustado. y nos da el coeficiente de determinación.5. Por tanto tenemos que corregir esta infracción. Dicha corrección da lugar al 2 coeficiente de determinación ajustado CDA. hay que subir al cuadrado. En el AD. Por regla general. Podemos comprobar que ambas dispersiones no están separadas del todo ya que tienen un solapamiento. Introducción. 2. una zona en común. que separe o diferencie claramente cada grupo. En el eje D situamos las dos distribuciones y los puntos medios de cada distribución proyectados cortan las nubes de puntos en dirección a su eje y coinciden con los puntos medios de cada nube de puntos. + Xn donde Y es la variable dependiente y Xn son las variables independientes. Supuestos del AD. es decir. Casos prácticos con DYANE.. 4. Introducción. Debido a esto último. 6.. Términos y conceptos básicos del AD. que es una función combinación lineal de las dos variables X1 y X2. 3. Definición y objetivo. 5. El AD consiste en predecir a que grupo pertenece un determinado individuo. en el AD tenemos que calcular un valor teórico D. es por lo que a estos puntos situados en D se les llama centroides. Diseño del AD. . las variables dependientes independientes son métricas. Cada dispersión está asociada a las variables X1 y X2.TEMA 6: EL ANÁLSIS DISCRIMINANTE Estructura de la clase: 1. Y = X1 + X2 + X3 + . son categóricas y las Queremos encontrar la línea de corte que separe o diferencie los dos grupos. Para ello. Las variables Y tienen que ser métricas y la X categórica. En DYANE se utiliza este test estadístico para calcular la FD y analiza la correlación entre múltiples variables tanto dependientes como independientes. De estas puntuaciones nos interesa saber el centroide o media de la distribución para luego comprobar si existen diferencias significativas entre ambas medias. Evidentemente si lo son. tenemos que calcular sus respectivos valores teóricos (por ejemplo medias) y aplicar un test para saber si estos valores son significativamente diferentes. que es una combinación lineal de dos (o más) variables. Definición y objetivo. Los objetivos de esta técnica son: a) determinar si existen diferencias estadísticamente significativas entre los perfiles de dos (o más) grupos.. b) determinar cuál de las variables independientes cuantifica mejor dichas diferencias. podemos separar ambas distribuciones para poder así identificar a que grupo pertenece un individuo cualquiera. Conceptos y términos básicos del AD. La combinación lineal es de la siguiente forma Z = a + W1X1+ W2X2 + . El AD es una técnica multivariante de predicción que se emplea cuando la variable dependiente no es métrica y las variables independientes son métricas.. + Yn = X1 .) Cada punto del eje D. para distinguir o discriminar dos grupos estadísticamente. El AD es el caso contrario al MANOVA donde Y 1 + Y2 + . . Esta función es la que separa los grupos. 1) Función discriminante: (FD) El AD clasifica dos (o más) grupos mediante una función discriminante.Como se comprobará más adelante.. Z: puntuación Z discriminante Son el conjunto de valores que nos van a servir para discriminar los grupos. 2) Análisis de correlaciones canónicas (DYANE): analiza la relación entre múltiple variables dependientes y múltiple variables independientes. representa una puntuación Z Discriminante.. c) establecer el número y la composición de las dimensiones de la discriminación entre los grupos.. + WnXn ( a es cte.. .025 .391(*) 5) Matriz de confusión (DYANE y SPSS): es una tabla de doble entrada en la que en las filas se indica la pertenencia real al grupo correspondiente.347(*) .352 .107 .436 -.409 -. Son análogas a las cargas del ACP. W2.179 -.450 -. son los W1.104 .MUY IMPORTANTE: Tanto DYANE como SPSS nos proporcionan el mismo número de grupos pero los resultados de los test son distintos.435(*) .. es decir.348(*) .183 -.334 .234 . Son los pesos de la FD.278 2 .570 . Con esta matriz obtenemos las variables asociadas a cada FD (están marcadas por *).665 .382 . Matriz de estructura Función 1 q2 q16 q3 q6 q1 q7 q17 q18 q15 .121 . 3) Coeficientes estandarizados de las funciones discriminantes canónicas (SPSS): Cuando se ignora el signo.266 .017 .. la estimada por el AD. y en las columnas.497 -. Wn Función 1 q1 q2 q3 q6 q7 q15 q16 q17 q18 .462(*) . Grupo 1 Grupo Real 17 1 Grupo Real 1 Grupo 2 1 13 Grupo 3 1 0 Total 19 14 .106 -.542(*) .264 .588 -.335 2 -.208 -.223 .527(*) .004 .677 4) Cargas discriminantes (SPSS): Las cargas discriminantes (también denominadas correlaciones de estructura) miden la correlación lineal simple entre cada variable independiente y la función discriminante..426(*) .202(*) . cada coeficiente representa la contribución relativa de su variable asociada a esa función. 75% (19 + 14 + 15) 6) Representación gráfica mediante un mapa territorial (SPSS): funciones discriminantes canónicas 4 3 2 3 1 0 -1 2 1 country Centroides de grupo 3 Función 2 -2 -3 -4 -2 0 2 4 2 1 Función 1 .2 Grupo Real 0 3 Total 18 0 14 15 16 15 En DYANE obtenemos el porcentaje de asignaciones acertadas de la siguiente forma: (17 + 13+ 15) = 93. Usando una serie de índices obtenidos por programas informáticos.03 es aceptable). Dependiente) y en el eje X (var. Ha de ser > 0.Igualdad de dispersión (M de Box). Tanto generales como específicos Estimar las funciones discriminantes. Independiente). igual que en los analizas de interdependencia. Interpretar los resultados mediante una representación gráfica. . Para ausencia de multicolinealidad el valor del VIF debe ser menor de 2. Examinar los supuestos. Utilizamos programas informáticos Determinar la influencia global de las funciones discriminantes (Autovalores y Lambda de Wilks en SPSS). En SPSS se utiliza el método de inclusión por etapas (o pasos). (Debido a esto. Determinar el nivel de precisión predictiva de las funciones discriminantes (Matriz de confusión). Este mapa se llama Mapa territorial.Supuestos del AD.Ausencia de la multicolinealidad.05 (no significativo). Para comprobar el supuesto de igualdad de las matrices de covarianzas con dispersión uniforme. Es algo muy breve Seleccionar variables dependientes e independientes. Un método de validación mas popular es dividir la muestra en dos grupos.Linealidad. ver si tiene sentido usar esas funciones discriminantes. Tendremos que tener al menos 20 observaciones por cada variable independiente. Validar los resultados. nos situamos es Gráficos -> Dispersión -> Dispersión simple definiendo en el eje Y (var. hasta 0. . Tenemos que preparar la matriz de confusión para saber si estamos clasificando los datos correctamente.Normalidad . Tendremos que entender los tipo de variables y escalas usados en la encuesta Determinar el tamaño muestral. Supuestos específicos: . Hay que expresar los objetivos claramente. Diseño del AD. Con este método obtenemos una medida del VIF. Supuestos generales: . Veremos como calcular porcentaje de clasificación. Para comprobar la linealidad en SPSS. Determinar objetivos. Atención: es muy sensible respecto a otros factores como la normalidad de las variables y el tamaño muestral. El resto de variables Variable .Tipo de Promoción independiente. y SPSS muestra demasiada información.Casos prácticos Casos Prácticos con DYANE Muy importante saber que los datos del Dyane y SPSS es distinta. Queremos ver si existen diferencias significativas. Variable dependiente.. Han estudiado 4 generaciones de estudiantes de empresariales. La investigación fue hecha por el creador del Dyane para ver actitudes hacia la empresa y los sistemas económicos de los estudiantes. La salida del Dyane es muy limitada. Debemos seleccionar que tipo de datos incluiremos en el trabajo.. El empresario sólo explota a los trabajadores.6207 3.8025 3.2683 2.1935 2. -----------------------------------------------------------------------------VARIABLE MEDIAS MEDIAS MEDIAS MEDIAS MEDIAS PREDICTOR GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTALES -----------.EPU_OBEC 2. 15.ECSOLMER 3. 8.2333 2. 9. 4.2414 2. El empresario debe ser admirado por la sociedad porque crea riqueza.1034 3. EMPR_EXP. BEN_OBJ1. 6.CRITERIO): GRUPO 1. 12.3387 3.-----------.3902 3.5333 1. 2. La economía de mercado proporciona una asignación de recursos mejor que la obtenida con la economía planificada por el estado.-----------. ECME_PLA.DIRE_SUF 1.5610 1.6667 4. con indemnización. ECSOLMER.EMPR_CRE 2. PROMOC_A: Sexta (84/85) VARIABLES PREDICTORAS: 1. permitiría la creación de puestos de trabajo.4136 8.1220 2.6207 2.2069 3. El beneficio deber ser el primer objetivo de la empresa 13.0000 4.9012 5.0484 2. SOCIALIS. DESP_LIB.3333 2.3710 2.8210 6. La dirección de la empresa debe ser elegida por sufragio universal.9655 2.SOCIALIS 2.3793 2. El comunismo es la mejor doctrina económica.7667 2.0323 2. La posibilidad de despido libre. El socialismo es la mejor doctrina económica.EPU_OBSO 4. por todos los trabajadores de la empresa.9756 3.COMUNISM 1. creando necesidades aparentes.6829 2. MARK_NEC.6552 2.Tenemos la salida del Dyane A N Á L I S I S D I S C R I M I N A N T E M Ú L T I P L E ============================================================= IDENTIFICACIÓN DE LAS VARIABLES ------------------------------GRUPOS (VAR. 10.0968 3.7805 3. DIRE_SUF.-----------. 5.4000 3.-----------1. Todas las empresas deberían realizar el balance social. La economía social de mercado es la mejor doctrina económica.5323 3.6774 1.1774 2.2667 2. BENSOLAC. PROMOC_A: Tercera (81/82) GRUPO 2.-----------.7561 3.6667 2.1235 4. 14.DESP_LIB 2. BAL_SOCI. EPU_OBSO.LIBERAL 2.4483 1. Aquí tenemos la tabla de medias para cada variable independiente por cada grupo. El liberalismo es la mejor doctrina económica. En la distribución de los beneficios deben participar sólo los accionistas. PROMOC_A: Quinta (83/84) GRUPO 4. 7. LIBERAL.5862 3.8333 3. El marketing es sólo un método para vender más.2000 2.5802 10.8580 7.1667 2.9198 . La empresa pública puede cumplir los objetivos económicos mejor que la privada. PROMOC_A: Cuarta (82/83) GRUPO 3. 11.9756 3.5556 9.ECME_PLA 3. COMUNISM. EMPR_CRE. EPU_OBEC. La empresa pública puede cumplir los objetivos sociales mejor que la privada 3.1613 2. 0302 0. Var. Var.6131% VARIABLE CANÓNICA 3 ---------0.2037 ------------------------------------------------------------------------------ Una de las características del Dyane es que utiliza el sistema de correlaciones canónicas.1213 0.EMPR_EXP 2.0843 0.2168 0.0531 -0.4968 -0.8966 2. Var. Var. CORRELACIONES CANÓNICAS: -----------------------VARIABLE CANÓNICA 1 ---------Coeficiente de correlación: 0. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 0.0734 0. Var.2333 2.BENSOLAC 2.0732 2. La canónica 2 explica casi el 30% de la varianza.1381 0. Entonces si tiene mayor coeficiente variable significa que tiene mayor contribución a la capacidad discriminante. Var.4873 -0.2486 -0.9301% Coeficientes variables: Var.6468 -0.1430 29.2750 % varianza explicada: 56.BAL_SOCI 4. Var.0650 13.5146 0.7581 1.0000 2.3701 VARIABLE CANÓNICA 2 ---------0.4271 0.1379 2.2216 0. no dice que variable tiene significación estadística nos ofrece representación grafica.1951 4.2097 4.5667 3. La variable canónica 1 explica casi el 56 % de la varianza total.1389 0.4779 0.7317 1.1342 -0.1063 -0.0161 2.1111 14. Var. Solo mirando la salida del Dyane no podemos decir que variable tiene significación estadística.2178 0.1911 -0.0316 -0.1624 -0.2939 0. Var.4718 -0. y aparece el análisis.4568% Correlaciones variables es más difícil de interpretar.3659 2. Var.MARK_NEC 2.3083 0.7586 2.3986 0.1034 1.0407 0.3083 -0.0109 -0. Pero el Dyane no ofrece mas datos.11. cada una corresponde a una columna.1594 0. Son los coeficientes de una combinación lineal. Var.2710 0. Según Shintaro. .8519 13.3761 -0. Estos coeficientes corresponden a W1 W2.0285 -0. Var.8333 1.4667 4.2304 0. Var.6290 2.1499 0. Var. es que no indica que variable tiene significación estadística.1782 0.3103 4.8272 12.2683 2. etc.0484 2.0361 0. una mayor limitación del Dyane.3946 0.BEN_OBJ1 2.1978 0.1261 -0.0842 0.4193 -0.1425 -0.2716 15. Tenemos 3 funciones discriminantes.1929 -0. Sin embargo SPSS ofrece representación gráfica.3128 -0.4206 -0. Var.6657 0.1495 0.8475 -0. Var.2895 0. Var.3537 -0.1164 -0.7722 0.8489 -0.0964 -0.2953 -0. Var.3563 0.0707 0.6062 0. Sin embargo vemos que hay miembros mal clasificados: En grupo 1: 17 miembros bien clasificados En grupo 2 hay 3 mal clasificados. etc… Matriz de confusión calculada con todas las funciones discriminantes (mayor número de aciertos) ASIGNACION SEGUN FUNCIONES DISCRIMINANTES ---------------------------------------------GRUPO GRUPO GRUPO GRUPO 1 2 3 4 TOTAL ---------------------17 3 7 2 29 7 13 3 7 30 8 6 20 7 41 5 15 15 27 62 ---------------------37 37 45 43 162 GRUPOS REALES ------------1 2 3 4 TOTAL Por tanto nuestra conclusión final es el porcentaje de la calcificación correcta.0870 -0. facilitando la interpretación.2146 0.9281 0.3134 -0. Son centroides expresados en puntuaciones Z discriminante.5266 -0.1872 En la matriz de confusión tenemos la asignación según funciones discriminantes. clasificación predicha según el A D. Var.0486 -0. . A la izq. Var.4125 -0. Var. Var.0983 0.7699 -0. el grupo 2 con 13 y grupo 3 con 15 y el 4 con 27. Var.4248 0.8618 0. que es 47. El grupo 1 esta con 17 miembros.2985 0.6536 0.7767 -0.3006 0. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 0.53%.5891 0.6946 0.6202 -0.6724 0. Centros de gravedad: Grupo Grupo Grupo Grupo 1 2 3 4 0.3540 -0.4933 0.5617 0. Var. Var. expresan los centroides de cada grupo.8576 0. Pero es muy difícil interpretar mirando simplemente estas cifras.1382 -0.5710 0.Correlación variables: Var.4221 -0. es decir.4188 -0.9484 0. Var.1995 0. tenemos grupos reales.8850 -0.9575 -0.3029 Los centros de gravedad.6119 -0. Es muy difícil ver la relación entre los 4 centroides.8034 0. Var.7224 -0.2272 -0.0663 0.9038 -0.1871 0.2712 0. Var.5243 -0. 4753 (29 + 30 + 41 + 62) PORCENTAJE DE ASIGNACIONES ACERTADAS POR LAS FUNCIONES DISCRIMINANTES: 47. tendremos que utilizar el Análisis de la varianza o ANOVA . Entonces. ya que el Dyane no ofrece este análisis en el AD. Cuando tenemos que comparar 4 medias y saber si son estadísticamente distintas.Un 47. En nuestro caso hablamos de 4 grupos.= 0.53% de los encuestados están correctamente clasificados. tenemos que sumar las cifras en diagonal (17 + 13 + 20 + 27) Después dividimos el número total de grupos reales: (17 + 13 + 20 + 27) -----------------------------. el A de la varianza es para ver si existe diferencias significativas entre 3 o mas medias.53% El autor del Dyane recomienda hacer un análisis de la varianza (ANOVA) para ver que variables son relevantes. ¿Cómo se calcula este número? Para ello. Cuando queremos averiguar si existen diferencias significativas entre dos medias usamos el test t de Student. Tipo de grupos ANÁLISIS DE LA VARIANZA (Unidireccional) ======================================== VARIABLE DEPENDIENTE: La empresa pública puede cumplir los objetivos económicos mejor que la privada.En el Dyane podemos usar este análisis fácilmente. Para ello: Variable Dependiente. (EPU_OBEC) VARIABLE TRATAMIENTO: Promoción (curso) (PROMOC_A) ...EPU_OBEC Variable Tratamiento. 0053 0.8825 0..8418 Suma .8387 132.5000 29 30 41 62 2.5356) De aquí nos interesa esto. 29.0323 1..6613 MEDIA CUADRADOS --------------0.6790 Total Grupos variable tratamiento .2414 2.0137 F de Snedecor con 3 y 158 grados de libertad = 0.9377 0.9548 Suma de cuadrados --------------147.Total Grupos variable tratamiento --------------Tercera (81/82) Cuarta (82/83) Quinta (83/84) Sexta (84/85) Número de casos -------162 Media --------------2.5000 Proporción de varianza explicada por los tratamientos R² = 0.8396 FUENTE DE VARIACIÓN --------------------Entre los grupos: Dentro de los grupos: Total: GRADOS LIBERTAD --------------3 158 ----161 SUMA CUADRADOS --------------1.2683 2. Sale que no existen diferencias significativas..6129 0.3103 23.9112 Suma de cuadrados --------------134.8025 Desviación estándar --------------0.1667 Desviación estándar --------------0..3667 36.2333 2.0488 43.9355 --------------132. por tanto las 4 medias son estadísticamente iguales Entonces ahora seleccionamos la 2ª variable y variable tratamiento la misma de antes: ANÁLISIS DE LA VARIANZA (Unidireccional) ======================================== VARIABLE DEPENDIENTE: La empresa pública puede cumplir los objetivos sociales mejor que la privada (EPU_OBSO) VARIABLE TRATAMIENTO: Promoción (curso) (PROMOC_A) Número de casos -------162 Media --------------3.7300 (p= 0.6613 -----------134. 1810 (p= 0.9756 3..6615 1.9756 71. EPU_OBSO. La empresa pública puede cumplir los objetivos sociales mejor que la privada .2674 MEDIA CUADRADOS --------------2.2674 -----------147.. las seleccionamos y realizamos el A D: Las medias de las variables seleccionadas son estadísticamente distintas. El Autor recomienda que se haga este análisis de la varianza para cada variable independiente..1667 14.4116 139.CRITERIO): GRUPO 1. A N Á L I S I S D I S C R I M I N A N T E M Ú L T I P L E ============================================================= IDENTIFICACIÓN DE LAS VARIABLES ------------------------------GRUPOS (VAR.6044 1. PROMOC_A: Cuarta (82/83) GRUPO 3.0256) Ahora si son significativas para esta variable.6790 Proporción de varianza explicada por los tratamientos R² = 0. PROMOC_A: Tercera (81/82) GRUPO 2.6897 40.8039 0. 12.1571 0.--------------Tercera (81/82) Cuarta (82/83) Quinta (83/84) Sexta (84/85) 29 30 41 62 4. PROMOC_A: Sexta (84/85) VARIABLES PREDICTORAS: 1.. La mejor recomendación es realizar MANOVA.4355 --------------139. Una vez que sepamos las variables independientes tienen diferencias significativas.1034 3. PROMOC_A: Quinta (83/84) GRUPO 4.0734 Suma .8814 FUENTE DE VARIACIÓN --------------------Entre los grupos: Dentro de los grupos: Total: GRADOS LIBERTAD --------------3 158 ----161 SUMA CUADRADOS --------------8.8333 3. que luego miraremos.5323 0.0570 F de Snedecor con 3 y 158 grados de libertad = 3. creando necesidades aparentes.8580 3. 4.0036 -0.0750 23.3659 2. CORRELACIONES CANÓNICAS: -----------------------VARIABLE CANÓNICA 1 ---------Coeficiente de correlación: 0.-----------.LIBERAL 2.1454% VARIABLE CANÓNICA 2 ---------0.8025 2.4848 0.3793 2.6940 -0.833 Grupo 3.-----------.2923 -0. Tenemos 4 medias: Grupo 1.9756 Grupo 4. El empresario debe ser admirado por la sociedad porque crea riqueza.1034 Grupo 2.BEN_OBJ1 2. LIBERAL.EMPR_CRE 2.5323 3.3326 -0.MARK_NEC 2.5667 3.7905% Coeficientes variables: Var.1935 2..2220 Correlación variables: . La función 1 explica la mayor parte de la varianza.3. ¿Como podemos saber que las 4 medias son distintas? Tendremos que realizar el Análisis de la varianza.9198 4.3.7805 3.8333 3. 3.3433 0.8519 5.5780 0.0718 0..EPU_OBSO 4.7586 2..2. El marketing es sólo un método para vender más.8966 2. -----------------------------------------------------------------------------VARIABLE MEDIAS MEDIAS MEDIAS MEDIAS MEDIAS PREDICTOR GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTALES -----------.-----------1.2069 3. 5. para ver si existen diferencias significativas entre las 4 medias.1774 2. El beneficio deber ser el primer objetivo de la empresa MARK_NEC.8015 -0. Var.2037 ------------------------------------------------------------------------------ Ahora la función discriminante 1 explica el 69% de la varianza.1747 0.5323 ….7667 2. Var.9756 3.0732 2. El liberalismo es la mejor doctrina económica.2249 % varianza explicada: 69.3.2333 2.2667 2.6341 -0.0161 2. BEN_OBJ1.6770 0.7561 3.1034 3. EMPR_CRE. La 1ª variable (EPU_OBSO) esta contestada con escala de likert.3377 -0.-----------. Lo que nos interesara de ese análisis es el nivel de significación p. 1 2 3 4 5 EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC 0. Var.0641% VARIABLE CANÓNICA 3 ---------0.0253 7. Var.-----------..6290 2. Tiene más capacidad discriminatoria.4.5870 0. La variable canónica 2 explica el 23%. 2914 -0. Var.9464 -0. para realizar un análisis estadístico más eficaz.3036 -0.1257 -0.2747 -0.1219 -0. lo cual es bastante ilógico.4663 0.7168 -0. 1 2 3 4 5 - EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC 0.7064 0.3868 -0.3853 -0.4037 -0. ya que deberíamos haber mejorado y no ha sido así. hay que meter las variables que tienen medias distintas estadísticamente.6792 0.2992 0.1253 Veamos la matriz de confusión.1389 -0.Var.06% .1431 Centros de gravedad: Grupo Grupo Grupo Grupo 1 2 3 4 0.3400 0.7231 0. Hemos eliminado variables.9445 0.8898 -0. Con esta matriz podemos decir que 14 personas del grupo 1 están bien clasificadas 13 personas del grupo 2 están bien clasificadas … Calculamos el porcentaje de clasificación.2558 0.2129 -0.0442 0. pero La intención del autor es que en vez de meter todas las variables. Var.0868 0. Con el Dyane no se puede ofrecer más información.1255 0. Ahora hemos bajamos.6932 -0. Var. Var. Matriz de confusión calculada con todas las funciones discriminantes (mayor número de aciertos) ASIGNACION SEGUN FUNCIONES DISCRIMINANTES ---------------------------------------------GRUPO GRUPO GRUPO GRUPO 1 2 3 4 TOTAL ---------------------14 3 6 6 29 4 13 6 7 30 6 8 22 5 41 8 14 16 24 62 ---------------------32 38 50 42 162 GRUPOS REALES ------------1 2 3 4 TOTAL PORCENTAJE DE ASIGNACIONES ACERTADAS POR LAS FUNCIONES DISCRIMINANTES: 45. SPSS tiene 2 posibilidades: 1) Estimación Simultánea (Conjunta) 2) Estimación por Etapas. Realicemos el mismo Análisis con el SPSS. la salida solo incluiría las variables independientes que fueran estadísticamente significativas en las funciones discriminantes. Si seleccionamos esta opción. desde una perspectiva global.El programa realiza los datos paso a paso para seleccionar las variables independientes que tienen significación estadística. En SPSS podemos realizar el A de la varianza para todas las variables independientes que seleccionemos.Casos prácticos con SPSS: Estimación Simultánea. Usaremos las mismas variables que en el Dyane: . En la estimación simultanea no lo sabríamos (el Dyane lo hace con estimación simultanea y nos inventamos un método para verlo). Por eso sabríamos que variable independiente tendríamos que incluir.. Tendremos que definir el rango. por ejemplo las primeras 15: Seleccionamos estadísticos.Para ver la dispersión uniforme en la matriz de covarianzas .. sin seleccionar demasiados para no liarnos: ANOVA M de Box. así definimos de 1 a 4 Ahora seleccionamos 15 variables independientes. Ahora seleccionamos el tipo de clasificación De momento no guardaremos nada Discriminante . 0 Pruebas de igualdad de las medias de los grupos Lambda de Wilks .989 .923 . En nuestro caso serán: EPU_OBSO LIBERAL …Si nos fijamos. son las mismas que las que seleccionamos en Dyane.026 .156 .399 . que variable debemos incluir.181 .642 .958 . Así en lugar de realizar 15 análisis de la varianza como en el Dyane. puede usarse igual para el análisis de la varianza.Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos.311 .005 .901 .0 .641 .857 .943 . Para ello incluiremos aquellas que tengan un nivel de significación menor de 0.077 .660 .329 .930 F .979 .054 . Tenemos el nivel de significación.534 1.562 .953 .932 .05.986 .203 3.996 . .001 . podremos saber que variables tienen significación estadística.0 0 .234 2.0 0 162 .371 .978 .560 5.0 . entonces podremos saber que variable tiene significación estadística.873 .934 gl1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 gl2 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158 Sig.771 1.991 3. el código de grupo y al menos una de las variables discriminantes.011 . Total excluidos Casos Totales N 162 0 0 Porcentaje 100.595 4.982 .010 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC El valor teórico F.730 3.328 2. .0 100.536 .989 .990 . 087 -5. Tal y como hicimos en el análisis de componentes principales.813 1.358 Los rangos y logaritmos naturales de los determinantes impresos son los de las matrices de covarianza de los grupos.029 Contrasta la hipótesis nula de que las matrices de covarianza poblacionales son iguales. Resumen de las funciones canónicas discriminantes Esta es la información más importante.03 es aceptable. Entonces hasta 0.029. aquí también se utiliza el concepto de autovalor (Recordatorio de Autovalor. Nos fijaremos en el nivel de significación de test M de Box.147 360 32104.883 . Tenemos 0. pero en clase se explico que el examen M de Box es muy sensible respecto a la normalidad de variables y al tamaño muestral.Análisis 1 Prueba de Box sobre la igualdad de las matrices de covarianza Logaritmo de los determinantes PROMOC_A 1 2 3 4 Intra-grupos combinada Rango 15 15 15 15 15 Logaritmo del determinante -9. Resultados de la prueba M de Box F Aprox.). La función 1 tiene mayor nivel de autovalor. La función 1 explica un 61 % La función 2 explica un 27 % La función 3 explica un 11 % ¿Pero que funciona discriminante es estadísticamente significativo? Para saber esto tendremos que hacer un examen estadístico de Lambda de Wilks..003 -6. Por tanto. .691 -3. gl1 gl2 Sig.544 -2. 510. Es el examen estadístico mas importante en el A D. La función 2 y 3. es menor. Aquí podemos saber que función discriminante tenemos que considerar. Ha salido significativo. más o menos aceptamos este nivel de significación. 6 . Esto se utiliza también para MANOVA.801 .679 Solo la función discriminante 1 tiene nivel de significación estadística suficientemente alto.0 Correlación canónica .167a 27.216 Función 3 tiene un nivel de significación = 0. .581 .1 a .7 100. Por eso.001 Función 2 tiene un nivel de significación = 0. Tenemos 3 niveles de significación. pero mirando los autovalores no sabemos que función discriminante tiene significación estadística.564 10.935 Chi-cuadrado 82. . por eso consideraremos solo la función discriminante 1. Se han empleado las 3 primeras funciones discriminantes canónicas en el análisis.524 . sólo consideraremos la función discriminante 1 Autovalores Función 1 2 3 Autovalor % de varianza .216 .378 .679 Es muy importante saber interpretar estas dos tablas.379a 61. Función 1 tiene un nivel de significación = 0.001 . La Fon discrimínate 1 tiene significación estadística suficientemente alta.276 33.181 gl 45 28 13 Sig. para eso tenemos que usar la lambda de Wilks.070 11. Podemos decir que la función 1 explica la mayor parte de la varianza. Lambda de Wilks Contraste de las funciones 1 a la 3 2 a la 3 3 Lambda de Wilks .3 % acumulado 61.6 88.255 a. 172 .498 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 1 -.192 -.420 .369 Son coeficientes estandarizados. Tenemos 5 con medias estadísticamente significativas. La 2ª información obtenida de la prueba de igualdad entre grupos es que tenemos que incluir en la función 1 como variable independiente la EPU_OBSO.042 -.169 -.463 -.492 -. luego LIBERAL.090 .452 .509 -.429 -.228 .061 .429 .098 -. .043 .161 .035 -.348 -. BEN_OBJ1 y MARK_NEC Para interpretar la función 1 tenemos que tener en cuenta el signo de coeficientes estandarizados.139 .203 .279 .224 .205 -.148 .037 .Coeficientes estandarizados de las funciones discriminantes canónicas Función 2 .129 -.012 . Sabemos que variables independiente tenemos que considerar para el análisis.293 .236 . Por tanto el mayor valor indica el mayor peso.029 -.291 .537 . por tanto son análogos a los coeficientes de regresión beta estandarizados.360 .142 -. EMPR_CRE.144 -.447 -.224 .153 -.202 3 .721 .086 -.114 -. Cada promoción tiene centroide distinto. que son análogas a las cargas del Análisis de Componentes Principales.611 3 -.249 -.249 -.460* .025 -.078 -.127 .411 .287 .140* .983 .011 EMPR_CRE LIBERAL EPU_OBSO COMUNISM ECSOLMER DESP_LIB BEN_OBJ1 ECME_PLA MARK_NEC BAL_SOCI BENSOLAC SOCIALIS EPU_OBEC EMPR_EXP DIRE_SUF 1 .103 PROMOC_A 1 2 3 4 1 -.434* -.133* Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.526 .314 .364 .039 .253 -.148* -.263* -.347 . Tenemos la matriz de cargas.112 -.183* -.054 -.106 -. Pero podemos interpretar estos números observando el signo de cada número.224 .165 .187 -. Funciones en los centroides de los grupos Función 2 -.468* . Pero es más fácil verlo en la representación gráfica.376* -.397* -.154 -.244* .393 -.382* .073 .212 -.296 .059 .016 -.114 -.110 -.191 Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos Hemos obtenido datos parecidos con el Dyane. como el Mapa territorial .510* .309 -.220 .342 -.106 -. expresan pesos.303* .344* .334 -.092 3 . También se puede ver lo anterior en la matriz de estructura.Matriz de estructura Función 2 -.609 .103 . *. Mayor correlación absoluta entre cada variable y cualquier función discriminante.232 -. 250 .000 62 62.000 PROMOC_A 1 2 3 4 Total Previas .250 .000 162 162.250 .000 30 30.250 1.000 41 41.000 .Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos 162 0 0 162 Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados Probabilidades previas para los grupos Casos utilizados en el análisis No ponderados Ponderados 29 29. 0 34 34 3 34 1333 34 11133 34 11333 34 1.0 2.0 2.0 .0 3.0 11133 34 11333 34 11133 34 11333 * 34 11133 34 11333 34 * .0 -1.0 1.0 12 -3.0 34 34 34 34 34 34 2.0 12 12 12 12 12 12 -3.0 1.0 Función discriminante canónica 1 Símbolos usados en el mapa territorial Símbol -----1 2 3 4 Grupo ----1 2 3 4 Etiqu -------------------- * Indica un centroide de grupo .0 -1.0 -2.0 -2.0 12 222444 12 2224444 12 2222444 12 222444 12 2224 12 2 -2.Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0) Discriminante canónica Función 2 -3.0 11133 34 1133332444 * 1122 222444 12 222444 12 * 2224444 12 2222444 -1.0 .0 3.0 3. 1 6.0 10.funciones discriminantes canónicas 3 2 1 3 1 4 2 0 PROMOC_A Centroides de grupo 4: Sexto 3: Quinto -1 Función 2 -2 2: Cuarto -3 -4 -3 -2 -1 0 1 2 3 4 1: Tercero Función 1 Estamos mirando centroides 1. depende de las preguntas.0 100. Desde el punto de vista de la función discriminante 1.0 23.1 8.0 100.1 21.9 26.0 100.3 24. Ahora. 3 y 4.2 51.3 19. .2 Total 29 30 41 62 100.8 45. Clasificados correctamente el 48. 2.1% de los casos agrupados originales. tenemos que interpretar la interrelación entre cada grupo a Resultados de la clasificación Original Recuento % PROMOC_A 1 2 3 4 1 2 3 4 Grupo de pertenencia pronosticado 1 2 3 4 17 3 7 2 8 12 3 7 8 5 21 7 5 13 16 28 58.6 10.0 25.5 12.2 17.0 a. los grupos mas discriminados son los grupos 1 y 4.7 40. Casos prácticos con SPSS: Estimación por Etapas. Ahora veremos el método de inclusión por etapas . 562 .901 .560 5.923 .978 .203 3.536 .857 .0 Pruebas de igualdad de las medias de los grupos Lambda de Wilks .0 .991 3.986 .595 4.311 .534 1.930 F .989 . Total excluidos Casos Totales N 162 0 0 Porcentaje 100.982 .958 .934 gl1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 gl2 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158 Sig.990 .730 3.771 1.054 .641 .0 0 .996 .932 .329 .328 2.660 .005 .181 .873 .989 .642 . el código de grupo y al menos una de las variables discriminantes.953 .001 .011 .399 . .0 100.077 .Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos.0 .979 .0 0 162 .234 2.156 .026 .371 .943 .010 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC Análisis 1 Prueba de Box sobre la igualdad de las matrices de covarianza . 802 gl1 1 2 gl2 3 3 gl3 158. b.c.71 d. La F parcial mínima para entrar es 3.000 Estadístico 5. El nivel de F.467 . si sale sign. Según el método nos saldrá un resultado u otro.771 6.332 9 115498. La F parcial máxima para eliminar es 2. para quedarnos con aquellas que tienen significación estadística.000 Sig En cada paso se introduce la variable que minimiza la lambda de Wilks global. por lo que no tenemos problema sobre la igualdad de las matrices de covarianzas. a.109 F exacta gl1 gl2 3 158. El número máximo de pasos es 30. 12. . Tiene nivel de significación distinto que antes.568 .297 1.Logaritmo de los determinantes PROMOC_A 1 2 3 4 Intra-grupos combinada Rango 2 2 2 2 2 Logaritmo del determinante . c. Aquí nos ha salido no significativo. Resultados de la prueba M de Box F Aprox.568 Los rangos y logaritmos naturales de los determinantes impresos son los de las matrices de covarianza de los grupos.b.214 Contrasta la hipótesis nula de que las matrices de covarianza poblacionales son iguales.84. metiendo y sacando variables.000 158. gl1 gl2 Sig.901 . Estadísticos por pasos a.118 .000 6 314. metemos otra variable y así continuamente. la tolerancia o el VIN son insuficientes para continuar los cálculos. El concepto básico de la estimación por etapas es meter una variable independiente.d Variables introducidas/eliminadas Lambda de Wilks Paso 1 2 Introducidas EMPR_CRE BEN_OBJ1 Estadístico .790 .2 . 477 6.901 EMPR_CRE EMPR_CRE BEN_OBJ1 Aparece el nivel de Tolerancia.771 8.Variables en el análisis Paso 1 2 Tolerancia 1.000 .932 .486 Lambda de Wilks . ya que esta próximo a 1.894 F para eliminar 5. Aquí no tiene ningún problema. .894 . 915 .926 1. 1.971 .819 .790 .000 .000 1.910 .000 1.926 1.976 .000 1.000 1.762 .987 .761 1 2 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_EXP BENSOLAC BAL_SOCI MARK_NEC .809 2.913 .000 1.889 .886 .562 .782 2.781 .845 .518 2.980 .891 .000 1.934 .857 .135 1.980 .894 .328 2.839 2.904 .000 1.982 .000 1.000 .596 .986 .155 .000 1.371 .485 .904 .000 .560 5.675 2.939 .953 .870 .534 1.845 .765 Lambda de Wilks .866 .730 3.978 .981 2.973 Tolerancia mín.000 1.904 .882 .000 1.886 .892 .850 .913 1.789 .884 .000 1.410 1.990 .000 .000 1.996 .486 1.939 .930 .999 .939 .000 1.234 2.000 1.000 1.901 .855 .905 .576 .970 .055 2.812 .973 .784 .771 1.852 .875 .987 .156 .802 .000 1.989 .898 .864 2.799 .792 .000 1.877 .901 3.798 .000 1.986 .000 1.994 .000 1.905 .999 .519 1.894 .774 .791 .704 .791 .831 .000 1.000 1.991 3.971 .120 .595 4.856 .000 1.976 .793 .741 .801 .203 3.986 .885 .846 .736 1.915 .000 1.943 .893 .923 .870 F para introducir .620 6.830 .000 1.999 .932 .181 .000 1.989 .958 .860 .761 .977 .969 .000 1.878 .Variables no incluidas en el análisis Paso 0 Tolerancia 1.765 .899 .868 .979 . Se han empleado las 2 primeras funciones discriminantes canónicas en el análisis.00 Resumen de las funciones canónicas discriminantes Autovalores Función 1 2 Autovalor % de varianza . . aparece a partir de esta tabla. Aquí hemos detectado 2 funciones con nivel de significación estadística aceptable.802 gl1 1 2 gl2 3 3 gl3 158 158 Estadístico 5.109 Sig.901 . ya que estadísticamente hablando.972 Chi-cuadrado 34.212a 87. pero la diferencia aparece en las tablas posteriores) Lambda de Wilks Contraste de las funciones 1 a la 2 2 Lambda de Wilks .921 -.520 .1 % acumulado 87.Lambda de Wilks F exacta gl1 gl2 3 158. La función 1 es estadísticamente significativa. pero la función 1 explica el 88 % de a varianza (casi toda). Se calcula el nivel de Lambda de Wilks para cada paso de la estimación y seleccionando únicamente las variables independientes que tienen significación aceptable para la Lambda de Wilks. . La información más importante del AD.0 Correlación canónica .702 Hemos incluido dos variables independientes.000 Paso 1 2 Número de variables 1 2 Lambda . . mientras que la 2 no lo es.029 12. en la estimación por etapas se usa un examen mas sofisticado.802 . Par seleccionar las funciones discriminantes con nivel de significación estadística aceptable realizamos el examen de Lambda de Wilks. Por tanto en el análisis posterior se considerara solo la función 1 (notar que hemos obtenido el mismo resultado que en el primer análisis.888 4.9 100.534 gl 6 2 Sig. La función 2 explica solo el 12%.000 6 314.168 a.791 2 .418 .9 a .000 .00 .104 Coeficientes estandarizados de las funciones discriminantes canónicas Función EMPR_CRE BEN_OBJ1 1 .771 6. 748* -.012 . Mayor correlación absoluta entre cada variable y cualquier función discriminante. Esta variable no se emplea en el análisis.196 -.288 -.664 -.460 -.161* Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.414* .362 PROMOC_A 1 2 3 4 2 -.231 -.088 . *.287* .127 . no hace falta interpretar la segunda parte. ya que la función 2 no es significativa La primera variable tiene signo +.188* . Pasaremos a la representación grafica Funciones en los centroides de los grupos Función 1 -.491 .031 a SOCIALIS a MARK_NEC a COMUNISM a BAL_SOCI a EPU_OBSO BEN_OBJ1 EMPR_CRE DIRE_SUFa a LIBERAL a BENSOLAC a DESP_LIB a ECME_PLA a EMPR_EXP a ECSOLMER a EPU_OBEC 2 -.109 -.141 .287* .Ahora lo que haremos es. y la segunda -.240* -. excepto esos resultados. Por eso.134* .062* -.022 -.018 -.159 -.245* .586 .029* -.871* .176* -.078 -. a.469 .150* -.011 Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos .163 . Los encuestados han mostrados percepciones opuestas.047 -. interpretar 2 variables independientes en la función discriminatoria 1.015 . En este caso no tiene mucho sentido porque ya hemos seleccionado las variables independientes.145* -. Matriz de estructura Función 1 -. 000 _ .000 162 162.250 .000 62 62.250 1.Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos 162 0 0 162 Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados Probabilidades previas para los grupos Casos utilizados en el análisis No ponderados Ponderados 29 29.000 41 41.000 30 30.250 .000 PROMOC_A 1 2 3 4 Total Previas .250 . 0 -2.0 3.0 -1.----.0 14 42 1442 1442 12 12 12 -2.0 3.0 -1.0 2.0 12 12 12 12 12 12 -3.0 2.0 32 32 32 32 32 32 2.0 .0 3.0 -2.0 .0 32 32 342 342 3442 3442 1.0 111111113333333 34 ** 1111111334 42 * 114 42 14 42 14 42 14 42 -1.0 1.0 34 42 34 42 34 42 333333 34 42 1111113333333 34 42 111111133333333 * 34 42 .0 1.Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0) Discriminante canónica Función 2 -3.0 12 -3.0 Función discriminante canónica 1 Símbolos usados en el mapa territorial Símbol Grupo Etiqueta -----.-------------------1 2 3 4 * 1 2 3 4 Indica un centroide de grupo . 9 16.8 31. ya que están lejos horizontalmente.3 13. Clasificados correctamente el 32.3 2.funciones discriminantes canónicas 3 2 1 3 0 4 2 1 PROMOC_A C n id d g e tro es e rupo 4 Función 2 -1 3 2 -2 -3 -2 -1 0 1 2 3 1 Función 1 Con esta información usamos la función discriminante 1.0 6.0 100. Guardando el resultado del análisis cluster en una variable.3 . ya que están lejos horizontalmente.4 45. Grupo 1 y grupo 3 es difícilmente clasificable. Grupo 1 y grupo 2 se pueden discriminar. Grupo 3 y grupo 2 se pueden discriminar.4 46. . Con la función discriminante 1: Grupo 1 y grupo 4 se pueden discriminar. ya que están lejos horizontalmente.2 Total 29 30 41 62 100.0 a.2 32. ya que están cerca horizontalmente.7 60.0 100.0 23.0 26.4 19.0 100. no podemos usar la 2. Grupo 3 y grupo 4 se pueden discriminar.8 24. a Resultados de la clasificación Original Recuento % PROMOC_A 1 2 3 4 1 2 3 4 1 Grupo de pertenencia pronosticado 2 3 4 14 4 9 2 5 18 7 0 11 10 19 1 12 28 20 2 48.7% de los casos agrupados originales. y realizando posteriormente el AD con la nueva variable creada.3 3. Una aplicación práctica del Análisis Discriminante es validar el Análisis Cluster. ya que están lejos horizontalmente. se obtuvieron las siguientes tablas. + βnXn Z= a + W1X1 + W2X2 + . se emplea la t de Student. únicamente nos salen las variables son suficiente capacidad discriminatoria.Ejercicio 6 1. el análisis de regresión. Ventajas: la estimación conjunta es más sencilla. en la que se midieron las actitudes hacia la empresa y los sistemas económicos. Cuando efectuamos un AD mediante SPSS. 2.. hay que realizar un ANOVA univariante (para medir si las medias son significativamente diferentes o distintas) para poder seleccionar las variables con más significación estadística y luego realizar el AD. 1. Interprete la siguiente salida de SPSS del análisis discriminante: 5. donde la variable dependiente es la independiente. Las cargas sólo salen para todas las variables independientes. el análisis multivariante de la varianza (MANOVA). En el DYANE sólo está implementada la estimación conjunta mientras que en el SPSS están ambos métodos de estimación. Si utilizamos DYANE. ¿Qué criterio se podría utilizar para decidir qué variable independiente debe incluirse en las funciones discriminantes? 2.. y la regresión logística? 3. La estimación por etapas produce resultados más conservadores y se eliminan las variables que no contribuyen a la capacidad discriminatoria. A continuación. La importancia o pesos de cada variable independiente son los coeficientes de correlación canónicas. y cargas discriminantes.. La Regresión Logística (RL) es un caso particular del AD. + WnXn El MANOVA es la inversa del AD. 4.. Es decir: es un método para seleccionar las variables que contribuyen y que tienen el nivel de significación más importante y son incluidas finalmente en la función discriminante. Plantee una conclusión del análisis discriminante a partir de la siguiente información. coeficientes estandarizados. Se realizó una encuesta a cuatro promociones de estudiantes de la Universidad de Alcalá. el análisis multivariante de la varianza (MANOVA). el análisis de regresión. Explique los siguientes términos: función discriminante. . ¿Qué criterio se podría utilizar para decidir qué variable independiente debe incluirse en las funciones discriminantes? En el análisis discriminante (AD) existen dos métodos de estimación: la estimación conjunta o simultánea y la estimación por pasos o etapas. y la regresión logística? Regresión múltiple (RM) Análisis discriminante (AD) Y = α + β1X1 + β2X2 + . ¿En qué se diferencian el análisis discriminante múltiple. Cuando tenemos solamente dos grupos. ¿En qué se diferencian el análisis discriminante múltiple. W1.167(a) % de varianza 61.524 .. ser significativo.813 F Aprox. La Función Discriminante (FD) es una combinación lineal de dos o más variables que contienen una serie de puntuaciones Z. . explican sólo el 38. Esta última cuestión está muy relacionada con el concepto de Autovalor.Wn son coeficientes discriminantes que son análogos a los coeficientes de la regresión múltiple. . por lo que podemos Resultados de la prueba M de Box considerarlo válido. 3. coeficientes estandarizados. Miden la correlación lineal simple entre cada variable independiente y la FD.070(a) 11.6% de la varianza y que la FD 2 y FD 3. Reflejan también la varianza que existe entre las variables independientes y la FD obtenida.6 27. gl1 gl2 Sig.03 es un nivel aceptable. 510. 1.147 360 32104.255 a Se han empleado las 3 primeras funciones discriminantes canónicas en el análisis.6 88.029 Autovalores Función 1 2 Autovalor . Entre dos o más grupos de debe 0. En este caso tenemos 0. Las cargas discriminantes son técnicamente semejantes a las obtenidas mediante el ACP. Esta tabla no contiene información significativamente estadística. Explique los siguientes términos: función discriminante. Interprete la siguiente salida de SPSS del análisis discriminante: El M de Box sirve para comprobar el supuesto de la igualdad de las matrices de covarianzas o de dispersión. Las correlaciones canónicas al cuadrado proporcionan una estimación de la cantidad de varianza compartida entre las respectivas combinaciones lineales óptimamente estimadas entre las variables independientes y las dependientes.1 % acumulado 61.378 3 . El autovalor significa la varianza representada por la FD.donde la variable dependiente es nominal (dicotómica) y la independiente es métrica. y cargas discriminantes. W2.883 .7 Correlación canónica . .. Estos coeficientes representan las contribuciones relativas de sus variables asociadas a las funciones discriminantes.0 . 4.3 100. Junto con la información proporcionada por la 2ª y 3ª columna se puede decir que la FD 1 representa el 61. ¿Por qué se estandarizan las variables? Se estandarizan por que nos son valores directamente comparables. Se realizó una encuesta a cuatro promociones de estudiantes de la Universidad de Alcalá.379(a) .029. en la que se midieron las actitudes hacia la empresa y los sistemas económicos.4%. 371 .679 El lambda de Wilks es un examen estadístico para ver si las FD tienen significación estadística.958 .934 gl1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 gl2 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158 Sig. EMPR_CRE.156 .986 .005 .989 .991 3.642 .923 .311 .641 .901 .943 .536 .932 .581 . .181 .730 3.979 .010 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 2 3 .216 .011 .399 .Lambda de Wilks Contraste de las funciones 1 a la 3 2 a la 3 3 Lambda de Wilks .978 .562 .953 . se obtuvieron las siguientes tablas.534 1.982 .930 F .873 .328 2. 5. Las variables a incluir son EPU_OBSO. Pruebas de igualdad de las medias de los grupos Lambda de Wilks .203 3. LIBERAL.560 5.276 33. A continuación.771 1.026 .329 .234 2. Plantee una conclusión del análisis discriminante a partir de la siguiente información.990 .989 . La tabla corresponde a una salida donde se ha efectuado un ANOVA univariante de forma conjunta para comprobar la significación estadística de las variables independientes y poderlas así incluirlas en la FD.660 . La única FD válida sería la primera por lo que solamente será utilizada para análisis posteriores.935 Chi-cuadrado 82.857 . BEN_OBJ1 y MARK_NEC. .054 .564 10.181 Gl 45 28 13 Sig.595 4.001 .801 .001 .077 .996 . 086 -. ya que es la única que ha salido estadísticamente significativa.369 Para la FD.228 .142 -.348 -.161 .129 -.452 .098 -.360 .224 .042 -.236 . Resultados de la clasificación(a) PROMOC_A 1 Original Recuento 1 17 Grupo de pertenencia pronosticado 2 3 3 7 4 2 29 Total .090 . A la hora de interpretar FD tenemos que tener en cuenta estos efectos.463 -.205 -.447 -.509 -.279 . dos variables tienen signo positivo y tres negativos.192 -.EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC -.429 .169 -.291 .420 .172 .148 .061 .202 .012 .037 .224 . funciones discrim inantes canónicas 3 2 1 3 4 1 2 0 PR M C O O _A C n id s d g p e tro e e ru o 4 S xta (8 /8 ) : e 4 5 3 Q in (8 /8 ) : u ta 3 4 -1 Función 2 -2 2 C a (8 /8 ) : u rta 2 3 -3 -4 -3 -2 -1 0 1 2 3 4 1 T rce (8 /8 ) : e ra 1 2 Fu nción 1 Para este mapa territorial únicamente debemos considerar la FD 1.429 -.537 .498 .293 .043 .203 .721 .144 -.492 -.139 .035 -.153 -.114 -.029 -. .2 3 4 8 8 5 12 5 13 3 21 16 7 7 28 30 41 62 Tenemos que calcular los resultados obtenidos a partir de esta matriz de confusión: (17+12+21+28)/(29+30+41+62)=0. es decir que el 48.481.1% de las variables están correctamente clasificadas. Las diferencias entre el MANOVA y el AD. .El MANOVA es la extensión multivariante de las técnicas univariantes y sirve para valorar las diferencias entre las medias de varios grupos con múltiples variables. Casos prácticos con SPSS. Se supone que las categorías de la variable dependiente están dadas y que se utilizan las variables independientes para formar valores teóricos que son diferentes de manera máxima entre los grupos formados por las categorías de la variable dependiente. 4. Los grupos de encuestados no son especificados previamente. 1999. Definición y objetivo. En el MANOVA por el contrario. Introducción. el investigador utiliza una o más variables independientes (no métricas) para formar grupos (Hair et al.TEMA 7: EL ANÁLSIS multivariante de la varianza (MANOVA) Estructura de la clase: 1. 3. la serie de variables métricas actúan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes. . . Introducción. El AD emplea una variable no métrica como variable dependiente. Las variables DEPENDIENTES en el MANOVA (una serie de variables métricas) son las variables INDEPENDIENTES en el AD y una simple variable DEPENDIENTE (no métrica) del AD se convierte en la variable INDEPENDIENTE en el MANOVA. Diseño del estudio con el MANOVA. sin embargo. 5. Supuestos básicos del MANOVA. 6. se centran alrededor de los objetivos de los análisis y el papel de las variables no métricas. Términos y conceptos básicos del MANOVA. en su lugar.El MANOVA y el AD son “imágenes de espejo”. .351). pp.. 2. con la misma lógica aplicada con los tests t múltiples. y por ello. 1999. Tanto el ANOVA como el MANOVA son particularmente útiles cuando se usan conjuntamente con diseños experimentales en los que el investigador controla o manipula directamente una o más variables independientes para determinar su efecto sobre una (ANOVA) o más (MANOVA) variables dependientes (Hair et al. podríamos aplicar el ANOVA varias veces a cada una de las variables por separado. Por ello. Grupos Valor de F p* A B C Variable métrica Media A Media B Media C xx xx Si p es menor que el nivel de significación previamente establecido. los tests t múltiples hinchan el porcentaje del error Tipo I. Si queremos examinar las medias de tres o más grupos respecto a múltiples variables. Grupos p* Lambda de F Wilks* A B C Variable métrica 1 Media A1 Media B1 Media C1 xx xx Variable métrica 2 Media A2 Media B2 Media C2 xx xx Valor único Variable métrica 3 Media A3 Media B3 Media C3 xx xx Si p es menor que el nivel de significación previamente establecido. los contrastes individuales ignoran las correlaciones entre las variables dependientes (métricas) y por ello no se emplea toda la información disponible para valorar diferencias globales en los grupos. se debe rechazar la hipótesis nula (Media A = Media B). Sin embargo. Grupos Valor de t de p* Student A B Variable métrica Media A Media B xx xx Si p es menor que el nivel de significación previamente establecido. Cuando queremos contrastar medias de tres o más grupos. Sin embargo. concluir que existe diferencia significativa entre las dos medias (Media A ≠ Media B). el poder del MANOVA es permitir detectar diferencias multivariantes examinando el “Lambda de Wilks”. concluir que existen diferencias significativas entre las tres medias (Media A ≠ Media B ≠ Media C). Sin embargo..346). Por ello. podemos llevar a cabo múltiples tests t separados para contrastar la diferencia entre cada par de medias de una variable. . El ANOVA evita este aumento del error de Tipo I al comparar un conjunto de grupos. pp. se puede decir que existen diferencias univariantes (Media A ≠ Media B ≠ Media C). para contrastar conjuntamente las medias de tres o más grupos de una variable se utiliza el ANOVA.¿Por qué se usa el MANOVA? Para contrastar las medias de dos grupos se utiliza el test t de Student. Sin embargo. El MANOVA evita este problema. se debe rechazar la hipótesis nula (Media A = Media B = Media C). y es más adecuado para examinar las medias de múltiples grupos respecto a múltiples variables. la repetición del ANOVA aumenta el error de Tipo I. y por ello. el MANOVA computa un valor único “Lambda de Wilks” para detectar diferencias multivariantes. controlando el porcentaje de error de Tipo I. consumo. El MANOVA nos permite: 5.Definición y objetivo. Casos en los que es adecuado utilizar el MANOVA : a. renta.) que quiere analizar por separado. controlar el porcentaje global del error de Tipo I. el MANOVA en primer lugar valora si se encuentra alguna diferencia global entre grupos. 7. 6. El MANOVA es una técnica de dependencia que mide las diferencias entre dos o más variables métricas dependientes basadas en un conjunto de variables categóricas independientes. Variable independiente (no métrica) Lambda de Wilks* (valor único) p Clase social El análisis se continua llevando a cabo contrastes univariantes separados para dar respuestas individuales a cada variable dependiente (métrica). realizar el examen de múltiples variables independientes (no métricas o categóricas) (Caso 2). Caso 1: Preguntas sobre múltiples variables dependientes (métricas) y una variable independiente (no métrica). detectar diferencias globales debido a la combinación de las variables dependientes (métricas) que no se encuentran con los contrastes univariantes (Caso 1). En esta situación. Variable independiente (no métrica) Clase social Alta Media Baja Variables Variable 1 dependientes Variable 2 (métricas) Variable 3 F p . En este caso el investigador pretende realizar preguntas sobre múltiples variables dependientes (por ejemplo. etc. Caso 2: Preguntas sobre múltiples variables dependientes (métricas) y múltiples variables independientes (no métricas). etc. En este caso el investigador pretende realizar preguntas sobre dos o más variables independientes (por ejemplo. El MANOVA proporciona un método estructurado para especificar las comparaciones de las diferencias de los grupos sobre un conjunto de medidas dependientes mientras se mantiene la eficiencia estadística.b. Lambda de Wilks* (valor único) Lambda de Wilks* (valor único) Lambda de Wilks* (valor único) p Variable independiente (no métrica) Clase social p Variable independiente (no métrica) Sexo Variables independientes (no métrica) Clase Social X Sexo p Variables independientes (no métrica) Clase social Alta Media Baja Hombre Mujer Hombre Mujer Hombre Mujer Variables Variable 1 dependientes Variable 2 (métricas) Variable 3 F p .) y examinar si existen unas determinadas relaciones entre ellas. clase social. sexo. que identificamos una variable categórica (independiente). el lambda de Wilks. y les pediríamos que valorasen en una escala métrica su renta. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes. la traza de Hotelling. que se indicarían en las celdas sombreadas de la tabla siguiente. Alta Variables dependientes (métricas) Renta Consumo de refrescos mensual Gasto en agua mensual Clase social Media Baja El MANOVA sigue los siguientes pasos: Paso 1: El MANOVA detecta diferencias combinadas que no se encuentran con los contrastes univariantes. calcularíamos las medias para cada grupo y para cada valor de la variable dependiente. Supongamos. A continuación. que son: renta. Caso 1: múltiples variables dependientes (métricas) y una variable independiente (no métrica). “clase social”. El contraste más comúnmente empleado para la significación global del MANOVA es el lambda de Wilks. su consumo de refrescos y su gasto de agua. media y baja. es decir. Pretendemos estudiar si existen diferencias importantes entre estas tres clases sociales. Este examen estadístico considera todas las raíces características. con tres categorías: alta. seleccionaríamos tres grupos de personas de clase alta. consumo de refrescos mensual y gasto en agua mensual. y el criterio de Pillai.Términos y conceptos básicos del MANOVA. teniendo en cuenta tres variables dependientes (métricas). Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raíz característica de Roy. media y baja. por ejemplo. . Para ello. compara si los grupos son de algún modo diferentes sin estar afectados por el hecho de que los grupos difieran en al menos una combinación lineal de las variables dependientes. Lambda de Wilks* (valor único) Variable independiente (no métrica) F p Clase social Paso 2: A continuación. se tienen buenas aproximaciones para contrastar la significación. el MANOVA detecta las diferencias univariantes mediante el contraste F o el ANOVA univariante.Aunque la computación del lambda de Wilks es compleja. Variable independiente (no métrica) Clase social Alta Media Baja Variables Renta dependientes (métricas) Consumo de refrescos mensual Gasto en agua mensual F p . transformándolo en un estadístico F. y Supongamos. que identificamos dos variables independientes (categóricas). preguntaríamos a individuos de cada uno de los grupos anteriores que valorasen en una escala métrica “recuerdo” y “compra”. Combinando estas dos variables independientes formamos los cuatro grupos siguientes (Tabla 1): Tabla 1 Variable “línea de producto” Variable “tipo de cliente” Cliente anterior Cliente actual Producto 1 Grupo 1 Grupo 2 Producto 2 Grupo 3 Grupo 4 Pretendemos estudiar cómo éstas variables categóricas causan diferencias en la manera en que la gente evalúa la publicidad de una determinada marca. Para ello. por ejemplo.Caso 2: múltiples variables dependientes (métricas) múltiples variables independientes (no métricas). Tabla 2 Variables independientes (no métrica) Línea de producto Producto 1 Producto 2 Cliente Cliente Cliente Cliente anterior actual anterior actual (grupo 1) (grupo 2) (grupo 3) (grupo 4) Variables Recuerdo dependientes Compra (métricas) Podemos usar el MANOVA para combinar estas dos variables dependientes (recuerdo y compra) en un único valor teórico. producto 1 y producto 2 para la variable “línea de producto” y cliente anterior y cliente actual para “tipo de cliente”. concretamente en “recuerdo” y “compra” (variables dependientes). . de forma idéntica al AD. A continuación calcularíamos las medias para cada grupo y para cada valor de la variable dependiente (métrica) que se indicarían en las celdas sombreadas de la tabla 2. “línea de producto” y “tipo de cliente”. Cada una de ellas tiene dos categorías. Las dos líneas discontinuas verticales conectan los dos tipos de productos para un mismo tipo de cliente. un examen visual del gráfico anterior pone de manifiesto que la diferencia entre medias para el tipo de cliente (distancia “d1” en el gráfico) es mayor que la diferencia entre las medias para el tipo de producto (distancia “d2” en el gráfico). El cálculo de dicha “media de la categoría” nos permite evaluar cómo el tipo de producto y/o el tipo de cliente influye en las variables dependientes (métricas). un resultado que no es posible obtener con el análisis discriminante. y en él se indica con el símbolo las cuatro medias de dicho valor teórico para cada uno de los grupos (estos símbolos representarían la media de cada columna de la Tabla 2). Todo ello nos permite concluir que ambas características (tipo de producto y tipo de cliente) causan diferencias significativas. es decir. lo que podemos denominar la “media de la categoría” de las variables independientes (categóricas). Las dos líneas continuas conectan los dos tipos de cliente (cliente anterior y cliente actual) para un mismo tipo de producto (producto 1 y producto 2). Siguiendo con el ejemplo. . Los símbolos de la figura indican la media para cada categoría de una de las dos variables independientes calculada sin distinguir las categorías que adopta la otra variable independiente.Y MEDIA GRUPO 4 Medias Medias Producto 2 MEDIA GRUPO 2 +GRUOP 4 Producto 1 MEDIA GRUPO 2 MEDIA GRUPO 1 +GRUOP 2 Producto 2 ♦ d1 d2 Producto 1 MEDIA GRUPO 3 +GRUOP 4 MEDIA GRUPO 3 Cliente anterior MEDIA GRUPO 1 +GRUOP 3 Cliente actual MEDIA GRUPO 1 Cliente anterior Cliente actual X El gráfico de arriba representa en el eje X el tipo de cliente y en el eje Y la media. Por tanto. el MANOVA se centra en el análisis sobre la composición de los grupos basada en sus características (es decir. el investigador analiza las diferencias entre los grupos a la vez que valora si las diferencias se deben al tipo de producto. en las variables independientes). sin distinción de las características del grupo. Con el MANOVA. Sólo podría llevarse a cabo el AD sobre los cuatro grupos. .El MANOVA difiere del AD en la manera en que se forman y se analizan los grupos. al tipo de cliente o a ambos. 80 o más. Supuestos específicos: 1) Las observaciones deben ser independientes. Tras realizar el MANOVA. no sólo el nivel de significación alfa. es decir.Supuestos básicos del MANOVA. 2) El conjunto de las p-variables dependientes debe seguir una distribución normal multivariante (en la práctica.80. Tamaño muestral: 1) El tamaño de cada grupo mínimo debe ser de 20 observaciones. la potencia es la probabilidad de que el contraste estadístico identifique un efecto del “tratamiento” si este realmente existe. Supuestos generales: 1) Linealidad. el investigador debe determinar primero si la potencia obtenida fue suficiente. Potencia estadística de los contrastes multivariantes: En términos sencillos. 2) El tamaño de cada “celda” debe ser más grande que el número de variables dependientes incluidas. este supuesto NO se puede comprobar con SPSS. en SPSS. El SPSS ofrece una opción para comprobar el nivel de la potencia (“Opciones” → “Potencia observada”). Si no fuese así. por ello se debe asegurar que cualquier combinación de las variables dependientes sigue una distribución normal). y especialmente si no se han encontrado diferencias significativas. 0. el investigador podría reformular el diseño de análisis. El investigador debe considerar. 3) La ausencia de la multicolinealidad. . seleccione “Opciones” → “Pruebas de homogeneidad”). La potencia puede ser definida como uno menos la probabilidad del error de Tipo II (beta). sino también la potencia resultante. y debe intentar mantener un nivel de significación alfa aceptable con una potencia cerca de 0. 2) Las matrices de varianzas–covarianzas deben ser iguales para todos los grupos de tratamiento (M de Box. Análisis sobre efectos de interacciones. Objetivos del estudio con el MANOVA. Estimación del modelo MANOVA y valoración del ajuste global. Interpretación de los resultados. .Diseño del estudio con el MANOVA. Examen de los supuestos. Casos prácticos con SPSS. escogemos las siguientes variables dependientes: EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Como variable independiente o Factor Fijo PROMOC_A . Al igual que hicimos en el AD. Utilizaremos el archivo AD_SPSS. Las salidas de SPSS son las siguientes: .En Opciones elegimos Pruebas de Homogeneidad. Prueba de Box sobre la igualdad a de las matrices de covarianza M de Box 72.000 5.000 15.000 Gl del error Significación 154.000 .053 b Gl de la hipótesis 5.016 Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.978 a 1000.325 . .000 .000 .000 5.674 Significación .000 5. por lo que significación.030 32.000 Sólo nos vamos 156.978 a 1000.000 154. Diseño: Intercept+PROMOC_A existen diferencias multivariantes o globales significativas con las variables seleccionadas.000 5.043 9.499 .499 32.933 4.000 .000 15.000 458.290 F 1000.05.978 a 3.699 . Mediante el MANOVA se pueden ver si existen diferencias univariantes y multivariantes.794 3. Podemos decir que no se cumple el test de M de Box. por lo que las matrices de varianzas-covarianzas no son iguales.528 .970 . Diseño: Intercept+PROMOC_A El nivel de significación obtenido es 0. c Contrastes multivariados Efecto Intercept Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy PROMOC_A Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy a fijar en el lambda de Wilks.000 154.000 154. Valor .016 < 0.000 .000 15.978 a 1000.501 gl1 45 gl2 36983.000 468. En a.000 .140 F 1.397 .000 425. El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significativo.000 .000 Las pruebas de los efectos inter-sujetos sirven para ver si existen diferencias univariantes. podemos decir que c. a. Estadístico exacto este caso sale b. . . 392 1.031 5.864 224.051) e.868 761.000 1558.181 4.679 175.006 1108. R cuadrado = .945 .093 16.082) d.005 .857 3.031 5.408 11.468 b 24.661 759.170 865.003 Fuente Variable dependiente Modelo corregido EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Intercept EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC PROMOC_A EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Error EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Total EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Total corregida EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC gl 3 3 3 3 3 1 1 1 1 1 3 3 3 3 3 158 158 158 158 158 162 162 162 162 162 161 161 161 161 161 F 3.093 c 16.000 .934 Significación .181 4.119 3.836 e 2201.408 d 11.000 .070 (R cuadrado corregida = .026 .857 3.000 . R cuadrado = .Pruebas de los efectos inter-sujetos Suma de cuadrados tipo III 8.444 170.267 219.001 .945 2201.468 24. R cuadrado = .957 240.441 2490.027 1.840 1138.469 3.240 2. R cuadrado = .000 .469 3.804 4.489 8.005 .010 .840 1138.804 4.371 5.026 .077 (R cuadrado corregida = .098 1204.267 162.039) b.412 13.735 243.881 1.059) c.011 .836 139.418 1.057 (R cuadrado corregida = .052) .000 1499.498 1211. R cuadrado = .001 .585 854.010 a.498 1211.000 147.098 1204.036 158.868 761.000 1625.934 2498.000 957.412 a 13.240 8.771 3.099 (R cuadrado corregida = .371 5.068 (R cuadrado corregida = .011 .771 3.489 8.278 Media cuadrática 2.000 . a Diseño: Intercept+EDUCAC Tenemos que mencionar y justificar teóricamente porqué nos ha salido significativo. Ahora vamos a realizar un Análisis Discriminante.000 Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.347 F 5. por lo que tenemos que invertir las VI y las VD.882 . .958 gl1 gl2 Significación 40 1141.MANOVA_1 Mod lineal general multivariante Opciones: Resultados: Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 276. 226 . Aceptar Tenemos 3 funciones discriminantes pero solo la primera ha salido significativa.268 gl1 3 3 3 3 gl2 841 841 841 841 Sig. . Y antes de Box tenemos una tabla que ofrece ex univariante. Hemos obtenido la misma información que el MANOVA.959 .454 12.995 .971 F 1.115 4.105 8. Y en estadísticos seleccionamos ANOVA y M de Box.000 . Pruebas de igualdad de las medias de los grupos Lambda de Wilks .986 .Primero tenemos que cambiar esta variable a numérica: nivel de educación.000 Edad (años) Renta anual (en mil) Deuda de tarjeta de credito Otras deudas .007 . En rango ponemos mínimo 1 y máximo 4. 389 F 44.000 8.749 . lambda de wilks ha salido 0.000 8.486 178.052 .000 30.621(b) 44.000 1.073 12.486 178. Nos sale 0. No son interesa el análisis posterior.000 1. Wilks sale 0.486 178.298 5. Ahora cambiamos los factores fijos y ponemos sexo porque nos interesa saber si hay diferencias entre hombres y mujeres.694 . Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 20.600 .606 . por lo que no hay diferencias multivariantes.082 si tenemos suficiente material bibliográfico para sostener la hipótesis pues la aceptamos.000 .000 14. No se puede generalizar.067 F 1.158 . no significativo.885 por lo que ya nonos interesa.052 .000 8.486 13.000 26.840 Potencia observada(a ) 1. Pero si es un estudio exploratorio.927 .621(b) 44.000 Significación .000 14.210(c) Gl de la hipótesis 4.762 .000 .000 .408 1. Cambiamos otra vez fc fijos para saber si hay diferencias globales en los distintos grupos de clase social. a Diseño: Intercept+CLASESOC Contrastes multivariados(d) Efecto Intercept Valor . Diseño: Intercept+CLASESOC .000 Gl del error 14.000 4.000 .000 .369 gl1 gl2 Significación 10 937.000 14.630 1. rechazamos de fijo.142.621(b) 1.387 20.000 4.414 1.895 CLASESOC Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy a b c d Calculado con alfa = .MANOVA_2 Fc fijo: Fumador o no.008 Parámetro de no centralidad 178.000 4.087 .000 15. M de box no significativo cumple supuesto La VI es fumador o no.978(b) 2.000 1.000 28.040 15.000 4.05 Estadístico exacto El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación.190 Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.749 12. M de box cumple el supuesto específico.621(b) 44. Variables dependientes: las de actitudes (4 variables).820 18. Diseño: Intercept+EDAD+TRABAJA+EDAD * TRABAJA Si utilizamos el MANOVA con dos fc fijos la interpretación es muy complicada a no ser que busquemos alguna interacción muy específica.430 F .944 gl1 gl2 Significación 60 5107. Contrastes multivariados(d) a b c d Calculado con alfa = . Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 66. *** Interacciones entre análisis cluster y MANOVA: MANOVA_4 Para análisis discriminante .05 Estadístico exacto El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación.970 .MANOVA_3 Como variables dependientes.598 Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. Por lo que no es conveniente usar con dos Fc fijos. a Diseño: Intercept+EDAD+TRABAJA+EDAD * TRABAJA Cumple el supuesto. Luego elegimos 2 VI (categóricas): Tenemos que reconstruir el análisis de las fotocopias del profesor shintaro. Para MANOVA . Quinta (83/84). Cuarta (82/83). Sobre la base de la revisión bibliográfica. Mencione los supuestos específicos del MANOVA. ¿Cómo se pueden valorar las diferencias multivariantes en el MANOVA? ¿Cuántos criterios se aplican? ¿Cuál es el criterio más usado y conocido? 4. La base de datos “MANOVA 3” de la página Web trata de una investigación comercial sobre actitudes hacia la empresa y los sistemas económicos de los estudiantes de la Universidad de Alcalá. Nuestra proposición es que los estudiantes de ciencias tienden a señalar actitudes más negativas contra el tabaquismo. 6. Se examinaron estudiantes de tres carreras distintas: Administración y Dirección de Empresas. ¿Por qué se usa el MANOVA en vez del ANOVA? 2. Efectúa el MANOVA con las siguientes variables y explica qué tipo de información se debe obtener para el estudio. y (4) Debe intensificarse la información sobre los efectos del tabaco en la salud. (2) No debe permitirse fumar en lugares públicos. 5. se obtuvieron las siguientes salidas. MARK_NEC: El marketing es solo un método para vender más. Tras efectuar el MANOVA con SPSS. ¿Cuáles son las diferencias entre MANOVA y el análisis discriminante? ¿Qué situaciones se adecuan a cada técnica multivariante? 3. y Sexta (84/85). Haga su interpretación sobre dichas salidas y concluya el estudio.) . (3) Deben aumentarse los impuestos sobre el tabaco.Ejercicio 7 1. se planteó la siguiente hipótesis principal: H1: Existen diferencias significativas globales en dichas percepciones sobre los efectos de tabaquismo generales. Se realizó una investigación acerca de las percepciones hacia el tabaquismo con 80 muestras de la Universidad Autónoma de Madrid. sólo cinco): EPU-OBSO: La empresa pública puede cumplir los objetivos sociales mejor que la privada. (Nota: se omitió “Potencia observada”. creando necesidades aparentes. Variable independiente (no métrica) PROMOC_A: Tercera (81/82). LIBERAL: El liberalismo es la mejor doctrina económica. BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa. Se plantearon las siguientes preguntas: (1) Fumar perjudica la salud. EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea riqueza. Derecho y Bioquímica. Variables dependientes (métricas. 052 .414 1. Los grupos de encuestados no son especificados previamente.158 .606 .000 8.008 Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy 1.Contrastes multivariados(c) Efecto Carrera universitaria Valor . ¿Cuáles son las diferencias entre MANOVA y el análisis discriminante? ¿Qué situaciones se adecuan a cada técnica multivariante? Las diferencias entre el MANOVA y el AD se centran alrededor de los objetivos de los análisis y del papel de las variables no métricas.389 F 1. en su lugar el investigador utiliza una o más variables independientes (no métricas) para formar grupos. 2.298 5. Además las múltiples ANOVAs no pueden detectar las correlaciones entre las variables métricas dependientes. Cuando queremos examinar las medias de múltiples variables métricas dependientes podríamos aplicar al ANOVA varias veces a cada una de las variables por separado. En el MANOVA por el contrario la serie de variables métricas actúan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes.210 Gl de la hipótesis 8.000 26. .000 15. ¿Por qué se usa el MANOVA en vez del ANOVA? Por que se trata de estudiar la varianza de múltiples variables dependientes métricas. Se supone que las categorías de la variable dependiente están dadas y que se utilizan las variables independientes para formar valores teóricos que son diferentes de manera máxima entre los grupos formados por las categorías de la variable dependiente. Tras realizar el MANOVA conseguimos datos estadísticos pero para conocer que variable contribuye a las diferencias multivariantes realizaremos un AD.000 8.000 4.408 1. Las diferencias entre el MANOVA y el AD se centran alrededor de los análisis y el papel de las variables no métricas.978 2. Ambas técnicas son complementarias. El AD emplea una variable no métrica como variable dependiente.000 28.087 . El MANOVA es la extensión multivariante de las técnicas univariantes y sirve para valorar las diferentas entre las medias de varios grupos con múltiples variables.000 Gl del error 30. Sin embargo la repetición del ANOVA hincha el error de tipo I. El MANOVA evita el aumento del error de tipo I y al mismo tiempo permite identificar las diferencias multivariantes respecto a múltiples variables. No podemos saber si existen diferencias globales o diferencias multivariantes o efectos combinados.000 Significación .630 1. Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raíz característica de Roy. . este supuesto NO se puede comprobar con SPSS. Cuarta (82/83). El contraste mas comúnmente empleado para la significación global del MANOVA es el lambda de Wilks. y Sexta (84/85). la traza de Hotelling. Supuestos específicos: Las observaciones deben ser independientes. Variables dependientes (métricas. LIBERAL: El liberalismo es la mejor doctrina económica. BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa. Las matrices de varianzas-covarianzas deben ser iguales para todos los grupos do tratamiento (M de Box > 0. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes. es decir no significativo. creando necesidades aparentes. sólo cinco): EPU-OBSO: La empresa pública puede cumplir los objetivos sociales mejor que la privada. por ello se debe asegurar que cualquier combinación de las variables dependientes siguen una distribución normal). El conjunto de las p variables dependientes debe seguir una distribución normal multivariante (en la práctica. Mencione los supuestos específicos del MANOVA. Efectúa el MANOVA con las siguientes variables y explica qué tipo de información se debe obtener para el estudio. Quinta (83/84). La ausencia de la multicolinealidad.3. 4. Variable independiente (no métrica) PROMOC_A: Tercera (81/82). La base de datos “MANOVA 3” de la página Web trata de una investigación comercial sobre actitudes hacia la empresa y los sistemas económicos de los estudiantes de la Universidad de Alcalá. EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea riqueza. 5. MARK_NEC: El marketing es solo un método para vender más. Este examen estadístico considera todas las raíces características es decir compara si los grupos son de algún modo diferente sin estar afectados por el hecho de que los grupos difieran en al menos una combinación lineal de las variables dependientes. ¿Cómo se pueden valorar las diferencias multivariantes en el MANOVA? ¿Cuántos criterios se aplican? ¿Cuál es el criterio más usado y conocido? El MANOVA detecta diferencias combinados que no se encuentran con los contrastes univariantes. Supuestos Generales: Linealidad. el lambda de Wilks. y el criterio Pillai.03. en SPSS: Opciones pruebas de homogeneidad). 210 Gl de la hipótesis 8.389 F 1. Sobre la base de la revisión bibliográfica. Se considera aceptable establecer el nivel de significación en 0.087 . Teniendo en cuenta el hecho de que la hipótesis o proposición fundamental es que distintas cameras universitarias exhibirían diferencias sobre los efectos del tabaquismo.606 .) Contrastes multivariados(c) Efecto Carrera universitaria Valor .Al realizar mediante el M de Box nos sale 0.052 .087. Se realizó una investigación acerca de las percepciones hacia el tabaquismo con 80 muestras de la Universidad Autónoma de Madrid.000 8. el MANOVA detecte diferencias globales entre las distintas carreras universitarias al nivel de 0. Tras efectuar el MANOVA con SPSS.000 Significación . (Nota: se omitió “Potencia observada”.000 28.414 1.978 2. Derecho y Bioquímica.408 1. Se examinaron estudiantes de tres carreras distintas: Administración y Dirección de Empresas. Nuestra proposición es que los estudiantes de ciencias tienden a señalar actitudes más negativas contra el tabaquismo.016<0. (3) Deben aumentarse los impuestos sobre el tabaco. y (4) Debe intensificarse la información sobre los efectos del tabaco en la salud.000 26.000 Gl del error 30.158 .10.08> 10.000 4.) . (Lambda de wills 0.10 debido a que se trata de un estudio con carácter exploratorio.05 por lo que no ha cumplido el supuesto de igualdad y tenemos que parar el análisis. se concluye que existen diferencias globales entre las distintas carreras universitarias sobre las percepciones del tabaquismo.000 15. se obtuvieron las siguientes salidas.008 Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy Empleando el lambda de Wilks como criterio multivariante pare considerar todas las raíces características de las variables dependientes (métricas) el MANOVA detectar diferencias globales de las variables dependientes (métricas).630 1. Cumple la hipótesis de que existen diferencias significativas en la percepción negativa del tabaco entre alumnos de carreras diferentes. 6. se planteó la siguiente hipótesis principal: H1: Existen diferencias significativas globales en dichas percepciones sobre los efectos de tabaquismo generales. Se plantearon las siguientes preguntas: (1) Fumar perjudica la salud. Haga su interpretación sobre dichas salidas y concluya el estudio. (2) No debe permitirse fumar en lugares públicos.000 8.298 5. Es significativo. 400 Fuente Carrera universitaria Variable dependiente 'Fumar perjudica la salud' 'No debe permitirse fumar en lugares públicos' 'Deben aumentarse los impuestos sobre el tabaco' 'Debe intensificarse la información sobre los efectos del tabaco en la salud' gl F 7.los efectos combinados de las cuatro variables dependientes (métricas).111 . Sin embargo el presente estudio debe considerarse con un carácter exploratorio debido al tamaño muestral relativamente pequeño. Sin embargo no existen diferencias significativas en las otras variables independientes en función de la pertenencia a una carrera de ciencias sociales o científicas. Los contrastes F multivariantes para cada variable dependiente (métricas por separado detectaron diferencias significativas univariantes con un nivel de significación de 0.875 .513 .004 .875 5.313 Significación .538 2.075 5.800 Media cuadrática 2 2 2 2 6. De ello se puede concluir que las diferencias globales se atribuyen a las diferencias univariantes sobre dichas dos preguntas y 2.868 2.938 .794 2.938 2.Pruebas de los efectos inter-sujetos Suma de cuadrados tipo III 13. los resultados del estudio no deben generalizarse.10 solo para "Fumar perjudica la salud" y "no debe permitirse fumar el lugares públicos". mientras no identifica ninguna diferencia significativa para "debe aumentarse los impuesto sobre el tabaco" y "debe intensificarse la información sobre los efectos del tabaco en la salud".089 . .736 Existen diferencias significativas en la percepción de los alumnos de las cuatro carreras citadas en cuanto a considerar que fumar perjudica la salud y que no debe permitirse fumar en lugares públicos. Se necesitara una investigación futura con un mayor número de muestras para obtener conclusiones definitivas. Se necesita no sólo examinar las medias para cada par de grupos para conocer si efectivamente los estudiantes de la carrera de bioquímica muestran una percepción más fuerte contra el tabaquismo. El modelo puede utilizarse posteriormente para derivar estimaciones de la razón de las ventajas para cada uno de los factores y así indicarle. 10. 6. 5. ¿Qué características del estilo de vida son factores de riesgo de enfermedad cardiovascular? Dada una muestra de pacientes a los que se mide la situación de fumador. Diseño del estudio con la RL. 7. ejercicio. El objetivo de la RL es (estimar un modelo de dependencia en el que la variable dependiente es cualitativa y binaria mediante una función logística. Buscamos una combinación lineal entre las variable dependiente e independiente. se puede construir un modelo utilizando las cuatro variables de estilo de vida para predecir la presencia o ausencia de enfermedad cardiovascular en una muestra de pacientes. 3. La variable dependiente ha de ser binaria). 2.TEMA 9: LA REGRESIÓN LOGÍSTICA (MODELO LOGIT) Estructura de la clase: 1. Comparación de los modelos: regresión. Modelo de la RL. Objetivo de la RL. consumo de alcohol. 4. Introducción. Introducción. Modelo de la RL. cuánto más probable es que los fumadores desarrollen una enfermedad cardiovascular frente a los no fumadores. discriminante y logit. Interpretación de los resultados. Medición de la variable dependiente. por ejemplo. dieta. Bondad de ajuste. Supuestos básicos de la RL. Casos prácticos con SPSS. Objetivo de la RL. . 9. 11. Estimación del modelo. 8. y estado de enfermedad cardiovascular. 3. Medición de la variable dependiente. Estimación por máxima probabilidad: estimadores más probables para los coeficientes (no minimización de suma de cuadrados. Es muy flexible y poderoso. Estimación del modelo de regresión logística y valoración del ajuste global 5. pero en el LOGIT. porque no cumple la linealidad. Interpretación y bondad de ajuste 6. También sería válido. . si utiliza un determinado producto de limpieza. sino maximización de probabilidad de ocurrencia de un suceso). Seleccionar variable dependiente (categórica) e independientes (métricas. no utilizamos este concepto.… variable no métrica a) dicotómica b) multicotómica: logit multinominal Estimación del modelo. Supuestos del análisis 4. . Variables independientes: categóricas o métricas. Validación de los resultados Podemos cambiar el orden de los pasos para realizar el análisis. 1. Objetivos 2.Menos restrictivo que el AD (normalidad y homocedasticidad). En vez de utilizar el concepto de residuo. si no cumple estos supuestos podemos utilizar el Logit.Diseño del estudio con la RL. Por ejemplo. se predice la probabilidad de ocurrencia. En la RM intentamos minimizar la suma de los residuos.Robustez del modelo de la RL. . después el 3 y luego el 2. realizar primer el 4. En el logit. Tienen que cumplir los siguientes supuestos: . Categóricas: se transforman en ficticias. Supuestos básicos de la RL.La RL es adecuada cuando no se cumple el supuesto de igualdad de las matrices de varianzas-covarianzas entre grupos. utilizamos el concepto de Chicuadrado. también se puede utilizar variables categóricas). b) Valor de Hosmer y Lameshow: Un valor Chi-cuadrado no significativo indica un buen ajuste del modelo. nos centramos en el valor del logaritmo de la probabilidad. si el valor es 0 el ajuste es perfecto. c) R2 de Nagelkerke: 0: ajuste malo 1: ajuste perfecto d) Coeficiente estadístico de Wald .Cuanto mayor sea peor es el ajuste En RM buscamos un coeficiente de determinación mucho mejor. En Logit. Con esto comparamos el modelo real y el modelo predicho (si son iguales será significativo). a) -2LL (logaritmo de la probabilidad): 0: ajuste perfecto (probabilidad 1).Bondad de ajuste. 6 16. Los valores a la derecha de q21 determinan la presencia o no de un determinado fenómeno. El 40% de la muestra está clasificada correctamente como no fumador (por ej).143 R cuadrado de Nagelkerke .500 .145. este es análogo al coeficiente de determinación de la RM. por lo que debe salir no significativo. Estos valores varían entre 0 y 1.2 Pronosticado Esta tabla es similar a la tabla de clasificación del AD.7% .00 1. Prueba de Hosmer y Lemeshow Paso 1 Chi-cuadrado 12. Tabla de clasificación(a) Observado q21 .00 40 10 1. Si sale significativo es incorrecto. con ella detectamos diferencias significativas.001.00 Paso 1 q21 Porcentaje global a El valor de corte es . No existe ninguna diferencia significativa. Sin embargo la clasificación de presencia de fumador está clasificado por un 16. En los datos podemos ver como es no significativo 0.132 gl 8 Sig. .00 1 2 Porcentaje correcto 97.145 Esta prueba indica el valor de chi cuadrado. Este es uno de los objetivos principales del AD.217 a La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de . porque el modelo tiene que ser parecido al modelo real.7 79. Resumen de los modelos Paso 1 -2 log de la verosimilitud 48. Nos interesa el R cuadrado de Nagelkerke. es la variable dependiente. serían muy parecidos. matriz de confusión o clasificación.Interpretación de los resultados.538(a) R cuadrado de Cox y Snell . 616 1. es análogo al de la t de Student.0% para EXP(B) B Paso 1(a) Q1 Q2 Q3 Q6 Q7 Q13 Constante -. Para la interpretación del modelo logit hay que tener en cuenta estos coeficientes beta. En este caso sólo la variable q3 ha salido significativa aplicando un nivel de significación de 0.232 .444 . es decir.065 3.Variables en la ecuación I. Q2. En este caso hemos utilizado la estimación conjunta por lo que hemos metido todas las variables a la vez. Si no se puede generalizar.237 .200 1. Este test.491 Superior 1. Deberíamos tener 15 o 20 observaciones por variable. Así como recomendaciones para futuras investigaciones.155 2.256 . Coeficientes cero: no hay ninguna influencia. Coeficientes positivos: alta probabilidad de ocurrencia.273 -1.295 .611 1.327 1.842 E. 95.511 a Variable(s) introducida(s) en el paso 1: Q1. Q6. Q3.046 . podemos incluir o eliminar las variables independientes.888 . también hay que incluirlo en el trabajo.144 1.159 Inferior .888 1. El examen estadístico en esta tabla más importante es el test de Wald.487 .313 .017 . INTERPRETACIÓN Coeficientes negativos: Indican baja probabilidad de ocurrencia.532 .587 . Q13. .566 . En RM se utiliza para averiguar si la variable contribuye significativamente al modelo.966 . ETAPAS: DISEÑO DE UN MODELO LOGIT Definición del problema: Objetivos: relación entre variables Si no cumple el mínimo tamaño muestral por variable hay que comentarlo en el trabajo.C.05.601 3.458 .568 . . Q7. Mediante este examen estadístico. no hay cambio en el ratio.799 . .320 .379 Exp(B) .500 8.770 .493 .775 gl 1 1 1 1 1 1 1 Sig.314 .267 .381 1.T.458 3.060 -.092 Wald .484 .988 .262 -.502 2. buscamos una combinación lineal entre las variables métricas dependientes e independientes. discriminante y logit. Si no cumple la normalidad no podemos utilizar esta técnica.Comparación de los modelos: regresión. Hay que seleccionar Regresión insertamos las variables de estudio. En AD. Luego . Por lo que buscamos la solución en la Logística. Diapositiva gráficos En la RM. Aquí buscamos la probabilidad máxima entre los valores 0 y 1. buscamos si las medias son distintas. logística binaria. Si utilizamos una variable dicotómica en la RM. al igual que ocurre con la homocedasticidad. Como esto no es válido. no cumple la linealidad. Buscamos la posibilidad en el RL o logit. Variable dicotómica que usaremos como dependiente .1 Casos prácticos con SPSS.Casos prácticos con SPSS. 11. 0 .0 100.Para mirar el efecto interacción de las dos variables.0 . Se introduce pulsando control y seleccionando ambas variables La primera tabla a la que prestaremos atención es la Tabla de Clasificación Regresión logística Resumen del procesamiento de los casos Casos no ponderados Casos seleccionados a N Incluidos en el análisis Casos perdidos Total 70 0 70 0 70 Casos no seleccionados Total Porcentaje 100. Si está activada la ponderación. Codificación de la variable dependiente Valor original Valor interno No 0 Yes 1 .0 100.0 a. consulte la tabla de clasificación para ver el número total de casos. entonces el modelo no vale. El modelo no tiene significación estadística. . El coeficiente de Wald. a. 100% clasificados a “SI”.414 Paso 0 porque solo consideramos el valor constante. No consideramos variables predictoras.778 36. ya que probablemente existiría sesgo.037 gl 1 Sig. Solo tenemos en cuenta el valor constante. La siguiente Tabla es importante: Variables que no están en la ecuación Paso 0 Variables EDAD NORESP EDAD by NORESP Puntuación 26. 0.Bloque 0: Bloque inicial Bloque 0 significa que es el análisis previo antes de meter las variables predoctoras.000 .154 Exp(B) 1.500 No hay ninguna persona que haya contestado NO.243 Wald 2.154.0 58. tiene un grado de sig. El valor de corte es .6 a.b Tabla de clasificación Paso 0 Observado El respeto es importante. No consideramos variables predictoras.617 27.000 también tendríamos que preocuparnos.346 E.086 24. b. Se han clasificado como si todos contestaran SI. . Si el nivel de significación en el bloque 0 es significativo.000 .000 . Porcentaje No Yes correcto 0 29 .0 0 41 100. En el modelo se incluye una constante. ya que hay un sesgo en los datos. Si el nivel de significación nos saliera 1. Esto es porque es el paso previo o paso inicial. .T. Porcentaje global No Yes Pronosticado El respeto es importante.111 gl 1 1 1 3 Sig. Variables en la ecuación Paso 0 Constante B .000 Estadísticos globales . para ver si el modelo predice correctamente. La estimación ha finalizado en el número de iteración 6 porque las estimaciones de los parámetros han cambiado en menos de . En el siguiente bloque meteremos todas las variables. .892 gl 3 3 3 Sig. parece que el valor esta bien. solo observaremos la última fila “Modelo” con las variables predictoras.001.617 Paso 1 a. pero lo más importante es la significación. Modelo).892 42. Esto significa distintos métodos de estimación. No salen significativos. (Es el mejor índice para ver) . (Paso seria estimación por pasos.000 .458 R cuadrado de Nagelkerke . = 0. Es análogo al coeficiente de determinación de la regresión múltiple.Son las variables no incluidas en la ecuación. todas podrían incluirse en la ecuación. como vale 0’617. Como nosotros hemos realizado la estimación conjunta.081 a . 2 NL (-2 log de la verosimilitud indica el nivel de ajuste global) Nos fijaremos en el valor de el R cuadrado de Nagelkerke. Bloque 1: Método = Introducir Pruebas omnibus sobre los coeficientes del modelo Paso 1 Paso Bloque Modelo Chi-cuadrado 42. La puntuación es la de la Chi-cuadrado. Bloque.000 Hay tres líneas (Paso.000) Resumen de los modelos -2 log de la R cuadrado verosimilitud de Cox y Snell 52. No la estudiaremos este año) El modelo tiene contribución significativa (Sig.892 42. pero aun no están incluidas.000 .Varía entre 0 y 1. Bloque seria estimación por Bloque. 780 3 4. .220 4 2. El valor de corte es . = No Observado Esperado 7 6.357 gl 8 Sig.787 6 5. = Yes Observado Esperado 0 . . Porcentaje No Yes correcto 22 7 75.9 a.491 7 6.9 5 36 87. Si sale significativo hay que rechazar la hipótesis nula. fundamentalmente. pero teniendo variable dicotómica.607. Esta prueba tiene que ser no significativa.Prueba de Hosmer y Lemeshow Paso 1 Chi-cuadrado 6. Porcentaje global No Yes Pronosticado El respeto es importante. ya que hay que aceptar la hipótesis nula de que fenómeno real y modelo predicho son iguales.523 4 5.913 Total 7 7 7 7 8 7 7 7 7 6 Paso 1 1 2 3 4 5 6 7 8 9 10 En este caso no tiene importancia la tabla de contingencias para la prueba de Hosmer y Lemeshow a Tabla de clasificación Paso 1 Observado El respeto es importante.607 Es una prueba de la Chi cuadrado.414 0 .873 2 1.526 7 6.087 El respeto es importante. ya que ha salido no significativo. Eso esta bien.477 4 2.509 0 .139 6 6. Ha salido 0.586 7 6.474 0 .127 5 5.259 5 5.213 0 .861 1 .741 2 1. El objetivo es el mismo.500 Recordemos que en el Análisis Discriminante usamos el mismo concepto (Matriz de confusión). Tabla de contingencias para la prueba de Hosmer y Lemeshow El respeto es importante.8 82. 324 -.Variables en la ecuación Paso a 1 EDAD NORESP EDAD by NORESP Constante B .939 .175 a. Tanto la interacción edad con la tercera variable. Por tanto podemos concluir que solo podemos incluir la variable edad en la ecuación.054 1.946 ZResid -4.164 . Vamos a predecir si el individuo es fumador o fumadora en función de otras variables . .733 1. Con esta tabla podemos decir que la variable edad ha salido significativa. mientras que la tercera variable.946 Grupo pronosticado Y Resid -. Se listan los casos con residuos estudentizados mayores que 2. N = Casos no seleccionados y ** = Casos mal clasificados. NORESP. b. b Listado por casos Caso 60 Estado de a selección S Observado El respeto es importante.028 -5.112 27. . N** Variable temporal Pronosticado . no tiene significación estadística.414 E.002 Exp(B) 1.258 9.009 .611 .004 a.000.041 2. Variable(s) introducida(s) en el paso 1: EDAD. EDAD * NORESP .775 Wald 6.767 .308 gl 1 1 1 1 Sig. S = Seleccionados.387 . no respeto.T.106 3.973 . Define los siguientes términos y explica para qué sirven en el proceso del análisis de los resultados: el valor de Hosmer y Lameshow y la R² de Nagelkerke. . la linealidad y la igualdad de matrices de varianza-covarianza entre grupos. ¿Cuál es la medida global del nivel de ajuste del modelo logit? ¿Cómo se evalúa? El término modelo de logit es el mismo que la regresión logística. 2. ¿Cuál es la medida global del nivel de ajuste del modelo logit? ¿Cómo se evalúa? 3. 1. Un modelo con un buen ajuste tendrá un valor pequeño. los resultados obtenidos son muy parecida a los de la regresión múltiple y cuenta con contrastes estadísticos directos. El AD es apropiado cuando la variable dependiente es no métrica. 1. ya que muchas veces no se cumple la linealidad. cuando la variable dependiente tiene sólo dos grupos. ¿cómo se mide la significación estadística para cada coeficiente estimado de la ecuación? 4. existe una variable dicotómica como variable dependiente 2. En la RL. puede ser preferible la RL por los siguientes motivos. no se cumplen los supuestos de normalidad multivariante. 3. ¿Cuándo emplearía la RL en lugar del AD? ¿Cuáles son las ventajas y desventajas de esta decisión? 2. por lo que existe la capacidad para incorporar efectos no lineales y permitir una amplia variedad de diagnósticos.Ejercicio 9 1. La medida global de la RL viene dada por el valor de la verosimilitud. pero la más importante es cuando tenemos una variable dicotómica como variable dependiente. ¿Cuándo emplearía la RL en lugar del AD? desventajas de esta decisión? ¿Cuáles son las ventajas y La RL se puede usar en vez del AD cuando no cumple la linealidad. cuanto mayor sea el valor peor es el ajuste. siendo el valor mínimo de -2LL cero (un ajuste perfecto). que se representa por -2 LL (-2 veces el logaritmo de la verosimilitud). Sin embargo. y se expresa con el valor de chi-cuadrado. 4.500 1 2 258 114 2 79 161 Pronosticado Porcentaje correcto 76. 2. R² de Nagelkerke: es comparable con el coeficiente de determinación de la RM que indica con los mayores valores un mejor ajuste del modelo. se excluye. Valor de Hosmer y Lameshow: mide la correspondencia de los valores reales y predichos de la variable dependiente. 5. y si no. un valor chi-cuadrado no significativo indica un buen ajuste del modelo.5 Es análoga a la matriz de confusión del análisis discriminante.6% de los casos son correctamente clasificados. Define los siguientes términos y explica para qué sirven en el proceso del análisis de los resultados: el valor de Hosmer y Lameshow y la R² de Nagelkerke.5 68. Si el valor de Wald es estadísticamente significativo. Tiene que salir no significativo porque la hipótesis nula es que son iguales y no queremos rechazarla.6 58. La RL utiliza un estadístico diferente. ¿cómo se mide la significación estadística para cada coeficiente estimado de la ecuación? En la regresión múltiple. En la RL. el modelo logia correctamente clasifica 258 hombres. el estadístico de Wald. Esta tabla de clasificación indica cómo de bien se predice la pertenencia a los grupos. que proporciona la significación estadística para cada coeficiente estimado de tal forma que se puede contrastar la hipótesis de que un coeficiente sea distinto de cero. Varía entre 0 y 1. por lo tanto un 76. Por ello. 1.3. el valor de la t se utiliza para valorar la significatividad de cada coeficiente. pero erróneamente 79 hombres. Según la información de la tabla. se incluye dicho coeficiente en la ecuación. Respecto a las . Interpreta la siguiente tabla: Tabla de clasificación(a) Observado F1 1 Paso 1 F1 Porcentaje global a El valor de corte es . la tasa de clasificación correcta para las mujeres es un 58. por ello.5% de todos los casos están correctamente clasificados. el modelo clasifica 161 casos pero erróneamente 114 casos.mujeres. . un 68. Desde una perspectiva global.5%.
Report "Análisis Multivariante en la Investigación Comercial"