FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVILINTRODUCCIÓN Como la Estadística Inferencial nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación de la otra variable llamándose Regresión Lineal y una variable en relación a otras variables llamándose Regresión múltiple. Casi constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables. 1 FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL ANÁLISIS DE PROGRESIÓN MÚLTIPLE OBJETIVOS Describir la relación entre dos o más variables independientes y una variable dependiente utilizando la ecuación de regresión múltiple. Calcular e interpretar el error estándar múltiple de estimación y el coeficiente de determinación. PROCEDIMIENTO o Seleccionar una muestra a partir de una población. o Listar pares de datos para cada observación. o Dibujar un diagrama de puntos para dar una imagen visual de la relación. o Determinar la ecuación de regresión. CONCEPTOS BÁSICOS Análisis de Regresión Es un procedimiento estadístico que estudia la relación funcional entre variables. Con el objeto de predecir una en función de la(s) otra(s). Regresión Múltiple Intervienen dos o más variables independientes. Variable Dependiente (Respuesta, predicha, endógena) es la variable que se desea predecir o estimar. Variable Independiente (Predictoras, explicativas, exógenas), son las variables que proveen las bases para estimar. 2 FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL ANÁLISIS DE REGRESIÓN MÚLTIPLE El análisis de regresión múltiple es el estudio de la forma en que una variable dependiente, 𝒚, se relaciona con dos o más variables independientes. En el caso general emplearemos k para representar la cantidad de variables independientes. Los conceptos de un modelo de regresión y una ecuación de regresión que presentamos en el tema anterior se pueden aplicar al caso de la regresión múltiple. La ecuación que describe la forma en que la variable dependiente, 𝒚 se relaciona con las variables independientes 𝑥1 , 𝑥2 , … 𝑥𝑘 y un término de error se llama modelo de regresión. El modelo de regresión múltiple tiene la forma siguiente: Ejemplos: VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES (X1,X2,......) Volumen de ventas, en unidades Precio unitario Gasto de Propaganda Peso de los estudiantes Estatura Edad Consumo de bienes industriales por año Unidades consumidas de un bien por familia Ingreso disponible Importación de bienes de consumo Precio unitario del bien Ingreso Número de integrantes por familia 3 FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Precio de una vivienda Nº de habitaciones Nº de pisos Área construida Área techada , etc. La técnica de regresión múltiple se usa frecuentemente en investigación, se aplica al caso en que la variable respuesta es de tipo numérico. Cuando la respuesta es de tipo dicotómico (muere/vive; enferma/no enferma), usamos otra técnica denominada regresión logística. ANÁLISIS DE REGRESIÓN MÚLTIPLE PARA 2 VARIABLES INDEPENDIENTES Para dos variables independientes, la fórmula general de la ecuación de regresión múltiple es: Y ' a b1 X1 b2 X 2 X1 y X2 son las variables independientes. a es la intercepción en Y. b1 es el cambio neto en Y para cada cambio unitario en X1, manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión. b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1 constante. Se denomina coeficiente de regresión parcial o bien coeficiente de regresión. El cálculo de estos valores es por demás laborioso a mano, por ejemplo para el caso de las dos variables independientes, para poder resolver y obtener y en una 4 FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados: ANÁLISIS DE REGRESIÓN MÚLTIPLE CON K VARIABLES INDEPENDIENTES La ecuación general de regresión múltiple con k variables independientes es: Y ' a b1 X 1 b2 X 2 ...bk X k El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación. Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo que pueden utilizarse para estimarlos. ERROR ESTÁNDAR MÚLTIPLE DE LA ESTIMACIÓN El error estándar múltiple de la estimación es la medida de la eficiencia de la ecuación de regresión. Está medida en las mismas unidades que la variable dependiente, es difícil determinar cuál es un valor grande y cuál es uno pequeño para el error estándar. La fórmula es: SY 12k (Y Y ' ) n (k 1) 2 SSE n (k 1) 5 n es el número de observaciones y k es el número de variables independientes.Xik .….FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Donde: Y es la observación.3...2.Xi2 .n.Xi3. Y’ es el valor estimado en la ecuación de regresión. Supongamos que existen k variables independientes y n observaciones (Xi1 . y que el modelo que relaciona las variables independientes y la variable dependiente es: yˆi b0 b1xi1 b2 xi 2 . i=1.….Yi ).4.. bk xik Este modelo es un sistema de n ecuaciones que puede expresarse en notación matricial como: y X 6 . ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA ECUACION DE REGRESION Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las operaciones matemáticas en forma matricial. .. que se define: ANÁLISIS DE VARIANZA 7 .. ..FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL o ENFOQUE MATRICIAL Donde: y1 y 2 y3 y .x1k 1x x x .. .........x nk n i1 i 2 i 3 xp b0 b 1 b2 . ............. Una vez estimado el modelo es conveniente obtener una medida acerca de la bondad del ajuste realizado.... .. .. Un estadístico que facilita esta medida es el coeficiente de determinación (R2).......... ... y n n 1 x 1x11x12 x13.. X2.......... 1x x x ............x 2k 21 22 23 1x31x32 x33. . número de parámetros COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2 Mide la tasa porcentual de los cambios de “y” que pueden ser explicados por: X1...... b kp 1 x Dónde: p = k+1.. X3..… simultáneamente................. .......x3k X . El estadístico de prueba se calcula con: F = [(SCR) /(k)] /[(SCE) /(n-k+1)]. En otras palabras ¿podría la cantidad de variación explicada R2. k 0 El estadístico de prueba es la distribución F con k (número de variables independientes) y n . donde n es el tamaño de la muestra.. 8 .. Las hipótesis son: H 0 : 1 2 3 .FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Ecuación Básica para análisis de Varianza PRUEBA GLOBAL Ayuda a determinar si es posible que todas las Variables Independientes tengan coeficientes de regresión neta iguales a 0. ocurrir al azar? La prueba global se usa para investigar si todas las variables independientes tienen coeficientes significativos.(k + 1) grados de libertad. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL TABLA ANOVA La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que está explicada por la ecuación de regresión como de la que no lo está). 9 . 3 94 3.3 94 2.0 1.5 2.0 3.0 95 4. El propietario de La cadena de cines CINE PLANET desea estimar el ingreso semanal neto en función de los gastos de publicidad.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL EJERCICIOS DESARROLLADOS 1.0 2.3 1 3.5 2.5 Planteando matricialmente los datos 96 90 95 92 y 95 94 94 948 x1 1 5.5 4.5 4.5 2.0 b b b 0 X 1 4.0 3.0 1.5 95 3.5 1 3.0 2.2 94 3.0 1.5 2.5 92 2.3 1 2.5 1 2.2 1 2 3 x1 8x3 10 . Los datos históricos de una muestra de 8 semanas son los siguientes: Ingresos Brutos semanales Anuncios en TV (en miles Anuncios en periódicos (en (en miles de dólares) de dólares) miles de dólares) 96 5.5 90 2.0 2.0 1.5 1 2. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Determinando la ecuación de regresión El modelo es: yˆ b0 b1 x1 b2 x2 Entonces primero resolvemos las matrices para encontrar los parámetros: ( X X )1 X y 5.304 1. Variable dependiente: Ingresos Brutos semanales Beta Intervalo de confianza para B al 95% Límite Límite inferior superior 79.301 .3010 X 2 Coeficientesa Coeficientes estandarizad os Coeficientes no estandarizados Modelo 1 (Constante) Anuncios en TV (en miles de dólares) Anuncios en periódicos (en miles de dólares) B 83.290 .2239 0.509 3.9989 -1.072 .001 1.0353 -1.621 4.2902 b 1 1856 1.882 Sig. 1.000 1.2301 b0 2401 2.057 .1313 -1.532 .153 7.230 Error típ.2491 ( X X ) 750 83.1313 0.010 . .477 2.0353 0.2301 2.2902 X1 1.574 2.321 a.0389 -1.0389 0.3010 b2 X y 1 Finalmente la ecuación es: yˆ 83.276 t 52.184 87.125 (en miles de dólares) 11 . de la estimación .64259 r 0. Hallando el Coeficiente de Determinación Re sumen de l modelo Modelo 1 R R cuadrado a .64. Anuncios en periódicos (en miles de dólares).887 Error típ. Hallando el error estándar de estimación Para lo cual usaremos la fórmula abreviada para dos variables independientes la cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula es la siguiente: S y. los ingresos brutos semanales se incrementarán en 2.64 o Interpretación: La distancia promedio de los valores observados alrededor de la ecuación de regresión es de 0. Anuncios en TV (en miles de dólares) 12 . Variables predictoras: (Constante).919 a.64.3010 miles de dólares. Es decir la dispersión de los valores observados es 0.919 R cuadrado corregida .2902 miles de dólares. X1 X 2 y 2 b0 y b1 X 1 y b2 X 2 y n 3 S y.959 .959 r 2 0. Para b2: Cuando los gastos de anunciar en televisión se mantienen constantes y los gastos de anunciar en periódicos varían una unidad. los ingresos brutos semanales se incrementarán en 1. X1 X 2 0.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Interpretemos los parámetros estimados de las variables independientes: Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los gastos de anunciar en periódicos se mantienen constantes. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL o Interpretación: Aproximadamente el 91. Para ello se recoge una muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla adjunta (El gasto e ingreso está dado en cientos de miles de pesetas)” GASTO INGRESO TAMAÑO 043 21 3 031 11 4 032 09 5 046 16 4 125 62 4 044 23 3 052 18 6 029 10 5 129 89 3 035 24 2 035 12 4 078 47 3 043 35 2 047 29 3 038 14 4 13 .9% de los cambios producidos en los ingresos brutos semanales son explicados por los cambios producidos en los gastos de publicidad (en televisión y periódicos). “Una desea estimar los gastos en alimentación de una familia (Y) en base a la información que proporcionan las variables regresoras X1 =“ingresos mensuales” y X2 =“número de miembros de la familia”. 2. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Solución Con estos datos se obtiene: 𝑛 = 15. ∑ 𝑥1𝑖 = 42 ∑ 𝑥2𝑖 14 . 𝑋2 = 3. 𝑦 = 0′ 43 se obtiene: ̂ = −0′ 160 + 0′ . 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 0′ . 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 0′ . 3 = 0′ 3839 𝑦1 𝑒1 = 𝑦1 − 𝑦̂1 = 0′ 43 − 0′ 3839 = 0′ 0461 PREDICCIONES 0’38 0’41 0’33 0’31 0’57 0’77 0’36 0’37 0’51 0’39 1’39 0’50 1’07 0’35 0’36 Por tanto 15 𝑆 = 𝑋 𝑋 = (42 55 𝑇 42′00 188′08 140′80 55′00 150′80) 219′00 𝑦 8′070 𝑇 = (32′063) 28′960 De donde 𝛼⃗ = 𝑆 −1 1′ 360 𝑇 = (−0′ 092 −0′ 282 −0′ 092 0′ 016 0′ 013 −0′ 282 8′ 070 −0′ 160 ′ ′ 0 013 ) (32 063) = ( 0′ 149 ) 0′ 067 28′ 960 0′ 077 El modelo de regresión lineal que se obtiene es: 𝐺𝑎𝑠𝑡𝑜 = −0′ 160 + 0′ . 𝑥2 = 3. Para la primera observación 𝑥1 = 2′ 1. 𝑇𝑎𝑚𝑎ñ𝑜 + 𝑒𝑟𝑟𝑜𝑟 A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las observaciones muestrales. Para la primera observación (𝑋1 = 2′ 1. 2′ 1 + 0′ .FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 𝐺𝑎𝑠𝑡𝑜 = −0′ 160 + 0′ . 𝑌 = 0′ 43) se obtiene 15 . 𝑇𝑎𝑚𝑎ñ𝑜 + 𝑒𝑟𝑟𝑜𝑟 A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las observaciones muestrales. (−0′092 −0′282 −0′092 0′016 0′013 −0′282 0′013 ) 0′067 16 .3 = 0′ 3839 𝑒1 = 𝑦1 − 𝑦 ̂1 = 0′ 43 − 0′ 3839 = 0′ 0461 Razonando así en todos los puntos muestrales se obtiene RESIDUOS PREDICCIONES 0’38 0’41 0’33 -0’046 -0’028 -0’024 0’31 0’57 0’77 0’001 0’048 -0’011 0’36 0’37 0’51 0’038 0’083 0’084 0’39 1’39 0’50 -0’075 0’104 0’032 1’07 0’35 0’36 -0’180 0’000 -0’025 Cálculo de SCR 𝑆𝐶𝑅 = ∑ 𝑒𝑖2 = 0′ 0721 𝑆̂𝑅2 = 0′ 0060 → 𝑆̂𝑅 = 0′ 0775 Se calculan los intervalos de confianza de los parámetros del modelo al 90% Para la varianza. 2′ 1 + 0′ 077.0′0060 2 ~𝑋12 𝜎2 0′072 52253 < ≤ 210298 𝜎2 00034 ≤ 𝜎 2 ≤ 00138 La varianza de los estimadores del módulo es 1′360 2 𝑡 −1 ′ ̂ ) 𝑉𝑎𝑟(∝ = 𝜎 (𝑋 𝑋) ≈ 0 . 𝜎 2 12.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 𝑌1 = −0′ 160 + ̂ 0′ . “la variable tamaño no influye” (contraste individual de la t) 𝑑̂2 = 0′ 077 = 3′ 831~𝑡12 0′ 0201 𝑝2 = 0′ 0012 → 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 Tabla anova 𝑆𝐶𝐺 = ∑(𝑦𝑖 − 𝑦̂)2 = 1′ 4316 𝑆𝐶𝐸 = 𝑆𝐶𝐺 − 𝑆𝐶𝑅 = 1′3595 17 .FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL De donde se deduce que 𝑉𝑎𝑟(𝛼̂0 ) = 000816 → 𝜎(𝛼̂0) = 00903 𝑉𝑎𝑟(𝛼̂1 ) = 0000099 → 𝜎(𝛼̂1) = 00099 𝑉𝑎𝑟(𝛼̂2 ) = 000040 → 𝜎(𝛼̂2) = 00201 Intervalo de confianza para ∝0 𝑡12(0′ 05) ∗ 00903 ≤ 0160 ∗ 𝛼0 ≤ 𝑡12(0′ 95) ∗ 00903 −0321 ≤ 𝛼0 ≤ 0001 Intervalo de confianza para 𝛼1 (ingreso) 𝑡12(0′ 05) ∗ 00099 ≤ 0149 ∗ 𝛼1 ≤ 𝑡12(0′ 95) ∗ 00099 01314 ≤ 𝛼1 ≤ 01666 Contrate 𝐻0 ≡ 𝛼1 = 0. “la variable ingreso no influye” (contraste individual de la t) 𝑑̂1 = 0′149 = 15′050~𝑡12 0′0099 𝑝1 = 0′ 000 → 𝑠𝑒𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0 Intervalo de confianza para 𝛼2 (𝑡𝑎𝑚𝑎ñ𝑜) 𝑡12(0′ 05) ∗ 00201 ≤ 0077 ∗ 𝛼2 ≤ 𝑡12(0′ 95) ∗ 00201 00412 ≤ 𝛼2 ≤ 01128 Contrate 𝐻0 ≡ 𝛼2 = 0. contraste que es equivalente al contraste indicidua de la t.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Con estos datos se obtiene el siguiente contraste conjunto de la F. se obtiene la regresión de la variable gasto respecto a la variable ingreso. 18 . Ahora se calcula el contraste individual de la F respecto a la variable x2=tamaño. para ello. se reunieron los siguientes datos a partir de una muestra aleatoria simple de quince ejecutivos de una empresa. edad en años).FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 3. número de años en la posición actual. Como parte de un estudio para investigar la relación entre la tensión nerviosa (estrés) y otras variables (tamaño de la empresa. salario anual en miles de dólares. La salida de análisis con SPPS es: 19 . 629Edad Interpretación de los coeficientes de regresión: Intercepto= -126. el salario y la edad fueran cero. si todas las variables explicativas fueran cero. ¿Le parece que es este un modelo adecuado para describir el estrés o propone otro? D. ¿A qué se refiere esta medida de variabilidad? SOLUCIÓN PREGUNTA A La recta de regresión es: Estrés= −126.563Años+1. Escriba la recta de regresión múltiple estimada a partir de estos datos. B.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL A. Interprete los coeficientes de regresión. ¿Cuál es el valor del coeficiente de determinación que usaría para describir la bondad de ajuste del modelo? Interprételo en términos del problema de regresión. E.505+ 0. 20 . C. el número de años.505.176Tamaño−1.575Salario+1. Examine los tests t de los coeficientes de regresión. es decir.505 Si el tamaño de la empresa. el puntaje de estrés del ejecutivo sería menos 126. Qué supuestos se deben cumplir para la utilización de este modelo. Dé un estimador de la desviación estándar poblacional. Pendiente de Años: Por cada año en posición actual.176 unidades. PREGUNTA B El coeficiente de determinación que se usa en regresión lineal múltiple es el R2 ajustado.563 puntos. Al examinar los valores p correspondientes a cada uno de los tests nos damos cuenta que casi todas las pendientes son significativas (distintas de 21 .575 puntos.779. Pendiente de la edad: por cada año de edad. que en este caso es de 0. el estrés del ejecutivo aumenta en 0.3.629 puntos. deberíamos ajustar otro modelo sin la variable "Años en posición actual".2. PREGUNTA C Los test t de los coeficientes de regresión sirven para docimar la hipótesis: Ho: β j = 0 H1: β j ≠ 0 En este problema tenemos 4 tests de esta forma (j=1. Pendiente de Salario: Por cada mil dólares que aumenta el salario. el estrés del ejecutivo aumenta en 1. Este coeficiente nos indica que las variables usadas en el modelo explican en un 77.9% la variabilidad total del estrés. el estrés del ejecutivo aumenta en 1.4) Por lo tanto este no sería un modelo adecuado para describir el estrés de los ejecutivos.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la empresa. el estrés del ejecutivo disminuye en 1. salvo la de la variable Años en posición actual. por lo tanto aceptamos la hipótesis nula. 22 . PREGUNTA E Este es un estimador de la variabilidad del estrés considerando las variables explicativas del modelo. El estimador de la desviación estándar poblacional es 24.03.493= 24. cuyo valor p es 0.455. y concluimos que la pendiente es igual a cero.164 que es la desviación estándar del estrés sin tomar en cuenta estas variables. y lo podemos contrastar con el estimador de la variabilidad del estrés de 51.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL cero).031 o la raíz de la media cuadrática residual: raíz de 577. PREGUNTA D Los supuestos que debe cumplir el modelo son: Linealidad: La relación entre la variable respuesta y las explicativas debe ser lineal Nocolinealidad: las variables explicativas no deben estar correlacionadas entre sí Normalidad de los residuos Homocedasticidad de los residuos (varianza constante). ¿Existe relación lineal entre las ventas de la empresa y sus gastos en publicidad? Razona la respuesta. referidos al volumen deventas ( en millones de pesetas) y al gasto en publicidad ( en miles de pesetas) de los últimos 6 años: a. ¿Qué volumen de ventas de la empresa se podría esperar en un año que se gaste de publicidad 60000 pesetas? ¿ Y para un gasto en publicidad de 200000 pesetas? c.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 4. Si lo único que interesase fuese la evolución del volumen de ventas en términos de gastos en publicidad. Obtener las rectas de regresión mínimo cuadrático. sin tener en cuenta la cantidad concreta de cada uno de ellas. De una determinada empresa se conocen los siguientes datos. ¿existiría correlación ordinal entre ambas variables? SOLUCIÓN 23 . b. sx=20.870. Cuya expresión simplificada es: Para clarificar la forma de cálculo construimos la siguiente tabla: ( variable X= Gastos de publicidad y variable Y= Volumen de ventas) X= 49. Y=21. 24 . sxy=158 Substituyendo obtenemos que r2 vale 0.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Ahora calculamos el coeficiente de determinación lineal para obtener una medida descriptiva del grado de asociación lineal que existe entre las variables.5. La expresión del coeficiente de determinación es: Donde Sxy representa la covarianza de las variables X e Y.956 que es lo que cabía esperar después de observar el diagrama de dispersión.333. 363x .604+0. pues las rectas sólo son válidas dentro del rango o para valores próximos a los extremos del recorrido. X*=-7. obtendremos un volumen de ventas de x*=3. Para realizar la predicción del volumen de ventas utilizamos la recta de regresión que tienen las ventas en función de los gastos en publicidad.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL PREGUNTA b Si expresamos las rectas de regresión como y*= a+bx y x*=c+dy los coeficientes de los calculados son como: Aplicándolas a este problema obtenemos las rectas de regresión: Y*=3.356+2.363*60=25.637y PREGUNTA c Si el gasto es de 200 millones de pesetas no podemos utilizar la recta de regresión puesto que el valor 200 esta fuera del recorrido del gasto en publicidad. Para un gasto en publicidad de 60000 pesetas 25 . Si sustituimos nos da un valor de 76204 millones de pesetas.384 millones de pesetas.604+0. 5. es decir a mayor gasto en publicidad mayor volumen de ventas. Desarrollar el siguiente problema 26 . como ocurre en estos datos. tiene la siguiente expresión: En este caso rs es 1 por tanto existe correlación ordinal positiva y perfecta.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL PREGUNTA d El coeficiente de Spearman cuando no existen empates en los rangos. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Ejercio 2 27 . FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 6. Desarrollar el siguiente ejercicio 28 . FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 29 . FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 7. Desarrollar el siguiente ejercicio 30 . FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 31 . 928 32 .FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL r=0. Desaroollar el siguiente problema 33 .FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 8. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 34 . 4788805 0.80218418 0.943 Rechazo Ho.45303883 -0.5008963 Y= 99.93463981 1.32893699 5.11162173 0. un fabricante de ordenadores con sede en las Islas Canarias.57760668 23.49810014 -238.04787791 0.098504 0.1.4521028 0. está intentando estimar su nivel de ventas para el próximo año.11X2+5.943 Rechazo Ho.000 euros para atender sus 5 mercados y un precio medio de venta de 978? a) Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intercepción 99. c) Intercepción Mercados atendidos Presupuesto de publicidad Coeficientes Error típico -9.761025 6.7153482 Precio de Venta-0.86283619 33.02066165 3.943 Estado Significativo.3009945 45.1425301 18.02412284 3.76X1+-0.57 + 18. referente a sus 10 competidores más próximos dentro del sector informático.39243876 10.92886558 2.28X3 b) Bi=0 Bi≠0 Valor T+.8283941 6.1457811 3. La compañía Logical.72087331 0.4768409 Y= -9. Precio de Venta: Texp≤ 1.06815138 10.22885934 Presupuesto de5. ¿Podría usted dar una predicción de ventas si sabemos que Logical cuenta con un presupuesto publicitario anual de 23.97496943 0.82X1+5.13181872 2.466389 Mercados atendidos 20.28452385 publicidad 2.55+20. Para ello ha recabado la siguiente información.943 No rechazo Ho. Mercados de atención: Texp≥ 1.93X3 35 .08951389 0.793952 1.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 9.80670169 37. Presupuesto de publicidad: Texp ≥ 1.9208976 Estadístico t Probabilidad -0.69136744 2.99630938 0.13914726 -0.5515247 138.36334 437.01757898 Inferior 95% Superior 95% -64.41385305 0. 6788861 684.37 36 . RESIDUOS: Observación 1 2 3 4 5 6 7 8 9 10 Pronóstico Ventas 124.54505367 -44.58+121.76X1+-0.6581762 403. Error estándar de estimación.28X3 Y= 99.92010689 25.7074579 Observaciones 10 Relación entre Y y X es fuerte y positiva. El 97% de la variación de Y se puede explicar por la asociación de Y con X.4208071 0.5170765 Residuos 4.0269384 524.98980071 Coeficiente de determinación R^2 0.44 Y= 432.1938861 5.115373 -1. Estadísticas de la regresión Coeficiente de correlación múltiple 0.8+107.4761929 275.11X2+5.6279235 Y= 99.55+20.55+20.69015995 -11.11 (978)+5. Más próximo a 1 es mejor el modelo.3489463 469.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL d) Análisis de Regresión.973907 Error típico 29.8999384 53.000) Y= 99.0578931 131.25716 232. Grado de asociación.05582379 -15.97970544 R^2 ajustado 0.55+103.6703576 -16.760373 203.28 (23.6573576 337.76 (5)+0. 000 60.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL GRAFICO: Ventas Mercados atendidos Curva de regresión ajustada 800 700 600 500 400 300 200 100 0 Ventas Pronóstico Ventas 0 5 10 15 20 Mercados atendidos Presupuesto de publicidad Curva de regresión ajustada 800 700 Ventas 600 500 Ventas 400 Pronóstico Ventas 300 200 100 0 - 20.000 80.000 40.000 Presupuesto de publicidad 37 . 82X3+(-3.33725047 6.82244734 1. el número de horas pasadas en bares o discotecas (x3).02246915 2.1378341 0.22+(-0.06915169 -0.31513717 Y= 0.06292673 0.58X5 b) βi=0 βi≠0 Valor T +-: 1. X2: Texp≥1.03734957 2.58121444 0.70470881 12.65X1)+6. =0 No).48927322 0.37679179 -0. 38 .96522843 -3.83 No rechazo Ho.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 10.9850929 2.09306435 0.3105919 3.00974322 0. el número de horas específicamente dedicadas a los exámenes (x2).6027826 6.83 Rechazo Ho.6992169 -1. X4: Texp≤1. Para intentar analizar su comportamiento se recogieron datos como el número de horas semanales dedicadas al estudio (x1). La variable estudiada fue la puntuación alcanzada en los exámenes (y).83 Rechazo Ho. Intente ajustar un modelo de regresión que explique las calificaciones de los estudiantes en función de los valores de las otras variables. y el número medio de horas de clase semanales (x5).91722163 1.5088364 -0.21930858 22.48245533 0.02475384 0. En una encuesta realizada a 15 estudiantes de la Universidad de Illinois.707882 4. si los estudiantes tomaban apuntes en clase (x4 =1 Sí.83 No Rechazo Ho X5: Texp≥1.07355516 -0. se obtuvieron los resultados recogidos en la tabla que se muestra más abajo.0015121 4.64099986 -18.34X4)+1.2681029 12.30275813 -2.04X2+8.98176966 8.83 Rechazo Ho.99243871 -50. X3: Texp≥1.1527083 Superior 95% 51.83 X1: Texp≤1.65888017 0. a) Intercepción x1 x2 x3 x4 x5 Coeficientes Error típico 0.7825811 13.76649084 Estadístico t Probabilidad Inferior 95% 0. 5026244 -9.5026244 63.46105939 5.08X3+1. Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 0.33568257 13. El 80% de la variación de Y se puede explicar por la asociación de Y con X.92X5 d) Análisis de regresión.0484523 58.0095863 55.9515477 13.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL c) Intercepción X2 X3 X5 Coeficientes -17.31684758 4.82X3+(-3.44509779 2. Error estándar de estimación.7008134 3.7394755 2.2991866 54.04080375 0.7178268 86.9691009 104.96694169 9.00152432 2.0837657 0.9674815 32.66747839 Probabilidad 0.71249014 8.80363569 0.6857902 15 Relación entre Y y X es fuerte y positiva.34X4)+1.00098666 0.8964573 0.65X1)+6.08019753 12.4610594 64.02189238 Inferior 95% Superior 95% -56.71X2+8.966942 90.58X5 39 .0892977 4.08854713 -8.33809585 0.81817859 0.46105939 -4.2778062 0.6660478 Residuos -7.89725151 1.91747858 Error típico 17.22+(-0.7665162 6.99041369 1.75008179 11.30522 73.96910091 -7.71883566 Estadístico t -1.3339522 Y= 0.04X2+8.96748149 -16. Grado de asociación.30521971 16.33533197 3.3790778 100.3348825 57. Más próximo a 1 es mejor el modelo.9114529 63.28217319 -8.49962519 Y= -17.4610594 92. RESIDUOS: Observación 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Pronóstico y 94.62092222 -2.8108386 21.08198161 1.76+6.33488254 15. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL GRAFICO: X2 Curva de regresión ajustada 120 100 Y 80 60 40 Y 20 Pronóstico Y 0 0 1 2 3 4 5 6 X2 X3 Curva de regresión ajustada 120 100 80 Y 60 Y 40 Pronóstico Y 20 0 0 2 4 6 8 10 X3 40 . Para ello cuenta con el cuadro que se muestra al final: Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intercepción 8.8152472 37.40682095 0.24488765 1.42973317 12. 41 .860 Rechazo Ho.24497071 10.6747135 Metros cuadrados 0.66469525 0.17149138 -0. está intentando estimar un modelo que pueda predecir el precio de venta de una casa.40185503 1.42+0.93253851 a) Y= 8.04897313 0.36X3 b) βi=0 βi≠0 Valor T +-: 1.40X2+0.30038693 0. Años del edificio: Texp≤1-860 No rechazo Ho.50202173 0.19688536 0. Habitaciones: Texp≥1.52493868 -20.860 Metro cuadrados: Texp≥1.59905219 Habitaciones 7.30X1+7.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL X5 Curva de regresión ajustada 120 100 Y 80 60 Y 40 Pronóstico Y 20 0 0 5 10 15 20 25 30 35 X5 11.860Rechazo Ho.36782657 0.36898468 5.31929712 0.12951636 2. agencia inmobiliaria del barrio de la Rosilla.00172166 0.5587394 Año del edificio0. La Casa Bonita.00064078 4.6821023 0. 95122341 -7.00088691 Inferior 95% Superior 95% -0.2628464 -8.19959064 152.05260819 2.55980947 120. El 97% de la variación de Y se puede explicar por la asociación de Y con X.86723071 0. Más próximo a 1 es mejor el modelo.78X2 d) Análisis de regresión.8495906 -8. RESIDUOS: Observación 1 2 3 4 5 6 7 8 9 10 11 12 Pronóstico Precio de Venta (1000$) Residuos 56.8098095 -0.6780588 -0.78126514 Error típico 9.62210939 3.73910201 70.89628396 84.3103677 -2.1590169 11.20647098 10. Error estándar de estimación.21089799 5.69+0.42457471 12 Relación entre Y y X es fuerte y positiva. Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 0.93301371 Y= 21.30970443 6.943529 76.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL c) Intercepción Metros cuadrados Habitaciones Coeficientes 21.43853159 7.38798734 104.97094877 8.01284636 105.70371604 4.23103062 0. Grado de asociación.39324917 Estadístico t Probabilidad 2.6595415 -8.00954152 221.97623081 0.31X1+6.3409831 42 .6877396 0.24260237 0.00270053 0.98804393 0.30257955 43.61036773 168.7379873 -5.06146841 103.72095113 0.05162337 4.13810047 1.62951656 9.20122341 62. 4+10.8 Y= 165.36 (30) Y= 8.000$) 250 200 150 Precio de Venta (1.42+0.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Y= 8.40 (6)+0.42+30+44.000$) 50 0 0 5 10 15 20 Habitaciones 43 .30 (100)+7.000$) • 200 150 Precio de Venta (1.62 El precio de venta de la cada seria $165.42+0.40X2+0.000$) 50 0 0 50 100 150 200 250 300 Metros cuadrados Habitaciones Curva de regresión ajustada 250 Precio de Venta (1.36X3 Y= 8.30X1+7.000$) 100 Pronóstico Precio de Venta (1. GRAFICO: Metros cuadrados Curva de regresión ajustada Precio de Venta (1.62.000$) 100 Pronóstico Precio de Venta (1. 132 Rechazo Ho.55066895 0.19673844 0. Para predecir el impacto de su política publicitaria cuenta con un modelo matemático de regresión que intenta explicar las ventas de cada región en base a las siguientes variables: Intercepción Ventas Número de vendedores Presupuesto de publicidad Número de anuncios mensuales en Televisión Minutos de radio de publicidad de la competencia Coeficientes 121.09542346 -0.12X2+(-0.15953102 0.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 12.132 No Rechazo Ho.0674359 266.32X4)+(-0.0870892 0.14X3)+(-0.32317051 0. c) Intercepción Ventas Presupuesto de publicidad Número de anuncios mensuales en Televisión Minutos de radio de publicidad de la competencia Coeficientes 99.13553151 Error típico 40.20999942 -0. o Minutos de radio de publicidad de la competencia: Texp≥ 2.0017099 -0.00679803 44 .03648931 0.09219363 -0.9427569 0.099057493 0. o Número de vendedores: Texp≤2.27898037 -0.09926194 -2.132 o Ventas: Texp≥ 2.35621632 0.33358227 0.15572998 0.18451299 0.03609683 0.04318232 -0.02827067 a) Y= 121+0.02521589 -3.11550912 0.140345136 -0.3255928 0.07941948 -2.56268774 -0.02441448 -2.14956471 0.18767474 -0.92111426 204.06924088 Estadístico t Probabilidad 2.319834756 -0.05967694 3.132 Rechazo Ho.16729234 -0.81068931 0.01044024 0.73509297 0.0580931 Inferior 95% Superior 95% -5.07993785 3.132 Rechazo Ho.03191752 0.04828306 -2.163972824 Error típico 52.27786104 0.01709491 0.10X1+0.4478041 0.02240192 -0.166452 0.05536861 Estadístico t Probabilidad 2.16X4) b) βi=0 βi≠0 Valor T +-: 2.25374332 -0.07697587 Inferior 95% Superior 95% -23.119758613 -0.132 Rechazo Ho.11620067 -0.7506917 0.02921468 0.13843728 0. o Presupuesto de publicidad: Texp≥2.36815061 0.5723 0.49458619 -2.10354576 0.5495081 0.04993264 0.4259625 0. o Número de anuncios mensuales en Televisión: Texp≥ 2. La empresa Casino Blues tiene su mercado dividido en 8 regiones. 357973188 5. Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 0.23855462 0.12X3)+ (-0.430888453 5.046877641 3.76579894 1.01684559 3.63136557 10 Relación entre Y y X es fuerte y positiva.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Y= 99.09X1+ (-0.91580885 0.70967051 1.33 + 0.76579894 8.690318719 10.60825571 1.25X4) + (-0.24044529 -0. Grado de asociación.238554624 4. Más próximo a 1 es mejor el modelo.35797319 -1.43088845 1. El 83% de la variación de Y se puede explicar por la asociación de Y con X.69855616 GRAFICOS Ventas Curva de regresión ajustada 12 Region 10 8 6 4 Region 2 Pronóstico Region 0 0 200 400 600 800 Ventas 45 .391744294 6.83870584 0.04687764 -0.30968128 -1. Error estándar de estimación RESIDUOS: Observación 1 2 3 4 5 6 7 8 9 10 Pronóstico Region 1.01684559 -1.301443841 Residuos -0.75955471 6.14X5) d) Análisis de Regresión. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Region Presupuesto de publicidad Curva de regresión ajustada 12 10 8 6 4 2 0 Region Pronóstico Region 0 200 400 600 800 Presupuesto de publicidad Region Número de anuncios mensuales en Televisión Curva de regresión ajustada 12 10 8 6 4 2 0 Region Pronóstico Region 0 50 100 150 Número de anuncios mensuales en Televisión 46 . 93+ 0. Más próximo a 1 es mejor el modelo.56391885 0.0043983 19.5877581 1.00142759 -2. Día lluvioso.79305838 -1.086X1 b) Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones 0.0867765 0.09691498 Y= -1.98203656 0.99227152 0.08615274 0.1474E-06 0.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Minutos de radio de publicidad de la competencia Curva de regresión ajustada 12 10 Region 8 6 Region 4 Pronóstico Region 2 0 0 200 400 600 800 Minutos de radio de publicidad de la competencia 13.32829966 8 Relación entre Y y X es fuerte y positiva.98460276 0. un fabricante de gafas de sol está planificando su producción para el año que viene. 47 . Para ello cuenta con las ventas de los últimos 8 años que se muestran a continuación: a) Intercepción Ventas ( en miles de unidades) Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% -1.93991744 0. Grado de asociación. El 98% de la variación de Y se puede explicar por la asociación de Y con X.0753905 0.34866027 -5. 943 entonces Rechazo H0.943 ≤ Texp ≤1.58 5) Como Texp≥ 1.943 Estado significativo • Rechazo H0: Texp≥ -1.943 o Texp≥1. PRUEBA DE HIPOTESIS: 1) βi=0 βi≠0 2) α=0.943 4) Texp=19.943 • No Rechazo H0:-1.05 3) Valor t +.1. 48 .FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL Error estándar de estimación. 6) Existe evidencia estadística del cociente de la variable x es diferente de 0 con un nivel de significación del 95%. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 49 . Ajustar un modelo de regresión lineal. Encontrar el modelo de regresión que mejor se ajusta a estos datos. 2. a. b.FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 1. Los datos de la tabla adjunta indican la gravedad especifica (X1). Calcular el coeficiente de determinación y la varianza residual. ¿ES EL AJUSTE ADECUADO? c. contenido de humedad (X2) y fuerza Y de diez vigas de madera.0). 50 . con los siguientes resultados. Se realiza un experimento para determinar la duración de vida de ciertos circuitos electrónicos (Y) en función de dos variables de fabricación (X1) y (X2). Construir un intervalo de confianza al 90% para la predicción en el punto (0. Los resultados son de la tabla adjunta. La demande de un tipo de impresoras ha cambiado debido a una rápida variación en el precio. 51 . Se a observado la demanda (Y) en una amplia región geográfica y el precio unitario (X) (en unidades de 10 mil pesetas).FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL 3. Ajustar un polinomio de regresión a estos datos que explique el comportamiento de la demanda. FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL BIBLIOGRAFÍA Esta detallada información ha sido obtenida de la página de internet: Google.slideshare.es/asignaturas/estadistica2/secprac_5_3.html http://es.udc.com http://dm.net/juancasa2791/regresion-multiple2 52 .