Estad´ıstica IIExamen Final 26/06/2013 Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice diferentes cuadernillos para responder a cada uno de los ejercicios Indique claramente en cada cuadernillo su nombre, n´ umero de orden y grupo reducido de clase La duraci´on del examen ser´ a de 2 h. y 45 min. 1. (2,5 puntos) Se dispone de una muestra con datos de ventas de una compa˜ n´ıa en 19 ciudades norteamericanas de tama˜ no medio durante los a˜ nos 2008 (Y ) y 2009 (X). Para este conjunto de 19 datos (por cada a˜ no) se obtuvo la siguiente informaci´on resumen en Excel (con valores medidos en millones de d´olares): Contesta a las preguntas siguientes: a) (0,7 puntos) ¿Qu´e debemos asumir para poder calcular un intervalo de confianza para µX ? Calcule un intervalo de confianza al 99 % para µX . ¿C´omo interpretar´ıa este intervalo? b) (0,3 puntos) Si sospech´ asemos que las ventas promedio en ciudades de este tipo durante 2009 son menores de 0,57 (millones de d´olares), ¿qu´e contraste de hip´otesis plantear´ıa? Establezca claramente el par´ ametro de inter´es y las hip´otesis nula y alternativa correspondiente. c) (0,7 puntos) Resuelva el contraste anterior al 5 % de significaci´on indicando: el estad´ıstico del contraste, su distribuci´ on bajo la hip´otesis nula y su decisi´on/conclusi´on. d ) (0,3 puntos) ¿Podemos cometer errores de tipo I y de tipo II simult´aneamente en el contraste anterior? Justifique su respuesta. e) (0,5 puntos) Si quisi´eramos ahora contrastar si se ha producido un incremento en las ventas entre el a˜ no 2008 y el 2009, indique el contraste que plantear´ıa, qu´e ser´ıa necesario asumir para llevar a cabo dicho contraste, el estad´ıstico del contraste a utilizar y su distribuci´on bajo la hip´ otesis nula. Soluci´ on. a) Supuestos: MAS, poblaci´ on normal. El intervalo de confianza viene dado por 0,5321 2,878 0,0598 z}|{ = (0,5321 ∓ 0,0395) = (0,4926; 0,5716) |{z} z}|{ z }| { s IC99 % (µX ) = x ¯ ± tn−1;0,005 √ n 19 ya que los errores de Tipo I se cometen cuando la hip´otesis nula es verdadera.57 n = 19 x ¯ = 0. d ) No. mientras que los errores de Tipo II se cometen cuando H0 es falsa. sD / n donde en nuestro caso d0 = 0 y n es el tama˜ no de cada una de las muestras.2 puntos) ¿Qu´e supuestos sobre la poblaci´on y las muestras aseguran la validez del procedimiento empleado? . muestras pareadas.6 puntos) Las hip´ otesis nula y alternativa del contraste. (2.0.0598/ 19 s = 0. Se obtuvieron los siguientes resultados (en euros): ¿Corroboran los datos obtenidos la afirmaci´on sobre los salarios en el Pa´ıs Vasco y en la Comunidad de Madrid para un nivel de significaci´ on del 5 %? Responda a esta pregunta indicando claramente: a) (0.5321 x ¯ − µ0 0. Hip´otesis: dos MAS. el valor de la media de las ventas anuales para la poblaci´ on se encuentra en el intervalo indicado con una confianza del 99 %.7626 s/ n 0.5 puntos) Se sospecha que el salario bruto medio anual en el Pa´ıs Vasco (PV) puede exceder el salario medio bruto anual en la Comunidad de Madrid (CM) en m´as de 100 euros.57 √ √ = t= = −2. y por tanto para un nivel de significaci´on del 5 % rechazamos H0 y concluimos que el valor promedio de las ventas es inferior a 0. Si el experimento (la adquisici´ on de informaci´ on) se repitiese un n´ umero suficientemente elevado de veces. µ0 z}|{ b) El contraste a llevar a cabo sobre la media de la poblaci´on para X. c) (0.57 (contraste unilateral) c) Estad´ıstico del contraste y su distribuci´on: T = ¯ − µ0 X √ ∼H0 tn−1 . diferencias normales. b) (1. el p-valor del contraste y la conclusi´ on a la que llega con respecto a la afirmaci´on sobre los salarios. 2.1 puntos) La expresi´ on del estad´ıstico de contraste (y su distribuci´on bajo la nula). ser´ıa H0 : µX ≥ 0.5321 − 0. Para juzgar dicha afirmaci´on se tomaron muestras aleatorias simples de 1000 individuos en las dos comunidades.734 El valor observado est´ a en la regi´on cr´ıtica.05 = 1.57 frente a H1 : µX < 0. El estad´ıstico del contraste y su distribuci´on vendr´an dados por: T = ¯ − d0 D √ ∼H0 tn−1 . e) Contraste a realizar: H0 : µX ≤ µY frente a H1 : µX > µY (contraste unilateral).Bajo los supuestos anteriores.57 millones de d´olares. Definimos D ≡ X − Y . el valor de la media en la poblaci´ on estar´ıa dentro del intervalo un 99 % de las veces. s/ n Valor observado: µ0 = 0.0598 Valor cr´ıtico: t18. µX . nX = nY = 1000.6 (400.2 puntos) ¿Cu´ al es la probabilidad de rechazar la hip´otesis nula del contraste anterior cuando la nula es correcta? ¿C´ omo se llama este tipo de error? 0.2 0. La potencia es igual a 1 menos la probabilidad del error de Tipo II (equivalentemente. −100 0 100 300 500 700 900 µPV − µCM Soluci´ on. por tanto el estad´ıstico de contraste es: ¯ − Y¯ − 100 X Z= r ∼H0 .0228) y.0228 Como el p-valor = 0.38) ● 0.0228 < α = 0.09 24738938. Seg´ un el gr´afico.05. 1) s2Y s2Y nX + nY Su valor observado es: 26730. e) El error de Tipo II se produce al no rechazar la nula cuando la alternativa es correcta.d ) (0. por tanto.0.0 0. . 1)) es: P (Z > z) = P (Z > 1.78 + 1000 1000 El p-valor del contraste (donde Z ∼ N (0.8 0.64 − 100 = 1. 1.05 El error se llama de Tipo I.4 f ) (0. tenemos suficiente evidencia estad´ıstica para rechazar H0 al nivel de significaci´ on de 5 % (y todos niveles por encima de 0.2 puntos) A la derecha aparece la curva de potencia (aproximada) del contraste anterior en funci´on de la diferencia entre las medias poblacionales. c) Al tratarse de muestras grandes no es necesario suponer nada sobre la distribuci´on de X e Y . d ) La probabilidad pedida es: P (rechazar H0 |H0 es correcta) = α = 0. N (0. b) Se trata de muestras grandes en ambos casos.51 − 26179.0 e) (0.approx. ¿cu´al es la probabilidad de no rechazar la hip´otesis nula cuando en realidad µP V − µCM = 400? Justifique su respuesta.2 puntos) ¿Cu´ al es la definici´ on del error de Tipo II? Explique su relaci´on con la potencia de un contraste.9961) = 0. la probabilidad del error de Tipo II es 1 menos la potencia). a) El contraste de hip´ otesis que nos piden es: H0 : µX − µY ≤ 100 H1 : µX − µY > 100 donde X es el salario bruto anual de los trabajadores del Pa´ıs Vasco e Y representa el salario bruto anual de los trabajadores de la Comunidad de Madrid. siendo µX y µY sus respectivas medias. µP V − µCM . la muestra obtenida proporciona evidencia de que el salario medio bruto en el Pa´ıs Vasco excede en m´ as que 100 euros al salario medio en Madrid.9961 z= q 26282962. Sobre las muestras s´ı: deben ser cada una de ellas aleatorias y simples y deben ser independientes entre si. y el cociente del estimador por su error est´andar (estimado). βˆ0 /s(βˆ0 )? e) (0. dado un gasto en publicidad de 580 (miles de euros). obtenga el coeficiente de determinaci´on R2 y la varianza residual s2R . d ) (0.3 puntos) Si hubi´esemos sospechado que la relaci´on entre las ventas (y) y la inversi´on en publicidad (x) no fuese lineal.f ) La probabilidad pedida es: µP V − µCM = 400 P (no rechazar H0 | }| z { H1 es correcta ) = 1 − potencia(400) = 1 − 0. g) (0. sino que respond´ıa a una relaci´on del tipo y = abx .6 puntos) Calcule un intervalo de confianza al 95 % para el promedio de los ingresos por ventas. Se pide que conteste a las preguntas siguientes: a) (0.62 3. Explique el significado del valor de R2 obtenido. f ) (0. es decir. ¿que transformaci´ on propondr´ıa para su linealizaci´ on? i ) (0. Utilizando un modelo de regresi´ on lineal con los datos de los 10 u ´ltimos a˜ nos. Soluci´ on.4 puntos) A partir de estos datos.7 puntos) Efect´ ue el contraste de hip´otesis de que las ventas dependen linealmente de los gastos en publicidad con un nivel de significaci´on del 5 %. hemos obtenido la siguiente salida “incompleta” del An´ alisis de Datos de Excel: Sabemos adem´ as que P i xi = 5847 y 2 i xi P = 3426945.3 puntos) Para este problema de regresi´on planteado en forma matricial.2 puntos) ¿Qu´e distribuciones siguen el estimador βˆ0 . a) Los valores que faltan en la salida de Excel son .3 puntos) De un intervalo de confianza al 95 % del intercepto de la recta de regresi´on (poblacional) e interpr´etelo.5 puntos) El director de la empresa SA nos ha solicitado una predicci´on de los ingresos por ventas anuales (y) a partir de nuestros gastos en publicidad (x) (ambos en miles de euros).5 puntos) Calcule un intervalo de confianza al 95 % para la varianza del error (σ 2 ). b) (0. (3. ¿Cu´ al ser´ıa la relaci´ on entre σ 2 y s2R ? c) (0.38 = 0. indique los valores que aparecer´ıan en la diagonal de la matriz (X T X)−1 .2 puntos) ¿Para qu´e gasto en publicidad la longitud del intervalo del apartado 3f ser´ıa m´ınima? h) (0. σ 2 .025 = 2. por lo que no podemos rechazar que β0 sea igual a cero.0. d ) βˆ0 se distribuye normalmente y βˆ0 /s(βˆ0 ) lo hace como una t de Student con 8 grados de libertad. χ28. el intervalo es 8 · 95535. P e) s2 = ( x2 − 10¯ x2 )/9 = 911.306 tenemos 3507.45 8 · 95535. El valor de s2R proporciona una estimaci´on insesgada de la varianza del error poblacional del modelo de regresi´ on. 9721.0.566.41.025 = 17. 8113.32 · 580 = 9492.45 ≤ σ2 ≤ 17.0.α/2 s2R s 1 (x0 − x ¯)2 + n (n − 1)s2x 1 (580 − 584.6 ≤ σ 2 ≤ 350588.025 = 2.975 = 2.45 + 10 9 · 911.7)2 = 9492.654 ⇒ IC95 % (β0 ) = (−1099. SCR 764283.8.41 = 3.566 = (9264.82. 41 .321 y x i i s s(βˆ1 ) = s2R = (n − 1)s2x s 95535.18 y s2R = 95535.82 ∓ 2.45 n−2 8 b) El intervalo viene dado por (n − 2)s2R (n − 2)s2R 2 ≤ σ ≤ χ2n−2.45. 22).1−α/2 Como χ28.306.Para los valores pedidos tenemos: R2 = SCM 874010 = = 0.81) El intervalo contiene el 0. f ) x0 = 580 y la estimaci´ on puntual de inter´es viene dada por yˆ0 = 3507.22 ∓ 2. .0.22 + 10.53 2.321/3.6 s2R = = = 95535. SCT 1638294 Este valor representa la proporci´ on de la variaci´on de las ventas explicada por los gastos en publicidad. βˆ1 = 10. El intervalo pedido es s IC95 % (ˆ y0 ) = yˆ0 ∓ tn−2.18 ⇔ 43598. rechazamos H0 y concluimos que β1 es significativamente diferente de cero.45 = 3.306 95535. c) Con los datos de la salida y t8.02 > t8.53348. 9 · 911.306 · 1997.53.38 .566 El contraste a llevar a cabo es H0 : β1 = 0 H1 : β1 6= 0 Como t = 10.α/2 χ2n−2. Calcule el valor de R2 y la tabla de descomposici´ on de la varianza (ANOVA).6545).35 0. mientras que s(βˆ1 ) est´ a calculada en el apartado 3e. 95535. (Z1.t .000122. Soluci´ on. x0 = x ¯ = 584. 17 donde: (Yt ) es la inversi´ on anual en millones de euros. Alternativamente.89 −245.7 puntos) Estime las varianzas de los estimadores de m´ınimos cuadrados de los coeficientes β0 . Alternativamente.5 puntos) Supongamos que. la inversi´ on anual aumenta en media (aproximadamente) un 1. . s2R (n − 1)s2X ! . c) (0. . en un estudio de los determinantes de la inversi´on.45 4.t ) es el tipo de inter´es (en tanto por uno). Tenemos que (X T X)−1 (X T X)−1 00 11 = = 1997.4 puntos) Nos informan adem´ as que el valor del estad´ıstico F es 23. b) (0. manteniendo constante el PIB. a) Interpretaci´ on de los coeficientes: (βˆ1 ): Cuando el PIB aumenta un 1 %.14 unidades en promedio.70 −6. β2 del modelo de regresi´ on lineal y contraste la significatividad individual los (tres) coeficientes (a un nivel de significaci´ on del 5 %). un 100 %. la inversi´ on anual disminuye en media (aproximadamente) un 0.412 = 0. . i ) La diagonal de la matriz (X T X)−1 toma valores (X X) (X T X)−1 T −1 = 00 = 11 s2 (βˆ0 ) 1 x ¯2 = + n (n − 1)s2X s2R ! s2 (βˆ1 ) 1 = .42 −6.t ) es el PIB en millones de euros. cuando el tipo de inter´es aumenta en una unidad. t = 1.82 −245. manteniendo constante el PIB. ˆ (β2 ): Cuando el tipo de inter´es aumenta en un 1 %.7.45 3. esto es.0028 y los elementos de la matriz (X T X)−1 son: 510. y (Z2.37 + 1. h) Para el modelo y = abx la transformaci´on que linealiza dicho modelo ser´ıa y 0 = log y = log a + x log b.14 log(Z1. .42 132. β1 . El valor de s2R se obtuvo en el apartado 3a.4 puntos) Interprete los coeficientes βˆ1 y βˆ2 del modelo de regresi´on ajustado. Tambi´en hemos obtenido que eT e = 0.77. 95535. . el logaritmo de la inversi´ on anual aumenta en 1.83 unidades. cuando el logaritmo del PIB aumenta en una unidad. hemos estimado la siguiente ecuaci´ on utilizando m´ınimos cuadrados: log(Yt ) = 1. s(βˆ0 ) aparece en la salida de Excel (= 1997.g) El intervalo ser´ıa m´ınimo cuando x0 fuese igual a la media.35 0.8.82 7.83 %. manteniendo constante el tipo de inter´es.t ) − 0. manteniendo constante el tipo de inter´es.14 %. el logaritmo de la inversi´ on anual disminuye en promedio en 0.65452 = 41. (1.11 Se pide que: a) (0.83Z2. rechazamos la hip´otesis nula de no significatividad al 95 % en los tres casos. ti = q βˆi s2 (βˆi ) .0123 = 0.774.00142 t1 = 6.00476 0. . s2 (βˆ2 ) = 0.b) Tenemos s2R = i e2i /(n − k − 1) = 0.287.8 El coeficiente de determinaci´ on m´ ultiple es R2 = SCM/SCT = 0. t2 = −22.0002 Estad´ıstico F 23.025) = 2.0002.00952/0. variaci´ on Modelo Residual Total Suma cuadrados 0.1021.025).0123 Grados de libertad 2 14 16 Varianza 0.997. y los valores correspondientes para nuestros datos son: s2 (βˆ0 ) = 0.027 t14 (0.0028 0. t0 = 4. s2 (βˆ1 ) = 0.00952 0. c) La tabla ANOVA se puede obtener de los siguientes c´alculos Suma de cuadrados residual Grados de libertad de los residuos ) Varianza residual Estad´ıstico F ) Varianza explicada Grados de libertad ) Suma de cuadrados explicada Suma de cuadrados residual ) → Varianza residual → Varianza explicada (por el modelo) → Suma de cuadrados explicada → Suma de cuadrados total resultando F.0028/(17 − 3) = 0. Las varianzas y los valores de los estad´ısticos para los contrastes de significaci´on individual se obtienen como P s2 (βˆi−1 ) = s2R (X T X)−1 ii .02654.145 Como en los tres casos tenemos ti > t14 (0.