Rosmery Mayta 29/04/20141 )1¸)1¸1O) ¸1^T£1 Mg. Hosnc¡¸ Mu¸tu H 2Ul4 29/04/2014 Rosmeri Mayta H. 1 /)/£1¸1¸ I1 (O))1£/(1O) · )1¸)1¸1O) £1)1/£ Objetivo: Hacer un diagrama de dispersión Calcular el coeficiente de Pearson Calcular e interpretar el Coeficiente de Correlación, coeficiente de Determinación y no determinación. Calcular el coeficiente de correlación de rango. En este capitulo se verá la relación que existe entre dos variables, se usaran medidas para medir el grado de relación como el coeficiente de determinación y el coeficiente de correlación 29/04/2014 Rosmeri Mayta H. 2 Prueba de hipótesis de los coeficientes Calcular los intervalos de confianza y de predicción. Estudiar las técnicas de análisis de influencia 29/04/2014 Rosmeri Mayta H. 3 /)/£1¸1¸ I1 (O))1£/(1O) Análisis de correlación.- Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la relación que existe entre dos variables. Para esto, normalmente, el primer paso es mostrar los datos en un 0lA6RAHA 0F 0lSPFRSl0t. Permitirá predecir la variable dependiente Y con base en la variable independiente X. Gráfica que representa la relación entre dos variables. La variable dependiente se representa en la escala del eje Y, y es la variable que se estima, predice o calcula. 29/04/2014 Rosmeri Mayta H. 4 Diagrama de dispersión • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • (a) Lineal directa (b) Lineal inversa (c) Curvilínea directa (d) Curvilinea inversa (e) Lineal inversa con más dispersión (d) Ningunarelación Y X Y X Y X Y X Y X Y X Relaciones posibles entre X y Y vistos en diagramas de dispersión 29/04/2014 Rosmeri Mayta H. 5 LA variable independiente se representa en al escala del eje X, y es la variable que proporciona las bases para el calculo. Es la variable de predicción. 29/04/2014 Rosmeri Mayta H. 6 Rosmery Mayta 29/04/2014 2 (oc{i.icnìc vc .o··cìv.ión 1nìc·¡·cìv.ión vcì .oc{i.icnìc vc .o··cìv.ión vc Tcv·.on -1 0 0,5 0,9 1 -0,9 -0,5 Perfecta Negativa Perfecta Positiva Fuerte Negativa Débil Negativa Débil Positiva Moderada Positiva Fuerte Positiva Moderada Negativa No existe correlación 29/04/2014 Rosmeri Mayta H. 7 C0FFlClFtTF 0F 0FTFRHltACl0t (r 2 ). Una pregunta importante que se plantea en el análisis de regresión es la siguiente: ¿Qué porcentaje de la variación total en Y se debe a la variación en X? En otras palabras, ¿cuál es la proporción de la variación total en Y que puede ser “explicada” por la variación en X? El estadístico que mide esta proporción o porcentaje se denomina coeficiente de determinación: Fl C0FFlClFtTF 0F lA t0 0FTFRHltACl0t : Esta dado por 1- r 2 Es proporción de la variación de y que no es explicada por X 29/04/2014 Rosmeri Mayta H. 8 )1¸)1¸1O) £1)1/£ Es una técnica estadística que permite determinar la mejor ecuación que represente la relación entre dos variables relacionadas. Para poder establecer la relación cuantitativa entre X e Y es necesario disponer de pares de observaciones. Cada par ha sido registrado a la misma unidad elemental. 29/04/2014 Rosmeri Mayta H. 9 SuP0SlCl0tFS 0F RF6RFSl0t Y C0RRFlACl0t a) Normalidad: los valores de Y estarán distribuidos normalmente para cada valor de X. b) Homoscedasticidad: la variación alrededor de la línea de regresión sea constante para todos los valores de X. c) Independencia de error: el error (diferencia residual entre un valor observado y uno estimado de Y) sea independientemente de cada valor de X. d) Linealidad: la relación entre las variables es lineal. 29/04/2014 Rosmeri Mayta H. 10 I1()1(/I1 ^1)1^O¸ (+/I)/IO¸ Empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de Yi y los valores pronosticados de Y. 29/04/2014 Rosmeri Mayta H. 11 Y i - Y = error , , Min Y - Y i 2 ¿ El método consiste en determinar una ecuación que la suma de los errores al cuadrado sea mínima. X Y Error= 2 2 4 6 8 10 12 14 10 8 6 4 2 • • Error= -6 • Línea de estimación . . Y ˆ X Y Error= 2 2 4 6 8 10 12 14 10 8 6 4 2 • • Error= -6 • Línea de estimación . . Y ˆ 29/04/2014 Rosmeri Mayta H. 12 Rosmery Mayta 29/04/2014 3 El método utiliza un sistema de ecuación llamado ecuaciones normales, que tienen la siguiente forma: Para aplicar las fórmulas, tenemos que confeccionar un cuadro como el siguiente: ¿ ¿ ¿ ¿ ¿ + = = 2 1 0 1 0 X b X b XY X b + nb Y ¿ Y ¿ X ¿XY 2 X ¿ X Y X 2 XY 1.0 8.0 1.0 8.0 1.5 10.0 2.3 15.0 2.0 9.0 4.0 18.0 2.5 12.0 6.3 30.0 3.0 14.0 9.0 42.0 3.5 13.0 12.3 45.5 4.0 15.0 16.0 60.0 4.5 17.0 20.3 76.5 5.0 14.0 25.0 70.0 5.5 14.0 30.3 77.0 32. 5 126.0 126.3 442.0 29/04/2014 Rosmeri Mayta H. 13 Sustituyendo los valores , n = 5, y ,en las ecuaciones normales, obtenemos el siguiente sistema de ecuaciones. 126 = 10b 0 + 32,5b 1 442 = 32,5b0 + 126,3b1 Resolviendo el sistema tenemos: b 0 = 7,479 b 1 = 1,576 ,por lo tanto, 0 , 26 1 Y= ¿ 5 , 2 3 X = ¿ 42 4 XY= ¿ 3 , 126 2 X = ¿ 1,576X 7,479 Y ˆ + = 29/04/2014 Rosmeri Mayta H. 14 De las ecuaciones normales se obtiene las siguientes relaciones Pendiente de la regresión lineal (b 1 ): Indica la magnitud del cambio en Y por cada unidad de cambio de X Constante de la regresión lineal (b o ).- Punto donde se intercepta con el eje Y, se calcula asi: , , ¿ ¿ ¿ ¿ ¿ ÷ ÷ = 2 2 X X n Y X XY n b n X b n Y a ¿ ¿ ÷ = 29/04/2014 Rosmeri Mayta H. 15 Error estándar de estimación.- Mide la dispersión de los valores observados, con respecto a la línea de regresión. Tiene las siguientes características: Está en las mismas unidades que la variable dependiente. Se basa en las desviaciones al cuadrado respecto de la recta de regresión. . Se calcula así: 2 2 n Y ˆ - Y ) ( = yx S ÷ ¿ 29/04/2014 Rosmeri Mayta H. 16 El intervalo garantiza una confianza del 68%. Es decir que el valor de se encontrará dentro de ese intervalo con un nivel de confianza del 68%. El intervalo garantiza una confianza del 95%. Es decir que el valor de se encontrará dentro de ese intervalo con un nivel de confianza del 95% El intervalo garantiza una confianza del 99.9%. Es decir que el valor de se encontrará dentro de ese intervalo con un nivel de confianza del 99.9% 29/04/2014 Rosmeri Mayta H. 17 29/04/2014 Rosmeri Mayta H. 18 Rosmery Mayta 29/04/2014 4 Problema La EMPRESA COPIER SALES OF AMERICAN ENC.. Vende copias a negociaciones grandes , medianas y pequeñas en Estados Unidos y Canadá . La señora Marcy fue promovida recientemente al puesto de gerente nacional de ventas. A la próxima junta de ventas asistirán los representantes de todo el país. A ella le gustaría hacerles notar la importancia de hacer llamadas extra cada día. Decide reunir alguna información acerca de la relación entre el número de llamadas y el número de productos vendidos . Seleccionó al azar una muestra de 10 representantes y determinó el número de llamadas que hicieron el ultimo mes , y el de copiadoras que vendieron La información mensual se tiene en la siguiente tabla. 29/04/2014 Rosmeri Mayta H. 19 Problema Repres de Ventas Numero_Llamadas( X) Número de Copiadoras (Y) TOM 20 30 JEFT 40 60 BRIAN 20 40 JUAN 30 60 SUSAN 10 30 CARLOS 10 40 RICH 20 40 LUIS 20 50 MARK 20 30 SONI 30 70 29/04/2014 Rosmeri Mayta H. 20 Preguntas (solucionado en clase) a) Calcular el coeficiente de correlación de correlación b) Calcular el coeficiente de determinación y no determinación e interprete c) Hallar la ecuación de regresión d) Interpretar los coeficientes de regresión e) Hallar el error estándar. f) Si hago 45 llamadas cuantas copiadoras venderé 29/04/2014 Rosmeri Mayta H. 21 Se utiliza el estadístico F para probar la significación de la ecuación de regresión muestral o la existencia de regresión en la población. Las hipótesis nula y alternativa para esta prueba son respectivamente: 29/04/2014 Rosmeri Mayta H. 22 1)I1)1)(1/ ¸O±)1 £O¸ (O1I1(11)I1¸ I1 )1¸)1¸1O) I1 £/ TO±£/(1O) 1.- Planteando Ho y Ha Ho: β 1 =0 ( No hay relación) Ha: β1 ≠ 0 ( Hay una relación) 2.- Nivel de significancia de 0.05 3.- T STUDENT 4.- Definir la región de aceptación y la región critica Hallar el T (n-2,alfa) = tablas 5.- El T cal . T cal = (b 1 – B 1 )/Sb1 y Si T t < T cal , se rechaza la Ho y se acepta la Ha. 29/04/2014 Rosmeri Mayta H. 23 Si T t < T cal , se rechaza la Ho y se acepta la Ha. Sb 1 : Error estándar de b 1 Sb 1 = Syx / √ { ΣX i 2 – ( ΣXi ) 2 / n } 29/04/2014 Rosmeri Mayta H. 24 Rosmery Mayta 29/04/2014 5 T)+1±/ I1 11TOI1¸1¸ T/)/ 1£ (O1I1(11)I1 I1 (O))1£/(1O) Se aplica el estadístico t. Planteando la hipótesis nula y la alternativa 1.- Ho: ρ = 0 La correlación en la población es nula 2.- Ha: ρ ≠ 0 La correlación en la población no es nula 3.-T student 4.- Definir la R.A y la R.C Para T t ( ( n-2),alfa) ) = Tabla 29/04/2014 Rosmeri Mayta H. 25 5.- Si T t < T cal entonces rechaza la hipótesis nula de lo contrario se acepta 29/04/2014 Rosmeri Mayta H. 26 1¸I1^/IO I1£ 1)I1)(/£O I1 (O)I1/)Z/ I1 ± 1 El valor de b1 puede variar entre un limite superior e inferior b 1 – T (α , n-2) Sb 1 < β 1 <b 1 + T (α , n-2) Sb 1 Calcular el estimado del intervalo de confianza del 95% 29/04/2014 Rosmeri Mayta H. 27 29/04/2014 Rosmeri Mayta H. 28 29/04/2014 Rosmeri Mayta H. 29 Problema En un departamento de producción de una empresa se desea examinar la relación entre el número de trabajadores que arman un subemsamble y el número de subemsambles producidos. Como experimento se asignaron dos empleados para armar el dispositivo electrónico. Produjeron 15 durante el lapso de una hora. Después se asignaron cuatro obreros al mismo trabajo, y produjeron 25 durante dicho período. A continuación se presenta el conjunto completo de pares de observaciones. Considerar un nivel de significancia de 0.05. 29/04/2014 Rosmeri Mayta H. 30 Rosmery Mayta 29/04/2014 6 29/04/2014 Rosmeri Mayta H. 31 a.- Calcule la ecuación de regresión e intérprete los resultados Se ha obtenido un coeficiente de correlación de 0.927. Este coeficiente indica que las variables están muy relacionadas 29/04/2014 Rosmeri Mayta H. 32 La ecuación de regresión y graficar el diagrama de dispersión 29/04/2014 Rosmeri Mayta H. 33 b.- Calcule e interprete el coeficiente de determinación Se obtuvo un coeficiente de determinación de r 2 = 0.8596; esto quiere decir, que el 85.96% de la producción de subemsambles se debe al número de trabajadores que los arman. El coeficiente de no determinación indica que el 14.04% de la producción no será explicada por el número de empleados. 29/04/2014 Rosmeri Mayta H. 34 c.- Calcular e interpretar el error standard 29/04/2014 Rosmeri Mayta H. 35 d. Calcular el intervalo de confianza y predicción para X=4 29/04/2014 Rosmeri Mayta H. 36 Rosmery Mayta 29/04/2014 7 Una empresa que disponga de 4 trabajadores para la fabricación de subemsambles estará en el intervalo entre 12.265 y 49.735 de piezas producidas. e. Intervalo de predicción para x=4 29/04/2014 Rosmeri Mayta H. 37 f.- Realizar la prueba de hipótesis para B1 29/04/2014 Rosmeri Mayta H. 38 29/04/2014 Rosmeri Mayta H. 39 CALCULO CON MINITAB The regression equation is PROD_HORA = 3.00 + 7.00 CANT_EMPLEA Predictor Coef SE Coef T P Constant 3.000 5.416 0.55 0.618 CANT_EMPLEA 7.000 1.633 4.29 0.023 S = 5.16398 R-Sq = 86.0% R-Sq(adj) = 81.3% Analysis of Variance Source DF SS MS F P Regression 1 490.00 490.00 18.37 0.023 Residual Error 3 80.00 26.67 Total 4 570.00 Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 31.00 2.83 (22.00, 40.00) (12.26, 49.74) Values of Predictors for New Observations New Obs CANT_EMPLEA 1 4.00 29/04/2014 Rosmeri Mayta H. 40 ANÁLISIS DE VARIANZA EN LA REGRESIÓN El análisis de varianza es una técnica que permite localizar las fuentes de variabilidad que ayuden a explicar el comportamiento de la variable dependiente. SC total = SC error + SC regresión (SC residual ) 29/04/2014 Rosmeri Mayta H. 41 MEDIDAS DE VARIACIÓN EN REGRESIÓN Y CORRELACIÓN SUMA DL CUADRADO NO LXPLICADA SUMA DL CUADRADO LXPLICADA SUMA DL CUADRADO 1O1AL Xi Y 29/04/2014 Rosmeri Mayta H. 42 Rosmery Mayta 29/04/2014 8 SUMA DE CUADRADO TOTAL Es una medida de variación de los valores Yi alrededor de su media Y . SST = SSR + SSE SST : suma cuadrado totales SSR : Suma de los cuadrados debido a la regresión (variación explicada) SSE : Suma de los cuadrados del Error (variación No explicada) 29/04/2014 Rosmeri Mayta H. 43 SST = Suma total de cuadrados (Variación Total SSR = Suma de cuadrados explicada(Variación de Regresión) 29/04/2014 Rosmeri Mayta H. 44 SSE = Suma de cuadrados no explicada.(Variación de Error) 29/04/2014 Rosmeri Mayta H. 45 COEFICIENTE DE DETERMINACIÓN r 2 = SSR o r 2 = 1 - SSE SST SSTotal r ajustado = 1 – [(1-r 2 ) [(n-1)/(n-2)] SSR = bo ∑ Yi + b1 ∑ Xi Yi - ( ∑ Yi ) 2 /n SSE = ∑ Yi 2 + b o ∑ Xi Yi - b 1 ∑ Xi Yi SSR=. Suma de cuadrado de regression SSE = Suma de cuadrado de error SST= Suma de cuadrado totales Suma de cuadrado total = Suma de cuadrado explicada+Suma de cuadrado no explicada n n 2 2 2 2 29/04/2014 Rosmeri Mayta H. 46 ANOVA REGRESIÓN SIMPLE FUENTE DE GL SS MS F REGRESION 1 SSR MSR= SSR/1 MSR MSE ERROR n-2 SSE MSE = SSE /n-2 TOTAL n-1 SST 29/04/2014 Rosmeri Mayta H. 47 AJUSTE DE UNA TENDENCIA CUADRATICA POR EL MÉTODO DE MÍNIMOS CUADRADOS Ŷi = bo + bi Xi + bii Xi 1) ∑ Yi = nbo + bi ∑ Xi + bii ∑ Xi 2) ∑ Xi Yi = bo ∑ Xi + bi ∑ Xi + bii ∑ Xi 3) ∑ Xi Yi = bo ∑ Xi + bi ∑ Xi + bii ∑ Xi n i=J n i=J n i=J n i=J n i=J n i=J n i=J n i=J n i=J n i=J n i=J 2 2 2 3 3 4 29/04/2014 Rosmeri Mayta H. 48 Rosmery Mayta 29/04/2014 9 AJUSTE DE UNA TENDENCIA EXPONENCIAL MEDIANTE EL MÉTODO DE MÍNIMOS CUADRADOS | 1 2 1 1 2 1 1 1 | | l og l og l og l og l og l og l og l og ˆ l og . b X n Y b n X i X Y X Y X b b X b Y b b Y n i i o n i i n i n i n i i n i i i i i i o i Xi o i ÷ = · ÷ ÷ = · + = · = ¬ ¿ ¿ ¿ ¿ ¿ ¿ = = = = = = 29/04/2014 Rosmeri Mayta H. 49 ANÁLISIS DE INFLUENCIAS EN REGRESIÓN SIMPLE Se estudiara 3 métodos que miden la influencia de ciertos datos: 1)Los métodos de la matriz sombrero hi. 2)Los residuales eliminados de student t*i 3)El estadístico de distancia de cook Di. 29/04/2014 Rosmeri Mayta H. 50 DIAGNÓSTICO DE LA REGRESIÓN : ANÁLISIS DE LA INFLUENCIA PROBLEMA Se supone que el decano de un colegio de administración de empresas quería predecir el aprovechamiento de los estudiantes ( de acuerdo a sus índices de calificación) en un programa de maestría de administración de empresas (MBA). se selecciono una muestra aleatoria de 20 estudiantes que habían tomado por lo menos 30 créditos en el programa , con el fin de desarrollar un modelo estadístico para predecir su índice de calificaciones. Al desarrollar el modelo así se podrían tomar en cuenta muchas variables explicatorios. Estas incluyen variables cuantitativas como el resultado de la prueba de aptitud para graduados en administración (GMAT) y el índice de calificaciones de no graduados, así como las variables cualitativas como la especialización del graduado y si la persona esta o no registrada como estudiante graduado de tiempo completo Para fines pedagógicos se iniciar el estudio con un modelo de regresión simple en el cual se usa una sola variable explicatorio cuantitativa para predecir los valores de una variable dependiente. Por lo tanto se desarrollara un modelo para predecir el índice de calificaciones ( la variable dependiente Y) basado en el resultado GMAT ( la variable explicatorio) o independiente X). En las siguiente tabla se encuentra los datos. Hacer un diagnostico de regresión: Análisis de residuales Tabla 1 29/04/2014 Rosmeri Mayta H. 51 Cálculos con minitab 29/04/2014 Rosmeri Mayta H. 52 I1/¸)O¸I1(O I1 £/ )1¸)1¸1O) /)/1¸1¸ I1 1)I£+1)(1/¸ Se aplica tres técnicas Según HOAGLIN WELCH 1) Los elementos matriz sombrero, hi Cada hi refleja la influencia de cada Xi sobre el modelo de regresión ajustado. Si existen esos puntos de influencia quizás sea necesario evaluar de nuevo la necesidad de mantenerlo en el modelo. Se sugiere la siguiente regla de decisión Si hi > 4/n , entonces Xi es un punto de influencia y se puede considerar candidato a ser retirado del modelo. , , , , ] ¸ ÷ ÷ + = ¿ ¿ n x x x x n h i i 2 2 2 1 29/04/2014 Rosmeri Mayta H. 53 Para los datos de desempeño del estudiante , puesto que n = 20, los criterios deben ser destacar cualquier i superior a 4/20= 0.2. En la tabla se encuentra que h20 = 0.3049 Es un candidato potencial a ser removido, pero tomaremos en cuenta otros criterios 29/04/2014 Rosmeri Mayta H. 54 Rosmery Mayta 29/04/2014 10 2) Para los residuales de Student eliminados, ti* Si se cumple que S( i ) : Es el error estándar de la estimación para un modelo que incluye todas las observaciones excepto la observación i. .e i = Es la diferencia entre los valores observados (Yi) y los predichos Yi | t i*| > t .010,n-3 Significa que los valores Y observados y predichos son tan diferentes que Xi es un punto de influencia que afecta de modo adverso el modelo y se puede considerar como n candidato para ser eliminado. 29/04/2014 Rosmeri Mayta H. 55 Para el problema, para cualquier valor ti* superior a 1.7396 se eliminaríat3* = - 1..879, t5* =2.216, t14*=-2.228 y t20*= -1.961, Estos cuatro pueden tener efectos adversos sobre el modelo. 29/04/2014 Rosmeri Mayta H. 56 3) Estadístico de distancia de Cook, Di El uso de h i* y t i* en la búsqueda de puntos de datos potencialmente problemáticos es complementario. Ninguno de los criterios es suficiente por si mismo. Para decidir si un punto que ha sido destacado mediante el criterio hi o el ti* esta afectando indebidamente al modelo Cook y Weisberg sugieren el uso del estadístico Di. Di = Sr i 2 hi / 2(1-hi ) SRi : es el residual estandarizado Di > F(.50,2 n -2) = 0.720 29/04/2014 Rosmeri Mayta H. 57 D20 = 0.729 > 0.720 D5 = 0.21 es < 0.720 Se debe eliminar la observación 20 El nuevo modelo ajustado, eliminado la observación 20 es: 29/04/2014 Rosmeri Mayta H. 58 29/04/2014 Rosmeri Mayta H. 59 SOLUCIÓN Presentando el diagrama de dispersión. 29/04/2014 Rosmeri Mayta H. 60 Rosmery Mayta 29/04/2014 11 29/04/2014 Rosmeri Mayta H. 61 29/04/2014 Rosmeri Mayta H. 62 29/04/2014 Rosmeri Mayta H. 63 29/04/2014 Rosmeri Mayta H. 64 29/04/2014 Rosmeri Mayta H. 65 29/04/2014 Rosmeri Mayta H. 66 Rosmery Mayta 29/04/2014 12 29/04/2014 Rosmeri Mayta H. 67 29/04/2014 Rosmeri Mayta H. 68 29/04/2014 Rosmeri Mayta H. 69 Problema Los siguientes datos representa las calificaciones de química para una muestra aleatoria de 12 alumnos de primer grado en cierta universidad junto con sus calificaciones de una prueba de inteligencia que se les aplicò cuando aun eran alumnos de ùltimo año de preparatoria a.- Calcule e interprete el coeficiente de correlación de la muestra b.- Calcule la ecuación de regresión y realizar la Prueba de hipótesis para β1 y ρ con un nivel de significancia de 0.01. Calcule in intervalo de confianza para un intervalo de predicción del 95%, para la calificación promedio en química , ,para la calificación promedio de 60 29/04/2014 Rosmeri Mayta H. 70 Estudiant e Calif_Prueba_ X Califi_Prue ba_y 1 65 83 2 50 74 3 55 76 4 65 90 5 55 85 6 70 87 7 65 94 8 70 98 9 55 81 10 70 91 11 50 76 12 55 74 29/04/2014 Rosmeri Mayta H. 71 PROBLEMA Un reciente artículo en Business Week presentó una lista de las “mejores compañías pequeñas”. Hay interés en los resultados actuales de las ventas y ganancias de las empresas. Se seleccionó una muestra aleatoria de 12 compañías. A continuación se indican las ventas y ganancias, en millones de dólares. 29/04/2014 Rosmeri Mayta H. 72 Rosmery Mayta 29/04/2014 13 DATOS 29/04/2014 Rosmeri Mayta H. 73 a.- Calcular el coeficiente de correlación e interpretar. b.-Calcular la ecuación de regresión lineal c. realizar una inferencia para los coeficientes de regresión y el coeficiente de correlación d.- Realizar un análisis residual 29/04/2014 Rosmeri Mayta H. 74