Error estándar de estimaciónEl error estándar es una medida que indica qué tan preciso es el pronóstico de y con base en x o, por el contrario, cuán inexacta podría ser la predicción. El error estándar de la estimación se refiere a que no todos los puntos coinciden o están en la línea de regresión, de lo contrario, la predicción sería perfecta y eso, es imposible. El siguiente proceso que se necesita en el análisis de la regresión lineal simple es cómo medir la confiabilidad de la ecuación de estimación que hemos desarrollado. El error estándar de estimación mide la variabilidad o dispersión de los valores observados alrededor de la línea de regresión y se representa como Se. Su fórmula es la siguiente: Cuanto mayor sea el error estándar de la estimación, más grande será la dispersión (o esparcimiento) de puntos alrededor de la línea de regresión. Por el contrario, si Se= 0, se espera que la ecuación de estimación sea un estimador “perfecto” de la variable dependiente, en este caso todos los puntos caerían directamente sobre la línea de regresión y no habría puntos dispersos, como se muestra en la siguiente figura: PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE REGRESIÓN LINEAL SIMPLE 1. Obtención de los datos muestrales. kevin Diaz V. 2. Los datos obtenidos se tabulan. (tener cuidado en determinar correctamente quien es la variable independiente y dependiente) X Y 3. La información se gráfica en un diagrama de dispersión, estableciéndose la posible relación entre las dos variables 4. Se calcula la pendiente. b kevin Diaz V. xy nxy n x 2 x 2 5. a y bx kevin Diaz V. . Se calcula la ordenada al origen. y las ventas trimestrales en miles de pesos fue de: 58. 118. 105. 20. 8. 6. Se obtiene la ecuación que mejor se ajusta a la información obtenida. 26. 16. 169.6. 137. 8. Solución Datos n=10 . 8. y a y b xy n 2 2 Se Por ejemplo: Una cadena de Pizzerías toma una muestra de diez de sus sucursales para tratar de encontrar un modelo matemático que le permita predecir sus ventas y obtuvo los siguientes datos: la población de personas en miles fue de 2. 169. Se traza la línea estimada en el diagrama de dispersión. Se calcula el error estándar de estimación. 88.000 personas como potenciales clientes respectivamente. 202. Realice una regresión para estimar las ventas de dos sucursales que tienen 14. 157. 117. 20. 12. 149.000 y 30. 22. yˆ a bx 7. Se puede observar una relación lineal directa. . Graficar los datos en un diagrama de dispersión y determinar la posible relación entre las variables X Y.X: Población de personas en miles Y: Ventas trimestrales en miles de pesos 1. Tabular los datos obtenidos: Sucur X Y sal 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 168 9 22 149 1 26 202 0 2. mi personas 140 14 l x 10 . Realizar los cálculos correspondientes Sucur X Y X X 2 Y 2 sal Y 1 2 58 116 4 3364 2 6 105 630 36 11025 3 8 88 704 64 7744 4 8 118 944 64 13924 5 12 117 140 144 13689 4 6 16 137 219 256 18769 2 7 20 157 314 400 24649 0 8 20 168 338 400 28224 0 9 22 149 327 484 22201 8 1 26 202 525 676 40804 0 2 140 1300 210 2528 184393 40 4.3. Calculo de la pendiente. yˆ 60 5x . a 130 514 60 6. Obtener la ecuación que mejor se ajuste. 1300 y 130 pesos 10 mil Por lo tanto la pendiente es 21040 1014130 b 5 2528 1014 2 5. Calculo de la ordenada al origen. Para una N = 14.0001 yˆ 60 514 130 14.210 pesos. 8. Trazar la línea estimada.000 yˆ 60 530 210 30.21 10 2 Tiene un error de estimación de 12. Calcular el error estándar de estimación. 7. Se 184393 60 1300 5 21040 12.130 Para una N = 30.210 . . Existen dos medidas para describir la correlación entre dos variables: el coeficiente de determinación y el coeficiente de correlación. Diagramas de dispersión con correlación débil y fuerte. El Calculo del coeficiente de determinación se lleva a cabo con la siguiente formula: a y b xy n y 2 r2 y 2 ny2 COEFICIENTE MUESTRAL DE CORRELACIÓN La raíz cuadrada del coeficiente de determinación muestral. es el coeficiente de determinación muestral. “Y”.COEFICIENTE MUESTRAL DE DETERMINACIÓN La medida más importante de que también ajusta la línea de regresión estimada en los datos muestrales en los que esta basada. El coeficiente de determinación muestral se representa como r2. así pues el signo de r indica la dirección de la relación entre las dos variables X y Y. El coeficiente de determinación es la manera primaria de medir el grado. o fuerza. de la relación que existe entre dos variables. Esta mediad se llama coeficiente de correlación muestral (r) y es un estimador puntual del coeficiente de correlación poblacional (). este es igual a la proporción de la variación total de los valores de la variable dependiente. que puede explicarse por medio de la asociación de Y con X medida por la línea de regresión estimada. . El coeficiente de correlación muestral es la segunda medida con que puede describirse la eficacia con que una variable es explicada por otra. es un índice alternativo común del grado de asociación entre dos variables cuantitativas. y mide exclusivamente la fuerza de una relación lineal entre dos variables. X y Y. r 2 . Como se ha visto. El calculo del coeficiente de correlación muestral se lleva a cavo con la siguiente formula: r r2 INTERVALO DE CONFIANZA Debido a que la recta estimada de regresión. no es del todo real. Los intervalos de confianza se calculan con la siguiente fórmula: yc S yˆ t / . a y b son estimadores insesgados. n 2 e 2 gl n . es necesario elaborar un intervalo de confianza que le de seguridad a nuestros cálculos. cuando se utilice el método de mínimos cuadrados. también aquí es muchas ocasiones es deseable establecer intervalos de confianza. los coeficientes de regresión. eficientes y consistentes de y . El siguiente esquema representa adecuadamente la intensidad y la dirección del coeficiente de correlación muestral. El intervalo de predicción se calcula con la siguiente fórmula: 1 X x 2 1 y p yˆ t 2 n 2 Se n x 2 n x 2 PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN LINEAL SIMPLE 1. Se obtiene la ecuación que mejor se ajusta a la información obtenida. Calcular el coeficiente de determinación. 6. Determinar el intervalo de predicción. La información se gráfica en un diagrama de dispersión. como su nombre lo indica. 5. Calcular el error estándar de estimación. 3. 4. Determinar el intervalo de confianza. . dado un valor de X. se utiliza para predecir un intervalo de valores de Y. 8.INTERVALO DE PREDICCIÓN El intervalo de predicción. 9. 10. 2. Calcular la pendiente y ordenada al origen. Se traza la línea estimada en el diagrama de dispersión. Determinar el coeficiente de correlación. 7. Obtención y tabulación de los datos muestrales. X: Años de experiencia Y: Ventas anuales en miles de pesos.Por ejemplo: Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales en miles de pesos y los años de experiencia de diez vendedores. Solución 1. Vendedor X Y 1 1 8 0 2 3 9 7 3 4 9 2 4 4 1 0 2 5 6 103 6 8 11 1 7 10 11 9 8 10 1 2 3 9 11 1 1 7 10 13 136 70 1080 2. . Obtención y tabulación de los datos muestrales. Estime las ventas anuales para un vendedor con 7 años de experiencia. Diagrama de dispersión. 3. Vended X Y XY 2 X Y 2 or 1 1 80 80 1 6400 2 3 97 29 9 9409 1 3 4 92 36 16 8464 8 4 4 10 40 16 10404 2 8 5 6 10 61 36 10609 3 8 6 8 111 88 64 12321 8 7 1 119 119 100 14161 0 0 8 1 123 12 100 15129 0 30 9 1 117 12 121 13689 1 87 10 1 13 17 169 18496 3 6 68 7 10 81 632 119082 0 80 28 1080 y 108 10 70 x 7 10 . Realizar los cálculos correspondientes y determinar la pendiente y ordenada al origen. 8128 107108 b 632 107 2 4 a 108 47 80 4. yˆ 80 4x Para un vendedor con 7 años de experiencia. sus ventas estimadas serían: yˆ 80 47 108 ventas anuales . Ecuación que mejor se ajusta. 8. Calcular el Coeficiente de Correlación r 0. 2 80 1080 4 8128 10 1082 r 119082 10 108 2 2 r 93.9303 0. . 5. Calcular el error estándar de estimación.61 10 2 7. Se 11908280 1080 4 8128 4. Trazo de la línea estimada en el diagrama de dispersión 6.9645 Este número nos indica que las variables X Y tienen una correlación positiva intensa.03% El 93% de las ventas anuales se deben a la experiencia de los vendedores y el 7% restante de debe a otros factores. Calcular el Coeficiente de Determinación. 291 yp 96. . 10.6 y 111.291 108 11.3617 yc 108 3.71 y 119.291 p Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de un vendedor con 9 años de experiencia están entre 96.9.61 108 11.306 c 10 108 3.61 y 108 2.4 miles pesos anuales.3617 Se puede asegurar con un nivel de confianza del 95% que las ventas de los vendedores con 7 años de experiencia están entre 104. Determinar el intervalo de predicción para un vendedor con 9 años de experiencia se tiene 1 X x 2 y p yˆ t 2 n 2 Se 1 n x 2 n x 2 Sustituyendo: 1 9 7 2 y p 108 2.3617 104. Determinar el intervalo de confianza al 95%.306 1 10 632 10(7) 2 4.6383 yc 111. Considerando yˆ 108 ventas anuales 4.3 miles pesos anuales.709 y 119. i) Determina el intervalo de predicción 99% . Dados los datos muestrales. Y X 65 2 0 120 7 0 130 9 0 43 4 0 14 1 00 2 90 6 0 18 9 00 64 3 0 79 3 3 92 2 5 a) Elabora el diagrama de dispersión. f) Calcula el coeficiente de determinación. h) Determina el intervalo de confianza al 99%. El jefe del departamento de aguas de una ciudad desea establecer una relación entre el consumo mensual domiciliario de agua Y. determine: Galon Tama es de ño Agua de familia . e) Calcula el error estándar de estimación. y el tamaño de las familias X. d) Traza la línea estimada en el diagrama de dispersión. b) Calcula la pendiente y ordenada al origen. g) Determina el coeficiente de correlación.Ejercicios propuestos: 1. c) Obtener la ecuación que mejor se ajusta a los datos. 8 8. Determine la regresión y correlación con los datos muestrales.9 14. d) Traza la línea estimada en el diagrama de dispersión. Y X 6. Un economista desea establecer la relación entre la tasa de desempleo Y. i) Determina el intervalo de predicción 90% 3. f) Calcula el coeficiente de determinación.3 6.9 7. c) Obtener la ecuación que mejor se ajusta a los datos.6 9.2.7 7.7 6.2 5. y sus salarios X. y la tasa de cuentas vencidas de la Tesorerías.9 7. h) Determina el intervalo de confianza al 90%. El gerente de una compañía de seguros desea establecer la relación entre el seguro de vida de las personas Y.7 9.2 12.1 7. b) Calcula la pendiente y ordenada al origen.2 10.9 1. Elabora el diagrama de dispersión. Y X 50 10 80 29 100 30 130 31 150 36 a) Elabora el diagrama de dispersión. Realice una regresión con los datos muestrales: Segu Salari ro de o vida Anual . e) Calcula el error estándar de estimación. g) Determina el coeficiente de correlación.1 6.3 9.9 7.1 8. . 3. Calcula la pendiente y ordenada al origen.2. . Obtener la ecuación que mejor se ajusta a los datos. 5. Traza la línea estimada en el diagrama de dispersión. g) Determina el coeficiente de correlación. b) Calcula la pendiente y ordenada al origen. c) Obtener la ecuación que mejor se ajusta a los datos. y el precio de un producto similar fabricado por la competencia X. Calcula el error estándar de estimación. i) Determina el intervalo de predicción 95% 5. 9. 8. f) Calcula el coeficiente de determinación. Calcula el coeficiente de determinación. Un gerente de comercialización desea establecer la relación entre las ventas Y. 4. h) Determina el intervalo de confianza al 95%. y sus ventas del primer año X. d) Traza la línea estimada en el diagrama de dispersión. Determina el coeficiente de correlación. Determina el intervalo de predicción 95% 4. 6. Un director de ventas desea establecer la relación entre las ventas del segundo año de vendedores Y. Realice un análisis de correlación. Realice un análisis de regresión. Determina el intervalo de confianza al 95%. Vent Precio de as competenc ia Y X 520 13 550 13 600 15 610 15 620 16 724 21 680 21 . 7. Y 6 7 8 1 1 13 9 5 6 1 2 3 1 9 X 17 13 8 1 11 13 0 3 6 6 2 3 1 a) Elabora el diagrama de dispersión. e) Calcula el error estándar de estimación. 300 14 962 40 270 12 . Semestre de la carera de Lic.54 54 9 1. c) Obtener la ecuación que mejor se ajusta a los datos. i) Determina el intervalo de predicción 95% . 5. Calcula el coeficiente de determinación. 4. e) Calcula el error estándar de estimación. Calcula el error estándar de estimación.50 50 7 1. 9. 7. 3. 2. Determina el intervalo de confianza al 99%.60 52 4 1. Calcula la pendiente y ordenada al origen. Obtener la ecuación que mejor se ajusta a los datos.63 80 10 1. f) Calcula el coeficiente de determinación.50 48 2 1.54 50 3 1. Elabora el diagrama de dispersión.80 72 6 1. b) Calcula la pendiente y ordenada al origen.72 70 5 1. d) Traza la línea estimada en el diagrama de dispersión. Determina el intervalo de predicción 99% 6. Determina el coeficiente de correlación.70 62 a) Elabora el diagrama de dispersión. Traza la línea estimada en el diagrama de dispersión.61 57 8 1. 6. Se hizo una encuesta a una muestra de 10 los estudiantes de 3er. 8. h) Determina el intervalo de confianza al 95%. En administración del grupo 1301 del semestre 2009-1 y se encontraron los siguientes datos: Estudian Altura Peso te (mts) (Kg) 1 1. 1. g) Determina el coeficiente de correlación. 7 5. g) Determina el intervalo de confianza al 95%.4 Diet 5. 9. 13.7. e) Calcule el error estándar en la regresión.2 5. Los datos siguientes muestran las ventas (en miles de cajas) y los costos de un anuncio publicitario para la televisión (en millones de pesos) para 7 marcas principales de refrescos. c) Aplique el método de los cuadrados mínimos para plantear la ecuación estimada de regresión.4 13. f) Calcule el coeficiente de determinación y correlación e interprételos.4 8.3 Boing 1. h) Determina el intervalo de predicción 95% 8.5 Coke 7-Up 4.3 Cola Pepsi.8 Cola Sprite 6.5 a) ¿Dibuje el diagrama de dispersión. para aproximar una relación lineal entre los gastos del anuncio y las ventas. d) Prediga las ventas para una marca que decida gastar $7 millones de pesos en un anuncio publicitario. La revista del consumidor publico en su número 381 del mes de noviembre del 2008 la siguiente información acerca del uso de los teléfonos celulares: Añ Usuarios que o compran tiempo aire en (miles de usuario s) 20 1628 00 20 1784 01 20 2006 02 .0 19.9 Jarritos 2.9 5.6 2. Marca Gastos de Ventas de publicidad cajas ($) (miles) Coca. que parece indicar este diagrama acerca de la relación entre las dos variables? b) Trace una recta que pase por los datos. 20 2029 03 20 2508 04 20 3268 05 20 4035 06 20 5199 07 . 1 9. f) Calcule el coeficiente de correlación y el coeficiente de determinación e interprételos. a) Trace un diagrama de dispersión para estos datos. e) Calcule el error estándar en la regresión. h) Determina el intervalo de predicción 92% 9. c) Trace una recta que pase por los datos.0 8. 6 . Un vendedor de Century 21 desea establecer la relación entre el tiempo en meses que están a la venta los departamentos antes de lograr su venta y el precio pedido por ellos. e) Calcule el coeficiente de correlación y el coeficiente de determinación e interprételos.000 pesos. g) Determina el intervalo de predicción 95% . d) Calcule el error estándar en la regresión. 7. f) Determina el intervalo de confianza al 95%.1 5 Precio pedido (en 80 100 99 12 140 11 9 9 125 miles de pesos) 0 0 0 50 0 0 9 9 0 0 0 0 a) Trace un diagrama de dispersión para estos datos. para aproximar una relación lineal entre la altura y el peso. b) Aplique el método de mínimos cuadrados para plantear la ecuación estimada de regresión. d) Prediga cuantos usuarios compraran tiempo aire para su teléfono celular para el año 2009. 10 15. Los datos de una muestra de 9 departamentos se muestran a continuación: Meses en venta 6.0 9 8. g) Determina el intervalo de confianza al 92%. 5 6 2 . c) Prediga cuanto tiempo se tardara en vender un departamento que cueste $ 1’500.6 0 . b) Aplique el método de mínimos cuadrados para plantear la ecuación estimada de regresión. g) Determina el intervalo de predicción 95% 11. c) Calcule el error estándar en la regresión. b) Aplique el método de mínimos cuadrados para plantear la ecuación estimada de regresión. e) Determina el intervalo de confianza al 95%. d) Calcule el coeficiente de correlación y el coeficiente de determinación e interprételos. toma una muestra de 8 vendedores que lograron la etiqueta de (vendedor del mes) y encontró los siguientes datos: Unidades vendidas en el año 2007 17 1 8 16 11 1 1 8 0 3 6 1 2 3 3 2 3 3 6 Unidades vendidas en el año 2006 9 9 5 8 9 8 1 1 9 5 0 0 2 8 3 0 0 0 a) Trace un diagrama de dispersión para estos datos. f) Determina el intervalo de confianza al 95%. b) Aplique el método de mínimos cuadrados para plantear la ecuación estimada de regresión. toma una muestra de 10 familias elegidas al azar y encuentra los siguientes datos: Metros cúbicos 6 12 13 4 14 9 18 6 7 9 consumidos 5 0 0 3 0 0 0 4 9 2 Tamaño de la 2 7 9 4 12 6 9 3 3 4 familia a) Trace un diagrama de dispersión para estos datos. El Orgamismo Operador de agua en el Muncipio de cuautitlán Izcalli OPERAGUA quiere conocer la relación entre en consumo mensual domiciliario de agua y el tamaño de las familias. c) Prediga cuantos metros cúbicos al mes consumirá una familia que tiene 10 miembros. d) Calcule el error estándar en la regresión. e) Calcule el coeficiente de correlación y el coeficiente de determinación e interprételos. f) Determina el intervalo de predicción 95% .El gerente de una mueblería “FAMSA” quiere conocer la relación de las ventas logradas por un vendedor en dos años.10. 237 Diciembre a) Aplique el método de mínimos cuadrados para plantear la ecuación estimada de regresión. b) El INEGI reporto que en julio de 2007 se registraron 211.330 nacimientos.670 2 Febrero 211.626 9 Septiembre 220.666 10 Octubre 241. utiliza la ecuación obtenida y predice cuantos debieron de haberse registrado en ese mes.572 7 Julio 211. f) Determina el intervalo de confianza al 95%.330 3 Marzo 213. c) Estime cuantos nacimientos se registraron en enero de 2008.12.298 6 Junio 205. compara resultados y obtén tus conclusiones. e) Calcule el coeficiente de correlación y el coeficiente de determinación e interprételos.857 Noviembre 12 173.529 11 211. Según el INEGI los nacimientos registrados en el país en el 2007 fueron: Nacimientos Mes de Registrados registro 1 Enero 220.819 5 Mayo 225. g) Determina el intervalo de predicción 95% .299 4 Abril 270. d) Calcule el error estándar en la regresión.180 8 Agosto 249.